apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

优化collect()的使用

我有工作代码，但我的本地计算机可以在大约 1 分钟内完成的任务需要 10 分钟。所以我认为我的代码需要优化并且我认为我没有使用Spark，尤其是SQL限制（...

apache-spark apache-spark-sql

回答 2 投票 0

如何理解DAG中的min/med/max

我想完全理解min/med/max信息的含义。例如：总扫描时间（分钟、中值、最大） 34m（3.1秒、10.8秒、15.1秒）所有核心的平均扫描时间为 3...

performance apache-spark apache-spark-sql bigdata spark-ui

回答 1 投票 0

如何根据 Pyspark 中数据框中的列值调用不同的函数

我有包含column1、column2和column3的数据框，column2可以版本值如1.0或2.0。基于此专栏，我需要处理数据框列。就像是：如果（第 2 列 > ...

python pyspark apache-spark-sql pyspark-schema pyspark-transformer

回答 1 投票 0

spark sql 爆炸没有给出正确的结果

我有一个带有列 id 和日期列表的 Spark 数据框。下面的例子：编号 |日期啊| 2019-02-24, 2019-02-27, 2019-02-30 ab | 2023-04-02, 2023-04-06, 2023-04-09, 2023-04-12 乙| 2012-07-15...

apache-spark-sql explode

回答 1 投票 0

如何将 JSON 字符串作为 PySpark 函数中的变量引入？

目标是从 JSON 作为 Excel 文档中的字符串调用过滤器函数。 JSON 将在 Excel 报告中更新，目标是拉入过滤器，然后确保过滤器

sql json pyspark apache-spark-sql azure-databricks

回答 1 投票 0

Spark Shell：spark.executor.extraJavaOptions 不允许设置 Spark 选项

python apache-spark pyspark apache-spark-sql

回答 1 投票 0

AWS Glue 3.0：即使重新分区后，分区计数也会自行更改

我有一项作业在 AWS Glue 3.0 上使用 G.8x 工作线程运行。我正在使用 100 个工人的配置。在最近的运行中，count() 导致 OOM，我发现重新分区可能会有所帮助。我读到我们必须...

apache-spark pyspark apache-spark-sql aws-glue apache-spark-sql-repartition

回答 1 投票 0

使用 Spark SQL 将大型单个 Parquet 文件转为增量故障

集群详细信息火花3.4 5名执行人具有 x16 内核和 112GB RAM 的节点镶木地板文件详细信息通过第三方提供 adls 中的源文件单个 20GB .parquet 文件 6800 万行 1,599 列 5...

apache-spark apache-spark-sql parquet azure-synapse

回答 1 投票 0

随机映射阶段失败且输出不确定：通过在重新分区之前检查 RDD 来消除不确定性

我遇到了 Spark 作业的问题，大约每 2 次就会失败一次，并显示以下错误消息： org.apache.spark.SparkException：作业由于阶段失败而中止：A 随机播放地图雄鹿...

apache-spark pyspark apache-spark-sql azure-databricks apache-spark-sql-repartition

回答 2 投票 0

PySpark 的“DataFrameLike”类型与 pandas.DataFrame

Spark 3.1 引入了 python 的类型提示（万岁！），但我很困惑为什么 toPandas 方法的返回类型是“DataFrameLike”而不是 pandas.DataFrame - 请参阅此处：https://g...

python apache-spark pyspark apache-spark-sql python-typing

回答 2 投票 0

将插入到命令中并保留 Spark3 中的顺序

想知道当我使用 insert into the target table select * from the temp table in Spark 创建时，列是否会插入到 Hive 表中的正确位置。我正在努力...

apache-spark-sql hive insert spark3

回答 1 投票 0

使用 Apache Spark 从 S3 读取 Parquet 在后期会变慢

我在 s3 上有数百万个 parquets 文件，目录结构为 code/day=xx/hour=/*.parquets。在 max under hour 文件夹中，我们有 2000 个 parquest 文件，平均大小为 100kb。我没能力

apache-spark amazon-s3 apache-spark-sql parquet clickhouse

回答 1 投票 0

如何根据条件删除日期后的记录

我正在寻找一种优雅的方法来删除 DataFrame 中最近一次出现“TEST_COMPONENT”为“UNSATISFACTORY”之前发生的所有记录，基于每个 ID 的“TEST_DT”值。对于

apache-spark pyspark apache-spark-sql

回答 1 投票 0

如果当前日期不可用，请填写前一个日期的值

我有两个表 - sales 和currency_rate。我想根据表 sales col [Date] 和表currency_rate col 中的月份，将 col CurrRate 填充到 Sales 中的每个交易行

sql apache-spark-sql

回答 1 投票 0

Spark Catalog 没有看到我创建的数据库

我一直在学习Spark（3.5.0）并且尝试了以下练习：在本地启动 Spark 会话：火花 = pyspark.sql.SparkSession\ .生成器\ .master(“本地”)\ ...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

无论 Databricks 中的运行如何，如何创建连续序列 id

我有一个 Databricks DataFrame 列：tno，数据值第一次 Databricks 运行的输出： tno，数据值 1、hdjsjsjnsns 2、dhjdjdjsnsn 3、jdjsjsjsjjs 当我在一段时间后再次运行同一个笔记本时......

azure apache-spark pyspark apache-spark-sql databricks

回答 1 投票 0

Spark UI：如何理解 DAG 中的最小值/中值/最大值

我想完全理解min/med/max信息的含义。例如：总扫描时间（分钟、中值、最大） 34m（3.1秒、10.8秒、15.1秒）所有核心的平均扫描时间为 3...

performance apache-spark apache-spark-sql bigdata spark-ui

回答 1 投票 0

Pyspark 数据帧不返回值超过 8 位的行

我在 Pyspark 中创建了一个示例数据框，ID 列包含很少的超过 8 位数字的值。但它仅返回 ID 字段中的值少于 8 位的行。可以

python dataframe pyspark apache-spark-sql

回答 1 投票 0

Java 中的 Spark SQL 3.4 命名参数替换

从 Spark 3.4 开始，SparkSession.sql(...) 支持在 SQL 查询中使用命名参数：公共数据集 sql（字符串sqlText，地图 args）执行 SQL 查询替换...

java apache-spark apache-spark-sql

回答 1 投票 0

spark dataset.filter中文列名，org.apache.spark.sql.catalyst.parser.ParseException

我有一个带有中文colname人员的表，使用org.apache.spark.sql.Dataset来处理数据。当我用英文 colname 过滤时，运行成功。 dataset.filter(" ( (name = 'name1') ) "),

java apache-spark-sql

回答 1 投票 0

apache-spark-sql 相关问题

最新问题