apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

优化collect()的使用

我有工作代码,但我的本地计算机可以在大约 1 分钟内完成的任务需要 10 分钟。所以我认为我的代码需要优化并且我认为我没有使用Spark,尤其是SQL限制(...

回答 2 投票 0

如何理解DAG中的min/med/max

我想完全理解min/med/max信息的含义。 例如: 总扫描时间(分钟、中值、最大) 34m(3.1秒、10.8秒、15.1秒) 所有核心的平均扫描时间为 3...

回答 1 投票 0

如何根据 Pyspark 中数据框中的列值调用不同的函数

我有包含column1、column2和column3的数据框,column2可以版本值如1.0或2.0。 基于此专栏,我需要处理数据框列。就像是: 如果(第 2 列 > ...

回答 1 投票 0

spark sql 爆炸没有给出正确的结果

我有一个带有列 id 和日期列表的 Spark 数据框。 下面的例子: 编号 |日期 啊| 2019-02-24, 2019-02-27, 2019-02-30 ab | 2023-04-02, 2023-04-06, 2023-04-09, 2023-04-12 乙| 2012-07-15...

回答 1 投票 0

如何将 JSON 字符串作为 PySpark 函数中的变量引入?

目标是从 JSON 作为 Excel 文档中的字符串调用过滤器函数。 JSON 将在 Excel 报告中更新,目标是拉入过滤器,然后确保过滤器

回答 1 投票 0

Spark Shell:spark.executor.extraJavaOptions 不允许设置 Spark 选项

我创建了这个 Spark Shell 程序,但是在运行它时遇到了这个错误: Windows PowerShell 版权所有 (C) 微软公司。版权所有。 安装最新的 PowerShell 以获得新功能...

回答 1 投票 0

AWS Glue 3.0:即使重新分区后,分区计数也会自行更改

我有一项作业在 AWS Glue 3.0 上使用 G.8x 工作线程运行。我正在使用 100 个工人的配置。 在最近的运行中,count() 导致 OOM,我发现重新分区可能会有所帮助。 我读到我们必须...

回答 1 投票 0

使用 Spark SQL 将大型单个 Parquet 文件转为增量故障

集群详细信息 火花3.4 5名执行人 具有 x16 内核和 112GB RAM 的节点 镶木地板文件详细信息 通过第三方提供 adls 中的源文件 单个 20GB .parquet 文件 6800 万行 1,599 列 5...

回答 1 投票 0

随机映射阶段失败且输出不确定:通过在重新分区之前检查 RDD 来消除不确定性

我遇到了 Spark 作业的问题,大约每 2 次就会失败一次,并显示以下错误消息: org.apache.spark.SparkException:作业由于阶段失败而中止:A 随机播放地图雄鹿...

回答 2 投票 0

PySpark 的“DataFrameLike”类型与 pandas.DataFrame

Spark 3.1 引入了 python 的类型提示(万岁!),但我很困惑为什么 toPandas 方法的返回类型是“DataFrameLike”而不是 pandas.DataFrame - 请参阅此处:https://g...

回答 2 投票 0

将插入到命令中并保留 Spark3 中的顺序

想知道当我使用 insert into the target table select * from the temp table in Spark 创建时,列是否会插入到 Hive 表中的正确位置。 我正在努力...

回答 1 投票 0

使用 Apache Spark 从 S3 读取 Parquet 在后期会变慢

我在 s3 上有数百万个 parquets 文件,目录结构为 code/day=xx/hour=/*.parquets。 在 max under hour 文件夹中,我们有 2000 个 parquest 文件,平均大小为 100kb。 我没能力

回答 1 投票 0

如何根据条件删除日期后的记录

我正在寻找一种优雅的方法来删除 DataFrame 中最近一次出现“TEST_COMPONENT”为“UNSATISFACTORY”之前发生的所有记录,基于每个 ID 的“TEST_DT”值。 对于

回答 1 投票 0

如果当前日期不可用,请填写前一个日期的值

我有两个表 - sales 和currency_rate。我想根据表 sales col [Date] 和表currency_rate col 中的月份,将 col CurrRate 填充到 Sales 中的每个交易行

回答 1 投票 0

Spark Catalog 没有看到我创建的数据库

我一直在学习Spark(3.5.0)并且尝试了以下练习: 在本地启动 Spark 会话: 火花 = pyspark.sql.SparkSession\ .生成器\ .master(“本地”)\ ...

回答 1 投票 0

无论 Databricks 中的运行如何,如何创建连续序列 id

我有一个 Databricks DataFrame 列:tno,数据值 第一次 Databricks 运行的输出: tno,数据值 1、hdjsjsjnsns 2、dhjdjdjsnsn 3、jdjsjsjsjjs 当我在一段时间后再次运行同一个笔记本时......

回答 1 投票 0

Spark UI:如何理解 DAG 中的最小值/中值/最大值

我想完全理解min/med/max信息的含义。 例如: 总扫描时间(分钟、中值、最大) 34m(3.1秒、10.8秒、15.1秒) 所有核心的平均扫描时间为 3...

回答 1 投票 0

Pyspark 数据帧不返回值超过 8 位的行

我在 Pyspark 中创建了一个示例数据框,ID 列包含很少的超过 8 位数字的值。但它仅返回 ID 字段中的值少于 8 位的行。可以

回答 1 投票 0

Java 中的 Spark SQL 3.4 命名参数替换

从 Spark 3.4 开始,SparkSession.sql(...) 支持在 SQL 查询中使用命名参数: 公共数据集 sql(字符串sqlText,地图 args) 执行 SQL 查询替换...

回答 1 投票 0

spark dataset.filter中文列名,org.apache.spark.sql.catalyst.parser.ParseException

我有一个带有中文colname人员的表,使用org.apache.spark.sql.Dataset来处理数据。 当我用英文 colname 过滤时,运行成功。 dataset.filter(" ( (name = 'name1') ) "),

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.