apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

如何将过滤器应用于 Pyspark 数据帧的一部分

我有一个 PySpark 数据框 df,如下所示: +--------+----------+--------+-----+--------+-------- + |名字|中间名|姓氏|身份证|性别|工资| +---------+----------+--------+-----+----...

回答 2 投票 0

如何在 Spark 中动态应用数组列类型

我有一个 PySpark DataFrame,其中包含一个字符串列,其中包含结构为对象数组的 JSON 数据。但是,这些 JSON 对象的架构可能因行而异。 这是两个例子...

回答 1 投票 0

如何解决在特定数据库架构中从 Azure Synapse 笔记本 (PySpark) 创建表时的访问问题

我有一个 Azure Synapse 笔记本(用 PySpark 编写),需要在特定架构的数据库上创建一个表。 Synapse 服务 prinicpal 对数据库具有读/写访问权限,但完全继续...

回答 1 投票 0

不要忽略 MAX 中的 NULL [重复]

使用此数据框: 从 pyspark.sql 将函数导入为 F df = Spark.createDataFrame([(无,), (1,), (2,)], ['col_name']) df.show() # +--------+ # |列名| # +--------+ #| 空| #| ...

回答 1 投票 0

Spark 3.0 - 从 MQTT 流读取数据

我想将数据流从基于 mosquitto 的 MQTT 主题读取到我的 Spark 3.0 应用程序中。我尝试通过以下方式使用 Bahir 库: 数据集 df = SparkSession .

回答 1 投票 0

org.apache.spark.SparkException:Python 工作线程无法重新连接

我正在尝试使用 createDataFrame 方法创建一个数据框,但收到以下代码的错误, 从 pyspark.sql 导入 SparkSession # 创建 Spark 会话 火花 = SparkSession.build...

回答 1 投票 0

PySpark 流式传输与 AWS Kinesis Datastream 连接

我正在尝试将 AWS Kinesis Data Stream 读入 PySpark sql 数据帧。 这是我的Python代码 将 pyspark 导入为 ps 火花=( ps.sql.SparkSession.builder .config(地图= { '火花...

回答 1 投票 0

需要帮助理解为什么引入 GROUP BY 后 Spark 查询需要更长的时间来执行

我在 Oracle 数据库中有 3 个表,我正在尝试加入并运行一些聚合: 订单:(3000 + 行) order_line_items: (5000 + 行) item_wms:(1400 万行) 当我运行以下命令时...

回答 1 投票 0

pyspark 中的条件逻辑

我是 pyspark 的新手,正在尝试基于嵌套条件逻辑实现大型数据帧的逐行转换。基本上,我需要给出的代码的更复杂版本......

回答 1 投票 0

统计人口超过41万的城市

我是 SQL 新手。我有一个这样的表: 区市州人口 d1 c1 s1 2000 d2 c1 s1 10000 d3 c1 s1 400000 d1 ...

回答 4 投票 0

写入大于默认分区大小的镶木地板文件

如果默认分区字节大小为128MB,以我的理解,不可能用例如600MB来编写镶木地板。如何确保使用煤炭的 DataLake 中没有小文件...

回答 1 投票 0

为什么即使合并没有更新任何内容,Databricks Delta 也会复制未修改的行?

当我运行以下查询时: 合并到 test_records t 使用 ( 从 test_records 中选择 id、“高级开发人员”头衔、国家/地区,其中国家/地区 = '巴西' )你 t.id = u.id 上 当匹配并且...

回答 2 投票 0

Spark Sql 或 Pyspark 将特定行转换为列

尝试将表格的一个特定行转换为列。尝试了透视逻辑,但它不适用于特定的行值。 输入 : 列1 列2 列3 列4 ab abc 0 a b 共 9 个 呃…

回答 1 投票 0

使用 pyspark 计算组总计数的百分比

我在 pyspark 中有以下代码,生成一个表格,显示列的不同值及其计数。我想要另一列显示总计数的百分比

回答 4 投票 0

控制 Spark 中的小数精度溢出

我们使用的是 Spark 2.4.x。 我们的除法运算之一存在精度损失 (69362.86 / 111862.86) 这两个值在表中都定义为十进制(38,3)。当穿过直线时...

回答 2 投票 0

在 Kubernetes 上提交的一项作业中存在多个 Spark 会话

我们可以在一次提交作业中使用 Kubernetes 中的多个启动和停止 Spark 会话吗? 比如:如果我使用这个提交一份工作 bin/spark-提交 \ --master k8s://https://:&...

回答 1 投票 0

如何将地图转换为数据框?

m 是一张地图,如下: 标量>米 res119:scala.collection.mutable.Map [任何,任何] = Map(A-> 0.11164610291904906,B-> 0.11856755943424617,C-> 0.1023171832681312) 我想得到: 名字...

回答 2 投票 0

pyspark——对 Array(Integer()) 类型的列中的值求和的最佳方法

可以说这是我的数据框...... 名称 |分数 丹| [10,5,2,12] 安| [ 12,3,5] 乔恩 | [ ] 期望的输出是这样的 名称 |分数 |全部的 丹| [10,5,2,12] | 29 安...

回答 6 投票 0

如何优化Azure Synapse Spark笔记本中大数据集的累积和字段计算?

我有一个包含 3M+ 条记录和几列的数据集。这是我的数据集的示例: 物品 项目库 日期 数量_1 数量_2 1 20 202410 600 7493 1 20 202411 17000 16431 每个item-item_base...

回答 1 投票 0

将新列附加到现有镶木地板文件

有什么方法可以将新列附加到现有的镶木地板文件中吗? 我目前正在参加 Kaggle 比赛,我已将所有数据转换为镶木地板文件。 情况就是这样,我读了

回答 4 投票 0

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.