apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

我有一个 PySpark 数据框 df，如下所示： +--------+----------+--------+-----+--------+-------- + |名字|中间名|姓氏|身份证|性别|工资| +---------+----------+--------+-----+----...

python-3.x filter pyspark apache-spark-sql

回答 2 投票 0

如何在 Spark 中动态应用数组列类型

我有一个 PySpark DataFrame，其中包含一个字符串列，其中包含结构为对象数组的 JSON 数据。但是，这些 JSON 对象的架构可能因行而异。这是两个例子...

python apache-spark pyspark apache-spark-sql spark-streaming

回答 1 投票 0

如何解决在特定数据库架构中从 Azure Synapse 笔记本 (PySpark) 创建表时的访问问题

我有一个 Azure Synapse 笔记本（用 PySpark 编写），需要在特定架构的数据库上创建一个表。 Synapse 服务 prinicpal 对数据库具有读/写访问权限，但完全继续...

pyspark apache-spark-sql azure-synapse

回答 1 投票 0

不要忽略 MAX 中的 NULL [重复]

使用此数据框：从 pyspark.sql 将函数导入为 F df = Spark.createDataFrame([(无,), (1,), (2,)], ['col_name']) df.show() # +--------+ # |列名| # +--------+ ＃| 空| ＃| ...

apache-spark pyspark apache-spark-sql null max

回答 1 投票 0

Spark 3.0 - 从 MQTT 流读取数据

我想将数据流从基于 mosquitto 的 MQTT 主题读取到我的 Spark 3.0 应用程序中。我尝试通过以下方式使用 Bahir 库：数据集 df = SparkSession .

apache-spark apache-spark-sql spark-streaming mqtt mosquitto

回答 1 投票 0

org.apache.spark.SparkException：Python 工作线程无法重新连接

我正在尝试使用 createDataFrame 方法创建一个数据框，但收到以下代码的错误，从 pyspark.sql 导入 SparkSession # 创建 Spark 会话火花 = SparkSession.build...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

PySpark 流式传输与 AWS Kinesis Datastream 连接

我正在尝试将 AWS Kinesis Data Stream 读入 PySpark sql 数据帧。这是我的Python代码将 pyspark 导入为 ps 火花=（ ps.sql.SparkSession.builder .config(地图= { '火花...

apache-spark pyspark apache-spark-sql spark-streaming amazon-kinesis

回答 1 投票 0

需要帮助理解为什么引入 GROUP BY 后 Spark 查询需要更长的时间来执行

我在 Oracle 数据库中有 3 个表，我正在尝试加入并运行一些聚合：订单：（3000 + 行） order_line_items: (5000 + 行) item_wms：（1400 万行）当我运行以下命令时...

apache-spark pyspark apache-spark-sql query-optimization database-performance

回答 1 投票 0

pyspark 中的条件逻辑

我是 pyspark 的新手，正在尝试基于嵌套条件逻辑实现大型数据帧的逐行转换。基本上，我需要给出的代码的更复杂版本......

pyspark apache-spark-sql

回答 1 投票 0

统计人口超过41万的城市

我是 SQL 新手。我有一个这样的表：区市州人口 d1 c1 s1 2000 d2 c1 s1 10000 d3 c1 s1 400000 d1 ...

sql apache-spark-sql

回答 4 投票 0

写入大于默认分区大小的镶木地板文件

如果默认分区字节大小为128MB，以我的理解，不可能用例如600MB来编写镶木地板。如何确保使用煤炭的 DataLake 中没有小文件...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

为什么即使合并没有更新任何内容，Databricks Delta 也会复制未修改的行？

当我运行以下查询时：合并到 test_records t 使用（从 test_records 中选择 id、“高级开发人员”头衔、国家/地区，其中国家/地区 = '巴西' ）你 t.id = u.id 上当匹配并且...

apache-spark-sql databricks delta-lake

回答 2 投票 0

Spark Sql 或 Pyspark 将特定行转换为列

尝试将表格的一个特定行转换为列。尝试了透视逻辑，但它不适用于特定的行值。输入：列1 列2 列3 列4 ab abc 0 a b 共 9 个呃…

python pyspark apache-spark-sql

回答 1 投票 0

使用 pyspark 计算组总计数的百分比

我在 pyspark 中有以下代码，生成一个表格，显示列的不同值及其计数。我想要另一列显示总计数的百分比

apache-spark pyspark apache-spark-sql

回答 4 投票 0

控制 Spark 中的小数精度溢出

我们使用的是 Spark 2.4.x。我们的除法运算之一存在精度损失 (69362.86 / 111862.86) 这两个值在表中都定义为十进制(38,3)。当穿过直线时...

apache-spark apache-spark-sql decimal

回答 2 投票 0

在 Kubernetes 上提交的一项作业中存在多个 Spark 会话

我们可以在一次提交作业中使用 Kubernetes 中的多个启动和停止 Spark 会话吗？比如：如果我使用这个提交一份工作 bin/spark-提交 \ --master k8s://https://:&...

apache-spark kubernetes pyspark apache-spark-sql

回答 1 投票 0

如何将地图转换为数据框？

m 是一张地图，如下：标量>米 res119：scala.collection.mutable.Map [任何，任何] = Map（A-> 0.11164610291904906，B-> 0.11856755943424617，C-> 0.1023171832681312）我想得到：名字...

scala apache-spark dictionary apache-spark-sql

回答 2 投票 0

pyspark——对 Array(Integer()) 类型的列中的值求和的最佳方法

可以说这是我的数据框...... 名称 |分数丹| [10,5,2,12] 安| [ 12,3,5] 乔恩 | [ ] 期望的输出是这样的名称 |分数 |全部的丹| [10,5,2,12] | 29 安...

apache-spark pyspark apache-spark-sql

回答 6 投票 0

如何优化Azure Synapse Spark笔记本中大数据集的累积和字段计算？

我有一个包含 3M+ 条记录和几列的数据集。这是我的数据集的示例：物品项目库日期数量_1 数量_2 1 20 202410 600 7493 1 20 202411 17000 16431 每个item-item_base...

python pandas apache-spark apache-spark-sql azure-synapse

回答 1 投票 0

将新列附加到现有镶木地板文件

有什么方法可以将新列附加到现有的镶木地板文件中吗？我目前正在参加 Kaggle 比赛，我已将所有数据转换为镶木地板文件。情况就是这样，我读了

apache-spark apache-spark-sql parquet

回答 4 投票 0

apache-spark-sql 相关问题

最新问题