Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。
Spark消费者使用docker运行时找不到kafka主题分区
当我提交连接到 kafka 代理的 Spark 应用程序时,它会执行 kafka 查询,但不会将任何内容返回到控制台。找不到主题分区。 这是我的日志
包含 pyspark SQL:TypeError:“Column”对象不可调用
我使用的是spark 2.0.1, df.show() +--------+------+---+-----+-----+----+ |幸存|Pclass|性别|SibSp|Parch|票价| +--------+------+---+-----+-----+----+ | 0.0| 3.0|1.0| 1.0| 0.0| 7.3| | ...
在 Spark SQL 中连接两个 DataFrame 并仅选择其中一个的列
我在 Spark SQL 中有两个 DataFrame(D1 和 D2)。 我正在尝试将它们两者进行内部连接 D1.join(D2,“某些列”) 并且只返回D1的数据,而不是完整的数据集。 D1和D2都是h...
我们可以使用多个sparksessions来访问两个不同的Hive服务器吗
我有一个场景来比较来自两个单独的远程配置单元服务器的两个不同的表源和目标,我们是否可以使用两个 SparkSession,就像我在下面尝试的那样:- 瓦尔火花 =
在 EKS 上运行 Spark-sql 时无法通过 AWS 进行身份验证
我使用 kubernetes 作为集群管理器和调度程序来运行我的 Spark 工作负载。虽然我能够运行 Spark-Submit 以及 IAM 访问支持;我无法运行 Spark-sql。 这是命令...
如何根据唯一 ID 的日期更改 orderred 数据帧中前一行值的条件下的行值?
我需要了解如何在 Spark 中执行此操作: 我的数据框是这样的 |ID | 日期 | 状态 |X | 2023 年 1 月 20 日 | 氮 |X | 2023 年 1 月 21 日 | S |X | 2023 年 1 月 22 日 | S |X | 2023 年 1 月 23 日 | ...
我使用的是Spark 1.5.0 我正在进行广播连接,因为我的一个数据帧约为 30 GB (large_df),另一个数据帧约为 10 MB (small_df)。 这是我的代码。 df1 = large_df.join(广播(小...
Spark的Catalyst Optimizer如何选择物理计划?
我试图了解Spark的Catalyst优化器如何选择最佳的物理计划以及该过程中使用的成本函数是什么。 我确实了解它的作用以及它的使用方式,但我想要什么
我正在开发一种 SQL 解决方案,用于在记录之间存在匹配的“开始”和“关闭”值时压缩行数。这是一个示例输入和所需的输出 我...
我正在开发一种 SQL 解决方案,用于在记录之间存在匹配的“开始”和“关闭”值时压缩行数。这是一个示例输入和所需的输出 我...
Spark的Catalyst Optimizer如何在不执行代码的情况下进行优化?
我正在尝试查找有关 Spark 的 Catalyst 优化器如何详细工作的具体文档,因为我计划以一种专门为减少资源使用而不是计算而定制的方式对其进行自定义...
Spark 流 + kafka 集成,每 15 分钟从 kafka 读取一次数据,并使用 PySpark 存储最后读取的偏移量
使用PySpark,实现了Spark Streaming + Kafka集成。每次运行都会给出从 0 开始的偏移量。 需要解决2个问题: 最后 15 分钟的阅读流 从每个
如何修改与 Spark 表关联的注释,例如: ALTER TABLE 表 CHANGE 列 1 列 1 VARCHAR COMMENT“一些注释” 但对于评论表的描述。 谢谢!
根 |-- 发票编号:字符串(可为 null = true) |-- 数量:整数(可空 = true) |-- CustomerID:整数(可空 = true) |-- 发票日期:字符串(可为 null = true) |-- 收集列表(项目):
我试图理解在 IN 查询中使用许多列并遇到了这个语句。 SELECT (1, 2) IN (从值(1, 2), (3, 4) AS (c1, c2)中选择c1, c2); 其输出如下 (
具有以下架构: 根 |-- Elems:数组(可空 = true) | |-- 元素:结构(containsNull = true) | | |-- Elem:整数(可空 = true) | | |-- 描述:字符串(可空 = t...
我有这个样本表,代表公司所有员工的工资: 植物 德普托 姓名 薪资 1 MG 凯文 1.100 2 SP 伊森 1.200 3 DF 胡安 1.200 4 SP 贝思 110 5 SP 约翰 1.000 还有...
如何在不扫描数据的情况下覆盖pyspark DataFrame架构?
这个问题与https://stackoverflow.com/a/37090151/1661491有关。假设我有一个具有特定模式的 pyspark DataFrame,并且我想用新模式覆盖该模式...
我想在Azure Data bricks环境中使用gz文件创建一个数据框。 帮助我如何创建数据框 我的文件如下所示:test_20240423.gz df = Spark.read.format("镶木地板").load(&
有没有办法知道 S3 表中写入的最后一个分区用于 AWS Glue 作业中的下推谓词?
我正在尝试从使用下推谓词读取动态帧的粘合作业中读取 S3 中表中写入的最后一个分区。 我想要读取的表每天都会加载,并且