apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

当我提交连接到 kafka 代理的 Spark 应用程序时，它会执行 kafka 查询，但不会将任何内容返回到控制台。找不到主题分区。这是我的日志

apache-spark pyspark apache-kafka apache-spark-sql spark-structured-streaming

回答 1 投票 0

我使用的是spark 2.0.1， df.show() +--------+------+---+-----+-----+----+ |幸存|Pclass|性别|SibSp|Parch|票价| +--------+------+---+-----+-----+----+ | 0.0| 3.0|1.0| 1.0| 0.0| 7.3| | ...

python apache-spark pyspark apache-spark-sql

回答 2 投票 0

在 Spark SQL 中连接两个 DataFrame 并仅选择其中一个的列

我在 Spark SQL 中有两个 DataFrame（D1 和 D2）。我正在尝试将它们两者进行内部连接 D1.join(D2,“某些列”) 并且只返回D1的数据，而不是完整的数据集。 D1和D2都是h...

scala apache-spark apache-spark-sql

回答 5 投票 0

我们可以使用多个sparksessions来访问两个不同的Hive服务器吗

我有一个场景来比较来自两个单独的远程配置单元服务器的两个不同的表源和目标，我们是否可以使用两个 SparkSession，就像我在下面尝试的那样：- 瓦尔火花 =

scala apache-spark hive apache-spark-sql

回答 3 投票 0

在 EKS 上运行 Spark-sql 时无法通过 AWS 进行身份验证

我使用 kubernetes 作为集群管理器和调度程序来运行我的 Spark 工作负载。虽然我能够运行 Spark-Submit 以及 IAM 访问支持；我无法运行 Spark-sql。这是命令...

apache-spark kubernetes apache-spark-sql amazon-eks

回答 1 投票 0

如何根据唯一 ID 的日期更改 orderred 数据帧中前一行值的条件下的行值？

我需要了解如何在 Spark 中执行此操作：我的数据框是这样的 |ID | 日期 | 状态 |X | 2023 年 1 月 20 日 | 氮 |X | 2023 年 1 月 21 日 | S |X | 2023 年 1 月 22 日 | S |X | 2023 年 1 月 23 日 | ...

dataframe apache-spark pyspark apache-spark-sql

回答 1 投票 0

Spark数据帧选择操作和分区数量

我使用的是Spark 1.5.0 我正在进行广播连接，因为我的一个数据帧约为 30 GB (large_df)，另一个数据帧约为 10 MB (small_df)。这是我的代码。 df1 = large_df.join(广播(小...

apache-spark apache-spark-sql

回答 2 投票 0

Spark的Catalyst Optimizer如何选择物理计划？

我试图了解Spark的Catalyst优化器如何选择最佳的物理计划以及该过程中使用的成本函数是什么。我确实了解它的作用以及它的使用方式，但我想要什么

apache-spark apache-spark-sql query-optimization

回答 1 投票 0

根据匹配先前值和当前值压缩记录

我正在开发一种 SQL 解决方案，用于在记录之间存在匹配的“开始”和“关闭”值时压缩行数。这是一个示例输入和所需的输出我...

sql mysql apache-spark-sql

回答 1 投票 0

SQL - 根据匹配的先前值和当前值压缩记录

我正在开发一种 SQL 解决方案，用于在记录之间存在匹配的“开始”和“关闭”值时压缩行数。这是一个示例输入和所需的输出我...

sql mysql apache-spark-sql

回答 1 投票 0

Spark的Catalyst Optimizer如何在不执行代码的情况下进行优化？

我正在尝试查找有关 Spark 的 Catalyst 优化器如何详细工作的具体文档，因为我计划以一种专门为减少资源使用而不是计算而定制的方式对其进行自定义...

apache-spark apache-spark-sql query-optimization

回答 1 投票 0

Spark 流 + kafka 集成，每 15 分钟从 kafka 读取一次数据，并使用 PySpark 存储最后读取的偏移量

使用PySpark，实现了Spark Streaming + Kafka集成。每次运行都会给出从 0 开始的偏移量。需要解决2个问题：最后 15 分钟的阅读流从每个

apache-spark pyspark apache-kafka apache-spark-sql offset

回答 1 投票 0

将注释修改到Databricks上的Spark表中

如何修改与 Spark 表关联的注释，例如： ALTER TABLE 表 CHANGE 列 1 列 1 VARCHAR COMMENT“一些注释” 但对于评论表的描述。谢谢！

apache-spark hive pyspark apache-spark-sql

回答 3 投票 0

如何从结构体数组中选择列？

python apache-spark pyspark apache-spark-sql

回答 1 投票 0

NamedStruct 在“IN”查询中失败

我试图理解在 IN 查询中使用许多列并遇到了这个语句。 SELECT (1, 2) IN (从值(1, 2), (3, 4) AS (c1, c2)中选择c1, c2); 其输出如下 (

apache-spark-sql azure-databricks

回答 1 投票 0

Spark - 如何将元素添加到结构数组

arrays dataframe apache-spark struct apache-spark-sql

回答 3 投票 0

如何使用Spark进行键可以具有多个粒度的左连接？

我有这个样本表，代表公司所有员工的工资：植物德普托姓名薪资 1 MG 凯文 1.100 2 SP 伊森 1.200 3 DF 胡安 1.200 4 SP 贝思 110 5 SP 约翰 1.000 还有...

database dataframe apache-spark pyspark apache-spark-sql

回答 1 投票 0

如何在不扫描数据的情况下覆盖pyspark DataFrame架构？

这个问题与https://stackoverflow.com/a/37090151/1661491有关。假设我有一个具有特定模式的 pyspark DataFrame，并且我想用新模式覆盖该模式...

apache-spark pyspark apache-spark-sql

回答 3 投票 0

如何在Azure数据块中使用gz文件创建数据框？

我想在Azure Data bricks环境中使用gz文件创建一个数据框。帮助我如何创建数据框我的文件如下所示：test_20240423.gz df = Spark.read.format("镶木地板").load(&

python dataframe apache-spark-sql azure-functions databricks

回答 1 投票 0

有没有办法知道 S3 表中写入的最后一个分区用于 AWS Glue 作业中的下推谓词？

我正在尝试从使用下推谓词读取动态帧的粘合作业中读取 S3 中表中写入的最后一个分区。我想要读取的表每天都会加载，并且

apache-spark-sql boto3 aws-glue aws-glue-data-catalog aws-glue-spark

回答 2 投票 0

apache-spark-sql 相关问题

最新问题