apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

Spark SQL 文档指定 join() 支持以下连接类型：必须是以下之一：inner、cross、outer、full、full_outer、left、 left_outer、right、right_outer、left_semi 和 lef...

apache-spark apache-spark-sql

回答 3 投票 0

无法使用 foreach Pyspark 并行写入 S3 - 从 Worker 调用 SparkContext [重复]

我有一个用例，将列表中的数据并行写入S3。我的列表是列表列表 -> [[guid1, guid2], [guid3, guid4],...] 函数 get_guids_combined() 负责返回...

apache-spark pyspark apache-spark-sql pyspark-schema

回答 1 投票 0

如何在spark.sql中使用merge更新列时转义/

我试图使用合并语句更新我的表。我的专栏之一有/。当我尝试使用列名称更新时。下面是我的代码 query = """合并到 dfFullView a...

apache-spark pyspark apache-spark-sql databricks sql-merge

回答 1 投票 0

AnalysisException：输入“;”不匹配期待<EOF>

尝试使用pysaprk（版本3.5.1）将数据加载到Iceberg中 %%sparksql 修改表方案表设置标识符字段 a、b、c；修改表方案表按分区 LO 分布写入...

apache-spark pyspark apache-spark-sql apache-iceberg

回答 1 投票 0

为什么BroadcastExchange需要更多驱动内存？

广播时，Spark 可能会失败，并显示错误 org.apache.spark.sql.errors.QueryExecutionErrors#notEnoughMemoryToBuildAndBroadcastTableError (Spark 3.2.1)：为什么 BroadcastExchange 需要更多驱动程序

apache-spark apache-spark-sql

回答 1 投票 0

使用foreach Pyspark并行写入S3 - 从Worker调用sparkContext

我有一个用例，将列表中的数据并行写入S3。我的列表是列表列表 -> [[guid1, guid2], [guid3, guid4],...] 函数 get_guids_combined() 负责返回...

apache-spark pyspark apache-spark-sql pyspark-schema

回答 1 投票 0

如何在 Spark 中收集单个列？

我想对单个列执行操作。不幸的是，在我转换该列之后，它现在不再是它所来自的数据帧的一部分，而是一个 Column 对象。因此，不可能是

apache-spark dataframe pyspark apache-spark-sql

回答 2 投票 0

如果状态列大于阈值，如何获取 Spark scala 数据框中的第一行

我有一个数据框，如下所示。我每小时从 HBase 表加载一次原始数据。如果状态等于1连续超过10分钟，那么我需要拿第一行......

dataframe scala apache-spark apache-spark-sql

回答 1 投票 0

Phoenix Spark 驱动程序将 DATE PHOENIX 列映射为 DateType()

我有一个 Phoenix 表，其中有一列（类型为 DATE）日期数据类型。格式为 yyyy-MM-dd hh:mm:ss，日期和时间部分均保持毫秒精度。另一方面，随着

pyspark apache-phoenix apache-spark-sql

回答 1 投票 0

如何添加包含当前日期的新列？

正常添加日期列是这样的更改表帐户添加列（日期日期）；如何用 curdate() 添加它？

apache-spark apache-spark-sql

回答 1 投票 0

将两个查询/接口合并为一个

我有两个查询，我需要创建一个查询，统一查询而不对其应用任何过滤器。每个的代码如下查询1，由5400行组成选择 CAST（客户发票。

sql apache-spark-sql

回答 1 投票 0

Catalyst 规则返回错误的逻辑计划

def apply(计划: LogicalPlan): LogicalPlan = { 计划变换{ 案例 unresolvedRelation: UnresolvedRelation => val tblSchemaName: Array[String] = unresolvedRelation.tableName.sp...

apache-spark apache-spark-sql

回答 1 投票 0

将数据帧转换为嵌套的 json 记录

python json apache-spark pyspark apache-spark-sql

回答 1 投票 0

与我的最后一个滞后值位于同一行的另一列的值

我有一个时间序列数据集。我希望创建一个新列来表示最后报告的（非空）值。我想我已经通过使用滞后和最后的组合来解决这部分我会...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

如何使用Spark DataFrames查询JSON数据列？

我有一个 Cassandra 表，为简单起见，它看起来像：键：文字 json数据：文本 blob 数据： blob 我可以使用 Spark 和 Spark-cassandra-connector u...

dataframe apache-spark apache-spark-sql cassandra spark-cassandra-connector