apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

描述表查看哪些列不为空

在 Apache Spark SQL (Azure Databricks) 中,我创建了一个如下表: 创建表 t( 一个大整数, b BIGINT 不为空 ) 我已验证我有一个可为空的列和一个不可为空的列...

回答 3 投票 0

在 pyspark 中旋转时跨不同类型的多个列进行聚合

我有一张融化的桌子,其形式为: +------+---------+--------------+------------+---- ----------+ |时间 |频道 |双值 |长值 |值字符串 | +------+---------+--------------+----...

回答 1 投票 0

(Py) Spark - 在一段时间内按用户分组

我正在处理大量日志文件,我想将作业转移到 Spark,但我不知道如何像在 Pandas 中轻松地那样在基于事件的时间窗口上聚合事件。 这就是确切的...

回答 2 投票 0

通过时间旅行在 Apache 冰山表中联合

我正在尝试对两个冰山表应用联合,这两个冰山表是通过 pyspark 中的时间旅行获取的。 这是我尝试过的代码: union_query = f""" SELECT * FROM {table_name} FOR

回答 1 投票 0

SparkSession.catalog 和 SparkSession.sessionState.catalog 有什么区别?

我正在学习Spark,对Spark的目录感到困惑。 我在SparkSession中找到了一个catalog,它是CatalogImpl的一个实例,如下 /** * 用户可以通过它创建、删除的接口

回答 1 投票 0

取消保留 (py)spark 中的所有数据帧

我是一个 Spark 应用程序,有几个点我想保留当前状态。这通常是在一个大步骤之后,或者缓存我想多次使用的状态之后。它看起来...

回答 3 投票 0

找不到数据源:mongo

我正在尝试创建一个本地管道,用于接收从我的 kafka 代理流式传输的消息,并在写入 MongoDB 之前在 Spark 中对其进行处理。我已经安装了所有必要的 JAR 并包含了

回答 1 投票 0

PySpark 用户定义函数的问题

为什么我的 pyspark 应用程序因用户定义的函数而失败? 乘数 = udf(lambda x: float(x) * 100.0, FloatType()) df = df.select(multiplier(df['value']).alias('value_percent'))

回答 1 投票 0

为什么我需要使用数据框来处理数据块中的查询? (pyspark、sparksql)

我正在和一个朋友学习databricks,有一件事我真的不明白。 我正在尝试在azure中存储帐户中的json文件中使用pyspark和spark sql进行查询。 丝路...

回答 2 投票 0

以下 Databricks SQL 的等效 Py Spark 代码是什么

我有下面的Databricks SQL代码(带有过滤条件)并想转换为Py Spark代码但无法得到任何想法。 我搜索了谷歌,但只得到了 Py Spark 过滤器条件,但我......

回答 1 投票 0

如何在 Spark SQL 中解析嵌套的 JSON 对象?

我有一个架构,如下所示。如何解析嵌套对象? 根 |-- apps: 数组 (nullable = true) | |-- 元素:结构(containsNull = true) | | |-- appName:字符串(可为空...

回答 5 投票 0

在 Spark 中读取 Avro 文件

我已将 avro 文件读入 Spark RDD,并需要将其转换为 sql 数据帧。我该怎么做。 这就是我到目前为止所做的。 导入 org.apache.avro.generic.GenericRecord 导入 org.apache.a...

回答 3 投票 0

Spark skewedPartitionThresholdInBytes 未得到强制执行

对 Spark 比较陌生,对 PySpark 的行为感到好奇,其中, 使用 PySpark 执行内部联接(根据执行计划:SortMergeJoin)时,使用以下参数 e...

回答 1 投票 0

在 Spark SQL 中转换为日期

我正在尝试在 Microsoft Fabric 的 Spark SQL 中将格式为“2024 年 5 月 30 日”的字符串值转换为日期。 名为 TITLE 的初始列具有以下格式的文本: “是……

回答 1 投票 0

从函数中设置 HIVE 中的变量

我正在尝试将数据插入到 Hive 表中,该表的动态分区值需要是计算日期,但 Hive 的 PARTITION 子句似乎不支持表达式或函数。 我有一个...

回答 1 投票 0

如何高效创建Delta表?

我有两个数据帧,分别称为 df1 和 df2。 df1 有 300 M 条记录,df2 有 400 M 条记录。进行简单的内部联接并写入 s3 存储桶。下面是我的示例代码片段 代码: sql =“”&

回答 1 投票 0

如何检查namenode返回哪个HDFS datanode ip到spark?

如果我在 PySpark 中读取/写入数据帧并指定 HDFS 名称节点主机名和端口: df.write.parquet("hdfs://namenode:8020/test/go", mode="覆盖") 有什么办法

回答 1 投票 0

使用 SQL 或 Spark-SQL - 如何根据大于 1 的聚合记录数更新列值

我有一个涉及客户选择退出促销的数据集。他们将始终拥有唯一的 customer_id,但可以共享居住空间。当两个客户住在同一个地方时就会出现问题

回答 1 投票 0

当 pyspark 2.2.0 中缺少日期时,如何计算日期范围内的标准差

我有一个 pyspark df,其中我使用 windows + udf 函数的组合来计算历史业务日期的标准偏差。挑战是我的 df 缺少日期,当...

回答 1 投票 0

Pyspark 中的条件映射

我有一个包含 2M 行的 PySpark DataFrame,称为 inventory,其中包含以下列: 类别_id 子类别 ID 产品代码 产品名称 1001 A001 X123 小工具A 1001 A002 X456 小工具B 2002年 乙...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.