apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

按值过滤 RDD PySpark

我正在使用 PySpark,我正在寻找一种方法来检查: 对于给定的 check_number = 01 如果我的rdd1中第三个元素的值不包含check_number ==> 获取有关此的所有信息

回答 1 投票 0

如何使用window.partionBy()为Spark数据帧创建row_index?

我有一个带有单列的数据框,如下所示。 类型 '蝙蝠' '蝙蝠' '球' '蝙蝠' '球' '球' 在上面的数据框中,我添加了一个名为“const”的新列。 df = df.withColumn('const',F...

回答 2 投票 0

基于城市的场馆名称模糊连接

我正在使用 PySpark,需要根据城市和场地名称的模糊匹配条件连接两个数据集。第一个数据集包含有关体育场的信息,包括唯一的

回答 1 投票 0

AES_DECRYPT pyspark SQL 中的 MYSQL AES_ENCRYPT 数据

MYSQL 中的数据以““´⁄´^-|”ªêãæ” 格式进行加密。 MYSQL 列定义是 栏目:移动 排序规则:latin1_swedish_ci 定义:varchar(16) 在 MYSQL 中解密我使用 CO...

回答 1 投票 0

如何向 DataFrame 添加新的 Struct 列

我目前正在尝试从 MongoDB 中提取数据库,并使用 Spark 将 geo_points 摄取到 ElasticSearch 中。 Mongo 数据库有纬度和经度值,但 ElasticSearch 需要...

回答 3 投票 0

如何从 Dataframe 的映射访问 Wrappedarray

我有一个像这样的数据框: +------+-------------------------------------------------------- ------------------------------------------------+ |我的钥匙|我的地图...

回答 1 投票 0

Spark:如何高效加载大型S3路径

我有一个广泛的 S3 路径,其结构按 ID、年、月和日进行分区。 S3 路径遵循以下格式:s3a://bucket/results/id=xxxxx/year=xxxx/month=xx/day=xx。以下是代码示例

回答 1 投票 0

使用 Spark SQL 查询从 json 字符串中提取元素

我是 Spark sql 新手,正在尝试使用 get_json_object() 从 json 字符串中提取元素。 表的名称是 abc。 这是我的 json 字符串 dns_flip_details = "{'flipDetails': [{'

回答 1 投票 0

取消parentDF对持久化和计算化childDF的影响

作为 Pyspark 的一部分 - 取消持久化父数据帧也会从缓存中删除子数据帧,提到如果我们取消持久化一个parentDF,那么所有childDF也将被取消持久化。 我...

回答 1 投票 0

参数中设置的日期与查询参数时的日期不符

正如您在屏幕截图中看到的,我设置了一个数据类型为日期的参数,并选择了日期 2024-05-27。 然而,当我在 SQL 中查询这个参数时,我得到了一个完全不同的值(1992-...

回答 1 投票 0

错误 SparkContext:无法添加文件 java.io.FileNotFoundException:找不到 Spark 的 Jar

请根据我使用的代码帮助我修复上述错误 proccesing_data.py代码用于使用spark-streaming处理数据 导入日志记录 从 pyspark.sql 导入 SparkSession 来自 pys...

回答 1 投票 0

Spark SQL 中的 CROSS APPLY 替代方案

我正在将 SQL 存储过程从 SQL Server 迁移到 Spark SQL。 SP中的语句之一使用了CROSS APPLY,但spark没有CROSS APPLY。我研究了一下,发现INNER JOIN可以用...

回答 1 投票 0

为什么Spark的explode函数比平面地图函数分割数组慢很多?

我是 Spark 和 Spark SQL 的新手。我有一个包含 2 列的数据集,“col1”和“col2”,“col2”最初是一个长整型序列。我想将“col2”分解为多行,以便每一行只有一个...

回答 1 投票 0

我有一个 pyspark 情况,我有 4 个表,需要图像中提到的预期结果

第2步:四个表的样本数据 data_01 = [(787, 10, 1, 2024, '0202410IN D600000787', '7987979')] 数据_02 = [ (787, 10, 2, 2024, '00007870202410111439000000000', '7987979jk'), (787, 10, 2, ...

回答 1 投票 0

如何用Spark高效读取多个parquet小文件?有CombineParquetInputFormat吗?

Spark 生成了多个小 parquet 文件。如何在生产者和消费者 Spark 作业上有效处理少量 parquet 文件。

回答 2 投票 0

如何在pyspark中用字典替换单行中的多个值?

我有一个专栏叫水果。每行的格式为 ["apple","banana","mango"]。我有一本包含 {oldvalue:newvalue} 的字典。我想更换appl...

回答 1 投票 0

如何使用 PySpark 处理单列中的多种日期格式?

我正在 PySpark 中使用一个 DataFrame,其中包含一个名为 datdoc 的列,该列具有多种日期格式,如下所示: 数据文档 24 年 9 月 7 日 2024 年 9 月 7 日 2024 年 9 月 7 日 2024 年 9 月 7 日 24 年 9 月 7 日 2 月 7 日...

回答 1 投票 0

无法在 conda windows 中启动 Spark 会话

我无法在 Windows conda 虚拟 python 环境中启动 Spark 会话。但是,几天前我能够成功执行此语句,安装后没有任何问题......

回答 1 投票 0

spark SQL中IF和IFF有什么区别?

这两个函数的文档实际上是相同的。 请参阅 IF 和 IFF。 运行时(在 DBR 13.3 中,但这并不重要): 选择 如果(1 = 1,'a','b'),如果(1 = 0,'a','b'), 我...

回答 1 投票 0

在 pyspark 中左连接两个排序的数据帧

我有两个数据框,它们按某一列排序,这也是连接键。 是否可以合并这两个数据帧,并在 O(n+m) 时间内返回排序后的数据帧?我不在乎它是否没有完成

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.