apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

Spark:如何将行分组到固定大小的数组中?

我有一个如下所示的数据集: +---+ |col| +---+ |一个| |乙| | c| | d| |电子| | f| |克| +---+ 我想重新格式化这个数据集,以便将行聚合到固定长度的数组中,...

回答 2 投票 0

连接两个 PySpark 数据帧而不重复行

我有以下两个 PySpark 数据框: df1: 第1列 列2 第3栏 第4栏 一些价值 一些价值 一些价值 一些值1 df2: 第1列 列2 第3栏 第5栏 一些价值 一些价值 一些v...

回答 2 投票 0

Pyspark 在数组元素上应用正则表达式模式

我有下面的 Pyspark 代码来验证嵌套 json 中的字段 - “当 array_contains(transform(RECORDS_003.DATA.TOTAL_CHARGE, x -> trim(x)), '') 或存在时(RECORDS_003.DATA.TOTAL_CHARG...

回答 1 投票 0

Pyspark -- 过滤包含空值的 ArrayType 行

我是 PySpark 的初学者。假设我有一个像这样的 Spark 数据框: test_df = Spark.createDataFrame(pd.DataFrame({"a":[[1,2,3], [无,2,3], [无,无,无]]})) 现在我希望过滤...

回答 4 投票 0

Spark SQL 查询将字符串列添加到结构数组

我正在 Adobe Experience Platform 中从事查询服务。它使用此处列出的有限 Spark SQL 函数。 我有下表 姓名 地址类型 客户详细信息 -------------...

回答 1 投票 0

如何修改pyspark dataframe嵌套结构列

我正在尝试对嵌套列进行匿名/哈希处理,但尚未成功。该架构看起来像这样: -- abc: 结构(可空 = true) | |-- xyz:结构(可空 = true) | | |--

回答 2 投票 0

如何使用 pyspark 更新结构体嵌套列中的值

我尝试做非常简单的事情 - 更新嵌套列的值;但是,我不知道如何 环境: 阿帕奇火花2.4.5 数据块 6.4 Python 3.7 数据DF = [ (('乔恩','','史密斯'),'1580-01-06...

回答 3 投票 0

无法使用 Spark dataframe 和 scala 创建 CSV,而是创建文件夹名称中包含“.csv”的文件夹

我无法使用 Spark 数据框编写或创建 csv。相反,它为我创建目录。这是我的代码 com.package.dssupplier 包 导入 org.apache.spark.sql.{SaveMode、SparkSessi...

回答 1 投票 0

读取多个 CSV 文件,每个 CSV 文件的列数不同

我想使用 PySpark 读取具有不同列数的多个 CSV 文件。 文件=['数据/f1.csv','数据/f2.csv','数据/f3.csv','数据/f4.csv','数据/f5.csv'] f1 文件有 50 列,f2 有 10 ...

回答 3 投票 0

分解并解析pyspark字符串列数据帧的json数组

我有 PySpark DataFrame,其中列映射结果具有字符串格式,并且其中包含两个 json 数组 Spark.createDataFrame(pd.DataFrame({'服务器': {0: '3456gj', 1: '56ujdn98', 2:'56v95...

回答 1 投票 0

致命错误 Python 内核无响应 Databricks

最近我在 pyspark 中遇到了一个问题,比如致命错误:python 内核无响应。是内存错误还是其他类型的错误?有人可以解释一下吗?

回答 1 投票 0

如何生成一个包含随机内容和N行的DataFrame?

如何在 Scala 中创建一个包含 100 行和 3 列且随机整数值在 (1, 100) 范围内的 Spark DataFrame? 我知道如何手动创建 DataFrame,但无法自动化它: 瓦尔...

回答 6 投票 0

对象的长度 (3) 与字段的长度 (1) Pyspark

我遇到以下代码问题。我想创建一个单列数据框。 我可以知道我在这里做错了什么吗? 从 pyspark.sql 导入函数为 F 从 pyspark.sql.types 导入 Integer...

回答 2 投票 0

如何调用另一个 Scala 对象中的类?

我有一个 DFHelper 类,它有助于获取数据帧键。 我想将其维护为通用代码并从另一个主 scala 对象调用它。例如,我为通用定义的第一个代码部分

回答 1 投票 0

如何从scala中的org.apache.spark.sql.Column类型获取键并放入列表变量中?

我正在尝试从 org.apache.spark.sql.Column 类型变量获取键并将其放入列表中,以便我可以进行一些模式比较。 inputFieldMap:org.apache.spark.sql.Column = 键:[自定义...

回答 1 投票 0

将列的数据类型从字符串转换为日期时 Spark 作业失败

写入目标时出现以下错误: 作业因阶段失败而中止:阶段 15526.0 中的任务 18 失败 4 次,最近一次失败:阶段 15526.0 中丢失任务 18.3 (TID 3281950) (1...

回答 1 投票 0

根据工作线程、核心和 DataFrame 大小确定 Spark 分区的最佳数量

Spark-land 中有几个相似但不同的概念,围绕如何将工作分配给不同的节点并同时执行。具体来说,有: Spark 驱动程序节点 (

回答 2 投票 0

Pyspark - 重复值直到列发生变化

我有一个具有这种结构的数据框 订单号 电话号码 物品 类型 12345 1 1001 家长 12345 2 1002 孩子 12345 3 1003 孩子 12345 4 1004 孩子 12345 5 1005 家长 12345 6 1006 孩子 我

回答 1 投票 0

为什么spark在sql查询末尾附加'WHERE 1=0'

我正在尝试使用 Apache Spark 执行简单的 mysql 查询并创建一个数据框。但由于某些原因,spark 在我想要执行的查询末尾附加“WHERE 1=0”并抛出一个

回答 2 投票 0

Scala Spark 查询优化

我有两个数据框,每个数据框有 300 列和 1000 行。它们具有相同的列名称。这些值是混合数据类型,如结构/列表/时间戳/字符串/等。我正在尝试比较该专栏

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.