apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

如何将嵌套的Struct列展开为多列?

我正在尝试将具有嵌套结构类型(见下文)的DataFrame列扩展为多个列。我正在使用的Struct模式看起来像{“foo”:3,“bar”:{“baz”:2}}。理想情况下,我......

回答 2 投票 2

计算Spark DataFrame中的非空值的数量

我有一些带有一些列的数据框,在做分析之前,我想了解这样的数据帧是如何完整的,所以我想过滤数据帧并计算每列非数...

回答 3 投票 5

在读取/加载时将原始JSON保留为Spark DataFrame中的列?

在将数据读入Spark DataFrame时,我一直在寻找一种将原始(JSON)数据添加为列的方法。我有一种方法可以通过连接执行此操作,但我希望有一种方法可以在...中执行此操作

回答 2 投票 3

在Spark Dataframe中的列列表中添加一列rowums

我有一个包含多个列的Spark数据帧。我想在数据帧上添加一列,它是一定数量的列的总和。例如,我的数据如下所示:ID var1 var2 var3 ...

回答 4 投票 16

无法查询/选择通过Spark SQL插入的数据

我试图将数据插入具有分区的Hive托管表。显示create table输出以供参考。 + ------------------------------------------------- ----------------------------------...

回答 1 投票 0

如何从Spark数据帧中的When子句向udf发送多个列?

我想在full_outer_join的基础上加入两个数据帧,并尝试在连接的结果集中添加一个新列,它告诉我匹配的记录,单独的左数据框中的不匹配记录和...

回答 1 投票 1

以有状态的方式处理火花中的网络数据包

我想使用Spark来解析网络消息,并以有状态的方式将它们分组为逻辑实体。问题描述假设每条消息都在输入数据帧的一行中,......

回答 2 投票 1

Spark中的DataFrame,Dataset和RDD之间的区别

我只是想知道Apache Spark中RDD和DataFrame(Spark 2.0.0 DataFrame只是Dataset [Row]的类型别名)有什么区别?你能把一个转换成另一个吗?

回答 14 投票 198

如何使用Java UDF将新列添加到Spark数据帧

我有一个数据集 inputDS有4列,即Id,List 时间,清单 value,aggregateType我想使用map向数据集value_new再添加一列...

回答 1 投票 1

如何将key,value作为spark sql中map的单独列

我有桌子和地图。我想从该地图中制作2个单独的列 - 1.键列2.值列。 input.show(); + --------------------- + -------------------- + ------ -------- + -------------...

回答 1 投票 -3

如何使用具有火花数据流结构的非基于时间的窗口?

我正在尝试使用带有spark和kafka的结构化流媒体窗口。我在非基于时间的数据上使用窗口,因此我收到此错误:'流式DataFrames /不支持非基于时间的窗口...

回答 2 投票 1

Spark多个动态聚合函数,countDistinct不起作用

使用多个动态聚合操作在Spark数据帧上进行聚合。我希望使用带有多个动态聚合操作的Scala对Spark数据帧进行聚合(由用户在...中传递)

回答 1 投票 1

Spark'Dataset的行为不正常

最近我看到了Spark的一些奇怪行为。我在我的应用程序中有一个管道,我正在操作一个大数据集 - 伪代码:val data = spark.read(...)data.join(df1,“key”)//等,...

回答 2 投票 7

从Scala中的任意数据数据获取Spark DataFrame的最简单方法是什么?

我已经在这几天打破了这个问题。感觉它应该直观简单......真的希望有人可以提供帮助!我已经构建了一个org.nd4j.linalg.api.ndarray.INDArray ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.