apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

如何将嵌套的Struct列展开为多列？

我正在尝试将具有嵌套结构类型（见下文）的DataFrame列扩展为多个列。我正在使用的Struct模式看起来像{“foo”：3，“bar”：{“baz”：2}}。理想情况下，我......

python apache-spark dataframe pyspark apache-spark-sql

回答 2 投票 2

计算Spark DataFrame中的非空值的数量

我有一些带有一些列的数据框，在做分析之前，我想了解这样的数据帧是如何完整的，所以我想过滤数据帧并计算每列非数...

scala apache-spark-sql

回答 3 投票 5

在读取/加载时将原始JSON保留为Spark DataFrame中的列？

在将数据读入Spark DataFrame时，我一直在寻找一种将原始（JSON）数据添加为列的方法。我有一种方法可以通过连接执行此操作，但我希望有一种方法可以在...中执行此操作

json apache-spark apache-spark-sql

回答 2 投票 3

在Spark Dataframe中的列列表中添加一列rowums

我有一个包含多个列的Spark数据帧。我想在数据帧上添加一列，它是一定数量的列的总和。例如，我的数据如下所示：ID var1 var2 var3 ...

scala apache-spark dataframe apache-spark-sql

回答 4 投票 16

无法查询/选择通过Spark SQL插入的数据

我试图将数据插入具有分区的Hive托管表。显示create table输出以供参考。 + ------------------------------------------------- ----------------------------------...

hadoop hive apache-spark-sql hdinsight apache-spark-2.3

回答 1 投票 0

如何从Spark数据帧中的When子句向udf发送多个列？

我想在full_outer_join的基础上加入两个数据帧，并尝试在连接的结果集中添加一个新列，它告诉我匹配的记录，单独的左数据框中的不匹配记录和...

scala apache-spark null apache-spark-sql user-defined-functions

回答 1 投票 1

以有状态的方式处理火花中的网络数据包

我想使用Spark来解析网络消息，并以有状态的方式将它们分组为逻辑实体。问题描述假设每条消息都在输入数据帧的一行中，......

apache-spark apache-spark-sql spark-structured-streaming

回答 2 投票 1

Spark中的DataFrame，Dataset和RDD之间的区别

我只是想知道Apache Spark中RDD和DataFrame（Spark 2.0.0 DataFrame只是Dataset [Row]的类型别名）有什么区别？你能把一个转换成另一个吗？

apache-spark apache-spark-sql rdd apache-spark-dataset

回答 14 投票 198

如何使用Java UDF将新列添加到Spark数据帧

我有一个数据集 inputDS有4列，即Id，List 时间，清单 value，aggregateType我想使用map向数据集value_new再添加一列...

apache-spark apache-spark-sql

回答 1 投票 1

如何将key，value作为spark sql中map的单独列

我有桌子和地图。我想从该地图中制作2个单独的列 - 1.键列2.值列。 input.show（）; + --------------------- + -------------------- + ------ -------- + -------------...

sql scala apache-spark apache-spark-sql

回答 1 投票 -3

如何使用具有火花数据流结构的非基于时间的窗口？

我正在尝试使用带有spark和kafka的结构化流媒体窗口。我在非基于时间的数据上使用窗口，因此我收到此错误：'流式DataFrames /不支持非基于时间的窗口...

pyspark apache-spark-sql spark-streaming

回答 2 投票 1

Spark多个动态聚合函数，countDistinct不起作用

使用多个动态聚合操作在Spark数据帧上进行聚合。我希望使用带有多个动态聚合操作的Scala对Spark数据帧进行聚合（由用户在...中传递）

scala apache-spark count apache-spark-sql distinct

回答 1 投票 1

Spark'Dataset的行为不正常

最近我看到了Spark的一些奇怪行为。我在我的应用程序中有一个管道，我正在操作一个大数据集 - 伪代码：val data = spark.read（...）data.join（df1，“key”）//等，...

apache-spark apache-spark-sql

回答 2 投票 7

从Scala中的任意数据数据获取Spark DataFrame的最简单方法是什么？

我已经在这几天打破了这个问题。感觉它应该直观简单......真的希望有人可以提供帮助！我已经构建了一个org.nd4j.linalg.api.ndarray.INDArray ...

scala apache-spark apache-spark-sql nlp nd4j

回答 1 投票 0

apache-spark-sql 相关问题

最新问题