apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化,同时提供类型安全的编程接口。

使用Spark Connector for CosmosDB时不兼容的Jackson版本

当我尝试使用Scala中的cosmosdb连接器从SparkSql数据集读取时出现异常。我在本地模式下运行Spark。我的sbt依赖关系看起来像:libraryDependencies ++ = Seq(“...

回答 1 投票 0

Spark:scala中数据集的动态过滤器

我有一个数据集(ds),看起来像scala> ds.show()+ ---- + --- + ----- + ---- + ----- + ------ -------- + | name | age | field | optr | value |治| + ---- + --- + ----- + ---- + ----- + -------------- + | A | 75 | ...

回答 2 投票 0

小文件是否会分布在JavaPairRDD中的分区上?

这可能是一个愚蠢的问题,但我无法理解文件如何跨分区分割。我的要求是从Hdfs位置读取10000个二进制文件(Bloom过滤器持久文件)并...

回答 1 投票 0

将scala数据帧转换为数组类型列的数据集

我有一个scala数据框,如下所示:+ -------- + -------------------- + | UID |推荐| + -------- + -------------------- + | 41344966 | [[2174,4.246965E ... | | 41345063 | [[2174,0 ...

回答 1 投票 0

将列表过滤到scala数据集中每个参数值的前2个案例类

我有一个像这样的火花数据集:+ -------- + -------------------- + | UID |推荐| + -------- + -------------------- + | 41344966 | [[2133,red] ... | | 41345063 | [[11353,红色... | | 41346177 | [...

回答 1 投票 0

将scala数据帧列合并为单个案例类

我有一个如下所示的数据框:+ -------- + ----- + -------------------- + | UID | IID |色| + -------- + ----- + -------------------- + | 41344966 | 1305 |红| | ...

回答 1 投票 -2

将spark scala数据集转换为特定的RDD格式

我有一个如下所示的数据框:+ -------------------- + ----------------- + |推荐| relevant_products | + -------------------- + ----------------- + | [12949,12499,71 ... | [...

回答 1 投票 0

星期几的单词的星号计数

我有一个数据集+ ---------- + -------- + ------------ + | ID |日期|错误| + ---------- + -------- + ------------ + | 1 | 20170319 | ERROR1 | | 1 | 20170319 |误差2 | | 1 ...

回答 1 投票 2

Spark SQL中的数组交集

我有一个名为writer的数组类型列的表,其值为array [value1,value2],array [value2,value3] ....等。我正在进行自联接以获得具有共同值的结果...

回答 2 投票 2

为什么Apache Spark SQL中的列更改为可为空?

为什么在执行某些函数后使用nullable = true,即使DataFrame中没有NaN值也是如此。 val myDf = Seq((2,“A”),(2,“B”),(1,“C”))。toDF(“foo”,“bar”)....

回答 2 投票 7

高级连接两个数据帧spark scala

我必须加入两个Dataframes。示例:Dataframe1看起来像这样df1_col1 df1_col2 a ex1 b ex4 c ex2 d ex6 e ex3 ...

回答 3 投票 1

spark使用带有选项字段的case类将数据帧转换为数据集

我有以下case类:case类Person(name:String,lastname:Option [String] = None,age:BigInt){}以及以下json:{“name”:“bemjamin”,“age”:1}当我试图转变......

回答 2 投票 0

如何根据Java Spark 2.1.1中的字段名称对structType进行排序/排序

我有一个structType模式,我需要根据字段名称对模式进行排序/排序,下面我将共享StructType。 StructType schema = StructType(StructField(zzz,StringType,true),...

回答 1 投票 -1

为什么在将任何rdd转换为ds而不是常规导入之前嵌入了spark.implicits._? [重复]

我正在学习火花数据集并检查我们如何将rdd转换为数据集。为此,我得到了以下代码:val spark = SparkSession .builder .appName(“Spark SQL”)。master(“...

回答 2 投票 0

来自关系数据模型的Spark中的树/嵌套结构

如果我理解正确,我可以将spark数据集视为T类型对象的列表。如何以父父包含子列表的方式连接两个数据集?但是孩子也会......

回答 2 投票 2

Spark Accumulator值不递增[重复]

我最近一直在研究Spark数据集,我有一个场景,我必须为每一行生成行号并将其存储在名为“Ids”的列中。这个行号从1,2,3 ......开始......

回答 3 投票 0

如何在循环中生成Spark数据集聚合长专家?

我正在使用Java Spark来统计数据集。我需要通过许多expers聚合数据集,因此代码很长而且很难看。 expers有一些常见的逻辑,我可以用循环生成expers吗?这是 ...

回答 1 投票 0

如何将Seq [T]列添加到包含两个数据集元素的数据集中?

我有两个数据集AccountData和CustomerData,以及相应的案例类:案例类AccountData(customerId:String,forename:String,surname:String)customerId | accountId | balance | + ---...

回答 1 投票 0

使用spark sql在intelliJ上调用不相关的模糊方法错误

这个spark sql代码编译并运行但是intelliJ(idea-IU-172.4343.14)显示了“Ambigious方法调用”错误。 public static void main(String [] args){SparkSession session = SparkSession // ...

回答 3 投票 2

如何迭代数据帧而不转换为spark中的数据集?

我有一个数据帧,我想通过它迭代,但我不想将数据帧转换为数据集。我们必须将spark scala代码转换为pyspark,而pyspark不支持数据集。我试过了 ...

回答 1 投票 -2

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.