apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化，同时提供类型安全的编程接口。

使用Spark Connector for CosmosDB时不兼容的Jackson版本

当我尝试使用Scala中的cosmosdb连接器从SparkSql数据集读取时出现异常。我在本地模式下运行Spark。我的sbt依赖关系看起来像：libraryDependencies ++ = Seq（“...

scala apache-spark apache-spark-sql azure-cosmosdb apache-spark-dataset

回答 1 投票 0

我有一个数据集（ds），看起来像scala> ds.show（）+ ---- + --- + ----- + ---- + ----- + ------ -------- + | name | age | field | optr | value |治| + ---- + --- + ----- + ---- + ----- + -------------- + | A | 75 | ...

apache-spark apache-spark-dataset

回答 2 投票 0

小文件是否会分布在JavaPairRDD中的分区上？

这可能是一个愚蠢的问题，但我无法理解文件如何跨分区分割。我的要求是从Hdfs位置读取10000个二进制文件（Bloom过滤器持久文件）并...

apache-spark apache-spark-sql rdd apache-spark-dataset

回答 1 投票 0

将scala数据帧转换为数组类型列的数据集

我有一个scala数据框，如下所示：+ -------- + -------------------- + | UID |推荐| + -------- + -------------------- + | 41344966 | [[2174,4.246965E ... | | 41345063 | [[2174,0 ...

scala apache-spark apache-spark-dataset

回答 1 投票 0

将列表过滤到scala数据集中每个参数值的前2个案例类

我有一个像这样的火花数据集：+ -------- + -------------------- + | UID |推荐| + -------- + -------------------- + | 41344966 | [[2133，red] ... | | 41345063 | [[11353，红色... | | 41346177 | [...

scala apache-spark-dataset

回答 1 投票 0

将scala数据帧列合并为单个案例类

我有一个如下所示的数据框：+ -------- + ----- + -------------------- + | UID | IID |色| + -------- + ----- + -------------------- + | 41344966 | 1305 |红| | ...

scala apache-spark apache-spark-dataset

回答 1 投票 -2

将spark scala数据集转换为特定的RDD格式

我有一个如下所示的数据框：+ -------------------- + ----------------- + |推荐| relevant_products | + -------------------- + ----------------- + | [12949,12499,71 ... | [...

scala rdd apache-spark-dataset

回答 1 投票 0

星期几的单词的星号计数

我有一个数据集+ ---------- + -------- + ------------ + | ID |日期|错误| + ---------- + -------- + ------------ + | 1 | 20170319 | ERROR1 | | 1 | 20170319 |误差2 | | 1 ...

sql scala apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 2

Spark SQL中的数组交集

我有一个名为writer的数组类型列的表，其值为array [value1，value2]，array [value2，value3] ....等。我正在进行自联接以获得具有共同值的结果...

apache-spark apache-spark-sql spark-dataframe hiveql apache-spark-dataset

回答 2 投票 2

为什么Apache Spark SQL中的列更改为可为空？

为什么在执行某些函数后使用nullable = true，即使DataFrame中没有NaN值也是如此。 val myDf = Seq（（2，“A”），（2，“B”），（1，“C”））。toDF（“foo”，“bar”）....

apache-spark apache-spark-sql apache-spark-dataset

回答 2 投票 7

高级连接两个数据帧spark scala

我必须加入两个Dataframes。示例：Dataframe1看起来像这样df1_col1 df1_col2 a ex1 b ex4 c ex2 d ex6 e ex3 ...

scala join apache-spark-sql apache-spark-dataset

回答 3 投票 1

spark使用带有选项字段的case类将数据帧转换为数据集

我有以下case类：case类Person（name：String，lastname：Option [String] = None，age：BigInt）{}以及以下json：{“name”：“bemjamin”，“age”：1}当我试图转变......

scala apache-spark apache-spark-sql apache-spark-dataset

回答 2 投票 0

如何根据Java Spark 2.1.1中的字段名称对structType进行排序/排序

我有一个structType模式，我需要根据字段名称对模式进行排序/排序，下面我将共享StructType。 StructType schema = StructType（StructField（zzz，StringType，true），...

apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 -1

为什么在将任何rdd转换为ds而不是常规导入之前嵌入了spark.implicits._？ [重复]

我正在学习火花数据集并检查我们如何将rdd转换为数据集。为此，我得到了以下代码：val spark = SparkSession .builder .appName（“Spark SQL”）。master（“...

scala apache-spark apache-spark-sql implicit apache-spark-dataset

回答 2 投票 0

来自关系数据模型的Spark中的树/嵌套结构

如果我理解正确，我可以将spark数据集视为T类型对象的列表。如何以父父包含子列表的方式连接两个数据集？但是孩子也会......

apache-spark apache-spark-dataset

回答 2 投票 2

Spark Accumulator值不递增[重复]

我最近一直在研究Spark数据集，我有一个场景，我必须为每一行生成行号并将其存储在名为“Ids”的列中。这个行号从1,2,3 ......开始......

java apache-spark user-defined-functions apache-spark-dataset accumulator

回答 3 投票 0

如何在循环中生成Spark数据集聚合长专家？

我正在使用Java Spark来统计数据集。我需要通过许多expers聚合数据集，因此代码很长而且很难看。 expers有一些常见的逻辑，我可以用循环生成expers吗？这是 ...

java apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

如何将Seq [T]列添加到包含两个数据集元素的数据集中？

我有两个数据集AccountData和CustomerData，以及相应的案例类：案例类AccountData（customerId：String，forename：String，surname：String）customerId | accountId | balance | + ---...

scala apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

使用spark sql在intelliJ上调用不相关的模糊方法错误

这个spark sql代码编译并运行但是intelliJ（idea-IU-172.4343.14）显示了“Ambigious方法调用”错误。 public static void main（String [] args）{SparkSession session = SparkSession // ...

java intellij-idea apache-spark-sql apache-spark-dataset

回答 3 投票 2

如何迭代数据帧而不转换为spark中的数据集？

我有一个数据帧，我想通过它迭代，但我不想将数据帧转换为数据集。我们必须将spark scala代码转换为pyspark，而pyspark不支持数据集。我试过了 ...

apache-spark pyspark apache-spark-sql apache-spark-dataset

回答 1 投票 -2

apache-spark-dataset 相关问题

最新问题