apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化,同时提供类型安全的编程接口。

如何将spark数据集转换为scala seq

我有以下case类案例类Station(id:Long,name:String)扩展Node和站顶点的Spark数据集:org.apache.spark.sql.Dataset [Station] = [id:bigint,name:string] ...

回答 1 投票 -3

如何最好地将SparkSQL Dataframe Array [String]列转换为新的[String]列

我是Spark的新手,我有一个包含4列的Apache SparkSQL DataFrame df,具有以下模式:root | - _id:string(nullable = false)| - _title:string(nullable = false)| - _published-at :...

回答 1 投票 0

从java中的时间戳开始按月分组数据集

我已经使用java中的spark会话将表中的所有行加载到Dataset中。我想得到每个月的行数。我尝试使用withColumn()创建一个月的新列,以便我可以......

回答 2 投票 0

Scala spark:如何使用数据集来创建具有snake_case架构的案例类?

我有以下case类:case类User(userId:String)和以下模式:+ -------------------- + -------- ---------- + | COL_NAME | DATA_TYPE | + -------------------- + -...

回答 1 投票 4

动态循环所有列名称的数据集

我正在进行项目,我有大约500个列名,但我需要在每个表名上应用coalesce函数。 df1 schema -id -col1 ... -col500 df2 schema -id -col1 ... -col500 Dataset&...

回答 3 投票 0

在运行时动态过滤火花柱

我需要创建一个spark过滤器语句,它过滤在运行时动态传递给它的列列表。我有一个SQL数据库表,其中有一列存储列列表...

回答 1 投票 0

在Dataframe中的列中添加缺少的类别

我有以下spark dataFrame。列国家/地区有10个不同的值。我想要在预期结果中给出的新数据帧。 DataFrame + ------------- + -------------- + ------------------ + ...

回答 1 投票 0

Spark DataFrame - 键列和值列的结构类型

样本数据集B7J; B7J Realty Corp; [街道#939 W El Camino,城市#芝加哥,州#IL] AGC; AGC公司成立; [街道#415 N Mary Ave,城市#Long Island,州#NY] KBB; KBB Minerals International Inc; [...

回答 1 投票 1

从数据集中的地图按键排序

我想通过时间戳订购一些我从HDFS检索的avro文件。我的avro文件的架构是:headers:Map [String,String],body:String现在棘手的部分是时间戳是......

回答 3 投票 1

何使用spark DF或DS读取“.gz”压缩文件?

我有一个.gz格式的压缩文件,是否可以使用spark DF / DS直接读取文件?详细信息:文件是带有制表符分隔符的csv。

回答 1 投票 1

我应该如何将org.apache.spark.ml.linalg.Vector的RDD转换为Dataset?

我很难理解RDD,DataSet和DataFrame之间的转换是如何工作的。我对Spark很陌生,每当我需要从数据模型传递到另一个时,我就会陷入困境(特别是...

回答 2 投票 2

如何使用java api在Apache Spark Dataset中使用desc进行排序?

我正在使用spark会话读取文件,然后拆分单词并计算单词的迭代次数。我需要以描述顺序显示数据SparkSession sparkSession = SparkSession ....

回答 3 投票 3

如何从SparkSQL DataFrame中的MapType列获取键和值

我有一个镶木地板文件中的数据有两个字段:object_id:String和alpha:Map <>。它被读入sparkSQL中的数据框,模式如下所示:scala> alphaDF.printSchema()...

回答 2 投票 11

有没有办法禁止用','分隔,并在scala中用','分隔csv文件

我正在使用scala读取一个csv文件来填充数据集,在那里我面临分隔符问题,这是因为我的一些字段中有','。数据类似于A,B,C(temp,temp1,temp3),......

回答 1 投票 0

数据集未显示任何列

我是新手,想要学习它。我正在尝试使用类从textFile创建数据集。当我执行dataset.show()时,它显示所有空白和列长度显示为0.代码:import org ....

回答 1 投票 0

Spark CSV与各种分隔符到DataSet

我有两个CSV文件,我使用spark与Java聚合。这些文件具有不同的分隔符。 file1.dat:011!345!Ireland files2.dat:022Ç486ÇBrazil我用的代码:Dataset ...

回答 1 投票 3

spark Java中多列的聚合

我有列列表priceColumns是动态的。我正在尝试聚合数据集中的那些列,公共数据集getAgg(RelationalGroupedDataset rlDataset){Dataset selectedDS = null;对于(...

回答 1 投票 0

如何将spark数据帧列嵌入到地图列?

我有一个包含许多列的spark数据帧。现在,我想将它们组合到一个地图中并构建一个新列。例如col1:String col2:String col3:String ... coln:String => col:Map(colname - &...

回答 2 投票 1

Spark 2.x数据集的Kryo序列化

使用Dataset API时是否仍需要Kryo序列化?因为数据集使用编码器进行序列化和反序列化:Kyro序列化是否适用于数据集? (...

回答 1 投票 7

了解Spark SQL的一些基础知识

我正在关注http://spark.apache.org/docs/latest/sql-programming-guide.html输入后:val df = spark.read.json(“examples / src / main / resources / people.json” )//显示...的内容

回答 2 投票 -1

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.