apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化,同时提供类型安全的编程接口。

Spark scala:java.lang.ClassCastException:java.lang.Integer无法转换为scala.collection.Seq

在以下代码中:def mapAppsToSparseVector(appFeatures:List [String],行:Row):SparseVector = {val vectorSize = appFeatures.length val索引= new ArrayBuffer [Int]()val值...

回答 1 投票 0

从Scala中其他2个数据集中的特定列创建新数据集

我下面有2个不同模式的数据集。 case class schema1(a:Double,b:Double)-> dataset1 case class schema2(c:Double,d:Double,e:Double,f:Double)-> dataset2我要创建...

回答 1 投票 0

将数组转换为Scala中的Spark数据集

我正在尝试从4个数组创建一个DataSet。我有这样的数组://数组1 val rawValues = rawData.select(collect_list(“ rawValue”))。first()。getList [Double](0).asScala.toArray //数组2 var ...

回答 1 投票 0

“未声明ValueArray”在包含哈希图的数据集上使用火花图函数时发生异常

我有一个类@Getter @Setter @NoArgsConstructor公共类TestInput实现了Serializable {private Map key1; }和json文件[{“ key1”:{“ key2”:“ key3”}}]我尝试......>

回答 1 投票 0

无法将Spark数据集收集为列表或地图,没有适用的构造函数错误

我有一个类@Getter @Setter @AllArgsConstructor @NoArgsConstructor公共类Store {私有字符串存储; }和json文件{“ probability”:“ 0.26”,“ store”:...

回答 1 投票 0

如何使用Java ReduceFunction合并到数据集

我在Java8中使用spark-sql-2.4.1v。我有两个数据集,我必须在java api的reduce()函数中合并它们。怎么办?

回答 1 投票 0


使用自定义接收器[Spark Streaming]从数据集中接收流数据

我是Spark的新手,它是小菜一碟!我有一种情况,我需要将数据集发送到自定义接收器的store(),然后从此自定义接收器流式传输数据。我正在以这种方式获取数据集...

回答 1 投票 2

迭代Spark数据集的行并在Java API中应用操作

Spark(2.4.x)的新功能,并且使用Java API(不是Scala !!!),我有一个从CSV文件读取的数据集。它具有如下所示的架构(命名列):id(整数)|名称(字符串)|颜色(...

回答 1 投票 0

Spark:对象不可序列化

我有一个批处理作业,我尝试将其转换为结构化流。我收到以下错误:20/03/31 15:09:23错误执行程序:阶段0.0(TID 0)java.io ....]中任务0.0中的异常。

回答 1 投票 1

将数据集转换为红色时,任务无法序列化的异常

我有如下所示的DataSet:dataset.show(10)|功能| + ----------- + | [14.378858] | | [14.388442] | | [14.384361] | | [14.386358] | | [14.390068] | | [14.423256] | | [14.425567] | | [14.434074] | | [...] >>

回答 1 投票 1

Spark:地图组和展平数组

我具有以下结构的数据集|年| id |数据| min_week | max_week || | 2017 | 1 | [32,21,34] | 1 | 3 || | 2017 | 2 | [132,121,134] | 1 | 3 || | 2018 | ...

回答 1 投票 0

Spark Dataset mapGroups操作后的值类型为二进制,甚至在函数中返回String

环境:Spark版本:2.3.0运行模式:本地Java版本:Java 8 spark应用程序尝试执行以下操作1)将输入数据转换为数据集[GenericRecord] 2)通过键进行分组...

回答 1 投票 -1


处理每一行以获取日期

我有一个使用year和mon01,mon02提取月份的文件,它们分别使用columname中的最后两个字符(即MON01-01)在各个月中的文本值长度(MON01,MON02 ..)与...的数目相同。

回答 2 投票 -2

如何创建[(行,行)]的数据集

我有一个接受Dataset [(Row,Row)]的函数,我正在尝试测试此功能,但是我不确定我如何创建一个具有Dataset [(Row,Row)]的数据集。尝试了以下内容,但是...

回答 1 投票 0

Spark BinaryType转换为Scala / Java

我正在使用带有以下数据的scala做一个spark应用:+ ---------- + -------------------- + | id |数据| + ---------- + -------------------- + | id1 | [AC ED 00 05 73 7 ... | | id2 ...

回答 1 投票 0

将Spark数据帧[行]转换为Map [String,Any]

[有什么方法可以将Spark数据框转换为数据集[Map [String,Any]],以便一旦将其转换为Map后,就可以在该行上执行地图端作业操作。文件的模式主要是易变的...

回答 1 投票 1

Mongo Spark Java连接器分组者

我正在从客户端移动应用程序在我的服务器上存储事件,事件存储为mongodb。我有mongo-spark连接器,可获取这些事件的列表,并应使用rest api显示它们。它...

回答 1 投票 0

是否有一种方法可以在Spark中通过一次计算写入两个数据集输出

我有一个火花作业,它读取dataFrame中的输入文件,进行一些计算,并生成两个经过处理和过滤的输出。数据集 输入= sparkSession.read()。parquet(inputPath); ...

回答 2 投票 1

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.