apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化，同时提供类型安全的编程接口。

Spark scala：java.lang.ClassCastException：java.lang.Integer无法转换为scala.collection.Seq

在以下代码中：def mapAppsToSparseVector（appFeatures：List [String]，行：Row）：SparseVector = {val vectorSize = appFeatures.length val索引= new ArrayBuffer [Int]（）val值...

scala apache-spark apache-spark-dataset

回答 1 投票 0

从Scala中其他2个数据集中的特定列创建新数据集

我下面有2个不同模式的数据集。 case class schema1（a：Double，b：Double）-> dataset1 case class schema2（c：Double，d：Double，e：Double，f：Double）-> dataset2我要创建...

scala apache-spark apache-spark-dataset

回答 1 投票 0

将数组转换为Scala中的Spark数据集

我正在尝试从4个数组创建一个DataSet。我有这样的数组：//数组1 val rawValues = rawData.select（collect_list（“ rawValue”））。first（）。getList [Double]（0）.asScala.toArray //数组2 var ...

arrays scala apache-spark apache-spark-dataset

回答 1 投票 0

“未声明ValueArray”在包含哈希图的数据集上使用火花图函数时发生异常

我有一个类@Getter @Setter @NoArgsConstructor公共类TestInput实现了Serializable {private Map key1; }和json文件[{“ key1”：{“ key2”：“ key3”}}]我尝试......>

apache-spark apache-spark-dataset

回答 1 投票 0

无法将Spark数据集收集为列表或地图，没有适用的构造函数错误

我有一个类@Getter @Setter @AllArgsConstructor @NoArgsConstructor公共类Store {私有字符串存储； }和json文件{“ probability”：“ 0.26”，“ store”：...

apache-spark apache-spark-dataset

回答 1 投票 0

如何使用Java ReduceFunction合并到数据集

我在Java8中使用spark-sql-2.4.1v。我有两个数据集，我必须在java api的reduce（）函数中合并它们。怎么办？

java apache-spark apache-spark-dataset

回答 1 投票 0

Spark scala cassandra保存/更新

scala cassandra timestamp save apache-spark-dataset

回答 1 投票 0

使用自定义接收器[Spark Streaming]从数据集中接收流数据

我是Spark的新手，它是小菜一碟！我有一种情况，我需要将数据集发送到自定义接收器的store（），然后从此自定义接收器流式传输数据。我正在以这种方式获取数据集...

java apache-spark apache-spark-sql spark-streaming apache-spark-dataset

回答 1 投票 2

迭代Spark数据集的行并在Java API中应用操作

Spark（2.4.x）的新功能，并且使用Java API（不是Scala ！！！），我有一个从CSV文件读取的数据集。它具有如下所示的架构（命名列）：id（整数）|名称（字符串）|颜色（...

java apache-spark apache-spark-dataset

回答 1 投票 0

Spark：对象不可序列化

我有一个批处理作业，我尝试将其转换为结构化流。我收到以下错误：20/03/31 15:09:23错误执行程序：阶段0.0（TID 0）java.io ....]中任务0.0中的异常。

scala apache-spark spark-structured-streaming apache-spark-dataset

回答 1 投票 1

将数据集转换为红色时，任务无法序列化的异常

我有如下所示的DataSet：dataset.show（10）|功能| + ----------- + | [14.378858] | | [14.388442] | | [14.384361] | | [14.386358] | | [14.390068] | | [14.423256] | | [14.425567] | | [14.434074] | | [...] >>

scala dataframe apache-spark rdd apache-spark-dataset

回答 1 投票 1

Spark：地图组和展平数组

我具有以下结构的数据集|年| id |数据| min_week | max_week || | 2017 | 1 | [32,21,34] | 1 | 3 || | 2017 | 2 | [132，121，134] | 1 | 3 || | 2018 | ...

apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

Spark Dataset mapGroups操作后的值类型为二进制，甚至在函数中返回String

环境：Spark版本：2.3.0运行模式：本地Java版本：Java 8 spark应用程序尝试执行以下操作1）将输入数据转换为数据集[GenericRecord] 2）通过键进行分组...

apache-spark apache-spark-dataset spark-avro apache-spark-encoders

回答 1 投票 -1

如何根据另一个数据集中的值有效地映射一个数据集中的键

scala apache-spark apache-spark-sql apache-spark-dataset data-transform

回答 1 投票 0

处理每一行以获取日期

我有一个使用year和mon01，mon02提取月份的文件，它们分别使用columname中的最后两个字符（即MON01-01）在各个月中的文本值长度（MON01，MON02 ..）与...的数目相同。

scala apache-spark apache-spark-sql rdd apache-spark-dataset

回答 2 投票 -2

如何创建[（行，行）]的数据集

我有一个接受Dataset [（Row，Row）]的函数，我正在尝试测试此功能，但是我不确定我如何创建一个具有Dataset [（Row，Row）]的数据集。尝试了以下内容，但是...

scala apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

Spark BinaryType转换为Scala / Java

我正在使用带有以下数据的scala做一个spark应用：+ ---------- + -------------------- + | id |数据| + ---------- + -------------------- + | id1 | [AC ED 00 05 73 7 ... | | id2 ...

scala apache-spark apache-spark-dataset

回答 1 投票 0

将Spark数据帧[行]转换为Map [String，Any]

[有什么方法可以将Spark数据框转换为数据集[Map [String，Any]]，以便一旦将其转换为Map后，就可以在该行上执行地图端作业操作。文件的模式主要是易变的...

scala apache-spark apache-spark-sql databricks apache-spark-dataset

回答 1 投票 1

Mongo Spark Java连接器分组者

我正在从客户端移动应用程序在我的服务器上存储事件，事件存储为mongodb。我有mongo-spark连接器，可获取这些事件的列表，并应使用rest api显示它们。它...

spring-boot apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

是否有一种方法可以在Spark中通过一次计算写入两个数据集输出

我有一个火花作业，它读取dataFrame中的输入文件，进行一些计算，并生成两个经过处理和过滤的输出。数据集输入= sparkSession.read（）。parquet（inputPath）; ...