apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化，同时提供类型安全的编程接口。

我正在使用Java-Spark将JSON加载到Dataset中，如下所示：Dataset df = spark.read（）。json（jsonFile）;假设我的JSON看起来像：{“field1”：{“key1”：“value1”} ...

apache-spark apache-spark-dataset

回答 1 投票 -1

在Spark Structured Streaming中处理二进制数据

我正在使用Kafka和Spark Structured Streaming。我收到以下格式的kafka消息。 {“deviceId”：“001”，“sNo”：1，“data”：“aaaaa”} {“deviceId”：“002”，“sNo”：1，“data”：“bbbbb”} {“deviceId” ：” ...

java apache-spark spark-streaming apache-spark-dataset

回答 1 投票 1

Spark CSV - 找不到实际参数的适用构造函数/方法

我在使用过滤器上的lambda函数和java spark应用程序中的类型化数据集的映射时遇到了问题。我收到此运行时错误错误CodeGenerator：无法编译：org.codehaus ....

java apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 1

Spark 2.2.0数据集中的输出不是可读格式

以下是我试图在intellij IDE上使用spark2.2.0执行的代码。但我得到的输出并不是以可读格式显示的。 val spark = SparkSession .builder（）....

apache-spark apache-spark-dataset apache-spark-2.0

回答 1 投票 0

Spark：数据集序列化

如果我有一个数据集，每个记录都是一个案例类，我将如下所示保持该数据集，以便使用序列化：myDS.persist（StorageLevel.MERORY_ONLY_SER）Spark是否使用java / kyro ...

scala apache-spark serialization apache-spark-dataset

回答 3 投票 2

如何通过避免apache spark中的flatmap操作来提高性能

我正在针对我的java数据对象运行一组规则。对于每个项目，我正在处理规则列表。通常我有100万件物品和100条规则。目前正在运行此程序...

java apache-spark apache-spark-dataset

回答 1 投票 0

Spark从MongoDB读取并按objectId索引字段过滤

我正在尝试使用mongo-spark-connector 2.2.0从MongoDB读取数据集，并在_id字段上使用过滤器。例如：MongoSpark.loadAndInferSchema（session，ReadConfig.create（session））。filter（col（...

mongodb apache-spark apache-spark-dataset

回答 1 投票 0

Spark能否直接将数据读入嵌套的案例类？

假设您有一个包含三列的CSV：item，username和userid。使用Spark的数据集API来读取它是一个相当简单的事情：case class Flat（item：String，username：String，userid：...

scala apache-spark apache-spark-dataset

回答 1 投票 3

空值不在“org.zuinnote.spark.office.excel”包中写入

数据集 SourcePropertSet = sqlContext.read（）。format（“com.crealytics.spark.excel”）。option（“location”，“E：\\ XLS \\ NEWFILE.xlsx”）。option（“useHeader”，“.. 。

java sql excel apache-spark apache-spark-dataset

回答 2 投票 1

Spark数据集和scala.ScalaReflectionException：类型V不是类

我有以下类：case class S1（value：String，ws：Map [Int，String]）case class S2（value：String，ws：Map [Int，String]，dep：BS）如上图所示，这两个有一个不同的领域......

scala apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 1

获取Apache Spark Java中的整个数据集或仅列的摘要

对于下面的数据集，要获取Col1的总摘要值，我确实导入了org.apache.spark.sql.functions._ val totaldf = df.groupBy（“Col1”）。agg（lit（“Total”）。as（“ Col2“），sum（”price“）。as（”price“），sum（”...

apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 -2

列摘要（在Spark数据集上实现多维数据集功能）

对于下面的数据集，我需要根据选定的列获取摘要数据样本数据集包含以下数据。 + --------- + ---------- + -------- + --------- + | Column1 | Column2 |支出| ...

scala apache-spark apache-spark-sql rdd apache-spark-dataset

回答 1 投票 0

获取第一个和最后一个项目而不使用两个连接

目前我有两个数据集，一个是父数据集，一个是子数据集。子数据集包含可以链接到父表的“parentId”列。子数据集保存有关某人的行为和父母的数据...

apache-spark spark-dataframe apache-spark-dataset

回答 1 投票 0

如何使用Spark-Xml生成复杂的XML

我正在尝试从我的JavaRDd <Book>和JavaRdd <Reviews>生成一个复杂的xml如何将这两个生成为xml以下生成？