apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化,同时提供类型安全的编程接口。

将字段附加到JSON数据集Java-Spark

我正在使用Java-Spark将JSON加载到Dataset中,如下所示:Dataset df = spark.read()。json(jsonFile);假设我的JSON看起来像:{“field1”:{“key1”:“value1”} ...

回答 1 投票 -1

在Spark Structured Streaming中处理二进制数据

我正在使用Kafka和Spark Structured Streaming。我收到以下格式的kafka消息。 {“deviceId”:“001”,“sNo”:1,“data”:“aaaaa”} {“deviceId”:“002”,“sNo”:1,“data”:“bbbbb”} {“deviceId” :” ...

回答 1 投票 1

Spark CSV - 找不到实际参数的适用构造函数/方法

我在使用过滤器上的lambda函数和java spark应用程序中的类型化数据集的映射时遇到了问题。我收到此运行时错误错误CodeGenerator:无法编译:org.codehaus ....

回答 1 投票 1

Spark 2.2.0数据集中的输出不是可读格式

以下是我试图在intellij IDE上使用spark2.2.0执行的代码。但我得到的输出并不是以可读格式显示的。 val spark = SparkSession .builder()....

回答 1 投票 0

Spark:数据集序列化

如果我有一个数据集,每个记录都是一个案例类,我将如下所示保持该数据集,以便使用序列化:myDS.persist(StorageLevel.MERORY_ONLY_SER)Spark是否使用java / kyro ...

回答 3 投票 2

如何通过避免apache spark中的flatmap操作来提高性能

我正在针对我的java数据对象运行一组规则。对于每个项目,我正在处理规则列表。通常我有100万件物品和100条规则。目前正在运行此程序...

回答 1 投票 0

Spark从MongoDB读取并按objectId索引字段过滤

我正在尝试使用mongo-spark-connector 2.2.0从MongoDB读取数据集,并在_id字段上使用过滤器。例如:MongoSpark.loadAndInferSchema(session,ReadConfig.create(session))。filter(col(...

回答 1 投票 0

Spark能否直接将数据读入嵌套的案例类?

假设您有一个包含三列的CSV:item,username和userid。使用Spark的数据集API来读取它是一个相当简单的事情:case class Flat(item:String,username:String,userid:...

回答 1 投票 3

空值不在“org.zuinnote.spark.office.excel”包中写入

数据集 SourcePropertSet = sqlContext.read()。format(“com.crealytics.spark.excel”)。option(“location”,“E:\\ XLS \\ NEWFILE.xlsx”)。option(“useHeader”,“.. 。

回答 2 投票 1

Spark数据集和scala.ScalaReflectionException:类型V不是类

我有以下类:case class S1(value:String,ws:Map [Int,String])case class S2(value:String,ws:Map [Int,String],dep:BS)如上图所示,这两个有一个不同的领域......

回答 1 投票 1

获取Apache Spark Java中的整个数据集或仅列的摘要

对于下面的数据集,要获取Col1的总摘要值,我确实导入了org.apache.spark.sql.functions._ val totaldf = df.groupBy(“Col1”)。agg(lit(“Total”)。as(“ Col2“),sum(”price“)。as(”price“),sum(”...

回答 1 投票 -2

列摘要(在Spark数据集上实现多维数据集功能)

对于下面的数据集,我需要根据选定的列获取摘要数据样本数据集包含以下数据。 + --------- + ---------- + -------- + --------- + | Column1 | Column2 |支出| ...

回答 1 投票 0

获取第一个和最后一个项目而不使用两个连接

目前我有两个数据集,一个是父数据集,一个是子数据集。子数据集包含可以链接到父表的“parentId”列。子数据集保存有关某人的行为和父母的数据...

回答 1 投票 0

如何使用Spark-Xml生成复杂的XML

我正在尝试从我的JavaRDd <Book>和JavaRdd <Reviews>生成一个复杂的xml如何将这两个生成为xml以下生成?

回答 1 投票 4

从数据集中获取值 到.txt文件(使用Java)[重复]

我是新来的,所以我希望能帮助你并在可能的情况下得到帮助。我在Java中使用Spark SQL和ML Spark创建了一个Apache Spark项目。我已经完成了这个项目,但我有一些问题......

回答 1 投票 0

Spark中的DataFrame,Dataset和RDD之间的区别

我只是想知道Apache Spark中RDD和DataFrame(Spark 2.0.0 DataFrame只是Dataset [Row]的类型别名)有什么区别?你能把一个转换成另一个吗?

回答 14 投票 198

最新问题
© www.soinside.com 2019 - 2025. All rights reserved.