apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化,同时提供类型安全的编程接口。

如何使用火花统计?

我正在使用spark-sql-2.4.1v,并且我试图在给定数据的每一列上找到分位数,即百分位数0,百分位数25等。当我在做多个百分位数时,如何检索每个...

回答 1 投票 0

如何使用spark statsroxQuantile函数?

我正在使用spark-sql-2.4.1v,并且我试图在给定数据的每一列上找到分位数,即百分位数0,百分位数25等。当我在做多个百分位数时,如何检索每个...

回答 1 投票 1

如何使用火花统计功能

我使用spark-sql-2.4.1v,我正在尝试在给定数据的每一列上找到分位数,即precentile 0,precentile 25等。当我做多个precentiles时,如何检索每个...

回答 1 投票 0

[在Scala中使用joinWith时如何仅返回左侧

所以我有以下内容,而我尝试使用joinWith,而我只想在左侧进行操作,然后我想在该DataFrame上运行一个函数,我正在执行以下操作,但它不起作用val。 ..

回答 1 投票 0

如何测试返回Dataset [String,T]的函数

你好,我有以下函数返回一个数据集[(String,SubsidiariesImpactedStage)]:def reduceSubsidiaries(dsSubsidiaries:Dataset [SubsidiariesImpactedStage]):Dataset [(String,...

回答 1 投票 -1

为什么创建自定义案例类的数据集时“为什么找不到用于存储在数据集中的类型的编码器?

Spark 2.0(最终版)与Scala 2.11.8。以下超级简单代码产生编译错误Error:(17,45)无法找到存储在数据集中的类型的编码器。基本类型(Int,String等)...

回答 3 投票 53

使用自己的方法修改Spark中数据集的var类型

以下是我面临的问题的最小示例。我有一个要修改的数组,因为它有大约一百万个元素。以下代码有效,除了最后一个...

回答 1 投票 0

Spark数据集方法是否会序列化计算本身?

我有一个包含多列的数据集。需要调用一个函数以使用一行中可用的数据来计算结果。因此,我将案例类与方法结合使用,并使用该案例创建了数据集。 ...

回答 1 投票 -1

将Java对象读取为Scala spark中的DataSet

我有一个HDFS路径,其中包含Java对象(例如Obj1)编写的数据,我想在我的Spark Scala代码中读取此路径,并将其作为Obj1的数据集读取。一种方法是读取HDFS ...

回答 1 投票 0

如何创建数据集或将其转换为数据集[行]

您好,我试图测试以下将Dataset [Row]作为参数的函数def getReducedSubsidiaries(dsSubsidiaries:Dataset [Row])(隐式spark:SparkSession):Dataset [...

回答 1 投票 0

处理Spark数据帧/数据集中的重复数据

我是Spark和Scala的新手,即使阅读了各种文档,我仍然找不到解决问题的最佳方法。我有一个相当大的数据集(〜TB),可以将其加载到数据帧中...

回答 1 投票 0

Spark DataFrame / Dataset查找每种键有效方式的最常用值

问题:我在使用Spark来映射Spark中键的最常见值时遇到问题。我已经用RDD完成了,但是不知道如何有效地处理DF / DS(sparksql)数据集,就像key1 = value_a ...

回答 1 投票 1

如何联接Spark数据集A和B并标记A中未联接的记录?

我有两个分别为TypeA和TypeB的数据集A和B。然后,我基于列(称为“键”)加入数据集,以获取数据集C。此后,我需要丢弃数据集A中的事件,......>

回答 1 投票 -1

为什么使用Spark Dataset.select替换列值

Dataset ds = ..... ds = ds.select(“ cola”,“ colb”); ds.show(); DS已正确加载。 DS包含多个列。我要选择“可乐”和“ colb”专栏。这些列确实存在,...

回答 1 投票 0

无法解析符号mapValue

我在哪里出错了这个错误。我是火花新手,请提供帮助。如何在RDD包com.udemyexamples import org.apache.spark.sql.SparkSession对象上使用mapValues ...

回答 1 投票 -2

无法将`ordId`从字符串转换为int,因为它可能会截断

我正在尝试读取一个小的文件作为数据集,但是它给出了错误“无法将ordId从字符串强制转换为int,因为它可能会被截断”。这是代码:object Main {case class Orders(ordId:...

回答 1 投票 -1

Spark:如何使用Avro模式创建数据集?

我有一组avro文件,它们以.avsc文件中定义的已知模式保存在aws S3中。有没有一种方法可以使用定义的模式在spark中创建对象的数据集?模式如下:{“ ...

回答 1 投票 0

将所有新行转换为带有Scala的Spark中的新列

我有一个数据框,其固定列为m1_amt到m4_amt,其中包含以下格式的数据:+ ------ + ---------- + --------- -+ ---------- + ----------- + |实体| m1_amt | m2_amt | m3_amt | ...

回答 2 投票 1

在spark数据集中检索列的特定行号数据

我有如下数据集+ --------- + |第1列| + --------- + | ABC | + --------- + | DEF | + --------- + | GHI | + --------- + | JKL | + --------- + | MNO | + --------- +现在,如果需要...

回答 1 投票 0


最新问题
© www.soinside.com 2019 - 2025. All rights reserved.