rdd 相关问题

弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。

将RDD初始化为空

我有一个名为JavaPairRDD的RDD >现有的RDD;现在我需要将这个现有的RDD初始化为空,这样当我得到实际的rdd时,我可以用这个联合...

回答 6 投票 16

spark rdd:分组和过滤

我有一个对象的Rdd“labResults”:case class LabResult(patientID:String,date:long,labName:String,value:String)我想转换这个rdd,使它每个只包含一行...

回答 1 投票 -1

在三个RDD中过滤JavaRDD?

我想基于特定的条件将JavaRdd过滤到三个不同的RDD。现在我正在阅读相同的rdd三次并过滤它。还有其他任何有效的方法来实现这一点...

回答 1 投票 0

在单独的RDD对象中应用lambda函数

我有一个包含以下值的rdd。 rdd_2 = sc.parallelize([('f3.txt','of',0.0),('f3.txt','no',0.00023241396735284342),('f3.txt','may',0.00042318717429693387),( 'f3.txt','...

回答 1 投票 1

我是否需要坚持不断更新的RDD?

我正在使用一个需要在循环中不断更新某些RDD的spark程序:var totalRandomPath:RDD [String] = null for iter

回答 1 投票 0

将RDD的每一行中的键值对列表转换为每行中的单个键值

我有一个RDD作为列表((a,b),(b,c))列表((d,e))我怎样才能得到它(a,b)(b,c)(d,e)我有试过RDD.flatMap(x => x),这不起作用,因为有一个键值对列表而不仅仅是...

回答 1 投票 -2

小文件是否会分布在JavaPairRDD中的分区上?

这可能是一个愚蠢的问题,但我无法理解文件如何跨分区分割。我的要求是从Hdfs位置读取10000个二进制文件(Bloom过滤器持久文件)并...

回答 1 投票 0

Spark读取多个文件:双引号替换为%22

我有要求在数据已更改的不同文件夹中读取随机json文件。所以我不能应用正则表达式来读取模式。我知道这些文件是哪些,我可以列出它们。但是当我形成时......

回答 1 投票 0

使用spark spark mapPartition时出错[重复]

所以我有这个代码val expanededDf = io.readInputs()。mapPartitions {(iter:Iterator [Row])=> {iter.map {(item:Row)=> {val myNewColumn = getUdf($“someColumnOriginal”)。 ..

回答 1 投票 0

测试在简单的RDD操作上失败

我目前正在尝试使用maven打包我的项目,但是,maven测试在一个简单的RDD操作上失败(抛出异常)。我使用的是Spark 2.3.0,Scala 2.11.8,JDK 8.代码:A类......

回答 2 投票 2

在Spark中构造区分矩阵

我正在尝试使用spark构建区分矩阵,并且我很困惑如何以最佳方式进行。我是新来的火花。我举了一个小例子,说明我在下面尝试做什么。区别的例子......

回答 1 投票 0

将spark scala数据集转换为特定的RDD格式

我有一个如下所示的数据框:+ -------------------- + ----------------- + |推荐| relevant_products | + -------------------- + ----------------- + | [12949,12499,71 ... | [...

回答 1 投票 0

在map中连接两个数组[row]元素

我有Array [Row]我正在使用case类来映射它以获取RDD案例类MyClass(s tring,long)sparkSession.sparkContext。 parallelize(row.map(r1 => MyClass(r1.getString(0).concat(r1 ....

回答 1 投票 0

Spark保存功能使用MapReduce

我试图弄清楚为什么saveAsText和更多一般的Spark保存功能似乎使用MapReduce。这是源代码:RDD.scala def saveAsTextFile(path:String):...

回答 1 投票 0

Spark:如何组合2个已排序的RDD,以便在联合后保留顺序?

我有2个排序的RDD:val rdd_a = some_pair_rdd.sortByKey()。 zipWithIndex.filter(f => f._2 <n)。 map(f => f._1)val rdd_b = another_pair_rdd.sortByKey(...

回答 2 投票 3

Spark - repartition()vs coalesce()

根据Learning Spark记住,重新分区数据是一项相当昂贵的操作。 Spark还有一个优化版本的repartition(),称为coalesce(),可以避免......

回答 10 投票 180

Spark:如何基于RDD中的其他两列元素将一列元素组合在一起

我有一个有3列的RDD(road_idx,snodeidx,enodeidx)。它看起来像这样:(roadidx_995,1138,1145)(roadidx_996,1138,1139)(roadidx_997,2740,1020)(roadidx_998,2762,2740)(roadidx_999,...

回答 1 投票 -6

如何并行累加器并将其保存为Spark中的文本文件

我有模式累加器,我想并行化,我该怎么做? val patternsAcc = sc.collectionAccumulator [List [Patern]](“Paterns Accumulator”)...... //无法并行化val result = sc ....

回答 1 投票 0

在Spark RDD中找到最新/最早的一天

我有一个m2 RDD,由案例类Medication(patientID:String,date:Date,medicine:String)组成,我需要找到第一天和最后一天。我试过val latest_date_m2 = m2.maxBy(_ .date)....

回答 1 投票 0

Apache spark:对的RDD示例

我有一个项目的RDD和一个函数d:(Item,Item)=> Double,它计算两个项目之间的距离。我试图计算从RDD中随机抽取的项目之间的平均距离....

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.