rdd 相关问题

弹性分布式数据集（RDD）是一种分布式内存抽象，允许程序员在大型集群上执行内存计算，同时保留MapReduce等数据流模型的容错能力。

我有一个名为JavaPairRDD的RDD >现有的RDD;现在我需要将这个现有的RDD初始化为空，这样当我得到实际的rdd时，我可以用这个联合...

java apache-spark rdd

回答 6 投票 16

我有一个对象的Rdd“labResults”：case class LabResult（patientID：String，date：long，labName：String，value：String）我想转换这个rdd，使它每个只包含一行...

scala apache-spark rdd

回答 1 投票 -1

在三个RDD中过滤JavaRDD？

我想基于特定的条件将JavaRdd过滤到三个不同的RDD。现在我正在阅读相同的rdd三次并过滤它。还有其他任何有效的方法来实现这一点...

apache-spark rdd

回答 1 投票 0

在单独的RDD对象中应用lambda函数

我有一个包含以下值的rdd。 rdd_2 = sc.parallelize（[（'f3.txt'，'of'，0.0），（'f3.txt'，'no'，0.00023241396735284342），（'f3.txt'，'may'，0.00042318717429693387），（ 'f3.txt'，'...

lambda pyspark rdd

回答 1 投票 1

我是否需要坚持不断更新的RDD？

我正在使用一个需要在循环中不断更新某些RDD的spark程序：var totalRandomPath：RDD [String] = null for iter

scala apache-spark hadoop rdd

回答 1 投票 0

将RDD的每一行中的键值对列表转换为每行中的单个键值

我有一个RDD作为列表（（a，b），（b，c））列表（（d，e））我怎样才能得到它（a，b）（b，c）（d，e）我有试过RDD.flatMap（x => x），这不起作用，因为有一个键值对列表而不仅仅是...

scala apache-spark rdd

回答 1 投票 -2

小文件是否会分布在JavaPairRDD中的分区上？

这可能是一个愚蠢的问题，但我无法理解文件如何跨分区分割。我的要求是从Hdfs位置读取10000个二进制文件（Bloom过滤器持久文件）并...

apache-spark apache-spark-sql rdd apache-spark-dataset

回答 1 投票 0

Spark读取多个文件：双引号替换为％22

我有要求在数据已更改的不同文件夹中读取随机json文件。所以我不能应用正则表达式来读取模式。我知道这些文件是哪些，我可以列出它们。但是当我形成时......

json scala apache-spark apache-spark-sql rdd

回答 1 投票 0

使用spark spark mapPartition时出错[重复]

所以我有这个代码val expanededDf = io.readInputs（）。mapPartitions {（iter：Iterator [Row]）=> {iter.map {（item：Row）=> {val myNewColumn = getUdf（$“someColumnOriginal”）。 ..

scala apache-spark rdd user-defined-functions

回答 1 投票 0

测试在简单的RDD操作上失败

我目前正在尝试使用maven打包我的项目，但是，maven测试在一个简单的RDD操作上失败（抛出异常）。我使用的是Spark 2.3.0，Scala 2.11.8，JDK 8.代码：A类......

scala maven apache-spark rdd scalatest

回答 2 投票 2

在Spark中构造区分矩阵

我正在尝试使用spark构建区分矩阵，并且我很困惑如何以最佳方式进行。我是新来的火花。我举了一个小例子，说明我在下面尝试做什么。区别的例子......

scala apache-spark rdd

回答 1 投票 0

将spark scala数据集转换为特定的RDD格式

我有一个如下所示的数据框：+ -------------------- + ----------------- + |推荐| relevant_products | + -------------------- + ----------------- + | [12949,12499,71 ... | [...

scala rdd apache-spark-dataset

回答 1 投票 0

在map中连接两个数组[row]元素

我有Array [Row]我正在使用case类来映射它以获取RDD案例类MyClass（s tring，long）sparkSession.sparkContext。 parallelize（row.map（r1 => MyClass（r1.getString（0）.concat（r1 ....

string apache-spark concatenation rdd case-class

回答 1 投票 0

Spark保存功能使用MapReduce

我试图弄清楚为什么saveAsText和更多一般的Spark保存功能似乎使用MapReduce。这是源代码：RDD.scala def saveAsTextFile（path：String）：...

apache-spark mapreduce rdd

回答 1 投票 0

Spark：如何组合2个已排序的RDD，以便在联合后保留顺序？

我有2个排序的RDD：val rdd_a = some_pair_rdd.sortByKey（）。 zipWithIndex.filter（f => f._2 <n）。 map（f => f._1）val rdd_b = another_pair_rdd.sortByKey（...

scala apache-spark rdd

回答 2 投票 3

Spark - repartition（）vs coalesce（）

根据Learning Spark记住，重新分区数据是一项相当昂贵的操作。 Spark还有一个优化版本的repartition（），称为coalesce（），可以避免......

apache-spark distributed-computing rdd

回答 10 投票 180

Spark：如何基于RDD中的其他两列元素将一列元素组合在一起

我有一个有3列的RDD（road_idx，snodeidx，enodeidx）。它看起来像这样：（roadidx_995,1138,1145）（roadidx_996,1138,1139）（roadidx_997,2740,1020）（roadidx_998,2762,2740）（roadidx_999，...

scala apache-spark pyspark rdd

回答 1 投票 -6

如何并行累加器并将其保存为Spark中的文本文件

我有模式累加器，我想并行化，我该怎么做？ val patternsAcc = sc.collectionAccumulator [List [Patern]]（“Paterns Accumulator”）...... //无法并行化val result = sc ....

apache-spark rdd accumulator

回答 1 投票 0

在Spark RDD中找到最新/最早的一天

我有一个m2 RDD，由案例类Medication（patientID：String，date：Date，medicine：String）组成，我需要找到第一天和最后一天。我试过val latest_date_m2 = m2.maxBy（_ .date）....

scala apache-spark rdd

回答 1 投票 0

Apache spark：对的RDD示例

我有一个项目的RDD和一个函数d：（Item，Item）=> Double，它计算两个项目之间的距离。我试图计算从RDD中随机抽取的项目之间的平均距离....