rdd 相关问题

弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。

将嵌入在Dataframe中的Row RDD转换为List

IPYNB我有Dataframe user_recommended,如图所示。建议coloumn是PySpark RDD,如下所示:在[10]中:user_recommended.recommendations [0] Out [10]:[Row(item = 0,...

回答 2 投票 0

加入RDD后删除括号

我正在加入大量的rdd,我想知道是否有一种删除在每个连接上创建的括号的通用方法。这是一个小样本:val rdd1 = sc ....

回答 1 投票 1

PySpark - sortByKey()方法以原始顺序从k,v对返回值

我需要能够从RDD返回(键,值)对的值列表,同时保持原始顺序。我在下面列出了我的解决方法,但我希望能够一次性完成所有工作。 ...

回答 1 投票 2

何时使用countByValue以及何时使用map()。reduceByKey()

我是Spark和scala的新手,并且正在研究一个简单的wordCount示例。所以我使用countByValue如下:val words = lines.flatMap(x => x.split(“\\ W +”))。map(x => x.toLowerCase())...

回答 3 投票 0

将PipelinedRDD转换为数据帧

我正在尝试将pyspark中的pipelinedRDD转换为数据帧。这是代码片段:newRDD = rdd.map(lambda row:Row(row .__ fields __ [“tag”])(row +(tagScripts(row),)))df = newRDD.toDF()...

回答 1 投票 0

Scala转型和行动

我有一个RDD List [(String,List [Int])]如List((“A”,List(1,2,3,4)),(“B”,List(5,6,7)))如何将它们转换为List((“A”,1),(“A”,2),(“A”,3),(“A”,4),(“B”,5),(“B” “,6),(”B“,7))然后行动将是......

回答 3 投票 0

Spark JavaRDD获得了作为JavaRDD返回的十个第一个值

我有一个JavaRDD JavaRDD ordered = ......;如名称所示,已经订购。我想采用前十个值(按降序排列):JavaRDD ...

回答 1 投票 0

Spark:GroupBy之后的TOPN

我有一个RDD P映射到类:case类MyRating(userId:Int,itemId:Int,rating:Double)我有兴趣为每个用户找到TopN条目,即GroupBy userId和每个形成的组,...

回答 5 投票 1

如何在Spark中加入之前正确应用HashPartitioner?

为了减少两个RDD加入过程中的混乱,我决定先使用HashPartitioner对它们进行分区。我就是这样做的。我正确地做了,还是有更好的方法来做到这一点? val ...

回答 1 投票 1

XavaRDD 秃鹰

我正在使用以下命令将txt文件作为JavaRDD读取:JavaRDD vertexRDD = ctx.textFile(pathVertex);现在,我想将其转换为JavaRDD,因为在那个txt文件中我...

回答 1 投票 1

不兼容的类型:列出CSVRecords java

我是Spark-Java的初学者,我想从Java 8中的List中获取一个subList。然后我将它转换为RDD。我在下面的代码中做到了:列表 inputRecords = readInputLayer(...

回答 1 投票 0

使用rdd(scala)进行MapReduce Spark数据处理

我有一个大数据,我想对这些数据使用mapRuduce,我没有找到任何任务。 (语言:Scala)这个过程的数据是:Y,20,01 G,18,40 J,19,10 D,50,10 R,20,01 Z,18,40 T,......

回答 1 投票 0

java.lang.StackOverflowError抛出spark-submit但不在IDE中运行

我开发了一个用于协同过滤的Spark 2.2应用程序。它在IntelliJ中可以正常运行或调试。我也可以输入Spark Web UI来检查进程。但是当我试图部署时......

回答 1 投票 0

从JavaRDD生成直方图

我正在尝试编写用于将Java RDD中的数据转换为直方图的代码,以便我可以以某种方式对数据进行分区。例如,对于我想要创建大小直方图的数据,我可以......

回答 1 投票 0

如何在Spark中按键分区RDD?

鉴于HashPartitioner文档说:[HashPartitioner]使用Java的Object.hashCode实现基于散列的分区。假设我想按类型对DeviceData进行分区。案例类DeviceData(...

回答 2 投票 9

将KVP中的RDD值转换为PySpark中的整数

我试图将我的RDD键值对中的列[2]值从字符串转换为整数,以便我能够将它们相加并计算平均值。我试图让列[2]自动...

回答 2 投票 0

Scala:如何从RDD获取PortableDataStream实例的内容

因为我想从binaryFiles中提取数据,所以我使用val dataRDD = sc.binaryRecord(“Path”)读取文件。我得到的结果为org.apache.spark.rdd.RDD [(String,org.apache.spark.input。 PortableDataStream)...

回答 1 投票 0

Spark / Scala更新另一个地图中变量的值?

在Spark中,我有一个最近的:org.apache.spark.rdd.RDD [(Int,(breeze.linalg.Vector [Double],Int))] = MapPartitionsRDD [476] at map at command-1043253026161724:1我想要计算总数......

回答 1 投票 0

如何使用Spark RDD进行批量提交?

我有很多项目的RDD,只需简化它们:[0,1,2,3,4,5,6,7,8,9]并将这些项目提交给批处理API(API.post(a []) )。但API限制最大批次(exp.3)。所以为了获得最佳性能,我需要......

回答 1 投票 -2

如何获得Spark RDD的第n行?

假设我有一个任意对象的RDD。我希望获得RDD的第10行(比如说)。我该怎么办?一种方法是使用rdd.take(n)然后访问第n个元素是对象,但是这个......

回答 3 投票 8

© www.soinside.com 2019 - 2024. All rights reserved.