rdd 相关问题

我有一个RDD List [（String，List [Int]）]如List（（“A”，List（1,2,3,4）），（“B”，List（5,6,7）））如何将它们转换为List（（“A”，1），（“A”，2），（“A”，3），（“A”，4），（“B”，5），（“B” “，6），（”B“，7））然后行动将是......

scala apache-spark rdd

回答 3 投票 0

Spark JavaRDD获得了作为JavaRDD返回的十个第一个值

我有一个JavaRDD JavaRDD ordered = ......;如名称所示，已经订购。我想采用前十个值（按降序排列）：JavaRDD ...

java apache-spark rdd

回答 1 投票 0

Spark：GroupBy之后的TOPN

我有一个RDD P映射到类：case类MyRating（userId：Int，itemId：Int，rating：Double）我有兴趣为每个用户找到TopN条目，即GroupBy userId和每个形成的组，...

scala apache-spark rdd

回答 5 投票 1

如何在Spark中加入之前正确应用HashPartitioner？

为了减少两个RDD加入过程中的混乱，我决定先使用HashPartitioner对它们进行分区。我就是这样做的。我正确地做了，还是有更好的方法来做到这一点？ val ...

scala apache-spark rdd partitioner

回答 1 投票 1

XavaRDD 秃鹰

我正在使用以下命令将txt文件作为JavaRDD读取：JavaRDD vertexRDD = ctx.textFile（pathVertex）;现在，我想将其转换为JavaRDD，因为在那个txt文件中我...

java apache-spark rdd

回答 1 投票 1

不兼容的类型：列出CSVRecords java

我是Spark-Java的初学者，我想从Java 8中的List中获取一个subList。然后我将它转换为RDD。我在下面的代码中做到了：列表 inputRecords = readInputLayer（...

java list apache-spark rdd

回答 1 投票 0

使用rdd（scala）进行MapReduce Spark数据处理

我有一个大数据，我想对这些数据使用mapRuduce，我没有找到任何任务。（语言：Scala）这个过程的数据是：Y，20,01 G，18,40 J，19,10 D，50,10 R，20,01 Z，18,40 T，......

scala apache-spark mapreduce rdd

回答 1 投票 0

java.lang.StackOverflowError抛出spark-submit但不在IDE中运行

我开发了一个用于协同过滤的Spark 2.2应用程序。它在IntelliJ中可以正常运行或调试。我也可以输入Spark Web UI来检查进程。但是当我试图部署时......

scala apache-spark stack-overflow rdd data-lineage

回答 1 投票 0

从JavaRDD生成直方图

我正在尝试编写用于将Java RDD中的数据转换为直方图的代码，以便我可以以某种方式对数据进行分区。例如，对于我想要创建大小直方图的数据，我可以......

apache-spark rdd

回答 1 投票 0

如何在Spark中按键分区RDD？

鉴于HashPartitioner文档说：[HashPartitioner]使用Java的Object.hashCode实现基于散列的分区。假设我想按类型对DeviceData进行分区。案例类DeviceData（...

scala apache-spark rdd

回答 2 投票 9

将KVP中的RDD值转换为PySpark中的整数

我试图将我的RDD键值对中的列[2]值从字符串转换为整数，以便我能够将它们相加并计算平均值。我试图让列[2]自动...

python type-conversion integer pyspark rdd

回答 2 投票 0

Scala：如何从RDD获取PortableDataStream实例的内容

因为我想从binaryFiles中提取数据，所以我使用val dataRDD = sc.binaryRecord（“Path”）读取文件。我得到的结果为org.apache.spark.rdd.RDD [（String，org.apache.spark.input。 PortableDataStream）...

scala apache-spark rdd

回答 1 投票 0

Spark / Scala更新另一个地图中变量的值？

在Spark中，我有一个最近的：org.apache.spark.rdd.RDD [（Int，（breeze.linalg.Vector [Double]，Int））] = MapPartitionsRDD [476] at map at command-1043253026161724：1我想要计算总数......

scala apache-spark rdd

回答 1 投票 0

如何使用Spark RDD进行批量提交？

我有很多项目的RDD，只需简化它们：[0,1,2,3,4,5,6,7,8,9]并将这些项目提交给批处理API（API.post（a []））。但API限制最大批次（exp.3）。所以为了获得最佳性能，我需要......

apache-spark rdd

回答 1 投票 -2

如何获得Spark RDD的第n行？

假设我有一个任意对象的RDD。我希望获得RDD的第10行（比如说）。我该怎么办？一种方法是使用rdd.take（n）然后访问第n个元素是对象，但是这个......

hadoop apache-spark rdd

回答 3 投票 8

rdd 相关问题

最新问题