rdd 相关问题

弹性分布式数据集（RDD）是一种分布式内存抽象，允许程序员在大型集群上执行内存计算，同时保留MapReduce等数据流模型的容错能力。

根据spark中的模式匹配加载文件

我有31个输入文件，命名从date = 2018-01-01到date = 2018-01-31。我能够以这种方式将所有这些文件加载到rdd中：val input = sc.textFile（“hdfs：// user / cloudera / date = *”）但是...

scala apache-spark rdd

回答 2 投票 2

PySpark RDD到数据帧，带有元组和字典列表

我在pyspark中处理了一些数据，它是一个具有这种结构的RDD [（u'991'，{'location'：'Australia'，'Age'：'27'，'Color'：Pink}），（u '993'，{'location'：'新加坡'，'年龄'：'55'，'......

python dictionary apache-spark dataframe rdd

回答 1 投票 0

如何打印已加入的RDD结果

我有两个RDD：scala> mgrMap.take（5）.foreach（println）（1，Cliff）（2，Raj）（3，Alim）（4，Jose）（5，Jeff）和salMap.take（5） .foreach（println）（1,100）（2,200）（3,300）（4,400）（5,500）我加入了他们......

scala rdd

回答 1 投票 0

Pyspark UDF for Dataframe vs RDD

我的数据帧的架构是：root | - _10：string（nullable = true）| - _11：string（nullable = true）| - _12：string（nullable = true）| - _13：string（nullable =真）| --...

python apache-spark pyspark spark-dataframe rdd

回答 1 投票 0

当Spark从S3读取大文件时，可以将数据分发到不同的节点

假设我在S3上有一个大型数据文件，并希望将其加载到Spark集群以执行某些数据处理。当我使用sc.textFile（filepath）将文件加载到RDD时，我的集群中的每个节点都将...

apache-spark amazon-s3 rdd

回答 1 投票 0

从可变长度CSV到对RDD的Spark转换

我是scala spark的新手，我有一个CSV文件，如下所示。 R001，A，10，C，30，D，50，X，90 R002，E，40，F，70，G，80，H，90，J，25 R003，L，30，M，54，N， 67，O，25，P，85，Q，100如何转换......

scala apache-spark rdd

回答 3 投票 2

循环RDD以使用Scala在Spark中创建图形

尝试循环使用RDD并使用每条记录上的数据创建Graphs。代码是这样的：bigjoin具有结构RDD [（String，List [（Long，Long）]）] bigjoin.foreach（a => {...

rdd spark-graphx

回答 1 投票 0

循环遍历大型数据帧并执行sql

我有一个大文件（~5GB），我已加载到数据帧中。现在我必须从每一行获取一个值（fid）并获取同一数据帧中的相应行。 var references = df.sqlContext.sql（...

scala apache-spark rdd

回答 1 投票 0

JMS消息使用RDD来确保仅用于确认目的的安全性

我理解JMS会话不是线程安全的。但是，如果我尝试确认在Spark RDD上“存储”的Message对象，会话是否实际同时被访问？怎么 ...

apache-spark concurrency jms rdd distributed-system

回答 1 投票 0

Spark / Scala Rdd和DataFrame的groupBy函数之间的任何工作差异[重复]

我已经检查过并且有点好奇了解RDD和DataFrame的groupBy函数。是否有任何性能差异或其他？请建议。

apache-spark dataframe spark-dataframe rdd

回答 1 投票 0

Scala - 为什么函数返回Unit而不是RDD？ [重复]

当我实现该功能时，我希望它返回一个RDD。并可能稍后将其收集到List。但为什么它会返回Unit呢？我应该在实施中做些什么来改变它...

scala apache-spark rdd

回答 1 投票 -1

如何在Spark中将大量文件加载到一个RDD中

我使用saveAsTextFile方法来保存RDD，但它不在文件中，而是有许多部分文件如下图所示。所以，我的问题是如何将这些文件重新加载到一个RDD中。

apache-spark hdfs rdd

回答 2 投票 0

Scala组合功能问题

我有一个这样的输入文件：莎士比亚的作品，威廉·莎士比亚语言：英语和我想使用flatMap和组合方法来获得每行的K-V对。这是什么 ...

scala apache-spark rdd

回答 1 投票 0

Spark中的DataFrame，Dataset和RDD之间的区别

我只是想知道Apache Spark中RDD和DataFrame（Spark 2.0.0 DataFrame只是Dataset [Row]的类型别名）有什么区别？你能把一个转换成另一个吗？

apache-spark apache-spark-sql rdd apache-spark-dataset

回答 14 投票 198

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.