rdd 相关问题

给出[('项目', 10), ("Alice's", 11), ('in', 401), ('Wonderland,', 3), ('Lewis', 10), ('Carroll', 4), ('', 2238), ('is', 10), ('use', 24), ('of', 596), ('anyone', 4), ('anywhere', 3), ...。

python apache-spark filter pyspark rdd

回答 2 投票 1

如何从Rdd中过滤数据，并将其保存到文本文件中，在spark中使用scala。

我有两个TSV格式的数据集。我想在spark scala中读取两个TSV文件并进行分析。文件1有8月数据和文件2有9月数据。我如何读取这两个tsv文件使用scala在... ...

scala apache-spark rdd

回答 1 投票 0

在PySpark中使用RDDs计算列表中的数值。

我陷入了一个寻找每个城市的每个工资数的问题，我只用RDDs来解决这个问题，这意味着没有使用DF，也没有使用任何库中的函数。

python apache-spark pyspark rdd

回答 1 投票 -1

Apache Spark安然数据集

我正试图在apache spark上分析安然数据集。我想提取电子邮件从和到。首先创建和rdd使用以下函数：def utf8_decode_and_filter(rdd): def utf_decode(s): ...

python apache-spark pyspark rdd

回答 1 投票 -1

数据框架到RDD这段代码无法工作。

我试图读取数据框架的每一行，并将行数据转换为自定义Bean类。但问题是，代码没有被执行。为了检查，我写了多个打印语句......。

scala apache-spark apache-spark-sql rdd

回答 1 投票 -2

pyspark的fold函数中中性零值是什么意思？

以下是来自 operator import add 的代码片段 iris1 = sc.textFile(".datasetiris_site.csv") iris1_split = iris1.map(lambda var1: var1.split(",")) iris1_split.map(lambda col:float(col[0])).fold(0,...)

python python-3.x apache-spark pyspark rdd

回答 1 投票 0

如何在 spark scala 中用换行符替换双引号？

我是新的火花。我有一个巨大的文件，里面的数据是--18765967790@18765967790@T@20130629@00@31@2981546 " "18765967790@18765967790@T@20130629@19@18@3240165 " "18765967790@18765967790@T@20130629@......" 。

scala apache-spark apache-spark-sql rdd

回答 1 投票 0

如何使用 pyspark RDD 对数据进行分区、排名和排序？

我使用pyspark，有一个RDD，格式如下。RDD1 = (年龄, 代码, 计数) 我需要找到每个年龄段的最高计数的代码. 我在一个数据框架中使用......完成了这个工作。

pyspark rdd

回答 1 投票 0

Java Spark - 在RDD中根据列数过滤记录的问题。

这是一个不同的问题，我试图根据列数来过滤RDD中的记录。这更像是一个文件处理。我在Pyspark中写了同样的内容，我看到记录是...

java apache-spark rdd

回答 1 投票 0

在spark中，RDD、Dataframe、Dataset中哪个更好地进行avro列式操作？

我们有一个用例，我们需要在avro数据集上进行一些列式转换。我们以前一直到现在都在运行MR作业，现在想探索spark。我正在浏览一些教程，但不确定......