rdd 相关问题

弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。

如何获取 Spark DataFrame 中每行列表中最高值的索引? [PySpark]

我已经完成了LDA主题建模并将其存储在lda_model中。 转换原始输入数据集后,我检索一个 DataFrame。其中一列是主题分布,其中概率...

回答 2 投票 0

使用 Spark RDD 与 DF 读取文件

我有一个2MB的文件,当我使用它读取它时 df = Spark.read.option("inferSchema", "true").csv("hdfs:///data/ml-100k/u.data", sep=" ") df.rdd.getNumPartitions() #

回答 1 投票 0

如何在 Spark 中从文本文件创建 DataFrame

我在 HDFS 上有一个文本文件,我想将其转换为 Spark 中的数据帧。 我正在使用 Spark 上下文加载文件,然后尝试从该文件生成各个列。 val myFile...

回答 9 投票 0

线性 RDD 图仅显示两个数据点

我尝试运行以下代码: 数据(房屋) house_rdd = rdd_data(x=x, y=y, 数据=房子, 切点=0) 摘要(house_rdd) 情节(house_rdd) 当我绘制它时,我明白了这一点,这是有道理的。

r rdd
回答 1 投票 0

我无法使用 PySpark 将 RDD 对象保存到文本文件中

我正在尝试创建一个 Spark 程序来从 airport.text 文件中读取机场数据,查找位于美国的所有机场并将机场名称和城市名称输出到

回答 1 投票 0

如何在spark中将Avro Schema对象转换为StructType

我有一个 Row 类型的 RDD,即 RDD[Row] 和 avro 模式对象。我需要使用此信息创建一个数据框。 我需要将 avro 架构对象转换为 StructType 以创建 DataFrame。 你能...

回答 6 投票 0

内存警告中没有足够的空间来缓存rdd

我正在运行 Spark 作业,并且收到“内存警告中没有足够的空间来缓存 rdd_128_17000”。然而,在附件中,显然说只使用了 719.3 G 中的 90.8 G。这是为什么?那个...

回答 4 投票 0

无法压缩分区数量不等的 RDD。我可以用什么来替代 zip?

我有三个相同大小的RDD,rdd1包含一个字符串标识符,rdd2包含一个向量,rdd3包含一个整数值。 本质上我想将这三个压缩在一起以获得 RDD [S...

回答 3 投票 0

Spark Left Outer Join 会在不应该生成Optional.empty 时生成Optional.empty

我有一个包含节点对的 RDD,我需要为它们分配唯一的 id。 但我遇到了 NPE,我不知道如何解决它。 我基本上将所有节点放入一个不同的列表中......

回答 1 投票 0

数据框值替换

我试图用“yyyy-MM”+“-01”替换“yyyy-MM”,下面是我的代码,但我没有得到正确的结果。请注意,我正在研究数据块: 从 pyspark.sql.functions 导入 col、concat、lit、when #S...

回答 1 投票 0

如何读取apache Spark中最新的分区

我使用了包含查询的数据框 df : Dataframe =spark.sql(s"显示分区 $yourtablename") 现在分区的数量每天都在变化,因为它每天都在运行。 主要...

回答 3 投票 0

Python 工作线程意外退出(崩溃)

在命令提示符下运行 rdd = sc.parallelize([1,2,3]) 后,我在运行 rdd.first() 时收到此错误。 py4j.protocol.Py4JJavaError:调用 z:org.apache.spark.api 时发生错误。

回答 1 投票 0

非HDFS RDD的内存布局是怎样的?

我是 Spark 新手,我试图直观地了解 RDD 在内存中的表示方式。 HDFS RDD 很简单,因为分区由文件系统本身处理。即HDFS本身划分了一个

回答 1 投票 0

spark - 非 HDFS RDD 的内存布局是什么?

我是 Spark 新手,我试图直观地了解 RDD 在内存中的表示方式。 HDFS RDD 很简单,因为分区由文件系统本身处理。即HDFS本身划分了一个

回答 1 投票 0

RDD.aggregate() 如何处理分区?

我是 Spark 的新手,并试图了解像reduce、aggregate 等函数是如何工作的。 在执行 RDD.aggregate() 时,我尝试将 ZeroValue 更改为身份以外的其他内容(0 表示

回答 1 投票 0

使用 python 将空列添加到 Spark 中的数据框

我有一个数据框,我想将其与另一个数据框创建 unionAll。问题是第二个数据框比第一个数据框多了三列。有没有办法让我添加三个列...

回答 3 投票 0

Spark SparkFiles.get() 返回驱动程序路径而不是工作程序路径

我正在通过外部可执行文件管道传输 RDD 的分区。我使用sparkContext.addFiles(),以便工作人员可以使用可执行文件。 当我尝试运行代码时,我得到...

回答 1 投票 0

Spark中RDDS的物化是什么?

我一直在寻找物化的含义,并且不断获得 persist() 函数的链接。但更根本和概念上,Rdds 的物化有什么帮助以及什么是......

回答 1 投票 0

Spark内部使用Map-Reduce吗?

Spark内部使用MapReduce吗? (自己的地图缩小) 第一次听到有人告诉我“Spark 使用 Map-Reduce”时,我很困惑,我总是知道 Spark 是一种替代方案......

回答 1 投票 0

在不使用collect的情况下将列值提取到pyspark中的变量中

我的目标是如果可能的话,将列值作为 pyspark 数据帧中的列表获取到变量中。 预期输出 = ["a", "b", "c", ... ] 我试过 : [ 上校.__得到...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.