rdd 相关问题

弹性分布式数据集（RDD）是一种分布式内存抽象，允许程序员在大型集群上执行内存计算，同时保留MapReduce等数据流模型的容错能力。

如何获取 Spark DataFrame 中每行列表中最高值的索引？ [PySpark]

我已经完成了LDA主题建模并将其存储在lda_model中。转换原始输入数据集后，我检索一个 DataFrame。其中一列是主题分布，其中概率...

python apache-spark pyspark rdd

回答 2 投票 0

我有一个2MB的文件，当我使用它读取它时 df = Spark.read.option("inferSchema", "true").csv("hdfs:///data/ml-100k/u.data", sep=" ") df.rdd.getNumPartitions() #

dataframe apache-spark rdd

回答 1 投票 0

如何在 Spark 中从文本文件创建 DataFrame

我在 HDFS 上有一个文本文件，我想将其转换为 Spark 中的数据帧。我正在使用 Spark 上下文加载文件，然后尝试从该文件生成各个列。 val myFile...

scala apache-spark dataframe apache-spark-sql rdd

回答 9 投票 0

线性 RDD 图仅显示两个数据点

我尝试运行以下代码：数据（房屋） house_rdd = rdd_data(x=x, y=y, 数据=房子, 切点=0) 摘要（house_rdd）情节（house_rdd）当我绘制它时，我明白了这一点，这是有道理的。

r rdd

回答 1 投票 0

我无法使用 PySpark 将 RDD 对象保存到文本文件中

我正在尝试创建一个 Spark 程序来从 airport.text 文件中读取机场数据，查找位于美国的所有机场并将机场名称和城市名称输出到

python apache-spark pyspark rdd

回答 1 投票 0

如何在spark中将Avro Schema对象转换为StructType

我有一个 Row 类型的 RDD，即 RDD[Row] 和 avro 模式对象。我需要使用此信息创建一个数据框。我需要将 avro 架构对象转换为 StructType 以创建 DataFrame。你能...

apache-spark schema rdd avro

回答 6 投票 0

内存警告中没有足够的空间来缓存rdd

我正在运行 Spark 作业，并且收到“内存警告中没有足够的空间来缓存 rdd_128_17000”。然而，在附件中，显然说只使用了 719.3 G 中的 90.8 G。这是为什么？那个...

amazon-web-services amazon-s3 apache-spark rdd

回答 4 投票 0

无法压缩分区数量不等的 RDD。我可以用什么来替代 zip？

我有三个相同大小的RDD，rdd1包含一个字符串标识符，rdd2包含一个向量，rdd3包含一个整数值。本质上我想将这三个压缩在一起以获得 RDD [S...

scala apache-spark rdd

回答 3 投票 0

Spark Left Outer Join 会在不应该生成Optional.empty 时生成Optional.empty

我有一个包含节点对的 RDD，我需要为它们分配唯一的 id。但我遇到了 NPE，我不知道如何解决它。我基本上将所有节点放入一个不同的列表中......

java scala apache-spark left-join rdd

回答 1 投票 0

数据框值替换

我试图用“yyyy-MM”+“-01”替换“yyyy-MM”，下面是我的代码，但我没有得到正确的结果。请注意，我正在研究数据块：从 pyspark.sql.functions 导入 col、concat、lit、when #S...

python dataframe pyspark databricks rdd

回答 1 投票 0

如何读取apache Spark中最新的分区

我使用了包含查询的数据框 df : Dataframe =spark.sql(s"显示分区 $yourtablename") 现在分区的数量每天都在变化，因为它每天都在运行。主要...

dataframe apache-spark apache-spark-sql rdd natural-sort

回答 3 投票 0

Python 工作线程意外退出（崩溃）

在命令提示符下运行 rdd = sc.parallelize([1,2,3]) 后，我在运行 rdd.first() 时收到此错误。 py4j.protocol.Py4JJavaError：调用 z:org.apache.spark.api 时发生错误。

python pyspark command-prompt rdd

回答 1 投票 0

非HDFS RDD的内存布局是怎样的？

我是 Spark 新手，我试图直观地了解 RDD 在内存中的表示方式。 HDFS RDD 很简单，因为分区由文件系统本身处理。即HDFS本身划分了一个

apache-spark rdd memory-layout

回答 1 投票 0

spark - 非 HDFS RDD 的内存布局是什么？

我是 Spark 新手，我试图直观地了解 RDD 在内存中的表示方式。 HDFS RDD 很简单，因为分区由文件系统本身处理。即HDFS本身划分了一个

apache-spark rdd memory-layout

回答 1 投票 0

RDD.aggregate() 如何处理分区？

我是 Spark 的新手，并试图了解像reduce、aggregate 等函数是如何工作的。在执行 RDD.aggregate() 时，我尝试将 ZeroValue 更改为身份以外的其他内容（0 表示

apache-spark pyspark bigdata rdd apache-spark-dataset

回答 1 投票 0

使用 python 将空列添加到 Spark 中的数据框

我有一个数据框，我想将其与另一个数据框创建 unionAll。问题是第二个数据框比第一个数据框多了三列。有没有办法让我添加三个列...

python pyspark apache-spark-sql rdd

回答 3 投票 0

Spark SparkFiles.get() 返回驱动程序路径而不是工作程序路径

我正在通过外部可执行文件管道传输 RDD 的分区。我使用sparkContext.addFiles()，以便工作人员可以使用可执行文件。当我尝试运行代码时，我得到...

apache-spark pyspark databricks rdd executor

回答 1 投票 0

Spark中RDDS的物化是什么？

我一直在寻找物化的含义，并且不断获得 persist() 函数的链接。但更根本和概念上，Rdds 的物化有什么帮助以及什么是......

scala apache-spark rdd

回答 1 投票 0

Spark内部使用Map-Reduce吗？

Spark内部使用MapReduce吗？（自己的地图缩小）第一次听到有人告诉我“Spark 使用 Map-Reduce”时，我很困惑，我总是知道 Spark 是一种替代方案......

apache-spark mapreduce apache-spark-sql rdd

回答 1 投票 0

在不使用collect的情况下将列值提取到pyspark中的变量中

我的目标是如果可能的话，将列值作为 pyspark 数据帧中的列表获取到变量中。预期输出 = ["a", "b", "c", ... ] 我试过： [ 上校.__得到...

python pyspark rdd pyspark-pandas

回答 1 投票 0

rdd 相关问题

最新问题