弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。
如何获取 Spark DataFrame 中每行列表中最高值的索引? [PySpark]
我已经完成了LDA主题建模并将其存储在lda_model中。 转换原始输入数据集后,我检索一个 DataFrame。其中一列是主题分布,其中概率...
我有一个2MB的文件,当我使用它读取它时 df = Spark.read.option("inferSchema", "true").csv("hdfs:///data/ml-100k/u.data", sep=" ") df.rdd.getNumPartitions() #
我在 HDFS 上有一个文本文件,我想将其转换为 Spark 中的数据帧。 我正在使用 Spark 上下文加载文件,然后尝试从该文件生成各个列。 val myFile...
我尝试运行以下代码: 数据(房屋) house_rdd = rdd_data(x=x, y=y, 数据=房子, 切点=0) 摘要(house_rdd) 情节(house_rdd) 当我绘制它时,我明白了这一点,这是有道理的。
我无法使用 PySpark 将 RDD 对象保存到文本文件中
我正在尝试创建一个 Spark 程序来从 airport.text 文件中读取机场数据,查找位于美国的所有机场并将机场名称和城市名称输出到
如何在spark中将Avro Schema对象转换为StructType
我有一个 Row 类型的 RDD,即 RDD[Row] 和 avro 模式对象。我需要使用此信息创建一个数据框。 我需要将 avro 架构对象转换为 StructType 以创建 DataFrame。 你能...
我正在运行 Spark 作业,并且收到“内存警告中没有足够的空间来缓存 rdd_128_17000”。然而,在附件中,显然说只使用了 719.3 G 中的 90.8 G。这是为什么?那个...
无法压缩分区数量不等的 RDD。我可以用什么来替代 zip?
我有三个相同大小的RDD,rdd1包含一个字符串标识符,rdd2包含一个向量,rdd3包含一个整数值。 本质上我想将这三个压缩在一起以获得 RDD [S...
Spark Left Outer Join 会在不应该生成Optional.empty 时生成Optional.empty
我有一个包含节点对的 RDD,我需要为它们分配唯一的 id。 但我遇到了 NPE,我不知道如何解决它。 我基本上将所有节点放入一个不同的列表中......
我试图用“yyyy-MM”+“-01”替换“yyyy-MM”,下面是我的代码,但我没有得到正确的结果。请注意,我正在研究数据块: 从 pyspark.sql.functions 导入 col、concat、lit、when #S...
我使用了包含查询的数据框 df : Dataframe =spark.sql(s"显示分区 $yourtablename") 现在分区的数量每天都在变化,因为它每天都在运行。 主要...
在命令提示符下运行 rdd = sc.parallelize([1,2,3]) 后,我在运行 rdd.first() 时收到此错误。 py4j.protocol.Py4JJavaError:调用 z:org.apache.spark.api 时发生错误。
我是 Spark 新手,我试图直观地了解 RDD 在内存中的表示方式。 HDFS RDD 很简单,因为分区由文件系统本身处理。即HDFS本身划分了一个
我是 Spark 新手,我试图直观地了解 RDD 在内存中的表示方式。 HDFS RDD 很简单,因为分区由文件系统本身处理。即HDFS本身划分了一个
我是 Spark 的新手,并试图了解像reduce、aggregate 等函数是如何工作的。 在执行 RDD.aggregate() 时,我尝试将 ZeroValue 更改为身份以外的其他内容(0 表示
我有一个数据框,我想将其与另一个数据框创建 unionAll。问题是第二个数据框比第一个数据框多了三列。有没有办法让我添加三个列...
Spark SparkFiles.get() 返回驱动程序路径而不是工作程序路径
我正在通过外部可执行文件管道传输 RDD 的分区。我使用sparkContext.addFiles(),以便工作人员可以使用可执行文件。 当我尝试运行代码时,我得到...
我一直在寻找物化的含义,并且不断获得 persist() 函数的链接。但更根本和概念上,Rdds 的物化有什么帮助以及什么是......
Spark内部使用MapReduce吗? (自己的地图缩小) 第一次听到有人告诉我“Spark 使用 Map-Reduce”时,我很困惑,我总是知道 Spark 是一种替代方案......
在不使用collect的情况下将列值提取到pyspark中的变量中
我的目标是如果可能的话,将列值作为 pyspark 数据帧中的列表获取到变量中。 预期输出 = ["a", "b", "c", ... ] 我试过 : [ 上校.__得到...