rdd 相关问题

弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。

将 Rdd 转换为数据帧

我有一个像这样的RDD:RDD[(Any, Array[(Any, Any)])] 我只想将其转换为 DataFrame。因此我使用这个模式 val schema = StructType(Array (StructField("C1", StringType, true),

回答 1 投票 0

如何在 Spark 和 Cassandra 中将数据从较小的表映射到较大的表? (第一个表的主键是第二个表的分区键)

所以这是我的表1: 案例类别表1( key1: String //(主键), 值1:字符串 ) 表2: 案例类别表2( key1: String //(分区键) key2: String //(主键) ...

回答 1 投票 0

按值过滤 RDD PySpark

我正在使用 PySpark,我正在寻找一种方法来检查: 对于给定的 check_number = 01 如果我的rdd1中第三个元素的值不包含check_number ==> 获取有关此的所有信息

回答 1 投票 0

在spark执行中查找两个RDD之间的共同数据

我有RDD1 列 1 列 2 一个x123 通过y123 Cz123 RDD2 第 1 列 一个 C 我想运行两个 RDD 的交集并找到公共元素,即 RDD2 中的项目...的数据是什么?

回答 1 投票 0

过滤左连接JavaRDD时,Absent(或Present)不能转换为Optional异常

我本质上是尝试使用左外连接来“减去”。 JavaPairRDD allCustomers = ... (customerID, 1) JavaPairRDD排除客户...

回答 2 投票 0

由于 False 作为条目,pyspark 中 json 文件的记录已损坏

我有一个 json 文件,如下所示: 测试= {'kpiData': [{'日期': '2020-06-03 10:05', 'a': '最小间隔', “b”:0.0, 'c':正确}, {'日期': '2020-06-03 10:10', 'a': '最少干预...

回答 2 投票 0

Spark RDD 连接后拆包嵌套元组

这方面的资源很稀缺,我不确定这个问题是否有解决方案。 假设你有 3 个简单的 RDD。或者更具体地说是 3 个 PairRDD。 val rdd1: RDD[(Int, Int)] = sc.paralleli...

回答 1 投票 0

scala Spark rdd 错误:java.lang.ClassCastException:无法分配 java.lang.invoke.SerializedLambda 的实例

我是 Scala 和 Spark 的初学者。 斯卡拉版本:2.12.10 火花版本:3.0.1 我正在 scala 中尝试一个非常简单的 Spark rdd 函数。 但我收到错误。 (1) 构建.sbt scala版本 := "2.12...

回答 1 投票 0

pySpark RDD 白名单类问题

在azure databricks笔记本中启用统一目录集群之前,但在更改共享用户启用集群之后,我使用了下面的代码。我无法使用下面的逻辑,我们应该如何实现 si...

回答 1 投票 0

Rdd、Dataframe 和 Dataset,对于不同的数据大小使用哪个?

Pyspark:如果有10万、100万、300万条记录。您将使用什么 Dataframe/rdd/dataset 以及为什么?只需详细说明 10 万卡,您将类似地使用 100 万卡和 300 万卡 寻找

回答 1 投票 0

Java.lang.IllegalArgumentException:要求失败:在 Double 中找不到列

我正在 Spark 中工作,我有许多包含行的 csv 文件,一行看起来像这样: 2017,16,16,51,1,1,4,-79.6,-101.90,-98.900 它可以包含更多或更少的字段,具体取决于 csv 文件 埃克...

回答 2 投票 0

avg() 在整个数据帧上导致不同的输出

我看到 dataframe.agg(avg(Col) 工作正常,但是当我在整个列的窗口上计算 avg() 时(不使用任何分区),我根据与 orderBy 一起使用的列看到不同的结果。 ...

回答 1 投票 0

将 RDD (pyspark) 保存并加载到 pickle 文件正在更改 SparseVectors 的顺序

我在预分词(unigram tokenizer)数据集上训练了 tf-idf,使用 pyspark 的 HashingTF 和 IDF 实现将其从 list[list(token1, token2, token3, ...)] 转换为 RDD。我尝试过...

回答 1 投票 0

将 RDD 转换为不同类型(从 float64 到 double)

我有一个如下所示的代码,它使用pyspark。 test_truth_value = RDD。 test_predictor_rdd = RDD。 valueAndPred = test_truth_value.zip(lasso_model.predict(test_predictor_rdd)).map(lambda x: ((x[0]), ...

回答 1 投票 0

应用模式时,为什么我的 PySpark row_number 列混乱?

我想将架构应用于 Spark DataFrame 的特定非技术列。事先,我使用 Window 和 row_number 添加了一个人工 ID,以便稍后我可以加入一些其他技术专栏...

回答 1 投票 0

在 rdrobust 包中获取协变量的估计值

我正在使用 rdrobust 来估计 RDD,并且对于在期刊上提交的文章,期刊要求我报告包含协变量及其估计值的表格。我认为这些不应该在像

回答 3 投票 0

如何向 Spark RDD 添加新列?

我有一个包含许多列(例如数百列)的 RDD,如何在此 RDD 末尾添加一列? 例如,如果我的 RDD 如下所示: 123、523、534、...、893 536、98、1623、...、984...

回答 3 投票 0

通过应用函数/lambda 来订购 PySpark Dataframe

我有一个 PySpark DataFrame,需要在列上排序(“参考”)。 该列中的值通常如下所示: [“AA.1234.56”,“AA.1101.88”,“AA.904.33&q...

回答 1 投票 0

pyspark 映射问题 - 拆分后索引超出范围

当尝试将 6 列 pyspark RDD 映射到 4d 元组时,除了返回正常结果的 0 之外,任何列表元素都会出现列表超出范围错误。 数据集的结构如下: X,Y,...

回答 1 投票 0

使用 saveAsPickleFile 和 pyspark 将文本文件保存为二进制格式

我在第二代 Azure Data Lake 中存储了大约 613 个文本文件,例如“/rawdata/no=/.txt”。我想读取所有文本文件并将所有文本文件取消 Base 64,因为它们是 Base64 编码的。但是...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.