rdd 相关问题

弹性分布式数据集(RDD)是一种分布式内存抽象,允许程序员在大型集群上执行内存计算,同时保留MapReduce等数据流模型的容错能力。

回答 3 投票 0

标记点的convert rdd to dataframe todf()error

I有一个数据框DF,其中包含13个用逗号分隔的值。我想进入DF2包含标签点的数据框架。第一个值是标签,其他十二个是功能。我使用拆分和

回答 1 投票 0

Pyspark mapPartition 计算函数的次数比预期多

我正在使用 PySpark 处理大量数据。然而,我注意到mapPartitions调用的函数比预期多执行了一次。例如,在下面的代码中...

回答 1 投票 0

RDD 未在 pyspark.sql.connect.dataframe.Dataframe 上实现错误

我在databricks上有一个数据框,我想在上面使用RDD api。从目录中读取后,数据帧的类型为 pyspark.sql.connect.dataframe.Dataframe 。我发现...

回答 1 投票 0

Databricks Spark 是否在第一次读取后保留数据(在 Spark 缓存之外)

我一直在 Spark 中(特别是在 Databricks 中)努力理解一些事情,Spark 是否在第一次读取后保留数据(以某种不是缓存的存储格式)? 更具体地说,w...

回答 1 投票 0

如何在 Apache Spark scala 中读取 PDF 文件和 xml 文件?

我读取文本文件的示例代码是 val text = sc.hadoopFile(路径, classOf[TextInputFormat], classOf[LongWritable], classOf[Text], sc.defaultMinPartitions) var rddwithPath = text.asInstan...

回答 4 投票 0

将 Rdd 转换为数据帧

我有一个像这样的RDD:RDD[(Any, Array[(Any, Any)])] 我只想将其转换为 DataFrame。因此我使用这个模式 val schema = StructType(Array (StructField("C1", StringType, true),

回答 1 投票 0

如何在 Spark 和 Cassandra 中将数据从较小的表映射到较大的表? (第一个表的主键是第二个表的分区键)

所以这是我的表1: 案例类别表1( key1: String //(主键), 值1:字符串 ) 表2: 案例类别表2( key1: String //(分区键) key2: String //(主键) ...

回答 1 投票 0

按值过滤 RDD PySpark

我正在使用 PySpark,我正在寻找一种方法来检查: 对于给定的 check_number = 01 如果我的rdd1中第三个元素的值不包含check_number ==> 获取有关此的所有信息

回答 1 投票 0

在spark执行中查找两个RDD之间的共同数据

我有RDD1 列 1 列 2 一个x123 通过y123 Cz123 RDD2 第 1 列 一个 C 我想运行两个 RDD 的交集并找到公共元素,即 RDD2 中的项目...的数据是什么?

回答 1 投票 0

过滤左连接JavaRDD时,Absent(或Present)不能转换为Optional异常

我本质上是尝试使用左外连接来“减去”。 JavaPairRDD allCustomers = ... (customerID, 1) JavaPairRDD排除客户...

回答 2 投票 0

由于 False 作为条目,pyspark 中 json 文件的记录已损坏

我有一个 json 文件,如下所示: 测试= {'kpiData': [{'日期': '2020-06-03 10:05', 'a': '最小间隔', “b”:0.0, 'c':正确}, {'日期': '2020-06-03 10:10', 'a': '最少干预...

回答 2 投票 0

Spark RDD 连接后拆包嵌套元组

这方面的资源很稀缺,我不确定这个问题是否有解决方案。 假设你有 3 个简单的 RDD。或者更具体地说是 3 个 PairRDD。 val rdd1: RDD[(Int, Int)] = sc.paralleli...

回答 1 投票 0

scala Spark rdd 错误:java.lang.ClassCastException:无法分配 java.lang.invoke.SerializedLambda 的实例

我是 Scala 和 Spark 的初学者。 斯卡拉版本:2.12.10 火花版本:3.0.1 我正在 scala 中尝试一个非常简单的 Spark rdd 函数。 但我收到错误。 (1) 构建.sbt scala版本 := "2.12...

回答 1 投票 0

pySpark RDD 白名单类问题

在azure databricks笔记本中启用统一目录集群之前,但在更改共享用户启用集群之后,我使用了下面的代码。我无法使用下面的逻辑,我们应该如何实现 si...

回答 1 投票 0

Rdd、Dataframe 和 Dataset,对于不同的数据大小使用哪个?

Pyspark:如果有10万、100万、300万条记录。您将使用什么 Dataframe/rdd/dataset 以及为什么?只需详细说明 10 万卡,您将类似地使用 100 万卡和 300 万卡 寻找

回答 1 投票 0

Java.lang.IllegalArgumentException:要求失败:在 Double 中找不到列

我正在 Spark 中工作,我有许多包含行的 csv 文件,一行看起来像这样: 2017,16,16,51,1,1,4,-79.6,-101.90,-98.900 它可以包含更多或更少的字段,具体取决于 csv 文件 埃克...

回答 2 投票 0

avg() 在整个数据帧上导致不同的输出

我看到 dataframe.agg(avg(Col) 工作正常,但是当我在整个列的窗口上计算 avg() 时(不使用任何分区),我根据与 orderBy 一起使用的列看到不同的结果。 ...

回答 1 投票 0

将 RDD (pyspark) 保存并加载到 pickle 文件正在更改 SparseVectors 的顺序

我在预分词(unigram tokenizer)数据集上训练了 tf-idf,使用 pyspark 的 HashingTF 和 IDF 实现将其从 list[list(token1, token2, token3, ...)] 转换为 RDD。我尝试过...

回答 1 投票 0

将 RDD 转换为不同类型(从 float64 到 double)

我有一个如下所示的代码,它使用pyspark。 test_truth_value = RDD。 test_predictor_rdd = RDD。 valueAndPred = test_truth_value.zip(lasso_model.predict(test_predictor_rdd)).map(lambda x: ((x[0]), ...

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.