rdd 相关问题

我读取文本文件的示例代码是 val text = sc.hadoopFile(路径, classOf[TextInputFormat], classOf[LongWritable], classOf[Text], sc.defaultMinPartitions) var rddwithPath = text.asInstan...

scala apache-spark rdd

回答 4 投票 0

将 Rdd 转换为数据帧

我有一个像这样的RDD：RDD[(Any, Array[(Any, Any)])] 我只想将其转换为 DataFrame。因此我使用这个模式 val schema = StructType(Array (StructField("C1", StringType, true),

scala apache-spark dataframe rdd

回答 1 投票 0

如何在 Spark 和 Cassandra 中将数据从较小的表映射到较大的表？（第一个表的主键是第二个表的分区键）

所以这是我的表1：案例类别表1( key1: String //（主键），值1：字符串）表2：案例类别表2( key1: String //（分区键） key2: String //（主键） ...

apache-spark cassandra rdd datastax-enterprise spark-cassandra-connector

回答 1 投票 0

按值过滤 RDD PySpark

我正在使用 PySpark，我正在寻找一种方法来检查：对于给定的 check_number = 01 如果我的rdd1中第三个元素的值不包含check_number ==> 获取有关此的所有信息

apache-spark mapreduce pyspark apache-spark-sql rdd

回答 1 投票 0

在spark执行中查找两个RDD之间的共同数据

我有RDD1 列 1 列 2 一个x123 通过y123 Cz123 RDD2 第 1 列一个 C 我想运行两个 RDD 的交集并找到公共元素，即 RDD2 中的项目...的数据是什么？

dataframe apache-spark rdd

回答 1 投票 0

过滤左连接JavaRDD时，Absent（或Present）不能转换为Optional异常

我本质上是尝试使用左外连接来“减去”。 JavaPairRDD allCustomers = ... (customerID, 1) JavaPairRDD排除客户...

java apache-spark rdd

回答 2 投票 0

由于 False 作为条目，pyspark 中 json 文件的记录已损坏

我有一个 json 文件，如下所示：测试= {'kpiData': [{'日期': '2020-06-03 10:05', 'a': '最小间隔', “b”：0.0， 'c'：正确}， {'日期': '2020-06-03 10:10', 'a': '最少干预...

json apache-spark pyspark apache-spark-sql rdd

回答 2 投票 0

Spark RDD 连接后拆包嵌套元组

这方面的资源很稀缺，我不确定这个问题是否有解决方案。假设你有 3 个简单的 RDD。或者更具体地说是 3 个 PairRDD。 val rdd1: RDD[(Int, Int)] = sc.paralleli...

scala apache-spark rdd

回答 1 投票 0

scala Spark rdd 错误：java.lang.ClassCastException：无法分配 java.lang.invoke.SerializedLambda 的实例

我是 Scala 和 Spark 的初学者。斯卡拉版本：2.12.10 火花版本：3.0.1 我正在 scala 中尝试一个非常简单的 Spark rdd 函数。但我收到错误。 (1) 构建.sbt scala版本 := "2.12...

scala apache-spark rdd

回答 1 投票 0

pySpark RDD 白名单类问题

在azure databricks笔记本中启用统一目录集群之前，但在更改共享用户启用集群之后，我使用了下面的代码。我无法使用下面的逻辑，我们应该如何实现 si...

pyspark databricks azure-databricks rdd

回答 1 投票 0

Rdd、Dataframe 和 Dataset，对于不同的数据大小使用哪个？

Pyspark：如果有10万、100万、300万条记录。您将使用什么 Dataframe/rdd/dataset 以及为什么？只需详细说明 10 万卡，您将类似地使用 100 万卡和 300 万卡寻找

dataframe pyspark dataset rdd

回答 1 投票 0

Java.lang.IllegalArgumentException：要求失败：在 Double 中找不到列

我正在 Spark 中工作，我有许多包含行的 csv 文件，一行看起来像这样： 2017,16,16,51,1,1,4,-79.6,-101.90,-98.900 它可以包含更多或更少的字段，具体取决于 csv 文件埃克...

scala csv cassandra rdd spark-cassandra-connector

回答 2 投票 0

avg() 在整个数据帧上导致不同的输出

我看到 dataframe.agg(avg(Col) 工作正常，但是当我在整个列的窗口上计算 avg() 时（不使用任何分区），我根据与 orderBy 一起使用的列看到不同的结果。 ...

dataframe apache-spark pyspark rdd

回答 1 投票 0

将 RDD (pyspark) 保存并加载到 pickle 文件正在更改 SparseVectors 的顺序

我在预分词（unigram tokenizer）数据集上训练了 tf-idf，使用 pyspark 的 HashingTF 和 IDF 实现将其从 list[list(token1, token2, token3, ...)] 转换为 RDD。我尝试过...

python python-3.x pyspark rdd tf-idf

回答 1 投票 0

将 RDD 转换为不同类型（从 float64 到 double）

我有一个如下所示的代码，它使用pyspark。 test_truth_value = RDD。 test_predictor_rdd = RDD。 valueAndPred = test_truth_value.zip(lasso_model.predict(test_predictor_rdd)).map(lambda x: ((x[0]), ...

python apache-spark pyspark types rdd

回答 1 投票 0

rdd 相关问题

最新问题