rdd 相关问题

弹性分布式数据集（RDD）是一种分布式内存抽象，允许程序员在大型集群上执行内存计算，同时保留MapReduce等数据流模型的容错能力。

从Spark Streaming中获取异常 "没有注册输出操作，所以没有执行"。

package com.scala.sparkStreaming import org.apache.spark._ import org.apache.spark.streaming._ object Demo1 { def main(assdf:Array[String]){ val sc=new SparkContext("local", "Stream") ....

apache-spark spark-streaming rdd spark-structured-streaming

回答 1 投票 0

分列

你好，我想在spark RDD中拆分一列。数据集样本：twitter数据这里我想把月列拆成一个月和一个年。例如：2019年10 2009年11，并进一步计算所有的... ...

scala apache-spark-sql rdd

回答 1 投票 0

在RDD中过滤空分区

RDD中有没有过滤分区的方法？我在分区后有一些空的分区，我不能在动作方法中使用它们。我在Scala中使用Apache Spark

scala apache-spark filtering rdd partition

回答 2 投票 0

如果选项类型为None，则使用getOrElse不返回任何内容(Scala)

我正在使用RDD创建一个左外连接，因为到目前为止，我有以下结果：scala> LeftJoinedDataset.foreach(println) (300000004,Trevor,Parr,Some((35 Jedburgh Road,PL23 6BA))) (300000006,...)

scala join rdd

回答 1 投票 0

无法解决任务不可序列化 [org.apache.spark.SparkException: Task not serializable] Spark Scala RDD

我有以下类和方法： class Sample(sprk: SparkSession,dir="xyz",tdir = "abc") { val VERSION = "v1" def newRDD(path: String) = { sprk.sparkContext.textFile(...)

scala apache-spark apache-spark-sql rdd

回答 1 投票 0

使用Apache Spark在多个对子上有效地进行卡方积的计算。

旧的上下文我在我的数据集上做一个计算，要求每个元素都要与自身结合，即通过在JavaPairRDD上执行mapToPair >，...

java apache-spark rdd spark-java

回答 1 投票 1

Spark中的Dataframe coalesce是否保留顺序？

我使用 coalesce(1)将 Dataframe 写入单个文件，就像这样。df.coalesce(1).write.format("csv") .option("header", true).mode("overwrite").save(output_path) 快速浏览一下文件，就会发现......。

dataframe apache-spark rdd shuffle

回答 1 投票 0

在PySpark中创建Apache Spark类的RDD。

我需要将一段Scala代码转换为python代码。Scala代码将字符串的RDD转换为case类的RDD。代码如下： case class Stock( stockName: String, ...

apache-spark pyspark rdd case-class python-dataclasses

回答 1 投票 0

在rdd.map func中把Scala case类转移到JsValue，但Task不可序列化。

我是ScalaSpark的新手，我有一个case类的RDD case类Info(key1 : String, key2 : String, key3 : String)，我想把RDD[Info]转移到RDD[JsString]中，然后保存到ElasticSearch中，我用...

scala apache-spark elasticsearch rdd

回答 1 投票 1

一个spark数据框架的分区数？

我有一个spark数据框架(Spark 2.3)，它存储的sql记录为零。当我试图计算分区数时，它不显示任何结果，并尝试了各种函数，如df.rdd......。

dataframe apache-spark apache-spark-sql rdd

回答 1 投票 0

如何在两个不同的spark rdd中获取所有不同的记录

对于火花和RDD来说是非常新的东西，所以我希望我能很好地解释一下，以便有人理解和帮助:)我有两组非常大的数据，可以说300万行，50列，这...

scala apache-spark pyspark rdd

回答 2 投票 0

通过以下代码，如何将JavaRDD 转换为DataFrame或DataSet

public static void main（String [] args）{SparkSession sessn = SparkSession.builder（）。appName（“ RDD2DF”）。master（“ local”）。getOrCreate（）; List lst = Arrays.asList（1,2,3,4,5，...

apache-spark apache-spark-sql rdd sparkcore

回答 1 投票 0

rdd上的标量图错误java.lang.NullPointerException

当我尝试映射从HDFS读取的rdds时，出现了一个奇怪的错误，这是我的代码（简体）。我试图将RDD放入scala映射，然后选择某些键值来写入HDFS。我跑了一块...

java scala apache-spark rdd

回答 1 投票 0

Spark中RDD的UNION的非确定性行为

我正在3个RDD上执行Union操作，我知道Union不会保留顺序，但是就我而言，这很奇怪。有人可以向我解释我的代码有什么问题吗？我有一个...

scala sorting apache-spark union rdd

回答 1 投票 0

何时在Spark中使用RDD和DataFrame

根据我的阅读，RDD不能像DataFrame那样利用Spark对结构化数据进行的优化，是否证明在处理非结构化数据源时我们应该使用RDD，...

dataframe apache-spark rdd

回答 1 投票 0

中间rdd和rdd.persist（）之间的差异

[我知道，在Spark处理中有多个阶段时，中间阶段rdd会存储到作业完成为止，但我会读到他们对cache（）和persist（）的使用的感觉，就像他们正在做的那样...

python apache-spark rdd

回答 1 投票 0

使用pyspark RDD分割出错误的csv文件。 EMR。纱线内存异常错误

我已经在这段代码上工作了一段时间。以下列出了我在EMR上使用的代码和大多数群集属性。该代码的目的是在一个...

apache-spark pyspark rdd

回答 1 投票 0

无法创建简单的RDD-Scala中的并行集合

我想创建一个集合的rdd，并最终将其存储在可以写回csv的数据框中。这是我的代码：import org.apache.log4j。{Level，Logger} import org.apache.spark ....

scala apache-spark rdd

回答 1 投票 -2

在scala中使用println

我正在尝试使用println以某种格式打印输出，但无法获取。 val vgdataLines = sc.textFile（“ hdfs：///user/ashhall1616/bdc_data/assignment/t1/vgsales-small.csv”）val vgdata = ...

scala apache-spark-sql rdd

回答 1 投票 0

如何将具有多个分隔符的文件转换为数据框

我的文本文件如下1234_4567_DigitalDoc_XRay-01.pdf 2345_5678_DigitalDoc_CTC-03.png 1234_5684_DigitalDoc_XRay-05.pdf 1234_3345_DigitalDoc_XRay-02.pdf我期望输出为| catg | ...

dataframe apache-spark rdd

回答 4 投票 1

rdd 相关问题

最新问题