rdd 相关问题

弹性分布式数据集（RDD）是一种分布式内存抽象，允许程序员在大型集群上执行内存计算，同时保留MapReduce等数据流模型的容错能力。

Pyspark RDD标准偏差的意外更改

我遵循Raju Kumar的PySpark配方，在配方4-5上，我发现当您执行rdd.stats（）和rdd.stats（）。asDict（）时，会得到不同的标准偏差值。在...

apache-spark pyspark rdd

回答 1 投票 0

何时应该在Spark中使用RDD代替Dataset？ [重复]

[我知道我应该首先使用Spark数据集，但是我想知道是否有好的情况下应该使用RDD代替数据集？

apache-spark dataset rdd

回答 1 投票 0

Pyspark：将多个文件加载到RDD中，但保留文件名

我有一些csv文件，其格式如下：JO.csv KE.csv NZ.csv CO.csv MY.csv IN.csv PL.csv NO.csv ZA.csv DK.csv IL.csv CN.csv BE .csv AR.csv IT.csv JP.csv我正在尝试加载所有这些...

apache-spark pyspark rdd

回答 1 投票 0

在Scala火花中使用两个不同的RDD

我有：RDD1，其中我想将点对的尺寸（0，List（5,7））比较为（2,5），（3,7），...和RDD2，（1 ，List（2,4）），...如何计算第二个尺寸...

join compare rdd dimensions points

回答 1 投票 0

在Spark中将数据帧转换为rdd的成本

我正在尝试使用以下方法来获取数据帧的分区数：df.rdd.getNumPartitions.toString但是，当我监视火花日志时，我看到它旋转了很多阶段，并且对于...来说是一项昂贵的操作。 >

apache-spark apache-spark-sql rdd

回答 1 投票 0

如何从Pyspark的MapType列中获取键和值

我正在尝试在PySpark中复制此问题的解决方案（Spark <2.3，因此没有map_keys）：如何从SparkSQL DataFrame中的MapType列获取键和值下面是我的代码（相同的df ...） >

python scala apache-spark pyspark rdd

回答 1 投票 0

Spark Parallelized Collectios

我对Spark非常陌生，我无法运行并行化集合，这是我的代码：从pyspark导入SparkContext作为sc字= ['Apache'，'Spark'，'is'，'an'，'open -source'，'cluster-computing'，...

python apache-spark rdd

回答 1 投票 0

如何在rddtools rdd_reg_lm函数中使用协变量？

我正在尝试使用rddtools R软件包运行参数RD回归。但是，包装文件对我来说不是很清楚。首先：定义RD对象的函数是：rdd_data（y，x，...

r rdd causality

回答 1 投票 0

如何在RDD PYSPARK中计算每个特定行的总销售价格

[我有一个数据集，例如：1 |黄金棒薰衣草春天巧克力花边|制造商＃1 |品牌＃13 |促销磨光铜| 7 |巨型包装| 901.00 | ly。狡猾的讽刺| 2 |腮红蓝色黄色马鞍| ...

python apache pyspark sum rdd

回答 1 投票 0

Spark Scala-如何将一行中的某些元素与另一行中的另一元素进行比较

例如，我具有RDD [Int，（String，String），（String，String）]的RDD，例如：（1，（UserID1，pwd1），（UserID2，pwd2））（2，（UserID2，pwd2），（（UserID3，pwd3））（3，（UserID3，pwd3），（UserID4，pwd4））当您...

scala apache-spark rdd

回答 1 投票 0

通过gcloud dataproc读取张量文件

你好，我应该如何修改我的代码以正确读取dataset2？ %% writefile read_rdd.py def read_RDD（argv）：解析器= argparse.ArgumentParser（）＃获取解析器对象parser.add_argument（'--...

tensorflow pyspark rdd argparse google-cloud-dataproc

回答 1 投票 0

！gcloud dataproc作业提交pyspark-错误AttributeError：'str'对象没有属性'batch'

我如何输入数据集类型作为dataproc作业的输入？地雷代码低于%% writefile spark_job.py导入sys导入pyspark导入argparse导入泡菜#def time_configs_rdd（test_set，...

tensorflow pyspark rdd argv google-cloud-dataproc

回答 1 投票 1

为什么在reduceByKey之后所有数据最终都集中在一个分区中？

我有这个简单的spark程序。我想知道为什么所有数据最终都集中在一个分区中。 val l = List（（30002,30000），（50006,50000），（80006,80000），（4,0），（60012,60000），（70006,70000），...

apache-spark rdd

回答 2 投票 5

如何通过从现有RDD中选择特定数据来创建RDD，RDD [String]的输出应在其中进行？

我有一个场景来从现有的RDD捕获一些数据（不是全部），然后将其传递给其他Scala类以进行实际操作。让我们看一下示例数据（empnum，empname，emplocation，empsal）在...

scala apache-spark rdd

回答 1 投票 0

Spark-shell中的RDD输出与想法中的print（RDD）不同

val rddData1 = sc.makeRDD（1到10，2）println（rddData1.glom.collect）代码在思想或spark-shell中将输出[[I @ 34a0ef00，但是spark-shell中的rddData1.glom.collect将输出Array [Array [Int]] = ...

rdd spark-shell

回答 2 投票 0

Spark set executor的类加载器

我有一些RDD [String]，我需要对此RDD执行一些过滤。我也有公共类MyCustomClassLoader扩展了ClassLoader {}，因此它看起来类似于以下内容：val rdd：...

scala apache-spark rdd

回答 1 投票 2

Spark：由S3 aws-sdk读取或作为RDD

我在S3中的5KB配置文件下只有几（5-10）个。可以使用AWS S3或RDD读取这些文件。因此，如果有10个文件，则会创建10个RDD对象，并使用collect（）将其变成... ...>

java apache-spark rdd

回答 1 投票 0

Spark RDD：AggregateByKey引发任务无法序列化，并且我看不到不可序列化的对象

我有这样的代码：对象助手{val getPercentVariationInterval =（prevStartClose：Double，prevEndClose：...

eclipse scala apache-spark serialization rdd

回答 1 投票 0

无法使用收集RDD

[请问有人知道这行代码有什么错误吗？花费数小时进行搜索，但未成功解决。预先感谢您，标签= RDD.map（lambda（a，b）：a）.collect（）语法...

python dataframe apache-spark rdd

回答 1 投票 0

将scd中的RDD [Array [（String，String）]]类型转换为RDD [（String，String）]

我是Scala的新手，并尝试了多种方法将RDD [Array [（String，String）]]类型转换为RDD [（String，String）]。我要实现的是从Json中选择两个元素（文本和类别）。对于...

scala apache-spark rdd

回答 1 投票 -1

rdd 相关问题

最新问题