mapreduce 相关问题

MapReduce是一种使用大量节点处理某些类型的可分发问题的大型数据集的算法

Python Reduce : 参数顺序导致错误

我试图通过在Colab Notebook中运行以下命令来理解Python中的Reduce过程: pList20 = ["Ram", "RamPM", "Shyam", "PMShyam", "Sita", "SiPMMta"] print(pList20) ...。

回答 1 投票 0

在亚马逊EMR的ruby流媒体脚本中需要外部库

在运行用Ruby编写的Amazon EMR流作业时,我如何要求使用外部库?我已经定义了我的映射器,并且在我的日志中得到了这样的输出:mntvarlibhadoopmapred...。

回答 1 投票 0

如何在hadoop中保存map创建的序列文件?

我正在使用 Hadoop,并与一个 map 任务一起工作,该任务创建了我想要保留的文件,目前我将这些文件通过收集器传递给 reduce 任务。然后reduce任务将这些...

回答 1 投票 0

FAILED.NullPointerException在HIVE QUERY中为null。HIVE QUERY中的NullPointerException为空。

以下是我正在使用的HIVE查询,我还使用了一个Ranking函数。我在我的本地机器上运行这个查询。SELECT numeric_id, location, Rank(location), followers_count FROM ( SELECT ...

回答 2 投票 2

学习Mapreduce:到底是reducer做数,还是mapper做数?

在一个mapreduce作业中,包括select count(*) from products where id = 2,count(*)操作发生在哪里,是在mapper还是reducer?

回答 1 投票 0

如果Hive的reducers数量和key数量不同,会发生什么?

在Hive中,我曾经做过这样的查询:select columnA, sum(columnB) from ... group by ...。我读了一些mapreduce的例子,一个reducer只能产生一个key。似乎还原器的数量完全... ...

回答 1 投票 2

后续的Job无法立即读取前一个Job的输出。

我有两个顺序的Job1,和Job2。Job1的输出写到HDFS中,Job2会下载Job1的输出。Job2将Job1的输出下载到本地文件系统。但是,我发现下载后的文件大小为0。

回答 1 投票 1

从psql提取数据时,Sqoop导入作业失败

我在3个表上应用联接后,正在Google云上运行一个sqoop作业,以便从psql数据库导入数据。但是,尽管sqoop作业导入了...

回答 1 投票 0

使用reduce(或其他方式)格式化数据

我正在尝试使用reduce格式化数据,这是我的输入:[{值:“ 123”,类型:“ userId”},{值:“用户1000”,类型:“ userId”},{值: “ test”,键入:“ stationName”},{值:“ posto”,...

回答 2 投票 -2

将4GB文件上传到Amazon-S3

作为本科生研究项目,我正在做一些非常简单的数据挖掘(实际上只是一个词尾)。我将使用Amazon Elastic MapReduce。我需要上传4GB .xml文件。什么是...

回答 2 投票 3

尝试确认我对HBase和MapReduce行为的理解

我正在尝试对我的HBase数据集进行一些处理。但是我对HBase和Hadoop生态系统还很陌生。我想从这个社区中获得一些反馈,以了解我是否对HBase和...

回答 1 投票 0

使用分区中的数据训练分类器

如何在分类器中的实例取决于分类索引的情况下训练带有分类器的分类器?例如,假设以下代码段:val data = MLUtils ....

回答 1 投票 0

配置单元查询的Map Reduce工作-如何知道特定reducer的键?

我正在尝试调试配置单元查询中的数据偏斜。我需要知道哪个密钥正在发送给偏斜的减速器。 Hive版本:MAPR 6.1平台上的Hive 2.3.3-mapr-1904-r9到目前为止,我已经尝试过:...

回答 1 投票 0

使用mapreduce读取CSV(并非所有列都匹配)并合并为DataFrame

我正在使用Julia 1.4.2。我想使用mapreduce()进行以下操作:读取一堆CSV,然后将它们组合成一个大的DataFrame。首先进行预备工作:使用CSV,DataFrames#创建CSV df1 = DataFrame([[...

回答 1 投票 1

Spack [Scala]:通过键减少嵌套的元组值

假设我有一个Spark Scala程序,其RDD名为say_rdd,其内容如下:(name,(filename,sum))...(Maria,(file0,3))(John,(file0,1)) (Maria,(文件1,6))(Maria,(文件2,1))(...

回答 1 投票 0

Python:使用map和reduce编写外部乘积

假设我有一个矩阵输入numpy作为functools的np导入reduce np.random.seed(123)X = np.random.normal(size =(5,2)),我想不使用X来计算X ^ t X numpy函数并使用map,...

回答 2 投票 -1

MongoDB重复项按所有者分组

我已经使用mongo几个月了,除了简单的基本查询和聚合操作,我对聚合还不是很熟悉。我来自sql语言。我有数据库...

回答 1 投票 0

为什么AWS EMR中缺少hive_staging文件

问题-我正在AWS EMR中运行1个查询。它因引发异常而失败-java.io.FileNotFoundException:文件s3:// xxx / yyy / internal_test_automation / 2016/09/17/17156 / data / feed / ...

回答 1 投票 8

Nutch hadoop map减少java堆空间outOfMemory

我正在运行Nutch 1.16,Hadoop 2.83,Solr 8.5.1搜寻器设置,该设置可以运行多达几百万个索引页面。然后我在MapReduce作业期间遇到了Java堆空间问题,并且我...

回答 1 投票 0

未找到压缩编解码器com.hadoop.compression.lzo.LzoCodec

尝试使用压缩Hadoop罐\ /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar \ randomtextwriter \ -Ddfs.replication = 1 -Dmapreduce.output.fileoutputformat来运行mapreduce作业。...>>

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.