mapreduce 相关问题

MapReduce是一种使用大量节点处理某些类型的可分发问题的大型数据集的算法

我试图通过在Colab Notebook中运行以下命令来理解Python中的Reduce过程： pList20 = ["Ram", "RamPM", "Shyam", "PMShyam", "Sita", "SiPMMta"] print(pList20) ...。

python mapreduce reduce

回答 1 投票 0

在亚马逊EMR的ruby流媒体脚本中需要外部库

在运行用Ruby编写的Amazon EMR流作业时，我如何要求使用外部库？我已经定义了我的映射器，并且在我的日志中得到了这样的输出：mntvarlibhadoopmapred...。

ruby amazon-web-services hadoop mapreduce

回答 1 投票 0

如何在hadoop中保存map创建的序列文件？

我正在使用 Hadoop，并与一个 map 任务一起工作，该任务创建了我想要保留的文件，目前我将这些文件通过收集器传递给 reduce 任务。然后reduce任务将这些...

dictionary hadoop mapreduce

回答 1 投票 0

FAILED.NullPointerException在HIVE QUERY中为null。HIVE QUERY中的NullPointerException为空。

以下是我正在使用的HIVE查询，我还使用了一个Ranking函数。我在我的本地机器上运行这个查询。SELECT numeric_id, location, Rank(location), followers_count FROM ( SELECT ...

hadoop mapreduce hive elastic-map-reduce hiveql

回答 2 投票 2

学习Mapreduce：到底是reducer做数，还是mapper做数？

在一个mapreduce作业中，包括select count(*) from products where id = 2，count(*)操作发生在哪里，是在mapper还是reducer？

hadoop hive mapreduce hiveql

回答 1 投票 0

如果Hive的reducers数量和key数量不同，会发生什么？

在Hive中，我曾经做过这样的查询：select columnA, sum(columnB) from ... group by ...。我读了一些mapreduce的例子，一个reducer只能产生一个key。似乎还原器的数量完全... ...

hadoop hive mapreduce

回答 1 投票 2

后续的Job无法立即读取前一个Job的输出。

我有两个顺序的Job1，和Job2。Job1的输出写到HDFS中，Job2会下载Job1的输出。Job2将Job1的输出下载到本地文件系统。但是，我发现下载后的文件大小为0。

java hadoop mapreduce

回答 1 投票 1

从psql提取数据时，Sqoop导入作业失败

我在3个表上应用联接后，正在Google云上运行一个sqoop作业，以便从psql数据库导入数据。但是，尽管sqoop作业导入了...

import mapreduce gcloud sqoop broken-pipe

回答 1 投票 0

使用reduce（或其他方式）格式化数据

我正在尝试使用reduce格式化数据，这是我的输入：[{值：“ 123”，类型：“ userId”}，{值：“用户1000”，类型：“ userId”}，{值： “ test”，键入：“ stationName”}，{值：“ posto”，...

javascript arrays typescript functional-programming mapreduce

回答 2 投票 -2

将4GB文件上传到Amazon-S3

作为本科生研究项目，我正在做一些非常简单的数据挖掘（实际上只是一个词尾）。我将使用Amazon Elastic MapReduce。我需要上传4GB .xml文件。什么是...

xml amazon-s3 amazon-ec2 hadoop mapreduce

回答 2 投票 3

尝试确认我对HBase和MapReduce行为的理解

我正在尝试对我的HBase数据集进行一些处理。但是我对HBase和Hadoop生态系统还很陌生。我想从这个社区中获得一些反馈，以了解我是否对HBase和...

hadoop mapreduce hbase

回答 1 投票 0

使用分区中的数据训练分类器

如何在分类器中的实例取决于分类索引的情况下训练带有分类器的分类器？例如，假设以下代码段：val data = MLUtils ....

scala apache-spark mapreduce

回答 1 投票 0

配置单元查询的Map Reduce工作-如何知道特定reducer的键？

我正在尝试调试配置单元查询中的数据偏斜。我需要知道哪个密钥正在发送给偏斜的减速器。 Hive版本：MAPR 6.1平台上的Hive 2.3.3-mapr-1904-r9到目前为止，我已经尝试过：...

hive mapreduce hadoop2 mapr

回答 1 投票 0

使用mapreduce读取CSV（并非所有列都匹配）并合并为DataFrame

我正在使用Julia 1.4.2。我想使用mapreduce（）进行以下操作：读取一堆CSV，然后将它们组合成一个大的DataFrame。首先进行预备工作：使用CSV，DataFrames＃创建CSV df1 = DataFrame（[[...

dataframe mapreduce julia

回答 1 投票 1

Spack [Scala]：通过键减少嵌套的元组值

假设我有一个Spark Scala程序，其RDD名为say_rdd，其内容如下：（name，（filename，sum））...（Maria，（file0，3））（John，（file0，1））（Maria，（文件1，6））（Maria，（文件2，1））（...

scala apache-spark mapreduce rdd reduce

回答 1 投票 0

Python：使用map和reduce编写外部乘积

假设我有一个矩阵输入numpy作为functools的np导入reduce np.random.seed（123）X = np.random.normal（size =（5，2）），我想不使用X来计算X ^ t X numpy函数并使用map，...

python numpy functional-programming mapreduce

回答 2 投票 -1

MongoDB重复项按所有者分组

我已经使用mongo几个月了，除了简单的基本查询和聚合操作，我对聚合还不是很熟悉。我来自sql语言。我有数据库...

mongodb mapreduce aggregate

回答 1 投票 0

为什么AWS EMR中缺少hive_staging文件

问题-我正在AWS EMR中运行1个查询。它因引发异常而失败-java.io.FileNotFoundException：文件s3：// xxx / yyy / internal_test_automation / 2016/09/17/17156 / data / feed / ...

amazon-web-services mapreduce hive hdfs apache-tez

回答 1 投票 8

Nutch hadoop map减少java堆空间outOfMemory

我正在运行Nutch 1.16，Hadoop 2.83，Solr 8.5.1搜寻器设置，该设置可以运行多达几百万个索引页面。然后我在MapReduce作业期间遇到了Java堆空间问题，并且我...

java hadoop mapreduce nutch

回答 1 投票 0

未找到压缩编解码器com.hadoop.compression.lzo.LzoCodec

尝试使用压缩Hadoop罐\ /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar \ randomtextwriter \ -Ddfs.replication = 1 -Dmapreduce.output.fileoutputformat来运行mapreduce作业。...>>

hadoop mapreduce hadoop-lzo

回答 1 投票 0

mapreduce 相关问题

最新问题