mapreduce 相关问题

MapReduce是一种使用大量节点处理某些类型的可分发问题的大型数据集的算法

从Java映射的头文件中减少精简代码

我正在尝试获取一个csv文件的摘要,文件的第一行是标题。有没有一种方法可以使每列的值及其标题名称成为Java代码中的键值对。 ...

回答 2 投票 1

Hadoop MapReduce无法产生所需的输出

我有一个包含专利信息的大文件。标题如下“ PATENT”,“ GYEAR”,“ GDATE”,“ APPYEAR”,“ COUNTRY”,“ POSTATE”,“ ASSIGNEE”,“ ASSCODE”,“ CLAIMS”。我想计算平均值...

回答 1 投票 2

获取纱线应用程序的内存,CPU和磁盘使用情况

我想问一问,在运行了Yarn应用程序之后,如何获取该应用程序的总内存和CPU使用率。我曾经使用资源管理器UI来获取所有信息。但是除了...

回答 2 投票 2

Oozie java action logger日志未显示在Oozie控制台上

我正在通过在Oozie java操作中调用Driver类来执行map-reduce代码。 Map reduce成功运行,我得到了预期的输出。但是,我的驱动程序类中的日志语句不是...

回答 1 投票 2

使用MapR MultipleOutputs写入OrcNewOutputFormat时出错

我们从ORC文件中读取数据,并使用MultipleOutputs将其写回到ORC和Parquet格式。我们的工作仅是Map,没有reducer。在某些情况下,我们会遇到以下错误:...

回答 1 投票 2

如何获得最大数量?

好,所以我必须从文件中找到最大数量,我有2行,编号为1、2、3、2、4、3行现在我想找到最大数量,我的代码也可以正常工作但是问题...

回答 1 投票 0

从带有pyspark中嵌套元素的RDD获取平面RDD

我在Pyspark中有两个RDD,它们的嵌套元素如下:a = sc.parallelize((((1,2),3,(4,(6,7,(8,9,(11),10)), 5,12)))b = sc.parallelize(1,2,(3,4))嵌套可以具有任何深度。我想...

回答 1 投票 0

-Dmapred.job.name不适用于s3-dist-cp命令

我想使用s3-dist-cp将一些文件从emr-hdfs复制到s3存储桶,我已经尝试从“ EMR主节点”中使用此cmd:s3-dist-cp -Dmapred.job.name = my_copy_job --src hdfs://// user / hadoop / abc s3:// ...

回答 1 投票 0

Hadoop中最原始的数据协调方式

我需要根据关键比较在Hadoop中进行数据协调。这意味着我将把旧数据放在一个文件夹中,而较新的数据将放在不同的文件夹中。在批处理结束时,我是...

回答 1 投票 0

混洗阶段实际上是做什么的?

洗牌阶段实际上是做什么的?可能性-A由于改组是将映射器o / p引入化简器o / p的过程,因此它只是将特定的键从映射器引入到...

回答 1 投票 2

我如何在oozie作业中指定多个libpath?

我的oozie作业使用2个jar x.jar和y.jar,以下是我的job.properties文件。 oozie.libpath = / lib oozie.use.system.libpath = true当两个罐子都位于相同的位置时,这是完美的...

回答 1 投票 6

理想的火花配置

在我们的项目中,我在带有MapR的HDFS上使用Apache Spark。我们在运行Spark Jobs时遇到了问题,因为它在数据少量增加后就失败了。我们正在从csv文件中读取数据,正在执行某些操作...

回答 1 投票 0

在日期/时间范围内的查询配置单元分区表

我的蜂巢表按年,月,日,小时进行分区现在我想从2014-05-27到2014-06-05提取数据?我知道一个选择是在纪元(或yyyy-mm-dd-hh)上创建分区,然后...

回答 3 投票 5

在Apache配置单元中执行分析查询(例如select count(*)时出错)>

当我在蜂巢上执行简单查询时,例如select * from table3 limit 100; ,结果还可以。但是当我从table3执行select count(*)时;我遇到以下错误:0:艾滋病毒>选择...

回答 1 投票 1

如何在Java的mapReduce中调用mongodb服务器端函数

我已经在名为“ mapfun”和“ reducefun”的“ system.js”集合中存储了两个函数,我正尝试从Java调用这些函数。我试图通过MapReduceCommand调用这些函数。 ...

回答 1 投票 0

TaskStatus类中Hadoop的getProgress()方法是什么?

类TaskStatus类具有方法getProgress(),但是我不确定该方法实际返回什么。是花费的时间还是输入的数据已处理?我想知道如何...

回答 1 投票 0

合并我的结果,以免创建另一个映射器

我正在从事MapReduce项目,并希望改善输出。我在发布的票证上使 用带有日期的CSV文件,我需要查看票证最多的彩色汽车。第33列...

回答 1 投票 0

在Python中删除空格

我是Python的新手,所以我试图使之尽可能简单。我正在使用CSV文件,其中包含我必须Mapreduce的数据。在我的映射器部分中,我得到了空白数据,该数据不允许我...

回答 1 投票 0

map处理数据在hadoop中可能为空

我想启用IPFlow统计信息,第一列是序列号,第二列是电话号码,第三列是上流数据,第四列是下流数据。我想运行一个结合了上流的mapreduce程序...

回答 1 投票 0

Azure HDInsight链式Mapreduce:输入路径不存在

因此,我的map reduce功能可以在本地VM上正常运行,但是在Azure上,它为我提供了输入路径未找到错误。我有两组映射器和化简器函数,第一个化简器的输出进入...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.