mapreduce 相关问题

MapReduce是一种使用大量节点处理某些类型的可分发问题的大型数据集的算法

向 Generator.prototype 添加方法的官方方法是什么?

我对 javascript 生成器完全陌生。我对 Java 迭代器有很多实际经验,并且用 Java 迭代器链完成了所有软件工作。但我现在才发现...

回答 1 投票 0

shuffle阶段和combiner阶段有什么区别?

我对 MapReduce 框架很困惑。我从不同的来源读到了这方面的内容,感到很困惑。顺便说一句,这是我对 MapReduce 作业的想法 Map()-->发出

回答 3 投票 0

Google 的 Dremel 是什么?它与 Mapreduce 有什么不同?

Google 的 Dremel 在此进行介绍。 Dremel 和 Mapreduce 有什么区别?

回答 3 投票 0

对 mongodb 列求和

我有这个合集 {a:0,b:1,c:1,d:1} {a:1,b:1,c:0,d:1} {a:1,b:1,c:0,d:1} 我想要这个结果与mapReduce {id:任意,A:2,B:3,C:1,D:3} 但我不知道怎么做,我只能对列求和...

回答 1 投票 0

“代码移至数据”而不是数据移至代码的原理是什么?

在最近关于分布式处理和流媒体的讨论中,我遇到了“代码移动到数据”的概念。有人可以帮忙解释一下吗?这句话的参考是

回答 3 投票 0

Netsuite 重新配置库存详细信息错误

在创建自定义记录时,我调用一个地图缩减脚本来创建负库存调整。 提交后调用该脚本。 我正在使用以下代码来填充发明...

回答 2 投票 0

按值过滤 RDD PySpark

我正在使用 PySpark,我正在寻找一种方法来检查: 对于给定的 check_number = 01 如果我的rdd1中第三个元素的值不包含check_number ==> 获取有关此的所有信息

回答 1 投票 0

Java 将字符串集合简化为发生映射

将列表视为 id1_f、id2_d、id3_f、id1_g,我如何使用流来获取 统计数据格式的简化地图,例如: 编号1 2 编号2 1 编号3 1 注意:关键是...之前的部分

回答 4 投票 0

Hive 在 Mapreduce 时总是失败

我刚刚安装了hadoop 3.3.6和hive 4.0.0,并使用mysql作为元存储。运行 create table 或 select * from... 时运行良好。但是当我尝试插入或选择连接时,配置单元总是失败。我是

回答 1 投票 0

理解Map-Reduce

所以这一直让我很困惑。我不确定映射缩减到底是如何工作的,而且我似乎迷失在确切的事件链中。 我的理解: 大师将文件分块并将其交给制图人员...

回答 2 投票 0

由于NoClassDefFoundError无法运行hadoop应用程序

我是 Hadoop 新手,我一直在关注这样的一些教程。我在这里找到了一组很好的 MapReduce 示例。 我能够运行“wordcount”示例,但我无法......

回答 1 投票 0

hadoop 流作业在reduce端合并阶段挂起

我写了一个hadoop流作业,它使用python代码来转换数据。但是作业发生了一些错误。当输入文件较大(例如70M字节)时,它会挂在reduce阶段。当我

回答 1 投票 0

hadoop 中“uber 模式”的目的是什么?

嗨,我是大数据新手。我在互联网上搜索了到底什么是超级模式。我搜索得越多,我就越困惑。有人可以帮助我回答我的问题吗? 什么

回答 5 投票 0

MapReduce 作业因 OOM 而失败 [org.apache.hadoop.mapreduce.v2.app.MRAppMaster:启动 MRAppMaster 时出错]

我向 MapReduce 作业中的 FileInputFormat 提供逗号分隔的文件名。我的数据总大小是 30Gb 压缩的 snappy orc 文件。 当我的地图缩减工作立即开始时...

回答 1 投票 0

mapreduce 程序默认会消耗文件夹中的所有文件(输入数据集)吗?

Stackoverflow 的好朋友们大家好, 我运行了一个 MapReduce 代码来查找文件中的唯一单词。输入数据集(文件)位于 HDFS 的文件夹中。所以当我...

回答 1 投票 0

Hadoop 任意截断 256,512,1024 个字符的字符串

这是我的第一篇文章,对于任何混乱表示歉意。我正在尝试通过 MapReduce 运行 DNA 序列分析。以下是我的 mapper.sh 脚本的重要部分: 读取行时 做 ...

回答 1 投票 0

使用 Oozie 在 AWS EMR 上进行 Apache Crunch 作业

上下文: 我想在 AWS EMR 上运行 apache crunch 作业 此作业是 oozie java 操作和 oozie 子工作流管道的一部分(此特定作业是子工作流的一部分)。在 oozie 我们有...

回答 1 投票 0

检查 Hbase 本机扩展收到 WARN [main] lz4.Lz4Compressor: java.lang.UnsatisfiedLinkError

我正在运行 hbase 和 hadoop hdfs 集群(3 个节点,同时运行 hadoop 和 hbase)。它们是hadoop-3.2.2和hbase-2.3.6和jdk 11.0.14,并且不稳定。升级到hadoop-3.3.3后...

回答 1 投票 0

C++23 tbb:parallel_reduce 与 std::乘以减少

我想将向量的所有元素相乘。然而,下面的代码片段 长双和=parallel_reduce( blocked_range(0, sum1.size()), 1.0L /* 身份 ...

回答 1 投票 0

扫描中间完成目录时出错 - dataproc Spark 作业

我们的火花聚合作业需要大量执行时间才能完成。本来应该在 5 分钟内完成,但实际需要 30 到 40 分钟才能完成。 dataproc 集群日志记录显示它正在尝试扫描...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.