Hadoop 查找包含单词列表的所有文档

问题描述 投票:0回答:1

我意识到这可以在一台机器上使用 HashMap 然后使用所有文档名称的交集来完成,但是我很好奇 Hadoop 将如何解决这个问题。谁能解释一下大概流程?

hadoop
1个回答
0
投票

理想情况下,您宁愿使用 Elasticsearch 进行文本搜索,但 Hadoop 仍然对文件和输入流进行操作,因此您可以将子字符串函数传递到 mapreduce 命令中,并像平常一样搜索文本。

您不应该使用哈希图,因为没有真正需要存储任何数据来查找文本块中的子字符串。

© www.soinside.com 2019 - 2024. All rights reserved.