我正在运行Nutch 1.16,Hadoop 2.83,Solr 8.5.1搜寻器设置,该设置可以运行多达几百万个索引页面。然后,我在MapReduce作业期间遇到了Java堆空间问题,但似乎无法找到增加该堆空间的正确方法。我尝试过:
-D mapreduce.map.memory.mb=24608 -D mapreduce.map.java.opts=-Xmx24096m
。-Xmx16000m
-Xmx160000m -XX:+UseConcMarkSweepGC
似乎没有任何改变。在搜寻过程的同一点,我遇到了相同的堆空间错误。我尝试将提取程序线程从25减少到12,并在提取时关闭解析。一切都没有改变,我没有主意。我有64GB RAM,所以这真的不是问题。请帮助;)
- 通过
-D ...
还需要使用“ mapreduce.reduce.memory.mb”和“ mapreduce.reduce.java.opts”为reduce任务设置堆空间。请注意,最近在此方面对bin / crawl脚本进行了改进,请参见NUTCH-2501和最近的bin/crawl script。
3./4。设置/复制hadoop-site.xml
不应该在“ mapred-site.xml”中设置吗?