我正在使用 Tika 1.28.1 将文本从 PDF 中提取出来以编制索引
我遇到一些 PDF(如果我正确阅读 Yourkit)在内存中有千兆字节的字体信息,它们会导致我的应用程序 OOM 并死掉。现在,我根本不关心字体,我只想要文本。我宁愿忽略所有字体信息,而不是将其加载到内存中。
这个有配置选项吗?我在 PDFParserConfig 上没有看到任何明显的东西,除了 setExtractFontNames(),这听起来像是只控制名称输出。
还有其他减少内存使用的建议吗?