如何正确抓取报纸 PDF [已关闭]

Question

我开始觉得不可能做我想做的事，但我只是想在放弃之前我会在这里问。

我有近 200 个报纸的 PDF 档案，我想分析它们。然而，我想专门针对 letters 部分进行此分析，但根据广告的布局和转换方法（无论是 pdfbox 还是 pdftotext），该部分没有真正的开始或结束，我可以准确地创建一个正则表达式搜索。

有人能想出一种方法来做这样的事情吗？我已经研究了一段时间，似乎唯一可靠的方法可能是手动筛选每个 pdf。

Answer 1

我想写一些关于我为使其工作所做的事情：

按照 @TilmanHausherr 所说，我准备手动开始，单独裁剪每个页面，然后在这些裁剪的页面上进行文本提取。

但是我想我不妨通过删除完全不需要的页面（其中 99%）来尽可能减少手动裁剪的数量。

因此，即使我的半自动化选择不是 100% 准确 - 他们至少会减少我的手动工作，这无论如何都会有帮助。所以我遵循了这个过程：

使用 Acrobat，我运行了 javascript 搜索，将具有特定关键字的所有页面提取到新文档中。问题是这必须是一个单词关键字，尽管如此，我发现所有字母页面上都出现了一个非常独特的单词“
```
disclaimer
```
”。即使它确实捕获了另一页 - 也没关系，因为我想做的就是减少最终的手动工作。
然后我想让页面尽可能容易地手动裁剪，所以知道所有图像都是无关紧要的，我在 14 天的试用中使用了程序 pdftoolbox 来使用这个自动分割文本图像的疯狂功能和向量到不同的层，然后可以删除或使其不可见。
这是通过转到修复菜单，搜索
```
create different layers for vectors..
```
选项并单击修复来完成的。然后一旦完成 - 转到主菜单下的
```
explore layers
```
选项并删除除文本图层之外的所有内容。正如你所看到的，它在删除任何额外的垃圾方面非常有效，几乎变得像报纸的广告拦截:)
仍然有一些剩余的垃圾，但删除所有图像后，我所要做的就是浏览几页并检查 acrobat 编辑器中是否有不相关的文本。唯一需要做的手工工作。

我觉得很有趣的是，当我试图自动化整个过程时，我完全陷入了这个困境。但当我尝试减少尽可能多的手动工作时，我已经自动化了 99% 的流程。

我想当我试图自动化它时，我潜意识地犯了完美解决方案谬误。

́\_(ツ)_/́