如何正确抓取报纸 PDF [已关闭]

问题描述 投票:0回答:1

我开始觉得不可能做我想做的事,但我只是想在放弃之前我会在这里问。

我有近 200 个报纸的 PDF 档案,我想分析它们。然而,我想专门针对 letters 部分进行此分析,但根据广告的布局和转换方法(无论是 pdfbox 还是 pdftotext),该部分没有真正的开始或结束,我可以准确地创建一个正则表达式搜索。

有人能想出一种方法来做这样的事情吗?我已经研究了一段时间,似乎唯一可靠的方法可能是手动筛选每个 pdf。

python pdf web-scraping pdfbox pdftotext
1个回答
1
投票

我想写一些关于我为使其工作所做的事情:

按照 @TilmanHausherr 所说,我准备手动开始,单独裁剪每个页面,然后在这些裁剪的页面上进行文本提取。

但是我想我不妨通过删除完全不需要的页面(其中 99%)来尽可能减少手动裁剪的数量。

因此,即使我的半自动化选择不是 100% 准确 - 他们至少会减少我的手动工作,这无论如何都会有帮助。 所以我遵循了这个过程:

  1. 使用 Acrobat,我运行了 javascript 搜索,将具有特定关键字的所有页面提取到新文档中。问题是这必须是一个单词关键字,尽管如此,我发现所有字母页面上都出现了一个非常独特的单词“

    disclaimer
    ”。即使它确实捕获了另一页 - 也没关系,因为我想做的就是减少最终的手动工作。

  2. 然后我想让页面尽可能容易地手动裁剪,所以知道所有图像都是无关紧要的,我在 14 天的试用中使用了程序 pdftoolbox 来使用这个自动分割文本图像的疯狂功能和向量到不同的层,然后可以删除或使其不可见。

  3. 这是通过转到修复菜单,搜索

    create different layers for vectors..
    选项并单击修复来完成的。然后一旦完成 - 转到主菜单下的
    explore layers
    选项并删除除文本图层之外的所有内容。正如你所看到的,它在删除任何额外的垃圾方面非常有效,几乎变得像报纸的广告拦截:) enter image description here

  4. 仍然有一些剩余的垃圾,但删除所有图像后,我所要做的就是浏览几页并检查 acrobat 编辑器中是否有不相关的文本。唯一需要做的手工工作。

我觉得很有趣的是,当我试图自动化整个过程时,我完全陷入了这个困境。但当我尝试减少尽可能多的手动工作时,我已经自动化了 99% 的流程。

我想当我试图自动化它时,我潜意识地犯了完美解决方案谬误

́\_(ツ)_/́

© www.soinside.com 2019 - 2024. All rights reserved.