从 PDF 中提取页面时，Imagemagick 改善图像但模糊文本，PDFtoppm 保留清晰的文本但也保留深色图像

Question

我想从这个 PDF 文件中提取所有页面，提高它们的颜色级别，并最终对它们进行 OCR。

我用过Imagemagick：

magick Historia_de_CA_vol1_Cap1_0.pdf mogrify -auto-level Historia_de_CA_vol1_Cap1_0-*.jpg

,

这显着提高了嵌入图像的质量，如文档的第 1 页和第 21 页所示。我怀疑这是因为 Imagemagick 正确解释了由 Adobe Acrobat Reader 转换为黑色或深色背景的透明图层。不幸的是，提取的文本比原始文本更模糊

我还使用了 poppler 的 PDFtoppm 实用程序：

pdftoppm -jpeg Historia_de_CA_vol1_Cap1_0.pdf Historia_de_CA_vol1_Cap1_0

,

可生成清晰的文本，适合 OCR，但保留了原始 PDF 第 1 页和第 21 页上嵌入图像的较差质量，其中透明度似乎呈现为深色层。

如何让 Imagemagick 生成适合 OCR 的改进图像和清晰文本，或者相反，如何让 PDFtoppm 正确渲染原始 PDF 中可疑的透明层？

Answer 1

您的 imagemagick 命令可能有缺陷。使用 magick mogrify，不要将它们与图像分开。 magick mogrify 的结构是

magick mogrify -path path_to_output -format format_for_output * (or *.suffix)

这将读取当前目录中的所有图像，并将它们以相同的名称和所需的后缀写入所需的目录。

也许你只想要 magick，而不是 magick mogrify

magick Historia_de_CA_vol1_Cap1_0.pdf -auto-level Historia_de_CA_vol1_Cap1_0.jpg

这将创建 Historia_de_CA_vol1_Cap1_0-N.jpg 的输出，其中 N 是 0 到页数。