从 PDF 中提取页面时,Imagemagick 改善图像但模糊文本,PDFtoppm 保留清晰的文本但也保留深色图像

问题描述 投票:0回答:1

我想从这个 PDF 文件中提取所有页面,提高它们的颜色级别,并最终对它们进行 OCR。

我用过Imagemagick:

magick Historia_de_CA_vol1_Cap1_0.pdf mogrify -auto-level Historia_de_CA_vol1_Cap1_0-*.jpg
,

这显着提高了嵌入图像的质量,如文档的第 1 页和第 21 页所示。我怀疑这是因为 Imagemagick 正确解释了由 Adobe Acrobat Reader 转换为黑色或深色背景的透明图层。不幸的是,提取的文本比原始文本更模糊

我还使用了 poppler 的 PDFtoppm 实用程序:

pdftoppm -jpeg Historia_de_CA_vol1_Cap1_0.pdf Historia_de_CA_vol1_Cap1_0
,

可生成清晰的文本,适合 OCR,但保留了原始 PDF 第 1 页和第 21 页上嵌入图像的较差质量,其中透明度似乎呈现为深色层。

如何让 Imagemagick 生成适合 OCR 的改进图像和清晰文本,或者相反,如何让 PDFtoppm 正确渲染原始 PDF 中可疑的透明层?

image-processing imagemagick poppler pdftoppm
1个回答
0
投票

您的 imagemagick 命令可能有缺陷。使用 magick mogrify,不要将它们与图像分开。 magick mogrify 的结构是

magick mogrify -path path_to_output -format format_for_output * (or *.suffix)

这将读取当前目录中的所有图像,并将它们以相同的名称和所需的后缀写入所需的目录。

也许你只想要 magick,而不是 magick mogrify

magick Historia_de_CA_vol1_Cap1_0.pdf -auto-level Historia_de_CA_vol1_Cap1_0.jpg

这将创建 Historia_de_CA_vol1_Cap1_0-N.jpg 的输出,其中 N 是 0 到页数。

© www.soinside.com 2019 - 2024. All rights reserved.