我想从这个 PDF 文件中提取所有页面,提高它们的颜色级别,并最终对它们进行 OCR。
我用过Imagemagick:
magick Historia_de_CA_vol1_Cap1_0.pdf mogrify -auto-level Historia_de_CA_vol1_Cap1_0-*.jpg
,
这显着提高了嵌入图像的质量,如文档的第 1 页和第 21 页所示。我怀疑这是因为 Imagemagick 正确解释了由 Adobe Acrobat Reader 转换为黑色或深色背景的透明图层。不幸的是,提取的文本比原始文本更模糊
我还使用了 poppler 的 PDFtoppm 实用程序:
pdftoppm -jpeg Historia_de_CA_vol1_Cap1_0.pdf Historia_de_CA_vol1_Cap1_0
,
可生成清晰的文本,适合 OCR,但保留了原始 PDF 第 1 页和第 21 页上嵌入图像的较差质量,其中透明度似乎呈现为深色层。
如何让 Imagemagick 生成适合 OCR 的改进图像和清晰文本,或者相反,如何让 PDFtoppm 正确渲染原始 PDF 中可疑的透明层?
您的 imagemagick 命令可能有缺陷。使用 magick mogrify,不要将它们与图像分开。 magick mogrify 的结构是
magick mogrify -path path_to_output -format format_for_output * (or *.suffix)
这将读取当前目录中的所有图像,并将它们以相同的名称和所需的后缀写入所需的目录。
也许你只想要 magick,而不是 magick mogrify
magick Historia_de_CA_vol1_Cap1_0.pdf -auto-level Historia_de_CA_vol1_Cap1_0.jpg
这将创建 Historia_de_CA_vol1_Cap1_0-N.jpg 的输出,其中 N 是 0 到页数。