我想写一个python脚本,它可以自动查找pdf中的文本,并根据文本的高亮显示。
我正在使用python的pymupdf模块。它对一些pdf可以工作,但对目标pdf(绘制组件和属性表),它的输出是空白的,没有数据和一些空白的亮点。然而,当目标pdf(绘制组件和属性表)时,它将保存输出为一个空白的pdf,没有数据和一些空白的亮点。
import fitz
doc=fitz.open("c5.pdf")
page = doc[0]
text = "a"
text_instances = page.searchFor(text)
for inst in text_instances:
highlight = page.addHighlightAnnot(inst)
doc.save("out.pdf", garbage=4, deflate=True, clean=True)
你的PDF可能包含的元素 出现 像文本,但又是其他的东西。可能它们只是某种类型的图形或图像,在这种情况下,文本搜索当然找不到任何东西。
请在我的PyMuPDF回帖中提交一个问题,并附上一些PDF样本,以便我进行调查。