在 PDF 文档的元数据中搜索

Question

我一直在使用 Google 自定义搜索 API 来执行以下任务：

这按预期工作正常，但它只允许在 PDF 文档的内容中进行搜索。但是，我试图在 PDF 文档的元数据中或在 PDF 文档的内容流中进行搜索。我搜索了很多，我认为谷歌没有办法做到这一点。我想知道是否还有其他搜索引擎您认为我可以实现我想要的？

谢谢你

Answer 1

我在 github 上找到了这个，但仓库已存档。它使用不同的组合和方式，脚本没有更新，但我想如果你使用：

selenium

PyPDF2

PyMuPDF

json

和其他

regex

技术通过修改此脚本，

你可以到达那里。

并与

selenium

PyPDF2

PyMuPDF

bsf4

:

我不知道这是否可以帮助您，但从逻辑上讲，您必须抓取文件并对它们运行分析以提取元数据？