我一直在使用 Google 自定义搜索 API 来执行以下任务:
这按预期工作正常,但它只允许在 PDF 文档的内容中进行搜索。但是,我试图在 PDF 文档的元数据中或在 PDF 文档的内容流中进行搜索。 我搜索了很多,我认为谷歌没有办法做到这一点。我想知道是否还有其他搜索引擎您认为我可以实现我想要的?
谢谢你
我在 github 上找到了这个,但仓库已存档。 它使用不同的组合和方式, 脚本没有更新,但我想如果你使用:
selenium
PyPDF2
PyMuPDF
json
和其他
regex
技术通过修改此脚本,
你可以到达那里。
https://github.com/TebbaaX/Katana
并与
selenium
PyPDF2
PyMuPDF
bsf4
:
https://pypi.org/project/PyMuPDF/
https://pypi.org/project/PyPDF2/
https://pypi.org/project/BeautifulSoup/
我不知道这是否可以帮助您,但从逻辑上讲,您必须抓取文件并对它们运行分析以提取元数据?