pdftotext
看起来只使用pdf文件名或它的路径。该文档不是很有帮助(https://www.cyberciti.biz/faq/converter-pdf-files-to-text-format-command/)(https://linux.die.net/man/1/pdftotext)
是否可以将二进制内容直接发送到此?
假设我正在获取直接链接到PDF的网址。我使用python请求获取该网址的响应,
response = requests.get(somePdfUrl)
我抓取二进制文件,
pdfBinary = response.content
而且我希望能够将其发送到此函数并使用subprocess
运行它,但通常情况是这样的:
def textExtract(pdfBinary):
text = subprocess.run(['pdftotext', '/path/to/file.pdf'],
stdout=PIPE, stderr=PIPE)
这可能是不可能的,并且仅限于软件包,但是是否可以通过某种方式将pdfBinary插入此方法?我不想每次都保存pdf文件,然后将其插入子过程。
我通过使用此实用程序的修改后的dockerized版本解决了这个问题,说您有一个Dockerfile: