pdftotext(linux poppler-utils)是否可以采用二进制而不是pdf文件?

问题描述 投票:0回答:1

pdftotext看起来只使用pdf文件名或它的路径。该文档不是很有帮助(https://www.cyberciti.biz/faq/converter-pdf-files-to-text-format-command/)(https://linux.die.net/man/1/pdftotext

是否可以将二进制内容直接发送到此?

假设我正在获取直接链接到PDF的网址。我使用python请求获取该网址的响应,

response = requests.get(somePdfUrl)

我抓取二进制文件,

pdfBinary = response.content

而且我希望能够将其发送到此函数并使用subprocess运行它,但通常情况是这样的:

def textExtract(pdfBinary):
    text = subprocess.run(['pdftotext', '/path/to/file.pdf'],
                            stdout=PIPE, stderr=PIPE) 

这可能是不可能的,并且仅限于软件包,但是是否可以通过某种方式将pdfBinary插入此方法?我不想每次都保存pdf文件,然后将其插入子过程。

python linux subprocess pdftotext
1个回答
0
投票

我通过使用此实用程序的修改后的dockerized版本解决了这个问题,说您有一个Dockerfile:

© www.soinside.com 2019 - 2024. All rights reserved.