[当PDF具有图像和表格时,从Python中提取PDF文本

问题描述 投票:0回答:1

我正在尝试使用python从pdf提取文本。我尝试使用PyPDF2,但它似乎仅在pdf是简单的基本文本而没有其他功能时才起作用。还有什么可以帮助我从PDF提取文本的内容吗?

python pdf text extract pypdf2
1个回答
0
投票

尝试使用pdfreader(https://pdfreader.readthedocs.io/en/latest/tutorial.html#how-to-browse-document-pages)。库中有一个名为SimplePDFViewer的模块,该模块仅从pdf文档的特定页面中提取文本。

示例:

from pdfreader import SimplePDFViewer
pdf='test.pdf'
fn=open(pdf, 'rb')
viewer=SimplePDFViewer(fn)
viewer.render()
text="".join(viewer.canvas.strings)
pg_1=text

它将我pdf页面1中的文本提取为字符串。输出:

pg_1
Out[79]: '   Sequoia Mortgage Trust 2020-3 March 19, 2020                          
Analytical Contacts:  Jay Wang, Director [email protected], (646) 731-1220  Jack 
Kahan, Senior Managing Director [email protected], (646) 731-2486        Armine 
Karajyan, Associate Director [email protected], (646) 731-1210  Fei Han, Associate  
[email protected], (646) 731-2342 Sequoia Mortgage  Trust 2020-3 Structured Finance RMBS 
New Issue Report '

希望这会有所帮助。

© www.soinside.com 2019 - 2024. All rights reserved.