[当PDF具有图像和表格时，从Python中提取PDF文本

Question

我正在尝试使用python从pdf提取文本。我尝试使用PyPDF2，但它似乎仅在pdf是简单的基本文本而没有其他功能时才起作用。还有什么可以帮助我从PDF提取文本的内容吗？

Answer 1

尝试使用pdfreader（https://pdfreader.readthedocs.io/en/latest/tutorial.html#how-to-browse-document-pages）。库中有一个名为SimplePDFViewer的模块，该模块仅从pdf文档的特定页面中提取文本。

示例：

from pdfreader import SimplePDFViewer
pdf='test.pdf'
fn=open(pdf, 'rb')
viewer=SimplePDFViewer(fn)
viewer.render()
text="".join(viewer.canvas.strings)
pg_1=text

它将我pdf页面1中的文本提取为字符串。输出：

pg_1
Out[79]: '   Sequoia Mortgage Trust 2020-3 March 19, 2020                          
Analytical Contacts:  Jay Wang, Director [email protected], (646) 731-1220  Jack 
Kahan, Senior Managing Director [email protected], (646) 731-2486        Armine 
Karajyan, Associate Director [email protected], (646) 731-1210  Fei Han, Associate  
[email protected], (646) 731-2342 Sequoia Mortgage  Trust 2020-3 Structured Finance RMBS 
New Issue Report '

希望这会有所帮助。

[当PDF具有图像和表格时，从Python中提取PDF文本

问题描述投票：0回答：1

1个回答

最新问题

[当PDF具有图像和表格时，从Python中提取PDF文本

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1