我正在尝试使用python从pdf提取文本。我尝试使用PyPDF2,但它似乎仅在pdf是简单的基本文本而没有其他功能时才起作用。还有什么可以帮助我从PDF提取文本的内容吗?
尝试使用pdfreader(https://pdfreader.readthedocs.io/en/latest/tutorial.html#how-to-browse-document-pages)。库中有一个名为SimplePDFViewer的模块,该模块仅从pdf文档的特定页面中提取文本。
示例:
from pdfreader import SimplePDFViewer
pdf='test.pdf'
fn=open(pdf, 'rb')
viewer=SimplePDFViewer(fn)
viewer.render()
text="".join(viewer.canvas.strings)
pg_1=text
它将我pdf页面1中的文本提取为字符串。输出:
pg_1
Out[79]: ' Sequoia Mortgage Trust 2020-3 March 19, 2020
Analytical Contacts: Jay Wang, Director [email protected], (646) 731-1220 Jack
Kahan, Senior Managing Director [email protected], (646) 731-2486 Armine
Karajyan, Associate Director [email protected], (646) 731-1210 Fei Han, Associate
[email protected], (646) 731-2342 Sequoia Mortgage Trust 2020-3 Structured Finance RMBS
New Issue Report '
希望这会有所帮助。