我将从多个 PDF 文件中提取文本。 PDF文件包括文本和一些图像,甚至有些页面是扫描页面(我假设扫描页面就像图像)。我按照以下命令从 PDF 文件中提取文本。我的问题是如何编辑带有条件的命令来检查每个页面是否包含任何图像,然后从图像中提取文本。 如果您能帮助我,我将不胜感激。
lst_all_text = []
for foldername,subfolders,files in os.walk(r"C:/MY PATH"):
for file in files:
# open the pdf file
object = PyPDF2.PdfFileReader(os.path.join(foldername,file))
# get number of pages
NumPages = object.getNumPages()
text = ""
# extract text and do the search
for i in range(0, NumPages):
PageObj = object.getPage(i)
text += PageObj.extractText()
lst_all_text.append(text)
我已经有一段时间没有这样做了,所以我将把我遵循的一般方法放在这里:
注意:我在使用超正方体时遇到的问题是,随着图像数量的增加,它变得非常慢。