我正处于编码冒险的开始阶段。 我需要从大 PDF 文档(350 页)中提取页面/选项卡名称。附图片。 我尝试使用 pdfminer,因为理论上这些名称也包含在 PDF 页面上,但要获取它们,我需要设置一些规则。从选项卡中获取这些名称会更容易。是否可以?有什么建议我应该使用什么吗?
您可以使用PyMuPDF。像这样,
import fitz # PyMuPDF library
ref_pdf = fitz.open(r"C:\any.pdf")
page_count = ref_pdf.page_count
for i in range(page_count):
page = ref_pdf[i]
page_text = page.get_text()
print(page_text)
页面文本将包含每个页面的所有文本,包括页面/选项卡名称。