我需要从此PDF识别和提取检查项目。谁能使用Python或任何其他相关工具来指导我如何实现这一目标?
我已经研究了诸如PYPDF2和PDFMiner之类的库,但我不确定如何专门针对和提取检查项目。
Quirtements:
提取与这些检查项目关联的文本。
使用
pymupdfpip install -U pip
pip install -U pymupdf
import fitz
path_pdf = # add your path
with fitz.open(path_pdf) as doc:
for page in doc:
print(f"Page number {page.number}")
w = page.first_widget
while w:
if w.field_type_string == "CheckBox":
print(f"{w.field_name}: {w.field_value}")
w = w.next