我不是 python 大师(习惯于 R)。
我使用 pypdf 包 (v3.4.1) 从我创建并用 acrobat 填充的 pdf 表单中提取数据。
我可以阅读表单字段
f = PdfReader('test_formulaire.pdf')
ffields = f.get_fields()
ffields 是一个大小为 3 的字典对象(3 个键:'a1'、'a2'、'a5')。 dict 的每个“键”都是一个 Field 类对象。
我可以使用 print(ffields['a1'].value)
我现在想创建一个 pandas 数据框,其中包含字段的每个键的列(3 列,以键名命名)和包含每个键的值的行...
有什么快速简单的方法吗?
我可以用类似的列名创建一个空数据框(可能远非最佳):
column_names = ["" for x in range(len(ffields))]
idx=0
for i in ffields:
column_names[idx]=i
idx+=1
data = pd.DataFrame(columns=column_names)
用其他 for 循环填充它应该是可能的,但它看起来很难看......(请注意,一些值是数字,其他值是字符串)。
有没有人能有效地做到这一点。
提前致谢