我已经获得了5000个pdf文件,其中包含名称,编号,地址等用户信息,我需要在Excel中创建一个数据库,列中的用户列表和行中的信息,甚至可以从终端或简单的软件中创建?
我认为从终端可以实现。
您可以从将文件转换为易于阅读的格式开始,例如txt:
for file in *.pdf; do pdftotext "$file" "$file.txt"; done
对于pdftotext
,你需要THIS
然后,您可以读出文件并将其写入带有正确符号的csv文件中
cat file.txt | tr -s '[:blank:]' ',' > FILE.csv
我没有很好的解决方案,但pdftotext filename.pdf
可以帮助你。它将在您的目录中创建一个包含该PDF提取文本的文件filename.txt
。