我有多个 pdf 文件,我需要计算文本中出现特定标题或单词后的单词数。例如,给定的标题显示在 2 页文档的第二页顶部,则仅计算第 2 页上的单词。您知道现有的字数统计程序是否已经包含这样的功能吗?
非常感谢您的帮助
克里斯
如果您正在寻找命令行自动化,那么
您需要先使用pdftotext将PDF转换为文本文件:
$ pdftotext transcript.pdf
然后使用
[wc][2]
实用程序来计算单词数:
$ wc -w transcript.txt
类似的解决方案是
ps2ascii file.pdf | wc -w