无法使用iTextSharp读取pdf文件中特定位置的文本

Question

我被允许阅读pdf文本，并做了一些提取文本的工作。我正在使用iTextSharp来阅读PDF。这里的问题是PdfTextExtractor.GetTextFromPage没有给我页面的所有内容。对于前

在以上PDF中，我<>阅读以蓝色突出显示的文本。我看不懂的其余字符。以下是执行上述操作的行`string filePath = "myFile path"; PdfReader pdfReader = new PdfReader(filePath); for (int page = 1; page<=1; page++) { ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentPageText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); }`

这里有什么建议吗？

我在SO中经历了很多查询和解决方案，但并不特定于此查询。

我被允许阅读pdf文本，并做了一些提取文本的工作。我正在使用iTextSharp来阅读PDF。这里的问题是PdfTextExtractor.GetTextFromPage不能给我全部...

Answer 1

提取文本不提取这些文本的原因非常简单：这些文本不是静态页面内容的一部分，而是表单字段！但是，iText（以及我也知道的其他PDF库）中的“文本提取”被认为是“提取静态页面内容的文本”。因此，您错过的那些文本根本不会进行文本提取。

无法使用iTextSharp读取pdf文件中特定位置的文本

问题描述投票：0回答：1

1个回答

最新问题

无法使用iTextSharp读取pdf文件中特定位置的文本

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1