无法使用iTextSharp读取pdf文件中特定位置的文本

问题描述 投票:0回答:1

我被允许阅读pdf文本,并做了一些提取文本的工作。我正在使用iTextSharp来阅读PDF。这里的问题是PdfTextExtractor.GetTextFromPage没有给我页面的所有内容。对于前

enter image description here

在以上PDF中,我<>阅读以蓝色突出显示的文本。我看不懂的其余字符。以下是执行上述操作的行 `string filePath = "myFile path"; PdfReader pdfReader = new PdfReader(filePath); for (int page = 1; page<=1; page++) { ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentPageText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); }`

这里有什么建议吗? 

我在SO中经历了很多查询和解决方案,但并不特定于此查询。

我被允许阅读pdf文本,并做了一些提取文本的工作。我正在使用iTextSharp来阅读PDF。这里的问题是PdfTextExtractor.GetTextFromPage不能给我全部...

c# .net itext
1个回答
1
投票
提取文本不提取这些文本的原因非常简单:这些文本不是静态页面内容的一部分,而是表单字段!但是,iText(以及我也知道的其他PDF库)中的“文本提取”被认为是“提取静态页面内容的文本”。因此,您错过的那些文本根本不会进行文本提取。
© www.soinside.com 2019 - 2024. All rights reserved.