ITextSharp 4.1.6将PDF内容提取为文本

Question

该公司希望专门使用Itextsharp 4.1.6版本，并且不想购买许可证（版本5/7）。所以，我们已经使用itextsharp 5版本从pdf实现了TextExtract。当我们降级时，此方法不支持4.16 LGPL版本。

所以，我查看了许多StackOverflow和其他网站的答案。看起来没有找到除AGPL版本中存在的以下代码之外的自定义实现。

PdfTextExtractor.GetTextFromPage(reader, i, new SimpleTextExtractionStrategy())

并且byte[] pageContent = reader.GetPageContent(i);给出了字节内容，当转换为字符串时，它不会给我们确切的文件文本。

因为，我们不希望购买AGPL版本并且需要实现pdf的textextractor，任何其他工具支持这个/任何人都有textextractor的实现。

任何建议将不胜感激。

编辑：@ jgoday的回答参考：qazxsw poi

Answer 1

使用iText 4.1，您可以使用PdfContentParser（）来解析每个页面的内容。

https://github.com/schourode/iTextSharp-LGPL/blob/f75cdad88236d502af42458a420d48be2a47008f/src/core/iTextSharp/text/pdf/PdfContentParser.cs