该公司希望专门使用Itextsharp 4.1.6
版本,并且不想购买许可证(版本5/7)。所以,我们已经使用itextsharp
5版本从pdf实现了TextExtract。当我们降级时,此方法不支持4.16 LGPL版本。
所以,我查看了许多StackOverflow和其他网站的答案。看起来没有找到除AGPL版本中存在的以下代码之外的自定义实现。
PdfTextExtractor.GetTextFromPage(reader, i, new SimpleTextExtractionStrategy())
并且byte[] pageContent = reader.GetPageContent(i);
给出了字节内容,当转换为字符串时,它不会给我们确切的文件文本。
因为,我们不希望购买AGPL版本并且需要实现pdf的textextractor
,任何其他工具支持这个/任何人都有textextractor
的实现。
任何建议将不胜感激。
编辑:@ jgoday的回答参考:qazxsw poi
使用iText 4.1,您可以使用PdfContentParser()来解析每个页面的内容。
https://github.com/schourode/iTextSharp-LGPL/blob/f75cdad88236d502af42458a420d48be2a47008f/src/core/iTextSharp/text/pdf/PdfContentParser.cs