我正在开发一种方法来解析 PDF,识别 PDF 中文章的开始和结束位置,然后将其保存到仅找到此内容的新 PDF。但是,当我在一个页面上有两篇文章时,问题就出现了。在使用 DevExpress 库的情况下,我找不到进行这种分离的方法。目前,我正在尝试使用“PDF Graphics API”来执行此操作,但有必要知道本文的坐标。但是,我还没有找到获取这些坐标的方法。如果有人可以帮助我,我将不胜感激。
using DevExpress.Pdf;
using DevExpress.Pdf.Native;
using System.Drawing;
//...
namespace DivisorPDF
{
public class PdfManipulator
{
public void Pdf(string sourcePdfPath, string outputPdfPath)
{
string searchedText = "attachment";
using (PdfDocumentProcessor processor = new PdfDocumentProcessor())
{
processor.LoadDocument(sourcePdfPath);
string pageText = processor.GetText();
PdfPage page = processor.Document.Pages[0];
//...
}
}
}
}
PdfTextSerchResults类将为您提供包含文本位置的Rectangles属性。
这里有一个 GitHub 示例,显示了 Pdf 中文本的搜索和突出显示:https://github.com/DevExpress-Examples/pdf-document-api-highlight-search-results/tree/333301890fe6700326efc61e5d304b12351bf95f