如何获取PDF中元素(文本)的坐标?

问题描述 投票:0回答:1

我正在开发一种方法来解析 PDF,识别 PDF 中文章的开始和结束位置,然后将其保存到仅找到此内容的新 PDF。但是,当我在一个页面上有两篇文章时,问题就出现了。在使用 DevExpress 库的情况下,我找不到进行这种分离的方法。目前,我正在尝试使用“PDF Graphics API”来执行此操作,但有必要知道本文的坐标。但是,我还没有找到获取这些坐标的方法。如果有人可以帮助我,我将不胜感激。

using DevExpress.Pdf;
using DevExpress.Pdf.Native;
using System.Drawing;

//...

namespace DivisorPDF
{
    public class PdfManipulator
    {
        public void Pdf(string sourcePdfPath, string outputPdfPath)
        {
            string searchedText = "attachment";

            using (PdfDocumentProcessor processor = new PdfDocumentProcessor())
            {
                processor.LoadDocument(sourcePdfPath);
                string pageText = processor.GetText(); 

                PdfPage page = processor.Document.Pages[0];
                //...
            }
        }
    }
}

c# devexpress
1个回答
0
投票

PdfTextSerchResults类将为您提供包含文本位置的Rectangles属性。

这里有一个 GitHub 示例,显示了 Pdf 中文本的搜索和突出显示:https://github.com/DevExpress-Examples/pdf-document-api-highlight-search-results/tree/333301890fe6700326efc61e5d304b12351bf95f

© www.soinside.com 2019 - 2024. All rights reserved.