大家好,
我有一个带有 xml 的 PDF 文件,我需要解析该 xml 文件。有谁知道我该怎么做? 我正在使用 C#。
提前致谢。
我相信这篇博文描述了如何使用 C# 读取 PDF 文件就是您想要的。
这是他给出的从 PDF 中抓取文本的示例:
using System;
using org.pdfbox.pdmodel;
using org.pdfbox.util;
namespace PDFReader
{
class Program
{
static void Main(string[] args)
{
PDDocument doc = PDDocument.load("lopreacamasa.pdf");
PDFTextStripper pdfStripper = new PDFTextStripper();
Console.Write(pdfStripper.getText(doc));
}
}
}
这里看起来是一份详尽且组织严密的列表,介绍了如何使用 C# 阅读 PDF。
如果您需要的是某种形式的嵌入式元数据,正如马克建议的那样,我确信也可以使用我链接到的工具来获取。
尝试按照this问题中的建议使用LINQ to XML。
PDF 文件可以有元数据信息对象,还是作为对象嵌入的 XML 文件?