我下载了一个维基百科的转储,我想维基格式转换成我的对象格式。是否有一个维基分析器可将对象转换为XML?
见java-wikipedia-parser。我从来没有使用过,但根据文档:
分析器配备了一个HTML生成。但是,您可以控制正被传递自己实现
be.devijver.wikipedia.Visitor
接口生成的输出。
我不知道究竟怎么看维基百科转储的XML格式。但是,如果文本的一部分是在维基百科的标记,我建议调查http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html。这是维基百科包的Apache Lucene的的类之一。我没有使用它,但Apache Lucene是一个相当成熟的项目,所以它是值得尝试的 - 在这种情况下的实验 - 包。
所述JWPL解析器分析搭配MediaWiki标记的文本的结构和其表示为Java对象。这允许结构化访问的例如内容维基百科或维基词典。还有就是解析器没有独立发布,因为它是JWPL维基百科的API发布的一部分。但是,它可以完美地使用了未经JWPL访问维基百科。
这可能帮助:a page with converters from mediawiki to other formats, including docbook。 DocBook是一个标准的XML格式的基础可能会满足您的需求(的内容链接到MediaWiki XML表示)
您可以使用范围广泛的工具来分析你的内容。所有的脚本语言都具有模块。例如Perl语言有Text::Markup::Trac这是文本Trac的wiki语法分析器::标记。它生成一个HTML文件。
Wiki Parser转换维基百科转储到解析的XML。可能正是你需要的。
ü可以尝试wikiprep这是一个Perl的维基百科解析器check it's page
它输出的许多文件有些是
1-维基解析成XML 2-猫票数文件,它包含维基百科类别层次结构
我试过它,它是,它需要高内存可用于处理超过4GB的RAM最有可能更多也ü可以从here这也提供网页上下载一个XML预先制备的版本只问题非常有用