Apache-camel Xpathbuilder性能

问题描述 投票:0回答:2

我有以下问题。我设置了一个camel -project来解析某些xml文件。我必须选择从文件中取出某些节点。

我有两个文件,分别为246kb和347kb。在上面给出的示例中,我提取了250个节点的父子对。

使用默认工厂,这是时间。对于246kb文件,分别保留77秒和106秒。我想提高性能,因此改用saxon,时间分别为47秒和54秒。我至少可以减少一半的时间。

是否有可能进一步缩短时间,我可以使用任何其他工厂或优化方法。

我正在使用XpathBuilder剪切xpath。这是一个例子。是否可能不必重复创建XpathBuilder,似乎必须为每个xpath构造它,我将拥有一个实例并不断将xpath注入其中,也许它将进一步提高性能。

 return XPathBuilder.xpath(nodeXpath)
            .saxon()
            .namespace(Consts.XPATH_PREFIX, nameSpace)
            .evaluate(exchange.getContext(), exchange.getIn().getBody(String.class), String.class);

根据迈克尔的评论添加更多详细信息。所以我很喜欢加入他们,下面的例子将使我变得很清楚。我将它们组合成一个json。因此,我们开始吧,可以说我们对第一条路径和第二条路径具有以下映射。

pData.tinf.rexd:bm:Document / bm:xxxxx / bm:PmtInf [{0}] / bm:ReqdExctnDt / text()pData.tinf.pIdentifi.instId:// bm:Document / bm:xxxxx / bm:PmtInf [{0}] / bm:CdtTrfTxInf [{1}] / bm:PmtId / bm:InstrId / text()

这将导致如下所示的json

pData:{
  tinf: {
   rexd: <value_from_xml>
}
 pIdentifi:{

    instId: <value_from_xml>
}
}
parsing xpath apache-camel saxon
2个回答
0
投票

很难说,没有看到您的实际XPath表达式,但是给定文件大小和执行时间,我的猜测是您正在做一个联接,该联接作为笛卡尔积被幼稚地执行,即具有O(n * m)性能。可能有一些重新组织它以具有对数性能的方法,但是细节在于细节。 Saxon-EE非常擅长自动优化联接查询。如果不是这样,通常会有手动的方法-尽管XSLT比XPath提供了更多的选择(例如,使用xsl:keyxsl:merge)。


0
投票

实际上,我能够将时间缩短到10秒。我正在使用apache-camel。因此,我在此处添加了线程,以便可以在单独的线程中读取多个文件。读取文件后,它会根据必须遍历的节点的长度进行串行操作。我意识到不必在这里进行串行化,因此引入了parrallelStream,现在它具有足够的功能。谨防再次发生的一件事是不要增加线程数量,因为那样会降低性能。因此,我尝试将线程数限制为操作系统上的内核数的两倍或三倍。

© www.soinside.com 2019 - 2024. All rights reserved.