场景:
我正在使用搜寻器进行一些HTML信息提取。现在,大多数提取规则都是硬编码的(不是标签或类似的东西,而是循环,嵌套元素等)
例如,一项常见任务如下:
我目前这样做的方式是:
与所有通用代码解析器相比,大部分都进行了硬编码(列名,表ID等除外)为我带来了好处或易于实现,并且效率更高,但是,它的可配置性较差,并且对目标进行了一些更改网站强迫我处理代码,这使任务分配更加困难。
问题
是否有任何language(最好有Java实现),它可以一致地定义提取规则,例如那些规则?我正在使用css样式的选择器来执行某些任务,但其他任务却并非如此简单,因此我的最佳猜测是必须扩展某些内容,以便非程序员维护人员可以按需添加/修改规则。
[如果有的话,我会接受基于Nutch的答案,因为我们正在研究将爬虫迁移到坚果时,尽管我更喜欢通用的Java解决方案。
[我当时正在考虑编写一个解析器生成器并创建我自己的规则集,以允许用户/维护者生成解析器,但确实感觉就像无缘无故地重新发明了轮子。
场景:我正在使用搜寻器提取一些HTML信息。现在,大多数提取规则都是硬编码的(不是标签或类似的东西,而是循环,嵌套元素等)。对于...
我正在做一些类似的事情-不完全是您要搜索的内容,但是也许您可以得到一些想法。