我试图使用scrapy从xml文件中抓取数据。该文件的结构如下:
<feed xml:base="https://example.com/sap/...">
<entry><id>http://example.com/.../idset</id>
<m:properties>
<d:SubID>xyz</d:JobID>
<d:Posting>123456</d:Posting>
<d:Title>BoringTitle</d:Title>
</m:properties>
</entry>
</feed>
在Scrapy中我导入atom命名空间:
xxs = XmlXPathSelector(response)
xxs.register_namespace("atom", "http://www.w3.org/2005/Atom")
并且有可能提取一些数据
xxs.xpath("//atom:entry").extract()
但是,我发现用冒号选择数据是不可能的:
<d:Title>BoringTitle</d:Title>
什么是正确的xpath打印标题?也许有一个简单的答案,我是一个机械工程师这样做的业余爱好项目。
任何帮助,将不胜感激!
亲切的问候
约翰