我正在解析文本,其中一个孩子的文本如下所示:
” 相互扩散是在化学势梯度存在的情况下发生并导致质量净传输的现象,是各种材料过程中普遍存在但重要的现象,例如凝固、固溶、老化、腐蚀、涂层与基体之间的相互作用、等等 [ – ]。准确的相互扩散系数(或相互扩散率)对于全面理解...... ”
如果这个孩子的变量名称是“body”,我会使用
body.text
来提取它。但是,当我这样做时,它会切断新行之后的所有内容并得到类似以下内容的内容。
“相互扩散是在化学势梯度存在的情况下发生并导致质量净传输的现象,是各种材料过程中普遍存在但重要的现象,例如凝固、固溶、老化、腐蚀、涂层和涂层之间的相互作用。矩阵,依此类推["
这是我的代码:
file = "Articles Batch 1/Keep/s1.xml"
root = ET.parse(file).getroot()
records = root[4]
article = records[0]
body = article[1]
print(body[0][0].text)
我该如何保留整个东西?
对于仍然遇到此问题的任何人,而不是
print(body[0][0].text)
使用
print("".join(body[0][0].iternext()))
https://docs.python.org/3/library/xml.etree.elementtree.html#xml.etree.ElementTree.Element.text