我使用 lxml
text_content
从 HTML 页面中提取了 text_content,并且我在其中找到了一些符合特定条件的文本,我需要从 HTML 中删除那些匹配的字符串。我必须将它连同其中的标签一起从 HTML 中删除。
一个简单的说明性例子来获得一个想法。
HTML = "<div>Spam<span>Ham<br>Jam</span><strong>HillDog</strong></div>"
TEXT_TO_REMOVE = "mHamJamHill"
REMOVED_HTML = "<div>Spa<strong>Dog</strong></div>"
另请注意,HTML 可能包含空格和其他需要处理的特殊字符
我提出的想法涉及跟踪 HTML 文档字符串中的索引并将其映射到提取的文本内容。但在这种方法中,我必须处理 text_content 解析器处理的所有情况,这是一项艰巨的任务。有没有其他更简单的方法?我错过了什么吗?有图书馆可以帮助我吗?