如何删除与同一 HTML 的文本内容段相对应的 HTML 块（以及标签）？

Question

我使用 lxml

text_content

从 HTML 页面中提取了 text_content，并且我在其中找到了一些符合特定条件的文本，我需要从 HTML 中删除那些匹配的字符串。我必须将它连同其中的标签一起从 HTML 中删除。

一个简单的说明性例子来获得一个想法。

HTML = "<div>Spam<span>Ham<br>Jam</span><strong>HillDog</strong></div>"
TEXT_TO_REMOVE = "mHamJamHill"
REMOVED_HTML = "<div>Spa<strong>Dog</strong></div>"

另请注意，HTML 可能包含空格和其他需要处理的特殊字符

我提出的想法涉及跟踪 HTML 文档字符串中的索引并将其映射到提取的文本内容。但在这种方法中，我必须处理 text_content 解析器处理的所有情况，这是一项艰巨的任务。有没有其他更简单的方法？我错过了什么吗？有图书馆可以帮助我吗？

如何删除与同一 HTML 的文本内容段相对应的 HTML 块（以及标签）？

问题描述投票：0回答：0

最新问题

如何删除与同一 HTML 的文本内容段相对应的 HTML 块（以及标签）？

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0