我的琴弦上有这些奇怪的
<200b></200b>
符号。它是什么以及如何删除它?好像只是空白You appreciate traditional values ​​and expect respect
​​
是我在控制台中查看它时的显示方式。unicodedata
...将其标准化
>>> import unicodedata
>>> unicodedata.normalize('NFC', u'Goodbye​​Garbage').encode('ascii',
'ignore')
'GoodbyeGarbage'
>>>
请注意,这只是返回一个 ASCII 字符串,并且使用此技术后您将没有 unicode。
另一个选项仅适用于您提供的示例...
>>> u'Goodbye​​Garbage'.encode('ascii', 'ignore')
'GoodbyeGarbage'
>>>
unicodedata
可以让您更灵活地处理奇怪的情况并将它们分解为真正的 ASCII,但是原始
.encode('ascii', 'ignore')
会删除所有 unicode 字符,而无需先尝试对其进行标准化。我在将文本粘贴到 Vim 中时遇到问题。当我粘贴这个特定的句子时:“Em alguns sistemas, essas dependentências não são claramente separáveis <200b><200b><200b> umas das outras”,这些额外的字符 被插入,导致格式问题。在我的研究中,我发现这个功能是一个“零宽度空间”,不可见,用于在某些情况下调整换行符。