python unicode 错误：为什么我使用 encode(utf-8)却一直得到这些字符？

Question

for p in articles2:
    url = p.find('a')['href']
    title = p.find('h3').get_text().strip().encode("utf-8")
    print(title)

OUTPUT:

c3\xa9gie de d\xc3\xa9fense active et pr\xc3\xa9ventive\xc2\xbb'

b'Zoom sur la course effr\xc3\xa9n\xc3\xa9e pour trouver un vaccin'

b'On vous le dit'

b'\xc3\x89dition du jour (PDF)'

b'Son port est d\xc3\xa9sormais obligatoire : Le prix du masque plafonn\xc3\xa9'

b'Baisse de 20% des prix des produits agricoles' .....

Answer 1

试试别的编码，似乎这个字符是拉丁文-1。

你可以找到更多的编码此处

Answer 2

使用 split() 和 join 来翻译这些字符。

即 "Zoom sur la course effr\xc3\xa9n\xc3\xa9e pour trouver un vaccin" 将 'Zoom sur la course effrÃ©nÃ©e pour trouver un vaccin' 之后 join 和 split()

应该是这样的。

"".join(the_text_to_clean.strip()).encode('ascii', 'ignore').decode("utf-8")

如何在你的代码中应用

for p in articles2:
   url = p.find('a')['href']
   title = p.find('h3').get_text()
   title = "".join(title.strip()).encode('ascii', 'ignore').decode("utf-8") #clean title
   print(title)

python unicode 错误：为什么我使用 encode(utf-8)却一直得到这些字符？

问题描述投票：0回答：1

1个回答

最新问题

python unicode 错误：为什么我使用 encode(utf-8)却一直得到这些字符？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1