我正在使用硒抓取社交平台,许多用户使用特殊字符,例如HEᑕƘᏔ®✞ℍ
,fire Emojis等。这些字符变成问号,例如“ HE?????????
”。
我曾尝试使用解码和编码实用程序,但我绝对没有运气。看到这里:
WebUtility.HtmlDecode(string);
WebUtility.HtmlEncode(string);
[我觉得我在这里树错了树,但不知道从哪里开始,因为特殊字符的答案通常是关于Unicode的,我很确定在这种情况下这与无关。
编辑:这就是我使用硒获取内容的方式
title = driver.FindElement(By.XPath("//*[@id=\"header-
section\"]/div[2]/div/div/div/div/div[1]/div/h1")).Text;
[您正在做的是查看HTML解码和编码,而不是替换字母以使它们更安全,例如£变成£
您想看一下文本编码,因为它可以控制哪些字符可用于不同的字符集,从而为您提供不同的字符。如果您正在使用的字符集中没有可用的字符,它将显示为问号或黑色块。
您可以使用Encoding.Convert()
参见this discussion了解更多信息。
[您可能希望将输入转换为UTF-8文本编码以查看完整的字符集。