如何收集特殊字母,如“ᑕƘᏔ®✞ℍ”

问题描述 投票:1回答:1

我正在使用硒抓取社交平台,许多用户使用特殊字符,例如HEᑕƘᏔ®✞ℍ,fire Emojis等。这些字符变成问号,例如“ HE?????????”。

我曾尝试使用解码和编码实用程序,但我绝对没有运气。看到这里:

 WebUtility.HtmlDecode(string);
 WebUtility.HtmlEncode(string);

[我觉得我在这里树错了树,但不知道从哪里开始,因为特殊字符的答案通常是关于Unicode的,我很确定在这种情况下这与无关。

编辑:这就是我使用硒获取内容的方式

  title = driver.FindElement(By.XPath("//*[@id=\"header- 
  section\"]/div[2]/div/div/div/div/div[1]/div/h1")).Text;
c# asp.net selenium special-characters
1个回答
0
投票

[您正在做的是查看HTML解码和编码,而不是替换字母以使它们更安全,例如£变成£

您想看一下文本编码,因为它可以控制哪些字符可用于不同的字符集,从而为您提供不同的字符。如果您正在使用的字符集中没有可用的字符,它将显示为问号或黑色块。

您可以使用Encoding.Convert()参见this discussion了解更多信息。

[您可能希望将输入转换为UTF-8文本编码以查看完整的字符集。

© www.soinside.com 2019 - 2024. All rights reserved.