在这个网页上,我正在扫描1000个中的一个,我找到了一个带有Unicode 0x97的标签名称。
它用
<!?~V[if lt IE 7]>
which contains 0xc2 0x96
根据unicode转换器c2 96是
U+0096 START OF GUARDED AREA
基于
<meta http-equiv="Content-Type" content="text/html; charset=windows-1251" />
我会说编码不是unicode,它是windows-1251。
你要问的那一行是:
<!—rating forum -->
这个“奇怪”的角色是em dash。我对这些的经验是,它们通常是将--
(双连字符)键入Microsoft Office Word,然后将其自动更正为em破折号的结果。
它不是有效的HTML,但它可以在浏览器中运行,因为浏览器通常会尝试尽可能地修复损坏的HTML。在这种情况下,你有一个以<!
开头的元素,足以猜测,虽然不是有效的<!--
,但它仍然可能是嵌入式注释的开头。