获取网页的HTML代码

问题描述 投票:0回答:1

我正在尝试使用它的网址获取网页的HTML代码。我编写了以下代码,它可以工作,但比较结果字符串,它与我使用谷歌浏览器检查时看到的代码不匹配。我不是HTML gru,但似乎有所不同。

HttpWebRequest request = (HttpWebRequest)WebRequest.Create("https://fantasy.premierleague.com/a/leagues/standings/517292/classic");

HttpWebResponse response = (HttpWebResponse)request.GetResponse();

StreamReader stream = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding(response.CharacterSet));

string PageScript = stream.ReadToEnd();

生成的脚本如下:https://ideone.com/DXzfKy

我正在使用这两行来设置安全协议

ServicePointManager.Expect100Continue = true;
ServicePointManager.SecurityProtocol = SecurityProtocolType.Tls12;

如果有人能告诉我我在看什么以及可能出现什么问题,我将不胜感激。

c# web-crawler
1个回答
0
投票

您需要做的就是创建WebClient的实例并使用它来从URI读取数据,而不是将其转换为StreamReader,最后以纯文本格式转换。

WebClient client = new WebClient();
Stream dataFromPage = client.OpenRead(new Uri("https://ideone.com/DXzfKy"));
StreamReader reader = new StreamReader(dataFromPage);
string htmlContent = reader.ReadToEnd();
© www.soinside.com 2019 - 2024. All rights reserved.