我正在寻找从 html 中提取主要文章内容的解决方案(不是付费 API)。一般来说,我在.net 中工作。 python中有很多库,但.net中没有。当然,我可以下载所有 html 并尝试提取所有文本。有没有什么库,好的算法可以用?
Html Agility Pack 是最好的解决方案。 链接
// From File
var doc = new HtmlDocument();
doc.Load(filePath);
// From String
var doc = new HtmlDocument();
doc.LoadHtml(html);
// From Web
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);