从 HTML 中提取主要内容

问题描述 投票:0回答:1

我正在寻找从 html 中提取主要文章内容的解决方案(不是付费 API)。一般来说,我在.net 中工作。 python中有很多库,但.net中没有。当然,我可以下载所有 html 并尝试提取所有文本。有没有什么库,好的算法可以用?

html .net text-extraction
1个回答
0
投票

Html Agility Pack 是最好的解决方案。 链接

// From File
var doc = new HtmlDocument();
doc.Load(filePath);

// From String
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);
© www.soinside.com 2019 - 2024. All rights reserved.