2025-12-16 使用.NET解析HTML文档:HtmlAgilityPack实战指南 使用.NET解析HTML文档:HtmlAgilityPack实战指南 真正有价值的内容往往藏在 <body> 的某个区块中,可能是 <article>、.content 类,或是特定 ID 的容器。以常见的新闻页面为例,假设正文包裹在一个 class 为 post-body 的 div 中:csharp var bodyNode = doc.DocumentNode.SelectSingleNode("//div[@class='post-body']"); if (bodyNode != null) { // 清理干扰元素,如广告、脚注 foreach (var script in bodyNode.SelectNodes(".//script|.//style|.//nav")) { script.Remove(); }string content = bodyNode.InnerText .Replace("\n", "") .Replace("\r", "") .Trim(); // 截取前1000字作为摘要 if (content.Lengt... 2025年12月16日 1 阅读 0 评论