TypechoJoeTheme

至尊技术网

登录
用户名
密码
搜索到 1 篇与 的结果
2025-12-16

使用.NET解析HTML文档:HtmlAgilityPack实战指南

使用.NET解析HTML文档:HtmlAgilityPack实战指南
真正有价值的内容往往藏在 <body> 的某个区块中,可能是 <article>、.content 类,或是特定 ID 的容器。以常见的新闻页面为例,假设正文包裹在一个 class 为 post-body 的 div 中:csharp var bodyNode = doc.DocumentNode.SelectSingleNode("//div[@class='post-body']"); if (bodyNode != null) { // 清理干扰元素,如广告、脚注 foreach (var script in bodyNode.SelectNodes(".//script|.//style|.//nav")) { script.Remove(); }string content = bodyNode.InnerText .Replace("\n", "") .Replace("\r", "") .Trim(); // 截取前1000字作为摘要 if (content.Lengt...
2025年12月16日
1 阅读
0 评论