使用HtmlAgilityPack XPath 表达式抓取博客园数据的实现代码

更新时间：2021年9月22日 10:19 点击：2249

Web 前端代码

复制代码代码如下:

 
<%@ Page Language="C#" AutoEventWireup="true" CodeFile="Default.aspx.cs" Inherits="_Default" %> 
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> 
<html xmlns="http://www.w3.org/1999/xhtml"> 
<head runat="server"> 
<title></title> 
</head> 
<body> 
<form id="form1" runat="server"> 
<div> 
<table cellpadding="1" cellspacing="1" bgcolor="#f1f1f1" style="text-align: center"> 
<asp:Repeater ID="Repeater1" runat="server"> 
<HeaderTemplate> 
<tr> 
<td> 
标题 
</td> 
<td> 
发布作者 
</td> 
<td> 
发布时间 
</td> 
</tr> 
</HeaderTemplate> 
<ItemTemplate> 
<tr bgcolor="#ffffff"> 
<td align="left"> 
<a href='<%#Eval("url") %>' target="_blank"> 
<%#Eval("title") %> 
</a> 
</td> 
<td> 
<a href='<%#Eval("authorUrl") %>' target="_blank"> 
<%#Eval("author") %> 
</a> 
</td> 
<td> 
<%#Eval("updatetime") %> 
</td> 
</tr> 
</ItemTemplate> 
</asp:Repeater> 
</table> 
</div> 
</form> 
</body> 
</html> 

cs 后台代码：

复制代码代码如下:

 
using System; 
using System.Collections.Generic; 
using System.Linq; 
using System.Web; 
using System.Web.UI; 
using System.Web.UI.WebControls; 
using S1; 
using System.Net; 
using System.IO; 
using System.Text; 
using HtmlAgilityPack; 
public partial class _Default : System.Web.UI.Page 
{ 
protected void Page_Load(object sender, EventArgs e) 
{ 
string page = string.Empty; 
if (!IsPostBack) 
{ 
WebClient wc = new WebClient(); 
string address = "http://www.cnblogs.com"; 
if (!string.IsNullOrEmpty(Request.QueryString["p"])) 
{ 
address += "/" + Request.QueryString["p"];//分页，p=p2,p=p3 
} 
Stream stream = wc.OpenRead(address); 
StreamReader sr = new StreamReader(stream, Encoding.UTF8); 
string html = sr.ReadToEnd(); 
//实例化HtmlAgilityPack.HtmlDocument对象 
HtmlDocument doc = new HtmlDocument(); 
//载入HTML 
doc.LoadHtml(html); 
//根据HTML节点NODE的ID获取节点 
HtmlNode navNode = doc.GetElementbyId("post_list"); 
//div[2]表示文章链接a位于post_list里面第3个div节点中 
HtmlNodeCollection list = navNode.SelectNodes("//div[2]/h3/a"); //根据XPATH来索引节点 
Cnblogs cnblogs = null; 
IList<Cnblogs> cnlist = new List<Cnblogs>(); 
foreach (HtmlNode node in list) 
{ 
cnblogs = new Cnblogs(); 
//获取文章链接地址 
cnblogs.url = node.Attributes["href"].Value.ToString(); 
//获取文章标题 
cnblogs.title = node.InnerText; 
cnlist.Add(cnblogs); 
} 
HtmlNodeCollection list1 = navNode.SelectNodes("//div[2]/div/a"); 
for (int i = 0; i < cnlist.Count; i++) 
{ 
cnlist[i].author = list1[i].InnerText; 
cnlist[i].authorUrl = list1[i].Attributes["href"].Value.ToString(); 
cnlist[i].updatetime = list1[i].NextSibling.InnerText.Replace("发布于", "").Trim(); 
} 
this.Repeater1.DataSource = cnlist; 
this.Repeater1.DataBind(); 
} 
} 
public class Cnblogs 
{ 
public string title { get; set; } 
public string url { get; set; } 
public string author { get; set; } 
public string authorUrl { get; set; } 
public string updatetime { get; set; } 
} 
} 

[!--infotagslink--]

上一篇: asp.net 组件开发中的内嵌资源引用

下一篇: jquery.pagination +JSON 动态无刷新分页实现代码

DOM XPATH获取img src值的query
复制代码代码如下:$nodes = @$xpath->query("//*[@id='main_pr']/img/@src");$prurl = $nodes->item(0)->nodeValue;...2013-10-04
基于xpath选择器、PyQuery、正则表达式的格式清理工具详解
这篇文章主要介绍了基于xpath选择器、PyQuery、正则表达式的格式清理工具，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-05-07
简单了解JavaScript操作XPath的一些基本方法
XPath构建于XML之上,以表示路径的方式来确定XML中元素位置,事实上并不是太常用,这里我们来简单了解JavaScript操作XPath的一些基本方法...2016-06-12
使用HtmlAgilityPack XPath 表达式抓取博客园数据的实现代码
使用HtmlAgilityPack XPath表达式来抓取博客园数据使用WebClient 下载数据，HtmlAgilityPack XPath表达式解析数据，并绑定到Repeater控件...2021-09-22
C#使用HtmlAgilityPack抓取糗事百科内容实例
这篇文章主要介绍了C#使用HtmlAgilityPack抓取糗事百科内容的方法,实例分析了C#中HtmlAgilityPack的相关使用技巧,具有一定参考借鉴价值,需要的朋友可以参考下...2020-06-25
Python自动化之定位方法大杀器xpath
selenium的几种定位方法中,大杀器之一就是xpath方法,学会它,你将无所不能.本文就带大家详细了解一下这个大杀器,文中有非常详细的介绍,需要的朋友可以参考下...2021-05-20
C#通过xpath查找xml指定元素的方法
这篇文章主要介绍了C#通过xpath查找xml指定元素的方法,涉及C#操作XML文件的技巧,非常具有实用价值,需要的朋友可以参考下...2020-06-25
python 网页解析器掌握第三方 lxml 扩展库与 xpath 的使用方法
这篇文章主要介绍了python 网页解析器掌握第三方 lxml 扩展库与 xpath 的使用方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧...2021-04-06
c#使用htmlagilitypack解析html格式字符串
这篇文章主要介绍了c#使用htmlagilitypack解析html格式字符串的示例,需要的朋友可以参考下...2020-06-25
c#通过xpath读取xml示例
这篇文章主要介绍了c#通过xpath读取xml示例,需要的朋友可以参考下...2020-06-25
python使用XPath解析数据爬取起点小说网数据
这篇文章主要介绍了python使用XPath解析数据爬取起点小说网数据，帮助大家更好的理解和学习使用python，感兴趣的朋友可以了解下...2021-04-22
python数据解析之XPath详解
本篇文章主要介绍了python数据解析之xpath的基本使用详解，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧...2021-09-30
Python利用Xpath选择器爬取京东网商品信息
这篇文章主要介绍了Python利用Xpath选择器爬取京东网商品信息,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下...2020-06-02
一文掌握Python爬虫XPath语法
这篇文章主要介绍了一文掌握Python爬虫XPath语法，xpath是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历，XPath 通过使用路径表达式来选取 XML 文档中的节点或者节点集。下面会更学习的介绍,需要的朋友可以参考一下...2021-11-18
Scrapy元素选择器Xpath用法汇总
这篇文章主要介绍了Scrapy元素选择器Xpath用法汇总，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧...2021-03-23
一个Python案例带你掌握xpath数据解析方法
xpath解析是最常用且最便捷高效的一种解析方式，通用性强。本文将通过一个Python爬虫案例带你详细了解一下xpath数据解析方法，需要的可以参考一下...2022-02-23
Scrapy中诡异xpath的匹配内容失效问题及解决
这篇文章主要介绍了Scrapy中诡异xpath的匹配内容失效问题及解决方案，具有很好的价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教...2022-12-20

使用HtmlAgilityPack XPath 表达式抓取博客园数据的实现代码

相关文章

阁下可能感兴趣的内容

推荐阅读