当前位置:  编程技术>.net/c#/asp.net

c# 抓取Web网页数据分析

    来源: 互联网  发布时间:2014-10-13

    本文导语:  为了完成以上的需求,我们就需要模拟浏览器浏览网页,得到页面的数据在进行分析,最后把分析的结构,即整理好的数据写入数据库。那么我们的思路就是:   1、发送HttpRequest请求。   2、接收HttpResponse返回的结果。得...

为了完成以上的需求,我们就需要模拟浏览器浏览网页,得到页面的数据在进行分析,最后把分析的结构,即整理好的数据写入数据库。那么我们的思路就是:
  1、发送HttpRequest请求。
  2、接收HttpResponse返回的结果。得到特定页面的html源文件。
  3、取出包含数据的那一部分源码。
  4、根据html源码生成HtmlDocument,循环取出数据。
  5、写入数据库。
程序如下:  
代码如下:

//根据Url地址得到网页的html源码
private string GetWebContent(string Url)
{
string strResult="";
try
{
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url);
    //声明一个HttpWebRequest请求
request.Timeout = 30000;
//设置连接超时时间
request.Headers.Set("Pragma", "no-cache");
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
Stream streamReceive = response.GetResponseStream();
Encoding encoding = Encoding.GetEncoding("GB2312");
StreamReader streamReader = new StreamReader(streamReceive, encoding);
strResult = streamReader.ReadToEnd();
}
catch
{
MessageBox.Show("出错");
}
return strResult;
}
为了使用HttpWebRequest和HttpWebResponse,需填名字空间引用
  using System.Net;
以下是程序具体实现过程:
private void button1_Click(object sender, EventArgs e)
{
//要抓取的URL地址
string Url = "http://list.mp3.baidu.com/topso/mp3topsong.html?id=1#top2";
//得到指定Url的源码
   string strWebContent = GetWebContent(Url);
richTextBox1.Text = strWebContent;
   //取出和数据有关的那段源码
int iBodyStart = strWebContent.IndexOf("

    
 
 
 
本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • 基于python实现的网络爬虫功能:自动抓取网页介绍
  • 网页抓取工具 PlayFish
  • 怎样从网页中抓取内容?
  • udp方式抓取网页
  • java抓取网页数据示例
  • python抓取网页内容示例分享
  • 如何 获取抓取一个网页并保存成本地文件
  • python抓取网页中的图片示例
  • JSP抓取网页代码的程序
  • java抓取网页数据获取网页中所有的链接实例分享
  • python 自动提交和抓取网页
  • python抓取网页时字符集转换问题处理方案分享
  • 帮忙调试,一小段抓取网页的C程序!
  • python抓取网页图片并放到指定文件夹
  • java 抓取网页内容实现代码
  • Socket抓取网页网页
  • python抓取网页图片示例(python爬虫)
  • android 封装抓取网页信息的实例代码
  • 深度剖析使用python抓取网页正文的源码
  • linux c socket编程抓取网页的问题
  • php使用curl和正则表达式抓取网页数据示例
  • 使用libpcap读取tcpdump抓取的文件并解析c代码实例
  • iOS图像抓取工具 ELCImageGrabber
  • 屏幕抓取API的Java库程序 JxCapture
  • 寻找屏幕抓取软件
  • 一进程源源不断地创建文件,另一进程把这些创建的文件抓取并挪走
  • TCP数据流抓取程序 tcpflow
  • PHP图片抓取脚本 EasyCapture
  • 多线程页面抓取服务器
  • tcpdump 如何同时抓取两个不同ip的包
  • V4L2 抓取图像出问题




  • 特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3