
摘 要:随着互联网的快速发展,计算机Web网站的信息更新速度越来越快,依靠手工方式进行操作工作量大,效?#23454;汀?#35745;算机技术实现网站信息的自动采集具有效率高,人工干预少的优点,采集好的信息可?#28304;?#20837;数据库中,再结合Web技术操作数据库,实现站点信息的自动更新。
关键词:计算机Web网站;信息采集设计与实现
中图分类号:TP311.52
社会的发展对信息技术的需求正在进一步的强化,信息全球化发展影响下互联网技术为人们获取信息资源带来了更加便利,信息资源传输渠道对人们生活的影响越来越重要。在信息时代,人们如果能够及时获取信息资源就能够提升自身的经济效益。随着网络技术的发展,搜索引擎在互联网技术的应用上能够更好的实现网络服务,为用户提供专业的导航服务。帮助人们能够及时的获取信息资源。本文主要针对计算机Web网站信息采集的设计与实现,对信息资源的?#20302;?#37319;集进行说明。
1 计算机Web网站信息采集的设计思路
采集定位于web站点定向采集,需先?#33539;?#37319;集对象的web实现方式,现有站点以asp.net、asp或php为主,明确信息资源的页面生成规则,并且能自动建立相应的访问路径。通过采集对象的数据特点建立相应的数据库,设定采集参数,将搜集到的信息资源存储入数据库,完成对信息资源的搜集工作。
网站中的信息资源可能会进行多次搜集,数据可能被多次处理。在进行信息资源记录的过程中要建立URL标示或者ID,这样能够识别再次访问的查询工作,从而减少工作,提高效率。将搜集到的信息资源输入到数据库时,应进行对比筛选工作,?#27835;?#28508;在的数据关系,查?#27604;?#37325;,建立具有统一性质的数据表,方便后续工作。根据不同信息资源内容按照各自的性质进行统一结构化调整,完善信息的采集结果。
所有的Web页面都是基于Http协议的Request/Response机制,可以?#27835;鯮equest请求时附带的参数以及Response响应时页面地址的规律,?#19994;?#39029;面链接的规律,从而创建C#中Regex类的对象。微软.Net框架中,?#20302;?#21629;名空间中提供的类webRequest可以发送客户端请求,webResPonse可获取返回的响应。
对于信息的?#27835;?#21644;筛选可以用正则表达式来完成。正则表达式(Regular expressions)是一套功能?#27973;?#24378;大的语法匹配规则。通过它可?#28304;幼址?#20013;提取所需要的数据信息。在.Net中,其类库是Regex。Regex是从?#22336;?#31383;中查找匹配?#22336;?#20018;的应用类.。System.Text.RegularExpressions能为Regex类生成正则表达式。
对于数据采集后的存储,采用sqlsever数据库。并使用.net?#25945;?#19979;成熟的ado.net数据库访问技术。ado.net数据操作技术被大量应用于Web应用程序中,可让开发人员以一致的方式存取资料来源,为采集后数据的一致性提供了保障。
计算机Web网站信息采集的设计与实现的算法,需要先对链接进行?#27835;觶?#23436;成?#20302;?#27169;拟人工流程的读取工作。建立相应的访问路径,实现REGEX类?#28304;?#23545;象的实例化,主要依靠正则表达式来完成相应的匹配筛选工作,匹配文本能够通过这?#20013;?#24335;完整的表达出来,并且在webRequest的推动下实现发送,用WebResponse进行接收,在StreamReader的引导下实现资源信息的读取。最后通过sqlserver专用类的操作存储于sql serve数据库中。这种策略形成的网页?#22336;?#20018;,符合计算机Web网站信息采集的要求。
2 计算机Web网站信息采集的实现
2.1 定位站点URL地址,获取网页源码
Url地址可以根据采集参数来获取,对于多个页面,可以通过页面生产规则批量设置。可利用httpwebrequest的post策略在网上取得IP的相应UrL地址。将获得的网页代码写入all_content提供给正则表达式?#27835;?#31579;选。关键代码如下:
HttpwebRequest all_content Request=(HttpWebRequest)WebRequest.Create(url);
WebResponse all_contentResponse=all_contentRequest.GetResponse();
StreamReader reader=newStreamReader(all_contentResponse.GetResponseStream(),System.Text.Encoding.Default);
stringall_content=reader.ReadToEnd();
read
文章片段:符中提取所需要的数据信息。在.Net中,其类库是Regex。Regex是从?#22336;?#31383;中查找匹配?#22336;?#20018;的应用类.。System.Text.RegularExpressions能为Regex类生成正则表达式。 对于数据采集后的存储,采用sqlsever数据库。并使用.net?#25945;?#19979;成熟的ado.net数据库访问技术。ado.net数据操作技术被大量应用于Web应用程序中,可让开发人员以一