网页信息采集技术是通过分析网页的HTML代码, 获取网内的超级链接信息, 使用广度优先搜索算法和增量存储算法,实现自动地连续分析链接、抓取文件、处理和保存数据的过程. 系统在再次运行中通过应用属性对比技术, 在一定程度上避免了对网页的重复分析和采集, 提高了信息的更新速度和全部搜索率。
由于网站内的资源常常分布在网内不同的机器上, 信息采集系统从某个给定的网址出发, 根据网页中提供的超链接信息, 连续地抓取网页(既可以是静态的, 也可以是动态的) 和网络中的文件, 将网内的信息进行全部提取。
网页信息采集技术的原理,就是在后台直接发送http请求,获取返回的信息,再将其信息整理,最后放在自己的页面上。微软有个对象,叫*http吧。你可以百度一下。
Web信息采集技术的原理,主要是指通过Web页面之间的链接关系,从Web上自动的获取页面信息,并且随着链接不断向所需要的Web页面扩展的过程。实现这一过程主要是由Web信息采集器(Web Crawler)来完成的。