总共分为四步:1.折取(就是蜘蛛来抓取你的网页)。2.索引(就是搜索引擎会把相关的网页列举在一起)。3.排序(然后引擎经过筛选来进行排序)。展示(当用户搜索关键词时,搜索引擎就会像在数据库排序那样给你展示出来)。
先检查根目录下的robots.txt文件,判断这个网站是否允许索引,如是,next;进入首页,从上而下,自左而右地检索首页的链接,如果有网站地图,会优先根据网站地图爬;沿着首页或地图进入内容页、目录页、tags页等;剩下就是在网站内的交叉链接之间爬,直到有导出链接,离开...当然,实际上并没有这么单向和简单,但是基本如此,蜘蛛也是模拟用户阅读习惯进行检索,所以做好用户体验对蜘蛛爬行和收录是很重要的
这个不好说噢,现在很多网站说不收录,其实已经放到沙盒里面了,需要一个观察期,如果你还是稳定,开始收录你的春天就到了,希望能帮助你噢,一定要坚持更新,蜘蛛在观察你的稳定性呢
是baiduspider,机器爬行