①抓取友好性:抓取压力调配降低对网站的访问压力。提高抓取效率,高效利用带宽。这用我们seo界的语言,可以这样理解,我们所用的主机分配到我们IP上的带宽越大,所能承受的抓取压力就越大。这也就是我们为什么找稳定的主机服务商的原因,为什么都会问问带宽的原因。网站打开的快不开,就是这个的直接体现。
②常用抓取返回码示意。百度支持各种网站状态返回码,通过返回码,判断爬行抓取力度。比如说503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除。
更多返回码所代表的的含义请参考“网站状态码”这篇文章。
③多种url重定向的识别。这个也可以通过网站的返回码确定,但肯定也有自己的一个判断。比如说我们平常“首选域”的确定,就属于辅助蜘蛛判断我们的优化主域名。
在后面赶他