搜索引擎蜘蛛的通过通过一定的策略到你的网站,对抓回来的网站进行连续抽离,内容处理,消除噪音,提取该页面主题文本内容,查看该页面是否有重复内容,如有重复内容删除,对不重复的进行保存,中文分词处理,去停止词去,保存到数据库,等待用户搜索。