蜘蛛负责网页信息的抓取工作,一般情况下切词器和索引器一起使用,它们负责将抓取的网页内容进行切词处理并自动进行标引,建立索引数据库。查询器根据用户查询条件检索索引数据库并对检索结果进行排序和集合运算,如并集、交集运算,再提取网页简单摘要信息反馈给查询用户。 Google搜索引擎从功能上同样分为三大部分:网页爬行、标引入库和用户查询。网页爬行主要负责网页的抓取,由URL服务器、爬行器、存储器、分析器和URL解析器组成, 爬行器是该部分的核心;标引入库主要负责对网页内容进行分析,对文档进行标引并存储到数据库里,由标引器和分类器组成,该模块涉及许多文件和数据,有关于桶的操作是该部分的核心;用户查询主要负责分析用户输入的检索表达式,匹配相关文档,把检索结果返回给用户,由查询器和网页级别评定器组成,其中网页等级的计算是该部分的核心。 例:SOPI 搜索引擎系统的组成 SOPI 是一个小型的搜索引擎系统,功能与百度、 GOOGLE 类似,适用于中小型网站及企业的信息搜索及向用户展示服务。本网站中的所有内容均通过此系统自动获得。系统性能参数如下: 平台: 1U 兼容服务器,双至强 2.8G , 1G 内存 索引库大小: 5G 数据库: SqlServer2005 运行环境: Microsoft .NET Framework SDK v2.0 内存平均使用: 600-900M CPU 使用率: 10%-80% 日新增文章及图片数: 10 万篇 搜索时间: 5G 内容搜索结果 0.3-1 秒 SOPI 由五部分组成,分别为:信息采集系统 (SpiderSystem) 、信息分析系统 (AnalysisSystem) 、索引系统 (IndexSystem) 、管理系统 (AdminSystem) 、网站平台 (WebSystem) ,结构如下: 搜索引擎的主要工作流程是:首先从蜘蛛开始,蜘蛛程序每隔一定的时间(象google一般是28天)自动启动并读取网页URL服务器上的URL列表,按深度优先或广度优先算法,抓取各URL所指定的网站,将抓取的网页分配一个唯一文档ID(DocId),存入文档数据库。一般在存入文档数据库之前进行一定的压缩处理。并将当前页上的所的超连接存入到URL服务器中。在进行抓取的同时,切词器和索引器将已经抓取的网页文档进行切词处理,并按词在网页中出现的位置和频率计算权值,然后将切词结果存入索引数据库。整个抓取工作和索引工作完成后更新整个索引数据库和文档数据库,这样用户就可以查询最新的网页信息。