国内一般把搜索引擎分为"分类搜索引擎"和"关键词搜索引擎",国外则分别称其为"Directory"和"Search engine"。 Directory是指一种主题分类目录,由人工对网站进行标引和组织(hand-picked web sites organized into categories),提供分类检索;Search engine是基于"蜘蛛"程序的搜索引擎(Spider-Based Search Engine),由程序自动索引网页建立数据库,提供关键词搜索。搜索引擎是工具性实体,分类搜索和关键词搜索是搜索引擎的功能特征和网络信息的检索方法。 分类搜索是最早出现的一种网络信息检索方法,主题分类目录的创制已有相当成熟的理论、技术和丰富的成功经验。Yahoo!被认为是分类搜索的鼻祖,Directory的代表,引领着分类搜索的潮流。搜狐(搜狗)开中文分类搜索先河,其"50,000主题分类,500,000优选网站"无愧中文主题分类目录的典范,堪称中文分类搜索的旗舰。 1、何谓分类搜索 分类搜索是基于人工标引的检索方法。它以科学、实用的分类目录为工具,以规范化的自然语言为类名,在对网络信息归纳、概括的基础上,以网站为单元,提供经过专家评价和人工整序的网络信息。 分类搜索是突出族性特征的检索方法。由于分类目录已按照学科或主题对网络信息进行了标引,所有网站在分类体系中同聚异分,各有所属,"纵向成枝,横向成网",只需"按图索骥",同一类属或相关主题的信息即可"循类以求",适用于查询具有同一特征的多个目标和主题范围广、概念宽泛的问题。 分类搜索是关键词搜索不可替代的检索方法。关键词搜索以简单、快捷著称,但庞大的结果列表、大量重复和无用的信息是其永远的伤痛。而分类搜索恰恰独具优势,经过人工编辑的检索结果既以精当、准确著称,又以系统、有效见长。 分类搜索是循序渐进的检索方法。与关键词搜索即刻按照相关性递减顺序返回大量结果不同,分类搜索要首先确定所需信息在目录中的类系归属和相关路径,从大类入手,逐级浏览,渐进查询,在相应类目下按字顺展开网站列表,然后再根据网站名称和简介,对结果列表进行选择。 分类搜索是门户网站不可缺少的检索方法。互联网上搜索的概念最早来自于门户网站,资深网民对互联网的认识最初几乎全部来自于当年yahoo!提供的分类搜索服务。有关数据显示,我国将近70%以上网民是通过门户网站认识和开始使用搜索引擎的。门户网站是使用搜索引擎的主要平台,搜索引擎也为门户网站带来了巨大的经济利益和访问流量。 2、分类搜索的原理 分类搜索的基础和前提是构建一个反映网站相关信息及其URL链接的目录指南(Directory),在这个目录中,经过审核与标引的网站按学科或主题分门别类、有序排列。分类搜索就是在分类目录中,根据所需信息的学科属性或主题内容,逐级检索,循类以求。由于分类目录是以数据库形式存在的,也可以说,分类搜索就是对分类数据库的检索。 分类搜索建立在网络分类的基础上,了解分类搜索的原理,不能不首先了解网络分类体系。分类标准、类目划分、类目设置、类目序列等,对分类体系的构建至关重要,决定着分类目录的性质和功能,影响着分类搜索的效率和效果。系统性和实用性是对网络信息分类的基本要求,以学科性质为标准可以保证分类的系统性,以事物主题为标准体现了分类体系的实用性。国内的分类搜索引擎如搜狗(搜狐)等,以学科分类为主,主题分类为辅,体现了系统性和实用性的完美结合。网络分类体系的类目划分,多强调易用性原则,为了直观揭示和尽可能地减少检索中的点击次数,不惜牺牲系统性,允许在类目的同一划分过程中采用多个不同的划分标准。类目的设置以方便使用和检索习惯为依据,为了引起网民的兴趣和关注,常常突破体系分类的规则,把热门主题或点击率高的类目置于较高级位或显著位置。类目序列以检索频次为主要参考指标,首先列举检索频次较高的类目,突出重要或时尚主题,迎合网民的检索习惯与检索偏好。网络信息分类有着强烈的时代特色和功利目的,它虽然注重系统性对稳定分类体系的重要作用,但更关注检索热点及其趋势变化;它虽然重视信息揭示和检索中的逻辑关联与认识意义,但更强调检索的简捷与方便。 由于网络分类体系的特点,一些类系或类列已完全打破了体系分类的学科系统性,常规的浏览检索很难快速有效地找到目标网站,此时可以利用目录的数据库优势,用关键词直接进入某一类目,然后再在该类下浏览搜索。 3、怎样进行分类搜索 进行分类搜索,首先要了解所使用的分类体系的特点及其类目设置,如Yahoo!是主题索引式指南(subject-based guide to web sites and web content),把全球网站按主题划分为14个大类,网站收录质量较高,学术性较强,编辑严谨,久负盛誉,尤其"China "类下的中文和国内网站极具参考价值。搜狗(搜狐)是典型的主题分类目录,按学科或主题设置16个一级类目,50,000个主题分类,对中文网站收录最为全面,但二级以下同位类和网站列表没有固定的排列顺序(如按拼音或笔画),浏览查找多有不便。Yahoo!和搜狗(搜狐)都具有地区与主题(学科)分面组配检索功能,都设置有大量的交替类目,可对网站进行多角度、多途径检索。 分类搜索还需注意,由于网络分类没有统一的分类标准,同名类目或相似类目,在不同的分类体系中的类目含义不尽相同,因此性质相同或相近的网站在不同的分类体系中可能分属不同的大类,或同一大类的不同级位。如与"太极拳"相关的网站,在搜狗(搜狐)中归入"体育健身"大类之中(体育健身>武术/搏击>太极拳),而雅虎中国则列于"休闲与生活"大类之下(休闲与生活 > 体育运动 > 武术 > 太极拳);"搜索引擎"在搜狗(搜狐)和雅虎中国中的大类归属相同("电脑网络"与"电脑与因特网"),但级位不同,分属三级(电脑网络>搜索引擎/分类目录 >搜索引擎 )和四级类目(电脑与因特网 > 因特网 > 搜寻与检索 > 搜索引擎),又如"心脏内科"在搜狗(搜狐)列有专类,而相关网站在雅虎中国中却分散在"健康与医药 > 疾病与症状 > 心脏病"和"健康与医药 > 医学 > 内科"两个类目下。凡此种种,非专门的研究人员不可能对各种分类体系了如指掌,一般用户只能根据需要和爱好,选择一种分类搜索引擎,经常使用,以熟生巧。 此外,进行分类搜索还要了解不同分类目录的网站收录特点,如雅虎中国以收录繁体中文网站见长,搜狗(搜狐)以本土化著称,分别为查找BIG5码网站和简体中文网站的首选。