信息检索原理
信息检索包含信息储存和信息检索两个过程.信息储存是对文献进行收集、标引及著录,并加以有序化编排,编制信息检索的工具的过程;信息检索是从大量的信息中查找出用户所需的特定信息的过程。
信息储存的步骤:1。选择文献。2。文献的概念分析。3。词汇转换。4。信息检索工具的编制。文献序列是由文献或文献本身按照一定的方式组成形成的有序化序列,构成文献库。文献标识的序列,是由文献标识按照特定的顺序形成的有序化序列,构成文献库的索引。
信息检索的步骤:1。用户提问。2。提问的概念分析。3。词汇转换。4。检索的实施。
信息检索拿脊的原理是:由标引人员以文献或文献描悄敏胡述体构成文献库,同时把文献压缩转换为文献标识,以此表达文献的特征和主题内容,并对这些文献库和文献标识,按一定的方式分别予以有序化组织,从而形成信息检索系统。这也就是信息储存的过程。检索时,把用户的检索提问压缩转换为提问标识(检索词),以此表达提问的特征和主题内容,并将提问标识与信息检索系统中的文献标识进行对比,进而依据匹配与否,作出文献是否符合检索提问的判断。这也就是信息检索的过程。
信息检索策略
检索策略就是为实现检索目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导,如选择哪种检索系统和数据库、采用什么检索途径、如何编写检索式等。
检索策略的制定方法与步骤:(1)确定检索系统,通常选择检索系统应考虑的因素有以下几个方面1)根据信息需求,选择检索系统;2)根据对检索信息熟悉的程度,选择检索系统;3)根据经济条件,选择检索系统。(2)选择检索数据库,选择检索数据库所采用的方法一般有两种:一种是查阅有关检索系统的数据库使用指南或手册一类的工具书,另一种是根据联机检索系统所提供的数据库总索引进行查阅。(3)明确检索途径。(4)制定检索方案。
信息检索效果评价
信息检索效果是指信息检索的准确性和全面性,分别以查准率核查全率两个指标来表示。
查准率:是指检出的相关文献数占检出文献总数的百分比。查准率反映检索准确性,其补数就是误检率。
查全率:是指检出的相关文献数占系统中相关文献总数的百分比。
获得漏检文献数量估计值的方法有两种:其一,利用其他的同类检索系统,进行相同检索,然后通过对命中结果的分析和比较,推断哪些文献被漏检;其二,利用原有的检索系统,放大检索范围进行查找,然后对命中结果进行分析,看是否有原先未被检出的相关文献,从而得到陋见文献的近似值。
查准率和查全率是信息检索效率评价的量化指标,在检索系统的评价中具有举足轻重的作用。但也有其局限性,主要表现在:
1)它能够评价一次检索或一个系统的性能水平,却不能指出是什么原因产生了这样的检索效率。
2)它以相关性为基础,具有相关性本身所固有的局限性。
提高检索效率的主要措施:要提高减速效率,可以做三方面的工作:
(1)选择好检索系统
(2)准确使用检索语言
(3)善于利用各种辅助索引
主题检索语言
主题法是分类法以外另一种从内容角度标引和检索信息资源的方法。所谓主题法,一般是指就直接以表达主题内容的词语作检索标识,以字顺为主要检索途径,并功过参照系统等方法揭示词间关系的标引和检索信息资源的方法。
主题法的类型很多,一般都具有下述特征:(1)直接以词语作为检索标识。(2)以字顺作为主要检索途径。(3)以特定的事物、问题、现象,即主体为中心集中信息源。(4)通过详尽的参照系统等方式解释主题词之间关系。
主题法在信息资源组织中的作用,主要是用来处理信息资源、编制各种检索工具及检索系统。与分类法相比,主题法的特点是可以集中于一个主题有关的各个方面的信息资源,检索的直接性、通用性好,适合于进行各种专指检索,在性能上具有与分类法相互补充的特点。
主题法的类型:
1)标题法,标题法是一种以标题词作为主体标识,一次表预先确定的组配方式标引和检索的主题法。
标题法特点是:(1)采用列举式词表,形式直观;(2)启拦定组式标题结构确定,含义明确;(3)按照词表列举的标题和副标题进行标引,操作简便;(4)主要通过以参照方式对词汇进行控制,并揭示标题之间的相关性。
标题法的不足是:由于采用列举方式,往往造成收词范围大、专指度相对不足、修订量大等问题;同时,大量采用定组式标题,在检索工具中使用时只能从规定的组配顺序入手进行查找,无法从多个因素、角度检索,必然会影响检索效果。
2)元词法,元词法是以元词作为主题标识通过字面组配的方式表达文献主题的主题法。
元词法的特点是:(1)词表体积小;(2)标引专指度高;(3)便于从不同主题词角度检索;(4)适合对专指主题进行标引。
元词法的不足是:(1)直接性差;(2)不适宜用于查找论述基本主题的文献,如:不适宜对论述“经济”“化学”等基本主题的文献进行查找;(3)采用字面组配方法,在字面分解与语义分解不一致时,容易造成误差,(4)早期的元词法未建立参照系统,无法进行相关资料的检索。
3)叙词法,所谓叙词法,是以从自然语言中精选出来的、经过严格处理的语词作为文献的主题标识,通过概念组配方式表达文献主题的主题法类型。
叙词语言与元词语言的不同是:(1)语词单元不同,元词法严格采用字面上不能再分的语词为标识单元,有时会影响对主题内容的确切表达;叙词法改为以表达基本概念为基础,既收元词,又收词组,对主题的表达更加准确。(2)组配的依据不同。元词法按照字面组配的方式对复合主题分拆和组配,方法简便,但往往会影响对主题对象的准确揭示;叙词法依据概念关系对符合主题进行分解和组配,对主体的揭示比较确切。
叙词法的特点:(1)结构完备,词汇控制严格,可以根据检索系统的需要对词汇进行有效控制。(2)组配准确,标引能力强,能够准确、专指地标引和揭示各种主题内容;(3)检索效率高,可通过灵活组配方式进行多途径检索,达到较好的检索效果;(4)对检索系统适应能力强,可以同时适用于标识单元和文献单元检索方式,既能较好适应计算机检索系统的要求,又能适应手工检索系统的需要。
叙词法的不足:由于词汇控制要求严格,词表编制和管理的难度大,需要花费较多人力,物力;文献标引需在概念分析的基础上进行,标引难度大,要求高。
4)关键词,以自然语言中未经控制或制作少量控制的语词为文献主题标识,通过对关键词的轮排的方式揭示文献主题的主题法。