查准率(Precision ratio,简称为P),是指检出的相关文献数占检出文献总数的百分比。查准率反映检索准确性,其补数就是误检率。查全率(Recall ratio,简称为R),是指检出的相关文献数占系统中相关文献总数的百分比。查全率反映检索全面性,其补数就是漏检率。
查全率=(检索出的相关信息量/系统中的相关信息总量)*100%。查准率=(检索出的相关信息量/检索出的信息总量)*100%。利用这两个量化指标,也可以对信息检索系统的性能水平进行评价。要评价信息检索系统的性能水平,就必须在一个检索系统中进行多次检索。每进行一次检索,都计算其查准率和查全率,并以此作为坐标值,在平面坐标图上标示出来。通过大量的检索,就可以得到检索系统的性能曲线。
实验证明,在查全率和查准率之间存在着相反的相互依赖关系--如果提高输出的查全率,就会降低其查准率,反之亦然。对查全率和查准率之间的关系理解,如果提高了查全率,也就说明中间的阴影部分变大了同时系统中的相关文献总量应该不变。但准确率提高跟检出的总数相关,实际是要想查到更多相关的,那么检出的不相干也更多,即图中浅蓝色部分也变大,导致准确率变低。
在判断检索结果好坏时,查全率(Recall ratio)与查准率(Precision ratio)是两个最常用的指标。它们表示系统的“过滤能力”,即让相关文献“通过”,“阻止”无关文献。
查全率与查准率的定义如下:R(查全率)=(检出的相关文献数量/检索系统中相关文献总量)x100%,,P(查准率)=(检出的相关文献数量/检出的文献总量)x100% ——《文献检索与利用》—花芳
例如:在一次检索中,共检出文献100篇,经过专家判定,其中与提问相关的文献为60篇,其余的40篇为误检文献,那么按照上述公式,本次检索的查准率P就等于(60/100)×100%即60%。假如检索系统中还有90篇相关文献,由于各种原因而未被检出(漏检),那么按照上述公式,本次检索的查全率就等于(60/60+90)×100%即40%。
可见,利用上述公式,对每一次信息检索,都可计算出其查准率和查全率,对检索效率作出定量化的评价。
但是,如果进一步分析,就会发现查准率的计算没有问题,而查全率的计算存在明显的问题。那就是怎样知道漏检文献的数量。
对于小型的试验系统,在进行检索效率评价时,只要把系统中所有的文献都浏览一遍,就能准确地获得漏检文献的数量。然而,在实际运行的检索系统中,由于系统文献总量通常数以百万计,在评价检索效率时,根本不可能把浏览系统中所有的文献,因此,也就无法知道漏检文献数量。
所以,在实际的检索评价中,对于漏检文献数量,一般采用近似的估计值。获得漏检文献数量估计值的方法有两种:其一,利用其他的同类检索系统,进行相同的检索,然后通过对命中结果的分析和比较,推断哪些文献被漏检;其二,利用原有的检索系统,放大检索范围进行查找,然后对命中结果进行分析,看是否有原先未被检出的相关文献,从而得到漏检文献的近似值。
.查准率与查全率之间的关系
利用查准率和查全率指标,可以对每一次检索进行检索效率的评价,为检索的改进调整提供依据。利用这两个量化指标,也可以对信息检索系统的性能水平进行评价。
要评价信息检索系统的性能水平,就必须在一个检索系统中进行多次检索。每进行一次检索,都计算其查准率和查全率,并以此作为坐标值,在平面坐标图上标示出来。通过大量的检索,就可以得到检索系统的性能曲线。
———《文献检索与利用》陈老师