生物统计学分析的第一步是资料的收集和整理。收集资料主要有调研和开展生物学试验两种方法,而资料的整理主要通过对原始资料的核查、校对,制作次数分布表和次数分布图来完成。生命科学领域的试验资料一般都具有集中性、离散性及分布形态三个基本特征:集中性主要利用算术平均数、中位数、几何平均数等反映;离散性主要通过标准差、方差、变异系数等特征数进行度量;分布形态则主要借助偏度和峰度体现。本章首先介绍总体与变量等最基本的生物统计学名词术语,继而结合实例,应用软件来阐明实验原始数据整理的具体方法,并对实验数据的特征进行统计分析,全面阐明数据资料的整理分析方法。
在科学试验与调查中,常常会得到大量的原始数据,这些对某种具体事物或现象观察的结果称为资料(data)。这些资料在统计分析前,一般是分散的、零星的和孤立的,是一堆无序的数字。为了揭示这些资料中所蕴含的科学意义,需要对其进行必要的整理分析,揭示其内在的规律。
2.1 常用统计学术语
为了更好地学习和理解后续章节的生物统计学知识,首先必须掌握以下几组生物统计学基本概念。
2.1.1 总体、个体与样本
总体(population)是指研究对象的全体,其中的每一个成员称为个体(individual)。依据构成总体的个体数目的多寡,总体可以分为有限总体(finitepopulation)和无限总体(infinitepopulation)。例如,研究珠母贝的壳高,因为无法估计出珠母贝的具体数量,可以认为珠母贝是无限总体。
总体的数目往往非常庞大,全部测定需要耗费大量的时间、人力和物力,甚至根本无法完全测定每一个个体;另外,有时候数据的获取过程对研究对象具有破坏性,如要测定贝壳硬度,需要压碎贝壳。因此,只能通过研究总体中的一部分个体来反映总体的特征。从总体中随机获得部分个体的过程,称为抽样(sampling)。为了使抽样的结果具有代表性,需要采取随机抽样(randomsampling)的方法,如对一个生物的总体,机会均等地抽取样本,估计其总体的某种生物学特性。简单的随机抽样的方法有抽签、抓阄、随机数字表法等。从总体中抽取的一部分个体所组成的集合称为样本(sample)。样本中个体的数量称为样本容量、样本含量或样本大小(samplesize),通常记为n。如果n≤30,则该样本为小样本;n>30,该样本则为大样本。例如,2009年3月,某珍珠养殖场为了调查2007年繁育的100万只马氏珠母贝生长情况,随机取10笼,共227只马氏珠母贝。这里需要研究的100万只马氏珠母贝是总体,其中的每只珠母贝则是个体,随机抽取的全部227只马氏珠母贝是一个样本。该样本的样本容量为227,远大于30,属于大样本。
2.1.2 变量与常量
变量是研究对象所反映的指标,如海水中叶绿素a的含量,动物的体重、体长,鱼的摄食量,酶活力,细胞的直径,DNA分子的大小等。变量通常记作X或Y等大写的英文字母,而变量的观测值可以标记为x,称为资料或数据。例如,测量一批鱼的体长X,我们可以随机抽取10尾鱼作为一个样本,测量它们的体长(x,cm),得到10个观测值14.2、15.4、13.6、15.8、15.5、16.1、14.9、15.3、14.8、15.7,这里体长是变量X,而这10个观测值就是样本数据x。按照其可能取得的值,可将变量分为连续型变量(continuousvariable)和离散型变量(discretevariable)。连续型变量是指在某一个区间内可以取任何数值的变量,其测量值可无限细分,数值之间是连续不断的。例如,50~60cm的水稻株高为连续变量,因为在该范围内可取出无数个值,同样,分子运动速度、鱼的体重、贝类的壳高、酶活力的大小、DNA分子的大小等都属于连续型随机变量。连续型变量需通过测量才能获得,其观测值称为连续型数据(continuousdata),也称为度量数据(measurementdata),如长度值、时间、重量值等。如果变量可能取值的数值为自然数或整数,这种变量称为离散型变量,其数值一般通过计数获得,如鱼、贝的怀卵量等。离散型变量的观测值称为离散型数据(discretedata),也称为计数数据(countdata)。如果变量的取值,在一定的范围内是一个相对稳定的数值,那么这种变量称为常量(constant)。例如,在一个小的时空范围内,重力加速度是一个常量。常量的取值是一个常数,具有相对稳定性。