一、β-多样性分析
1. 样品间距离计算
样品间的物种丰度分布差异程度可通过统计学中的距离进行量化分析,使用统计算法Euclidean,Bray-Curtis,Unweighted_unifrac,weighted_unifrac等,计算两两样品间距离,获得距离矩阵,可用于后续进一步的beta多样性分析和可视化统计分析。
例如:将距离矩阵使用热图表示可直观观察样品间的差异高低分布。
2. PCA 分析
主成分分析(PCA,PrincipalComponent Analysis),是一种应用方差分解,对多维数据进行降维,从而提取出数据中最主要的元素和结构的方法。
应用PCA分析,能够提取出最大程度反映样品间差异的两个坐标轴,从而将多维数据的差异反映在二维坐标图上,进而揭示复杂数据背景下的简单规律。
如果样品的群落组成越相似,则它们在PCA图中的距离越接近。
3. PCoA分析
主坐标分析(PCoA,PrincipalCo-ordinates Analysis),是一种与PCA类似的降维排序方法,通过一系列的特征值和特征向量排序从多维数据中提取出最主要的元素和结构。
可以基于bray_curtis、WeightedUnifrac距离和UnweightedUnifrac距离分别来进行PCoA分析,并选取贡献率最大的主坐标组合进行作图展示。
如果样品距离越接近,表示物种组成结构越相似,因此群落结构相似度高的样品倾向于聚集在一起,群落差异很大的样品则会远远分开。
※ 当PCA或PCoA分析的前两个成分(解释度)较小(如pc1与pc2之和小于50%)时,可尝试将前三个成分用于对假设因素进行验证,并作三维图来反应样品间群落组成的关系。
4. NMDS分析
非度量多维尺度分析(NMDS分析)是一种将多维空间的研究对象(样品或变量)简化到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法。
适用于无法获得研究对象间精确的相似性或相异性数据,仅能得到他们之间等级关系数据的情形。
基本特征是将对象间的相似性或相异性数据看成点间距离的单调函数,在保持原始数据次序关系的基础上,用新的相同次序的数据列替换原始数据进行度量型多维尺度分析。换句话说,当资料不适合直接进行变量型多维尺度分析时,对其进行变量变换,再采用变量型多维尺度分析,对原始资料而言,就称之为非度量型多维尺度分析。
特点是根据样品中包含的物种信息,以点的形式反映在多维空间上,而对不同样品间的差异程度,则是通过点与点间的距离体现的,最终获得样品的空间定位点图。
5. 多样品相似度树状图
利用树枝结构描述和比较多个样品间的相似性和差异关系。
首先使用描述群落组成关系和结构的算法计算样品间的距离,即根据beta多样性距离矩阵进行层次聚类(Hierarchicalcluatering)分析,使用非加权组平均法UPGMA(Unweightedpair group method with arithmetic mean)算法构建树状结构,得到树状关系形式用于可视化分析。
6. PLS-DA分析
PLS-DA(PartialLeast Squares Discriminant Analysis)分析是以偏最小二乘回归模型为基础,作为一种有监督的模式识别方法,根据给定的样品分布/分组信息,对群落结构数据进行判别分析。
PLS-DA通过寻找物种丰度矩阵和给定的样品分布/分组信息的最大协方差,从而在新的低维坐标系中对样品重新排序。
PLS-DA可以减少变量间多重共线性产生的影响,因此,比较适合用于微生物群落数据的研究。
分析时,会计算每个物种的VIP(Variableimportance in projection)系数(VIP值需>1,值越大,说明该物种对于组间差异的贡献越大)
7.组合(变换)分析图
特点:
集多种分析结果于一身组合成图,即一整图表解释多种生物学意义。
展现形式、分析名称发生变化并进行重新调整,但所表述的生物学意义未变化。
具有一定的观赏性。
分析形式多种多样,但万变不离其宗。
例如:样本聚类树与柱状图组合分析