包络算法 | 表面分布区分室模型(Surface Range Envelope, SRE)[31]; 栖息地模型(HABITAT)[32] | 物种分布数据 | 算法简单,易于使用 | 结果为二元数据(存在/不存在);对异常值敏感;气候变量的作用等同;模型结果无法给出分布细节;精度较低 |
距离算法 | 生态位因子分析模型(Ecological Niche Factor Analysis,ENFA)[26]; Gower距离(DOMAIN)[33]; 马氏距离(Mahalanobis Distance, MD)[34] | 物种分布数据 | 简单的规则和假设;在环境空间中推导出简单生态位特征,如生态位和生态位宽度;ENFA可以获取影响物种分布的主要限制因子 | 精度较低;无法处理定性的环境因子(分类变量);受取样点分布特征的影响较大 |
回归算法 | 广义线性模型(Generalized Linear Model, GLM)[35]; 广义相加模型(Generalized Additive Model, GAM)[35]; 多元自回归样条模型(Multiple Adaptive Regression Splines, MARS)[36] | 物种分布与不分布数据 物种丰度数据 生物量 | 针对不同的因变量,分布形式可以有不同的处理方式;适用于响应变量是数值变量的情况;模型解释能力较好,通过回归方程显示的表达环境因子与建模目标的关系 | 无法处理定性的环境因子;精度依赖样本数量的大小 |
分类算法 | 分类树分析(Classification Tree Analysis, CTA)[37]; 柔性判别分析(Flexible Discriminant Analysis, FDA)[16,38] | 物种分布与不分布数据 | 不需要预先假设响应变量与预测变量之间的关系,有效的处理非线性关系;不易受少数异常数据影响;强大的统计解析功能 | 分类节点的生成只与数据特征有关,没有生态学意义;模型结果为离散值 |
常用机器学习算法 | 人工神经网络 (Artificial Neural Network, ANN)[39]; 支持向量机(Support Vector Machine, SVM)[40]; 随机森林(Random Forest, RF)[20]; 推进式回归树(Boosted Regression Tree, BRT)[16,38] | 物种分布数据;物种分布与不分布数据 | 精度较高;模拟结果比较收敛,提供了生境分布的细节,具有较好的空间表现 | 模型精度需要大数据量保证;可移植性差;不能提供清晰的统计学原理;存在过拟合等风险;计算成本高 |
最大熵 | MaxEnt[41] | 物种分布—背景数据(最大熵模型);物种分布与不分布数据(判别最大熵) | 预测结果精度较高;在样本量相对较小的情况下能够取得较好的建模效果;模型可以仅依靠物种存在点数据建模;在统一建模框架下可以处理连续环境变量与分类环境变量;MaxEnt软件是免费的并且有友好的用户界面 | 由于其模型界面良好的封装性,无法调整相应程序;模型的时空外推能力仅在低阈值情况下较好;在较小的样本量情况下得出的结论可能对物种生态位模拟不完整,造成模拟结果失真;友好的模型界面也会造成模型的滥用 |
模糊数学 | 模糊物元模型(Fuzzy Matter Element, FME)[27,42,43]; 模糊神经网络(Fuzzy Neural Networks, FNN)[44] | 物种分布数据; 物种丰度数据; 生物量; 目标物种成分含量数据 | 专家经验与实际采样点统计信息融入到隶属函数中,以实现有限采样点基础上的物种分布模型建模;针对复杂系统建模具有较高预测能力;可以有效地在空间上预测物种的某种特性(生物量,有效成分含量)的分布 | 针对不同的建模目标需要额外的采样点数据信息(生物量和有效成分含量等);完全由专家经验确定的隶属函数具有主观性 |
贝叶斯 网络 | 贝叶斯网络模型(Bayesian networks, BN)[45] | 物种分布数据 | 采用变量之间的概率关系的图形模型来构建模型;概率关系可以由统计数据得到也可以由专家经验生成;可以有效地整合专家知识;利用有限采样点数据构建稳健(robust)模型;建模过程有严格的生态学意义 | 以有向无循环图(Directed Acyclic Graph,DAG)相关节点(变量)之间的概率关系,在缺乏足够的专家知识或实验数据时,模型的构建存在随机性以及不确定性;只使用离散变量,会导致信息损失 |