物种分布模型面临的挑战与发展趋势
郭彦龙, 赵泽芳, 乔慧捷, 王然, 卫海燕, 王璐坤, 顾蔚, 李新

Challenges and Development Trend of Species Distribution Model
Yanlong Guo, Zefang Zhao, Huijie Qiao, Ran Wang, Haiyan Wei, Lukun Wang, Wei Gu, Xin Li
表1 常见物种分布模型算法的优缺点
Table 1 The advantages and disadvantages of the popular species distribution models
类型代表模型算法采样点数据需求优点缺点
包络算法

表面分布区分室模型(Surface Range Envelope, SRE)[31]

栖息地模型(HABITAT)[32]

物种分布数据算法简单,易于使用结果为二元数据(存在/不存在);对异常值敏感;气候变量的作用等同;模型结果无法给出分布细节;精度较低
距离算法

生态位因子分析模型(Ecological Niche Factor Analysis,ENFA)[26]

Gower距离(DOMAIN)[33]

马氏距离(Mahalanobis Distance, MD)[34]

物种分布数据简单的规则和假设;在环境空间中推导出简单生态位特征,如生态位和生态位宽度;ENFA可以获取影响物种分布的主要限制因子精度较低;无法处理定性的环境因子(分类变量);受取样点分布特征的影响较大
回归算法

广义线性模型(Generalized Linear Model, GLM)[35];

广义相加模型(Generalized Additive Model, GAM)[35];

多元自回归样条模型(Multiple Adaptive Regression Splines, MARS)[36]

物种分布与不分布数据

物种丰度数据

生物量

针对不同的因变量,分布形式可以有不同的处理方式;适用于响应变量是数值变量的情况;模型解释能力较好,通过回归方程显示的表达环境因子与建模目标的关系无法处理定性的环境因子;精度依赖样本数量的大小
分类算法

分类树分析(Classification Tree Analysis, CTA)[37]

柔性判别分析(Flexible Discriminant Analysis, FDA)[16,38]

物种分布与不分布数据不需要预先假设响应变量与预测变量之间的关系,有效的处理非线性关系;不易受少数异常数据影响;强大的统计解析功能分类节点的生成只与数据特征有关,没有生态学意义;模型结果为离散值
常用机器学习算法

人工神经网络 (Artificial Neural Network, ANN)[39]

支持向量机(Support Vector Machine, SVM)[40]

随机森林(Random Forest, RF)[20]

推进式回归树(Boosted Regression Tree, BRT)[16,38]

物种分布数据;物种分布与不分布数据精度较高;模拟结果比较收敛,提供了生境分布的细节,具有较好的空间表现模型精度需要大数据量保证;可移植性差;不能提供清晰的统计学原理;存在过拟合等风险;计算成本高
最大熵MaxEnt[41]物种分布—背景数据(最大熵模型);物种分布与不分布数据(判别最大熵)预测结果精度较高;在样本量相对较小的情况下能够取得较好的建模效果;模型可以仅依靠物种存在点数据建模;在统一建模框架下可以处理连续环境变量与分类环境变量;MaxEnt软件是免费的并且有友好的用户界面由于其模型界面良好的封装性,无法调整相应程序;模型的时空外推能力仅在低阈值情况下较好;在较小的样本量情况下得出的结论可能对物种生态位模拟不完整,造成模拟结果失真;友好的模型界面也会造成模型的滥用
模糊数学

模糊物元模型(Fuzzy Matter Element, FME)[27,42,43];

模糊神经网络(Fuzzy Neural Networks, FNN)[44]

物种分布数据;

物种丰度数据;

生物量;

目标物种成分含量数据

专家经验与实际采样点统计信息融入到隶属函数中,以实现有限采样点基础上的物种分布模型建模;针对复杂系统建模具有较高预测能力;可以有效地在空间上预测物种的某种特性(生物量,有效成分含量)的分布针对不同的建模目标需要额外的采样点数据信息(生物量和有效成分含量等);完全由专家经验确定的隶属函数具有主观性
贝叶斯 网络贝叶斯网络模型(Bayesian networks, BN)[45]物种分布数据采用变量之间的概率关系的图形模型来构建模型;概率关系可以由统计数据得到也可以由专家经验生成;可以有效地整合专家知识;利用有限采样点数据构建稳健(robust)模型;建模过程有严格的生态学意义以有向无循环图(Directed Acyclic Graph,DAG)相关节点(变量)之间的概率关系,在缺乏足够的专家知识或实验数据时,模型的构建存在随机性以及不确定性;只使用离散变量,会导致信息损失