数值天气预报检验方法研究进展
潘留杰1, 张宏芳2, 王建鹏1
1.陕西省气象台,陕西 西安 710014
2. 陕西省气象服务中心,陕西 西安 710014

潘留杰(1978-),男,陕西石泉人,高级工程师,主要从事天气预报与研究工作.E-mail:pljmtgh57245@sina.com

摘要

数值天气预报检验是改进及应用数值模式的重要环节。近年来,模式检验中的观念不断更新,适用于不同预报产品及不同用户需求的模式检验方法也不断涌现。首先简单回顾了以列联表为基础的传统的模式检验方法。其次重点总结了伴随高分辨率数值预报而出现的空间诊断检验技术,按照检验目的的不同,诊断方法可以归纳为:①基于滤波技术的分辨模式在不同时空尺度上预报能力的邻域法、尺度分离法;②利用位移偏差诊断模式预报位置、面积、方位、轴角等与观测差异的属性判别法、变形评估法。然后阐述了集合样本成员的概率分布函数(PDF)、集合预报与观测概率分布函数相似程度、事件发生的概率预报等集合预报检验方法。最后论述了空间诊断技术、集合预报检验方法的适用领域,并讨论了模式检验中存在的一些问题及未来的发展方向。

关键词: 空间诊断; 集合预报; 概率预报
中图分类号:P456.7 文献标志码:A 文章编号:1001-8166(2014)03-0327-335
Progress on Verification Methods of Numerical Weather Prediction
Pan Liujie1, Zhang Hongfang2, Wang Jianpeng1
1.Shaanxi Meteorological Observatory, Xi#cod#x02019;an 710014, China
2.Shaanxi Meteorological Service Centre, Xi#cod#x02019;an 710014, China
Abstract

The numerical weather prediction verification is a key step to improving applied numerical models. In recent years, the concepts used in model verification have been updated constantly and the model verification approaches fit for different prediction products and meeting the needs of different customers have proposed continuously. First, this research gives a brief overview of traditional model verification methods based on contingency table. Second, the spatial verification technology along with high resolution numerical prediction is illustrated. According to different purposes, the spatial verification methods can mostly be classified into two general categories: filtering methods and displacement methods. The filtering methods can be further delineated into neighborhood and scale separation, and the displacement methods can be divided into features-based ones and field deformations. Third, the probability distribution function of ensemble prediction sample members, the similar degrees between probability distribution function of ensemble prediction and the observation distribution function, the probability of an event occurring and such ensemble prediction verification methods are described. Finally, the fields where spatial verification technology and ensemble prediction verification methods can be used are analyzed and some problems concerning model verification and the direction in which these technologies will go are discussed.

Keyword: Spatial forecast verification; Ensemble forecasts; Probability forecasts.
1 引言

数值天气预报是根据天气演变过程的流体力学和热力学方程组,在一定的初值和边界条件下,求解未来一定时段大气运动状态和天气现象的方法。由于不同模式的初始场、初始扰动生成、模式框架、参数化方案等各不相同,因此其预报效果也具有明显的时间和空间上的差异。对数值模式进行检验是使用和发展数值预报系统的重要环节,设计合理的检验方案其检验结果不仅可以为模式设计者有效判断模式的物理方案、参数化及陆面过程等的合理性提供参考,而且可以为模式使用者了解模式的预报性能提供帮助[ 1, 2]

模式检验中最古老的方法是通过目视进行误差对比分析,然而目视无法客观分析海量数据,其检验结论也具有主观性和非定量性,因此很难为用户提供有效的判别标准。更为普遍和通用的方法是通过高空、地面观测或模式再分析数据进行点对点的对比或者利用列联表[ 3]根据事件发生与否对预报、观测进行分类并统计观测点上预报、观测事件发生的次数,在此基础上定义诸如命中率(POD)、误警率(FAR)、预报偏差(Bias)等一系列评分指数来判别模式的预报技巧,这种检验方法通常被称为传统或经典检验方法[ 4]。传统检验方法能够客观、定量地给出预报系统的整体表现,但存在一些局限性,主要包括:①用相同的方式处理预报和观测不匹配事件而不能区分错误的类别;②基于点对点的对比分析,当用站点观测资料检验高分辨率模式时,易受小尺度影响,无法准确反映模式的预报能力;③不能反映模式预报场的空间结构、预报能力的尺度变化等[ 5]

近年来,模式检验技术得到了快速发展,一方面是由于观测资料更加丰富,诸如天气雷达、卫星、自动站等一系列高时空分辨率的数据为模式校验提供了更加多样的参照物,使得检验结果更具有针对性;另一方面,模式产品不断更新,高分辨率、集合预报等的出现也触发了新的检验手段[ 6]。新发展的邻域法或模糊法[ 7]在关注传统技巧评分的同时,更加注重预报、观测在空间上的差异[ 8];尺度分离法将傅里叶分析、小波变换等数字滤波技术应用到模式检验中分离不同尺度的变量[ 9];面向对象法把预报量解析为不同的对象,并计算其面积、振幅、轴角等各种属性[ 10, 11];集合预报系统产生的具有动力学意义的概率预报也为其检验方法注入了新的活力,概率密度分布函数、连续分级概率评分、ROC(Relative Operating Characteristic)分析等一系列方法也运用于集合预报系统检验中并在不断改进。

国内气象学者在关注模式发展的同时也注重模式预报性能的分析[ 12~ 18],但目前还鲜有模式检验方法的系统归纳,一些新方法的应用还相对较少,对这些方法适用性的认知还不完全清楚。本文在简单回顾传统模式检验方法的基础上,重点总结近年来数值天气预报模式检验中出现的新方法,并探讨了这些方法的适用领域。需要说明的是,本文主要关注模式常规预报要素的性能检验,对台风、暴雨、干旱等一些极端天气事件的检验方法请参考其他相关文献。

2 经典检验方法

经典检验方法也称为传统检验方法,1965年Brownlee[ 19]首先设计了两变量预报验证列联表,通过列联表将事件进行分类,然后将预报事件与观测事件进行匹配并计算一系列评分指数,如命中率POD,虚警率FAR,误警率FOM等。1990年Schaefer[ 20]提出了TS评分或临界成功指数CSI,但这些评分指数在很大程度上并不能反映预报的真实水平,也不能对预报技巧进行显著性检验,1989年Mason[ 21]提出了真实技巧评分TSS;1990年Doswell等[ 22]发现计算小概率事件预报评分时,TSS常趋于POD,为此他们对TSS做了修订,提出了HSS评分。随后发展了一系列评分指数,对于可分为2种类型的离散形变量主要包括:预报偏差[ 23]、胜算比OR[ 24]、GSS或ETS评分[ 25]、准确率ACC等。对于可分为多种类型的离散型变量来说,可采用 n×2的列联表将不同分级上事件发生的频率分别归类来计算评分指数,这种方法也应用于检验概率预报中不同事件发生概率的准确性。根据建立评分指数的准则[ 26],评分指数除了简单易懂、能反映预报能力变化、对预报的改进有指示作用外,还应包括列联表中的所有元素,评分指数本身概率独立且没有倾向性错误。按照这些准则,早期提出的POD和FAR等指数在某些情况下不能反映预报的好坏,CSI对小概率事件的评分趋于气候概率, TSS评分能真实反映预报水平且能够对预报技巧进行显著性检验,但对小概率事件TSS趋于POD,尽管TSS的改进评分HSS有更好的表现,然而对小概率事件来说仍然存在不足,因此,综合利用多个评分指数更有利于客观评估模式的预报技巧。

对于连续性变量来说更关注的是预报相对于观测的整体表现,除了可以用离散变量方法来计算一系列评分指数外,主要计算标准差(STDEV)、异常相关系数(ACC)、斯皮尔曼相关系数(SP_CORR)、Kendall等级相关系数(KT_CORR)、均方根误差(RMSE)、误差百分位数等,在表现形式上,通常有散点图、盒子图、泰勒图等多种方法。对于诸如风场之类的矢量来说,可以先将其分解为标量,然后分别统计。

3 空间诊断检验技术

天气变量在空间上具有连续性。点对点的传统检验方法拆离了变量的空间关系,其检验结果不仅不具有明确的物理意义,而且高分辨率模式产品在空间上具有更多的小尺度的变化,使得传统检验方法无法正确评估模式的预报技巧[ 27],因此随着模式的改进,诊断检验方法孕育而生。1995年Hoffman等[ 28]首次将预报误差分解为位移、振幅和剩余残差3部分,这种分解为寻找和发现模式预报中的物理问题提供了帮助,随后发展了一系列的空间诊断检验方法。按照诊断目的的不同,这些方法可以分为滤波、位移两大类,其中滤波技术主要分辨模式在不同尺度上的预报能力,而位移方法更多考虑的是位置、面积、方位等方面的偏差。根据实现时数据处理的差异,滤波技术可进一步分解为邻域法、尺度分离法,邻域法通过选择不同的邻域半径来对要素场进行平均,然后计算传统的技巧评分;尺度分离法利用傅里叶分析、小波变换等方法将预报要素的尺度分离开来。位移技术可细化为属性判别法、形变评估法,属性判别法主要关注预报与观测的相似程度,位置面积、轴角方位等的不同;形变法在构造变形矢量的基础上分析模式的预报能力,诊断的主体是形变矢量场。

3.1 属性判别法

属性判别法首先按照给定的标准定义预报与观测场中对象,然后进行对象匹配,最后分别计算匹配对象的属性(强度、面积、位置偏差等)。根据属性的构成,不连续区的处理方法、诊断检验以及识别和匹配对象方法的不同又有所差异。Ebert 等[ 29, 30]通过计算给定阈值的预报与观测格点的重叠区域、最小方差、最大相关系数等来进行对象匹配; Baldwin 等[ 31]运用分级统计技术将不同类型的降水区分开来;Marzbzn 等[ 32]则运用聚类分析技术识别对象;Micheas等[ 33] 为了校验对流单体预报提出了依据单体的质心距离和形状来匹配预报与观测场中的对象;Lack等[ 34] 在傅里叶变换的基础上识别不同尺度上的对象,检验WRF模式的对流单体预报性能。

Davis等[ 10, 11] 在热带气旋评估技术基础上使用卷积的方法在降水场中解析评估对象,也称之为MODE(Method for Object-based Diagnostic Evaluation)方法。利用MODE方法评估模式预报能力主要分为3个步骤:①通过给定的卷积半径 R对需要评估的要素场进行卷积,这类似于要素场的空间平滑;②识别空间中连续的分布区域,并根据质心位置、总面积、重叠面积、轴角等属性来匹配预报场与观测场中的对象;③统计预报场与观测场中匹配对象的预报差异。MODE在计算对象不同属性的同时,还可以给不同属性设定权重系数,利用模糊逻辑算法计算预报性能的总收益函数从而判断预报的整体表现。Davis等[ 35]基于MODE 方法比较了4 km分辨率WRF中尺度模式与4.5 km分辨率非静力中尺度模式NMM(Nonhydrostatic Mesoscale Model)对2005年6月美国境内强对流风暴的预警能力,认为WRF模式虚警率低,优于NMM模式;Sock等[ 36]用MODE方法检验了WRF模式对热带低纬度地区降水的预报能力;Johnson等[ 37]利用MODE方法比较了1,4 km格点分辨率的WRF中尺度模式对美国区域风暴的预报差异。

3.2 尺度分离法

对数值预报场进行尺度分离然后分别校验有助于了解模式对不同尺度物理过程的预报表现,这是尺度分离法的基本出发点。这种方法在评估预报质量的同时,也能增加认知模式对不同尺度要素(如大尺度锋面、小尺度对流等)的可预报性,了解模式预报对不同尺度观测场的重建能力。1997年Briggs等[ 38]首先对位势高度场进行二维小波变换,然后计算模式在不同尺度上的方差、相关系数等一系列传统评分技巧。Harris等[ 39]使用傅里叶功率谱、广义结构函数、多尺度分析等方法比较模拟与观测降水,评估了模式对不同尺度降水结构的重建能力。Roberts等[ 40]研究了只提高模式分辨率能否在用户关注的尺度上提高降水预报性能以及预报技巧在不同尺度上的变化;Wang等[ 41] 讨论了二维连续小波和离散小波在模式检验中的应用;Liu等[ 42]用交叉小波变换的方法将预报与观测的时间、空间尺度分离,评估了德克萨斯州径流预报的时间和量级误差。

“强度分级”(intensity scale)是尺度分离法中具有代表性的技术之一,Casati等[ 9] 用不同的阈值对不同强度的降水重新标定,并用哈希小波进行尺度分离,在此基础上计算传统的分类校验评分指数,这也被称为强度分级。Mittermaier[ 43]发展了强度分级方法。Casati 等[ 44]将概率预报中的Brier技巧、稳定性、分辨率等概率预报指数分离为不同的尺度,使尺度分离法在概率预报中得以应用。Casati[ 45]为了阐述模式的预报偏差,取消降水重新标定,并在强度分级方法中引入了能量、能量百分率的概念以此评估不同尺度降水场的预报偏差,并用来识别全部尺度降水的整体特征。

3.3 邻域法

邻域法也被称为模糊法,是通过比较预报和观测场中对应点临近区域内的特征而命名的,其能够更好地区别不同尺度上模式预报能力的差异,与传统校验的差别在于模糊校验假定当预报值相对于观测点位置有偏移时,预报仍然是可用的,能够接受的位移的大小或程度被定义为邻域。图1给出了传统检验与邻域检验方法空间匹配差异,可以看出,邻域法可以更好地建立高分辨率模式与稀疏的观测站点对应关系,使检验结果更加合理。计算时通常先对格点与给定半径的周围格点(时间或者空间)值进行平均,其结果相当于对原始场进行平滑,然后比较邻域内的传统技巧评分。与其他空间诊断校验方法相比,邻域法的主要优点是:①使用与传统方法相同的评分指标,计算简单;②可以逐渐扩大邻域半径来捕获模式对不同尺度观测信息的预报能力。缺点在于减小模式网格的分辨率或者说将模式网格分辨率变粗可能会漏掉一些小尺度信息[ 7]。Theis等[ 46] 将邻域内格点上降水的确定性预报转换成中心点的概率预报,并用概率预报校验方法进行校验; Roberts等[ 47] 通过计算邻域内降水超过给定强度、尺度阈值的格点数定义了“比重技巧评分”。Ebert[ 48]对邻域法检验高分辨率降水的基本框架进行了系统阐述,为运用这一方法提供了指导性说明,认为邻域法也适合监测模式在一个区域内的月、季预报表现,能够区分模式在小尺度对流、大尺度降水预报能力的差异,从这个角度来说,与尺度分离法作用类似。Mittermaier等[ 49]比较了邻域法与其他空间校验方法对不同尺度预报水平的识别能力。Weusthoff等[ 50]用邻域法检验了3个高分辨率及其对应的粗网格实时运转模式,结果认为高分辨率模式的预报性能更好,可能的原因是高分辨率模式采用深对流显示计算方案,而粗网格模式使用对流参数化方法。

图1 邻域法匹配示意图[ 30](a)观测场;(b)传统方法检验的匹配模式;(c)邻域法匹配Fig.1 The schematic of neighborhood method matching[ 30](a) The observation in the domain;(b)The traditional verification matches the same grid box in the forecast;(c)Fuzzy verification considers a neighbourhood surrounding the observations

3.4 形变法

形变法本质上是对预报场再加工、处理,使其在表现形式上尽可能与观测场相似[ 51],以此构造变形矢量。图2给出了构造形变矢量的示意图。形变矢量是从预报场匹配到观测场的最佳位移,也是进行检验或诊断分析的对象,不同形变法的差异在于对预报场的处理以及对形变矢量的解释方法。属性判别法中的许多技术可以应用到变形场中,但主要的不同在于属性判别法是以预报场中的实体作为比较对象,而形变法关注的是整个场。Alexander等[ 52] 在选定控制点的基础上,使用多项式形变函数对预报场进行处理;Nehrkorn等[ 53] 使用形变技术将预报场投影到观测场,然后分析预报的相位、大小误差及剩余残差;Keil 等[ 54] 利用锥形匹配、统计观测和变形场的平方差等方法检验了Meteosat-7地球静止卫星外推预报的性能,在这项工作中,他们将预报位置和大小偏差结合起来分析预报的表现。在他们随后的工作中[ 55]进一步发展了该方法,并定义了“位移—大小”评分(displacement and amplitude score)。“光流”技术图像分析方法在模式检验中的应用,可以归到形变法一类。Marzban等[ 56]用光流法分析MM5模式模拟与实时预报的强度、位移方向和距离;Marzban等[ 57]比较了光流、聚类和变差函数3种方法在诊断模式空间预报能力方面的差异,认为光流技术对预报强度错误不敏感,而更适用于位移检验。 Gilleland等[ 51]利用图像形变方法分析了4 km分辨率的俄克拉荷马大学WRF模式与非静力NMM模式对风暴的预报性能。

模式空间检验方法按照其目的、诊断的对象、采用技术的不同大致归纳为以上4种方法,然而,并不是所有空间校验技术都属于这4类,如Mesinger[ 58] 在空间校验中引入了改进的TS和GSS评分;高斯混合模型法[ 59]以及其他学者的一些工作[ 60, 61]并不属于这4种类别。

4 概率预报与集合预报

概率预报评估并不是新出现的方法,通过 n×2的列联表来计算Brier评分判别概率预报性能的方法由来已久,但20世纪90年代出现的集合预报极大地促进了概率预报检验技术的发展[ 44]。集合预报出现之前,概率预报通常通过统计方法产生[ 3],虽然统计可以消除系统性误差,但却无法消除随机性误差。集合预报能够消除随天气系统演变的随机误差,其产生的概率预报更具有动力学意义[ 62]。因此,本文将概率预报、集合预报综合考虑,所讨论的概率预报校验方法既可以用于集合预报系统产生的概率预报,也可用于统计产生的概率预报。

图2 形变方法示意图(a)预报场;(b)观测场;(c)通过预报场、观测场构造的形变矢量[ 4]Fig.2 The schematic of field deformation methods(a)The forecast field;(b) The observation field;(c)The vector field is formed by field-deformation approaches[ 4]

4.1 概率预报

概率预报检验中最通用的方法是计算概率预报的均方根误差即Brier评分,但Brier评分对事件发生的气候频率敏感,因此对极端天气事件来说,Brier评分有较好的表现,但这并不表示其具有实际的预报技巧。1973年Murphy[ 63]将Brier评分分解为:可靠性、分辨能力和不确定项3部分,随后Stephenson等[ 64]对Brier评分进行了重新组合,减小了计算时分辨能力项对概率分段间隔大小敏感的问题。Ferro等[ 65, 66]评估了集合成员个数对其概率预报Brier评分的影响,他们还发现对不同成员个数的集合预报的Brier评分进行比较,可能会出现误导性的结果。

可靠性图(reliability diagram)和ROC分析是评价预报准确性和分辨能力的常用方法。在理想的情况下,预报事件发生的概率与观测的频率相等,可靠性图中诊断曲线和理想曲线重合,当诊断曲线高于或低于理想曲线时表示预报概率偏大或偏小[ 67~ 69]。 ROC分析是信号探测理论在预报检验中的应用[ 70],它通过计算预报的命中率和空报率来描述系统的预报能力。ROC分析能够通过评估曲线下方的面积将预报系统对事件发生或者不发生的预报能力区分开来[ 71]。但ROC分析中的面积计算方法仍然需要注意,如梯形面积计算方法依赖于评估站点的数量,面积可能会被低估[ 72];其次,计算和解释ROC图时需要了解清楚样本的大小[ 73];最后,ROC分析在表现小概率事件时存在困难,当然这可以通过增加低概率区的分割间隔数来改进。对确定性预报而言,命中率越高,空报率越低,预报效果越好;对概率预报而言需要将概率预报转化为确定性预报然后再进行ROC分析。

概率密度函数是在可靠性不变的前提下评估概率预报好坏的标志之一,一个“尖窄”的概率分布比“平宽”概率分布能够提供更多的信息,也具有更多的应用价值[ 74]。这种检验方法是Wilson等[ 75]首先提出的,随后,Bröcker等[ 76]进一步探索了这种检验方法的适用性及改进的评分指数。

4.2 集合预报

将集合预报转换成单个值的确定性预报或离散事件的概率预报是检验集合预报的通用方法。其中连续分级概率评分CRPS(Continuous Ranked Probability Score)在检验连续变量的概率预报中的应用最为广泛。CRPS是所有可能阈值Brier技巧的积分,本质上表现的是集合预报变量的累计概率分布函数(CDF)与观测值Heaviside函数之间的差异[ 77]。CRPS去除了确定性预报中的平均绝对误差,因此能够直接用来比较集合预报与确定性预报之间的准确性,CRPS越小表示预报准确率越高,理想情况下CRPS等于零。

等级直方图或Talagrand图是用来衡量集合预报成员与观测值离散程度分布是否一致的评分,理想的集合预报系统Talagrand图应该是平直的,但是在大多数情况下集合预报各成员的发散度不够, 落在两端的概率要比落在中间的概率大,这是集合预报系统普遍存在的问题。U型的等级直方图表示集合成员的发散度偏低,钟形等级直方图则表示发散度偏高。利用Talagrand图检验集合预报时需要注意:①样本量较小时Talagrand图很难给出有意义的结果[ 78];②Talagrand 图能够很好地检验正态分布或近似正态分布的变量,对于非正态分布变量相对复杂,因此利用Talagrand 图检验非高斯分布变量如降水等可能产生误导性结果[ 79];③等级直方图不是检验集合预报准确度的方法,当集合成员个数固定时,等级直方图才有意义。如果在某一时段某个成员不可用,则不能用等级直方图进行评估,这种情况下,可以采用概率积分变换的等级直方图[ 80],其意义与Talagrand图基本一致。2005年Candille 等[ 81] 提出了一个定量估计等级直方图偏离程度的方案,该方案考虑了集合成员个数、检验样本大小等因素,因此可以用来比较不同集合预报的预报效果。当同时检验集合预报中多个变量相对于观测的离散程度时主要采用MST(Minimum Spanning Tree)方法[ 82, 83]

“未知”评分IG(Ignorance score)是信息理论在集合预报检验中的应用[ 84],其目的是检验预报与观测要素的概率分布函数的相似程度,它是负向的对数概率密度分布函数。Bröcker等[ 76]证明IG评分严格适用且仅适用于连续变量。当预报事件发生的概率为零时,IG评分变为无穷大,当然可以设定一个较小的数(0.00001)来避免概率为零的情况,但这会影响IG评分的正确性,因为预报员事先知道小概率事件的IG评分,正是由于存在这种限制,IG评分在集合预报中的应用并不广泛[ 85]

5 结论和讨论

数值模式天气预报检验是改进模式预报系统、指导用户使用模式产品的重要环节。文章在回顾传统模式检验方法的基础上,重点阐述了伴随着高分辨率数值模式产品而发展起来的空间诊断检验技术,集合预报检验技术以及由集合预报触发的新的概率预报检验技术。需要注意的是,空间诊断技术在国内开展相对较少,其大部分为国外学者的研究工作,此外,由于数值天气预报检验方法庞杂、新方法层出不穷,文章仅回顾了部分学者的相关成果,如果需要深入了解文章中所涵盖的相关问题或具体内容,可搜集并阅读其他相关文献。

传统检验方法通过点对点的对比分析,计算模式的预报评分,主要不足在于以相同的方式对待不正确事件,割裂了要素场的空间结构,往往不能正确反映模式的预报性能,但在目前来说,传统检验方法仍然在业务中广泛使用,一方面是因为计算简单、易于实现,另一方面直接给出确定性的结果,用户能够清晰、直观地理解和判断。

检验要素场的空间结构、属性特征的空间诊断技术是未来数值预报模式产品预报能力评估的主要趋势之一。与传统检验方法相比,空间诊断技术能够反映出更多的信息,对高分变率模式来说,检验结果可能更能反映模式的真实预报性能,但也可能造成用户理解困难,如MODE方法中比较预报场与观测场中匹配对象轴角的差异,并不具有明确的物理意义,因此,联合经典方法、诊断技术也是模式检验的发展方向。此外,空间诊断技术通常对观测场的分辨率、连续性等要求较高,一般的站点观测网络无法达到其要求,实际操作上使用雷达、卫星融合产品(对降水来说)更为广泛。实际工作中使用哪种方法取决于用户的不同需求,方法本身并无优劣之分,这也为未来模式检验提出了另一种方向——适用于不同或者特定用户需求的“用户定位”检验。

集合预报的发展极大地促进了概率预报检验技术。对于集合预报及其相应的概率预报来说,检验方法通常可以分为3类:①检验集合样本成员的概率分布函数(PDF),主要有Talagrand图、连续分级概率评分CRPS和最小跨度树MST等方法;②集合预报系统的概率预报检验方法,或者说是检验集合预报与真实要素概率分布函数(PDF)的相似程度,主要有“未知”评分、概率评分等;③对事件的概率预报检验,包括Brier评分及其分解、可靠性图和ROC分析等。对于集合预报中的确定性预报如集合平均来说,经典的技巧评分、空间诊断方法也存在交叉应用,而且这种应用将会越来越普遍。

单一的数值预报统计检验结果伴随着诸多的不确定性,这种不确定来源于检验方法、观测样本等多种因素,因此,自然而然地提出了另外一个问题——检验结果的置信区间及置信水平。这一问题在很早之前就被关注,然而目前来说并没有太多的进展,但这项工作在今后的模式检验工作中必定会受到更多的重视。此外,近年来出现的一些开源的、用户界面友好的、易于使用的校验系统也为模式检验工作注入了新的活力,这都将促进模式检验方法的快速发展。

The authors have declared that no competing interests exist.

参考文献
[1] Chen Haishan, Sun Zhaobo. Design of a comprehensive land surface model and its validation Part II: Model validation[J]. Chinese Journal of Atmospheric Sciences, 2005, 29(2): 272-282.
[陈海山, 孙照渤. 陆面模式CLSM的设计及性能检验II. 模式检验[J]. 大气科学, 2005, 29(2): 272-282. ] [本文引用:1] [CJCR: 1.948]
[2] Pan Liujie, Zhang Hongfang, Zhu Weijun, et al. Forecast performance verification of the ECMWF model over the Northeast Hemisphere[J]. Climatic and Environmental Research, 2013, 18(1): 112-123.
[潘留杰, 张宏芳, 朱伟军, . ECMWF模式对东北半球气象要素场预报能力的检验[J]. 气候与环境研究, 2013, 18(1) : 112-123. ] [本文引用:1] [CJCR: 1.166]
[3] Wilks D S. Statistical Methods in the Atmospheric Sciences[M]. Oxford, UK: Academic Press, 2005: 234-251. [本文引用:2]
[4] Gilleland E, David A, Brown G. Intercomparison of spatial forecast verification methods[J]. Weather and Forecasting, 2009, 24(6): 1 416-1 429. [本文引用:1] [JCR: 1.86]
[5] Baldwin M E, Kain J S. Sensitivity of several performance measures to displacement error, bias, and event frequency[J]. Weather and Forecasting, 2006, 21(5): 636-648. [本文引用:1] [JCR: 1.86]
[6] Casati B, Wilson L J, Stephenson D B, et al. Review forecast verification: Current status and future directions[J]. Meteorological Applications, 2008, 15(3): 3-18. [本文引用:1] [JCR: 1.318]
[7] Zepeda A J, Foufoula G E, Droegemeier K. Space-time rainfall organization and its role in validating quantitative precipitation forecasts[J]. Journal of Geophysical Research, 2000, 105(D8): 10 129-10 146. [本文引用:2]
[8] Tustison B, Foufoula-Georgiou E, Harris D. Scale-recursive estimation for multisensor quantitative precipitation forecast verification: A preliminary assessment[J]. Journal of Geophysical Research, 2003, 108(3): 11 775-11 784. [本文引用:1]
[9] Casati B, Ross G, Stephenson D B. A new intensity-scale approach for the verification of spatial precipitation forecasts[J]. Meteorological Applications, 2006, 11: 141-154. [本文引用:2] [JCR: 1.318]
[10] Davis C, Brown B, Bullock R. Object-based verification of precipitation forecasts. Part I: Methods and application to mesoscale rain areas[J]. Monthly Weather Review, 2006, 134(10): 1 772-1 784. [本文引用:2] [JCR: 2.758]
[11] Davis C A, Brown B G, Bullock R G. Object-based verification of precipitation forecasts. Part II: Application to convective rain systems[J]. Monthly Weather Review, 2006, 134(7): 1 785-1 795. [本文引用:2] [JCR: 2.758]
[12] Liu Jianguo, Xie Zhenghui, Zhao Linna, et al. BMA probabilistic forecasting for the 24-h TIGGE multi-model ensemble forecasts of surface air temperature[J]. Chinese Journal of Atmospheric Sciences, 2013, 37(1): 43-53.
[刘建国, 谢正辉, 赵琳娜, . 基于多模式集合的小时气温概率预报[J]. 大气科学, 2013, 37(1): 43-53. ] [本文引用:1] [CJCR: 1.948]
[13] Zhang Hongfang, Pan Liujie. A comparison analysis of precipitation forecast ability between ECMWF and Japan[J]. Meteorological Monthly, 2014, in press. [张宏芳, 潘留杰. ECMWF、日本高分辨率模式降水预报能力的对比分析[J]. 气象, 2014, 待刊. ] [本文引用:1] [CJCR: 1.156]
[14] Li Weiping, Liu Xin, Nie Suping, et al. Comparative studies of snow cover parameterization schemes used in climate models[J]. Advances in Earth Science, 2009, 24(5): 512-522.
[李伟平, 刘新, 聂肃平, . 气候模式中积雪覆盖率参数化方案的对比研究[J]. 地球科学进展, 2009, 24(5): 512-522. ] [本文引用:1] [CJCR: 1.388]
[15] Wang Chenghai. Evaluating the progress of the CMIP and its application prospect in China[J]. Advances in Earth Science, 2009, 24(5): 461-468.
[王澄海. CMIP研究计划的进展及其在中国地区的检验和应用前景[J]. 地球科学进展, 2009, 24(5): 461-468. ] [本文引用:1] [CJCR: 1.388]
[16] Kuang Xueyuan, Liu Jian, Wang Hongli, et al. Comparison of simulated and reconstructed precipitation in China during the last millennium[J]. Advances in Earth Science, 2009, 24(2): 159-171.
[况雪源, 刘健, 王红丽, . 近千年来中国区域降水模拟与重建资料的对比分析[J]. 地球科学进展, 2009, 24(2): 159-171. ] [本文引用:1] [CJCR: 1.388]
[17] Wang Bin, Xie Xin, Li Lijuan. A review on aspects of climate simulation assessment[J]. Advances in Atmospheric Sciences, 2009, 26(4): 736-747. [本文引用:1] [JCR: 1.338] [CJCR: 0.9244]
[18] Liu Yanhua, Zhang Shuwen, Mao Lu, et al. An evaluation of simulated and estimated land surface states with two different models[J]. Advances in Earth Science, 2013, 28(8): 913-922.
[刘彦华, 张述文, 毛璐, . 评估两类模式对陆面状态的模拟和估算[J]. 地球科学进展, 2013, 28(8): 913-922. ] [本文引用:1] [CJCR: 1.388]
[19] Brownlee K A. Statistical Theory and Methodology in Science and Engineering[M]. New York: John Wiley & Sons Wiley, 1965: 26-30. [本文引用:1]
[20] Schaefer J T. The critical success index as an indicator of warning skill[J]. Weather and Forecasting, 1990, 5(4): 570-575. [本文引用:1] [JCR: 1.86]
[21] Mason I. Dependence of the critical success index on sample climate and threshold probability[J]. Australian Meteorological Magazine, 1989, 37: 75-81. [本文引用:1] [JCR: 0.935]
[22] Doswell C A, Jones R D, Keller D L. On summary measures of skill in rare event forecasting based on contingency tables[J]. Weather and Forecasting, 1990, 5(4): 576-585. [本文引用:1] [JCR: 1.86]
[23] Brier G W. Verification of forecasts expressed in terms of probability[J]. Monthly Weather Review, 1950, 78(1): 1-3. [本文引用:1] [JCR: 2.758]
[24] Stephenson D B. Use of the “odds ratio” for diagnosing forecast skill[J]. Weather and Forecasting, 2000, 15(7): 221-232. [本文引用:1] [JCR: 1.86]
[25] Brill K, Mesinger F. Applying a general analytic method for assessing bias sensitivity to bias—Adjusted threat and equitable threat scores[J]. Weather and Forecasting, 2009, 24(6): 1 748-1 754. [本文引用:1] [JCR: 1.86]
[26] Ding Jincai. Review of weather prediction verifying techniques[J]. Journal of Nanjin Institute of Meteorology, 1995, 18(1): 143-150.
[丁金才. 天气预报评分方法评述[J]. 南京气象学院学报, 1995, 18(1): 143-150. ] [本文引用:1]
[27] Jolliffe I T, Stephenson D B. Forecast Verification: A Practitioner’s Guide in Atmospheric Science[M]. Chichester: Wiley and Sons, 2003. [本文引用:1]
[28] Hoffman R N, Liu Z, Louis J, et al. Distortion representation of forecast errors[J]. Monthly Weather Review, 1995, 123(5): 2 758-2 770. [本文引用:1] [JCR: 2.758]
[29] Ebert E, McBride J L. Verification of precipitation in weather systems: Determination of systematic errors[J]. Journal of Hydrology, 2000, 239(6): 179-202. [本文引用:1] [JCR: 2.964]
[30] Ebert E, McBride J L. Neighborhood verification: A strategy for rewarding close forecasts[J]. Weather and Forecasting, 2009, 18(4): 632-638. [本文引用:1] [JCR: 1.86]
[31] Baldwin M E, Kain J S. Sensitivity of several performance measures to displacement error, bias, and event frequency[J]. Weather and Forecasting, 2006, 21(5): 636-648. [本文引用:1] [JCR: 1.86]
[32] Marzbzn C, Sand gathe S. Cluster analysis for object-oriented verification of fields: A variation[J]. Monthly Weather Review, 2008, 136(8): 1 013-1 025. [本文引用:1] [JCR: 2.758]
[33] Micheas A C, Fox N I, Lack S A. Cell identification and verification of QPF ensembles using shape analysis techniques[J]. Journal of Hydrology, 2007, 343(4): 105-116. [本文引用:1] [JCR: 2.964]
[34] Lack S, Limpert G L, Fox N I. An object-oriented multiscale verification scheme[J]. Monthly Weather Review, 2009, 131(8): 1 001-1 005. [本文引用:1] [JCR: 2.758]
[35] Davis C A, Brown B G, Bullock, et al. The method for object-based diagnostic evaluation (MODE) applied to numerical forecasts from the 2005 NSSLSPC spring program[J]. Weather and Forecasting, 2009, 24(8): 1 252-1 267. [本文引用:1] [JCR: 1.86]
[36] Sock S, Tribbia J, Rakovec J. Object-based analysis and verification of WRF model precipitation in the low- and midlatitude Pacific Ocean[J]. Monthly Weather Review, 2010, 138(11): 4 561-4 575. [本文引用:1] [JCR: 2.758]
[37] Johnson A, Wang X, Kong F, et al. Object-based evaluation of the impact of horizontal grid spacing on convection—Allowing forecasts[J]. Monthly Weather Review, 2013, 141(8): 3 413-3 425. [本文引用:1] [JCR: 2.758]
[38] Briggs W M, Levine R A. Wavelets and field forecast verification[J]. Monthly Weather Review, 1997, 125(3): 1 329-1 341. [本文引用:1] [JCR: 2.758]
[39] Harris D, Foufoula G E, Droegemeier K, et al. Multiscale statistical properties of a high-resolution precipitation forecast[J]. Journal of Hydrometeorology, 2001, 2: 406-418. [本文引用:1] [JCR: 3.273]
[40] Roberts N M, Lean H W. Scale-selective verification of rainfall accumulations from high-resolution forecasts of convective events[J]. Monthly Weather Review, 2008, 136(1): 78-97. [本文引用:1] [JCR: 2.758]
[41] Wang N, Lu C. Two-dimensional continuous wavelet analysis and its application to meteorological data[J]. Journal of Atmospheric and Oceanic Technology, 2010, 27(2): 652-666. [本文引用:1] [JCR: 1.693]
[42] Liu Y, Brown J, Demargne J, et al. A wavelet based approach to assessing timing errors in hydrologic predictions[J]. Journal of Hydrology, 2011, 397: 210-224. [本文引用:1] [JCR: 2.964]
[43] Mittermaier M P. Using an intensity-scale technique to assess the added benefit of high-resolution model precipitation forecasts[J]. Atmospheric Science Letters, 2006, 7: 35-42. [本文引用:1] [JCR: 1.75]
[44] Casati B, Wilson L J. A new spatial-scale decomposition of the brier score: Application to the verification of lightning probability[J]. Monthly Weather Review, 2007, 133(4): 81-101. [本文引用:2] [JCR: 2.758]
[45] Casati B. New developments of the intensity-scale technique within the spatial verification methods intercomparison project[J]. Weather and Forecasting, 2010, 138(8): 121-128. [本文引用:1] [JCR: 1.86]
[46] Theis S E, Hense A, Damrath U. Probabilistic precipitation forecasts from a deterministic model: A pragmatic approach[J]. Meteorological Applications, 2005, 12: 257-268. [本文引用:1] [JCR: 1.318]
[47] Roberts N M, Lean H W. Scale-selective verification of rainfall accumulations from high-resolution forecasts of convective events[J]. Monthly Weather Review, 2007, 136(8): 78-97. [本文引用:1] [JCR: 2.758]
[48] Ebert E. Fuzzy verification of high-resolution girded forecasts: A review and proposed framework[J]. Meteorological Applications, 2010, 15: 51-64. [本文引用:1] [JCR: 1.318]
[49] Mittermaier M, Roberts N. Intercomparison of spatial forecast verification methods: Identifying skillful spatial scales using the fractions skill score[J]. Weather and Forecasting, 2010, 25(5): 343-354. [本文引用:1] [JCR: 1.86]
[50] Weusthoff T, Ament F, Aroagaus M, et al. Assessing the benefits of convection permitting models by neighborhood verification: Examples from MAP D-PHASE[J]. Monthly Weather Review, 2010, 138(8): 3 418-3 433. [本文引用:1] [JCR: 2.758]
[51] Gilleland E, David A, Brown B G, et al. Verifying forecasts spatially[J]. American Meteological Society, 2010, 8: 1 365-1 373. [本文引用:2]
[52] Alexand er G D, Weinman J A, Karyampudi V M, et al. The effect of assimilating rain ratesv derived from satellites and lightning on forecasts of the 1993 Superstorm[J]. Monthly Weather Review, 1999, 127(6): 1 433-1 457. [本文引用:1] [JCR: 2.758]
[53] Nehrkorn T, Hoffman R, Grassotti C, et al. Feature calibration and alignment to represent model forecast errors: Empirical regularization[J]. Quarterly Journal of the Royal Meteorological Society, 2003, 129: 195-218. [本文引用:1] [JCR: 3.327]
[54] Keil C, Craig G C. A displacement-based error measure applied in a regional ensemble forecasting system[J]. Monthly Weather Review, 2007, 135(9): 3 248-3 259. [本文引用:1] [JCR: 2.758]
[55] Keil C, Craig G C. A displacement and amplitude score employing an optical flow technique[J]. Weather and Forecasting, 2009, 24(6): 1 297-1 308. [本文引用:1] [JCR: 1.86]
[56] Marzban C, Sand gathe S, Lyons H, et al. Three spatial verification techniques: Cluster analysis, variogram, and optical flow[J]. Weather and Forecasting, 2009, 24(11): 1 457-1 471. [本文引用:1] [JCR: 1.86]
[57] Marzban C, Sand gathe S. Optical flow for verification[J]. Weather and Forecasting, 2010, 25(10): 1 479-1 494. [本文引用:1] [JCR: 1.86]
[58] Mesinger F. Bias adjusted precipitation threat scores[J]. Advances in Geosciences, 2008, 16: 137-142. [本文引用:1]
[59] Lakshmanan V, Kain J. A gaussian mixture model approach to forecast verification[J]. Weather and Forecasting, 2010, 25(6): 908-920. [本文引用:1] [JCR: 1.86]
[60] Venugopal V, Basu S, Georgiou E F. A new metric for comparing precipitation patterns with an application to ensemble forecasts[J]. Journal of Geophysical Research, 2005, 110: D08111, doi: 10.1029/2004JD005395. [本文引用:1]
[61] Gilleland E. Testing competing precipitation forecasts accurately and efficiently: The spatial prediction comparison test[J]. Monthly Weather Review, 2013, 141(1): 340-355. [本文引用:1] [JCR: 2.758]
[62] Du Jun, Chen Jing. The corner stone in facilitating the transition from deterministic to probabilistic forecasts—Ensemble forecasting and its impact on numerical weather prediction[J]. Meteorological Monthly, 2010, 36(11): 1-11.
[杜均, 陈静. 单一值预报向概率预报转变的基础——谈谈集合预报及其带来的变革[J]. 气象, 2010, 36(11): 1-11. ] [本文引用:1] [CJCR: 1.156]
[63] Murphy A H. A new vector partition of the probability score[J]. Journal of Applied Meteorology, 1973, 12: 595-600. [本文引用:1] [JCR: 1.702]
[64] Stephenson D B, Coelho C, Jolliffe I T. Two extra components in the Brier score decomposition[J]. Weather and Forecasting, 2008, 23(4): 708-716. [本文引用:1] [JCR: 1.86]
[65] Ferro C. Comparing probabilistic forecasting systems with the Brier score[J]. Weather and Forecasting, 2007, 22(3): 1 076-1 089. [本文引用:1] [JCR: 1.86]
[66] Ferro C, Richardson D S, Weigel A. On the effect of ensemble size on the discrete and continuous ranked probability scores[J]. Meteorological Applications, 2008, 15: 19-24. [本文引用:1] [JCR: 1.318]
[67] Hamill T M, Colucci S J. Verification of Eta-RSM short range ensemble forecasts[J]. Monthly Weather Review, 1997, 125: 711-724. [本文引用:1] [JCR: 2.758]
[68] Bröcker J, Smith L A. Increasing the reliability of reliability diagrams[J]. Weather and Forecasting, 2007, 22(3): 651-661. [本文引用:1] [JCR: 1.86]
[69] Wilks D S. The calibration simplex: A generalization of the reliability diagram for three-category probability forecasts[J]. Weather and Forecasting, 2013, 28(5): 1 210-1 218. [本文引用:1] [JCR: 1.86]
[70] Kharin K, Zwiers F W. Improved seasonal probability forecasts[J]. Journal of Climate, 2007, 16(11): 1 684-1 701. [本文引用:1] [JCR: 4.362]
[71] Murphy A H. What is a good forecast? An essay on the nature of goodness in weather forecasting[J]. Weather and Forecasting, 1993, 8(4): 281-293. [本文引用:1] [JCR: 1.86]
[72] Wilson L J. Comments on “Probabilistic predictions of precipitation using the ECMWF ensemble prediction system”[J]. Weather and Forecasting, 2000, 15(3): 361-364. [本文引用:1] [JCR: 1.86]
[73] Bowler N E, Pierce C E, Seed A W. STEPS: A probabilistic forecasting scheme which merges an extrapolation nowcast with downscaled NWP[J]. Quarterly Journal of the Royal Meteorological Society, 2008, 132(6): 2 127-2 155. [本文引用:1] [JCR: 3.327]
[74] Du Jun, Deng Guo. The utility of the transition from deterministic to probabilistic weather forecasts—Verification and application of probabilistic forecasts[J]. Meteorological Monthly, 2010, 36(12): 10-18.
[杜均, 邓国. 单一值预报向概率预报转变的价值——谈谈概率预报的检验和应用[J]. 气象, 2010, 36(12): 10-18. ] [本文引用:1] [CJCR: 1.156]
[75] Wilson L J, Burrows W R, Lanzinger A. A strategy for verification of weather element forecasts from an ensemble prediction system[J]. Monthly Weather Review, 1999, 127(3): 956-970. [本文引用:1] [JCR: 2.758]
[76] Bröcker J, Smith L A. Scoring probabilistic forecasts: On the importance of being proper[J]. Weather and Forecasting, 2007, 22(2): 382-388. [本文引用:2] [JCR: 1.86]
[77] Hersbach H. Decomposition of the continuous rank probability score for ensemble prediction systems[J]. Weather and Forecasting, 2000, 15(6): 559-570. [本文引用:1] [JCR: 1.86]
[78] Hamill T M. Interpretation of rank histograms for verifying ensemble forecasts[J]. Monthly Weather Review, 2001, 129(2): 550-560. [本文引用:1] [JCR: 2.758]
[79] Jolliffe I T, Cristina P. Evaluating rank histograms using decompositions of the chi-square test statistic[J]. Monthly Weather Review, 2008, 136(6): 2 133-2 139. [本文引用:1] [JCR: 2.758]
[80] Dawid A P. Statistical theory: The prequential approach[J]. Journal Royal Statistical Society, 1984, 147: 278-292. [本文引用:1]
[81] Cand ille G, Talagrand O. Evaluation of probabilistic prediction systems for a scalar variable[J]. Quarterly Journal of the Royal Meteorological Society, 2005, 131: 2 131-2 150. [本文引用:1] [JCR: 3.327]
[82] Wilks D S. The Minimum Spanning Tree (MST) histogram as a verification tool for multidimensional ensemble forecasts[J]. Monthly Weather Review, 2004, 132(7): 1 329-1 340. [本文引用:1] [JCR: 2.758]
[83] Gombos D, Hansen J A. Theory and applications of the minimum spanning tree rank histogram[J]. Monthly Weather Review, 2007, 135(4): 1 490-1 505. [本文引用:1] [JCR: 2.758]
[84] Roulston M S, Smith L A. Evaluating probabilistic forecasts using information theory[J]. Monthly Weather Review, 2002, 130(6): 1 653-1 660. [本文引用:1] [JCR: 2.758]
[85] Gneiting T, Raftery A E. Strictly proper scoring rules prediction and estimation[J]. Journal of the American Statistics Association, 2007, 102(3): 359-378. [本文引用:1] [JCR: 1.834]