地球系统模式CESM及其在高性能计算机上的配置应用实例
万修全, 刘泽栋, 沈飙, 林霄沛, 吴德星
中国海洋大学物理海洋教育部重点实验室,中国海洋大学,山东 青岛 266100
通讯作者: 刘泽栋(1987-),男,山东潍坊人,硕士研究生,主要从事物理海洋学研究.E-mail:zdliu@ouc.edu.cn

作者简介: 万修全(1977-),男,山东日照人,副教授,主要从事物理海洋学和气候变化研究.E-mail:xqwan@ouc.edu.cn

摘要

通用地球系统模式(CESM)是美国国家大气研究中心最新推出的地球系统耦合模式,对解决气候(地球)系统建模中所涉及的新挑战和新问题具有很大的帮助。首先介绍CESM模式的结构框架以及最新版本的重要更新;然后结合具体的应用实例和使用经验,重点讨论如何在高性能计算机上对模式进行移植和合理的CPU配置,并比较不同配置之间的优劣性,从而确定模式最佳负载平衡和最优效率,对模式新用户的使用具有极大的帮助;最后对模式进行一系列的稳定性测试和验证,结果表明模式具有较好的稳定性,可以进行数值模拟和科学研究。同时对地球系统耦合模式的发展进行了总结,并对模式发展中存在的问题提出了一些建议。

关键词: CESM; 高性能计算; CPU配置; 最优化; 稳定性
中图分类号:P731 文献标志码:A 文章编号:1001-8166(2014)04-0482-10
Introduction to the Community Earth System Model and Application to High Performance Computing
Wan Xiuquan, Liu Zedong, Shen Biao, Lin Xiaopei, Wu Dexing
Physical Oceanography Laboratory of the Ministry of Education, Ocean University of China, Qingdao 266100, China
Abstract

The Community Earth System Model (CESM) is a fullycoupled global climate model, and is maintained by the National Center for Atmospheric Research (NCAR). Composed of several separate models simultaneously simulating the earth's atmosphere, ocean, land surface, seaice, landice, river transport and wave, and one central coupler component, the CESM allows researchers to conduct fundamental research into the earth's past, present and future climate states. CESM1 contains totally new infrastructure capabilities, the implementation of a coupling architecture, and model parameterization development. These permit new flexibility and extensibility to address the challenges involved in earth system modeling with ultra high resolution simulations on High Performance Computing (HPC) platforms using tens of thousands of cores. Firstly,the infrastructure of the model is introduced, and also the notable improvements. The CESM1 coupling architecture provides “plug and play” capability of data and active components and includes a userfriendly scripting system and informative timing utilities. Then,the processor (PE) layout is customized for the load balancing on highperformance computers to optimize the throughput or efficiency of a CESM experiment. At the end of the paper, the port validation and model verification are made for the ocean model—the Parallel Ocean Program version 2 (POP2) which has properly ported to the machine—Polaris at Ocean University of China. The POP2 model output is subsequently verified to be a successful port, and CESM1 POP2 oceanmodel solutions are the same as solutions generated on a trusted machine—bluefire at NCAR. Together, it enables a user to create a wide variety of "out of the box" experiments for different model configurations and resolutions and also to determine the optimal load balance for those experiments to ensure maximal throughput and efficiency. The results and experiments will provide useful experience and method to the new CESM users to make simulations and load balancing of the model.

Keyword: The community Earth system model; High performance computing; CPU Processor layout; Optimization; Stability.
1 引言

国际上对地球科学数值模式的高度重视极大促进了目前地球系统模式的快速开发应用,其中最具代表性的有:美国“共同体气候系统模式发展计划”(The Community Climate System Model,CCSM)和“地球系统模拟框架计划”(The Earth System Modeling Framework, ESMF),欧盟的“欧洲地球系统模拟网络”计划,日本的“地球模拟器” 计划。特别值得指出的是中国做为一个发展中国家,在地球系统模式领域做了大量工作,最近也启动了“全球变化研究国家重大科学研究计划”进行我国的高分辨率气候系统模式的研制与评估,取得了一些令人瞩目的成绩。

本文介绍的是美国国家大气研究中心(NCAR)在2010年6月推出的通用地球系统模式CESM (The Community Earth System Model)。它是在CCSM4.0 (The Community Climate System Model)基础上发展的地球系统模式。截至2013年12月模式更新至CESM1.2.1版本。CESM模式是以海洋、大气、陆面和冰圈等为研究主体,并考虑大气化学、生物地球化学和人文过程的地球气候系统模式,在气候与环境的演变机理、自然和人类与气候变化的相互作用以及气候变化的研究和预测等诸多方面应用广泛[ 1, 2]

CESM模式采用模块化框架,主体由大气、海洋、陆地、海冰、陆冰等几大模块组成,并由耦合器(CPL7)管理模块间的数据信息交换和模式运行。CESM的各个模块都采用现阶段比较成熟的既有模式,其中大气模块采用CAM (The Community Atmosphere Model),海洋模块采用POP (The Parallel Ocean Program),陆地模块采用CLM(The Community Land Model),海冰模块采用CICE (The Los Alamos National Laboratory Sea-ice Model),陆冰模块采用 CISM (The Glimmer Ice Sheet Model)。模式中的各个模块都有不同的几种工作状态:active,data,dead,stub。CESM可以根据实验目的和实验要求来选择模块组合形式(component set),不同的模块组合方式可以实现不同的科学实验的要求,具有很强的灵活性和通用性。CESM实现了模块的可插拔性,使模式操作简单,可持续发展能力较强。

我们成功将CESM1.0.4版本移植到中国海洋大学计算中心高性能计算机Polaris上,本文的所有实验都是基于这个版本(以下简称CESM1);在实际移植及计算过程中发现不同的模式配置策略(PE layout)对其工作效率有不可忽视的影响。本文将结合这些具体的应用实例和经验,首先介绍一下CESM1版本各个模块相对于之前的CCSM4版本的重要更新和改进,接着重点讨论如何在高性能计算机上对CESM进行合理的CPU配置。

虽然我国独立开发的气候耦合模式经过接近20年的发展,在国内得到了比较广泛的应用,也取得了一系列的成果,特别是中国科学院大气物理研究所自主研发的耦合模式FGOALS(The Flexible Global Ocean-Atmosphere-Land System Model)[ 3]。然而,从客观存在的总体实力和研究水平上讲,中国地球系统模式的发展与发达国家相比仍然存在一定的差距[ 1, 4],相信本文的结果会对CESM的初学者和气候模式开发者起到帮助和借鉴意义。

2 CESM1的重要更新和改进简介

CESM1是由几个数值模块组合而成,每一个模块相对于其之前的版本CCSM4都有更新和改进,在其官方网站(http://www.cesm.ucar.edu/)有详细的介绍,本文在此仅做简单介绍,有兴趣的用户也可参考其他相关资料[ 5]

2.1 大气模块

CESM1中所使用的大气模块是NCAR的通用大气模式CAM5(The Community Atmosphere Model ,version 5)。CAM5相对其之前的CAM4版本而言,在物理过程和参数化方案等方面都有较大的修改和改善。利用改进的湿度扰动方案来模拟层云—辐射—湍流相互作用,从而有利于研究气溶胶的间接影响。利用云的宏观物理方案处理云过程,并改进层状云的微物理过程,使物理过程更加透明清晰,并且模拟结果更好。采用快速辐射通量传输方法的辐射方案,采用高效准确的K方法计算辐射通量和加热率,对于水蒸气宽谱的连续性和精度具有很大改善。大气模块中加入了化学过程和整层大气模块。

2.2 陆地模块

CESM1的陆地模块(The Community Land Model,CLM)有了实质性的修改,具体包括增加了新的模型和功能、更新了模式的输入数据并修正了物理化参数方案。陆地模块中加入了碳氮循环过程、动态植被模型、城市模型和水文模型等新的物理过程和模型,首次采用动态陆地覆盖方案以保证全球能量守恒,并对陆地径流和冰山进行特殊化处理以保证全球质量守恒。特别地,在模式中加入了农作物的生长和灌溉等人类耕种活动,更好地反映了人类活动对地球和气候的影响[ 6]。从CESM1.1版本开始,径流模块(The River Transport Model,RTM)从陆地模块(CLM)中独立出来成为一个单独的子模块,因而可以更好地模拟地球上的径流系统及其对地球系统的影响。

2.3 海冰模块

CESM1的海冰模块(The Community Ice CodE,CICE)的主要改进是在物理过程和参数化方案以及模式运算方面。其中物理过程和参数化方案的的改进主要包括:更新修正了海冰的示踪方案和短波辐射传输方案,改进了冰雪融化方案和气溶胶沉积方案。海冰模块的计算性能有很大的改进,主要包括:采用更加灵活和方便的计算方法,提高了运算速度和效率;提高了模式分辨率,使得能够模拟更小尺度的物理过程;优化了数据的输入和输出接口,使得数据传输和交换更加快捷和高效[ 7]

2.4 海洋模块

CESM1的海洋模块(The Parallel Ocean Program,POP)的主要结构功能和物理参数化方案基本没有变化,其主要改进是增加了海洋生态系统模型。海洋中植物对能量分布有不可忽视的影响,作为全球碳循环模式的一个组成部分,实现了生物地球化学过程与物理海洋过程的相互作用和反馈[ 8]。从CESM1.2版本开始,海浪模块(The Wave Model,WAV)也被加入到模式中。

2.5 陆冰模块

CESM1增加一个新的模块—陆冰模块,其采用通用陆冰模式(Glimmer-CISM),主要研究陆冰以及其与其它地球系统的相互作用和影响,模拟大尺度的北极格陵兰岛和南极的陆地冰,也可以模拟更小尺度的冰山、冰帽以及陆冰的变化。陆冰模式处于不断发展阶段,其物理过程和参数化方案还有待于进一步完善。现在模式只是研究冰架内部的运动,而不研究冰架和冰的流动;并且陆冰模式与陆地模式是单向的,即陆冰模块只从陆地模块获得初始场,但是冰对地形的改变等不会进一步传递给陆地模块。

2.6 耦合器(CPL)

CESM模式采用模块化框架,耦合器 (CPL7)负责管理模块间的数据交换和模式运行。耦合器的功能主要包括:把CESM分割为几个独立的子模式模块,包括海洋、大气、海冰、陆冰、径流、海浪模块等,模块之间通过MPI交换数据;同步协调和控制各模块之间的数据流,以此来控制整个CESM的运行和时间积分;控制各模块之间进行界面通量的交换,并保证通量守恒。耦合器通过控制各子模式之间的数据消息交换,来控制整个模式系统的运行。耦合器框架结构已经成为目前耦合气候系统模式设计的最佳方案,即将耦合器作为一个工具软件,把各子模式很方便地连接起来,构建一个完整的气候系统模式[ 9]

3 模式运行环境

CESM是一个比较复杂的地球系统模式,对运算的计算平台有较高的要求,主要包括计算平台的硬件和软件条件、并行应用的运行时环境以及机群作业管理系统。

3.1 高性能计算平台Polaris

中国海洋大学计算中心的高性能计算机Polaris于2012年底正式启用。该计算机平台分两期建设,目前已有CPU总共3132核,计算能力峰值约33.32万亿次每秒,实测29万亿次每秒,效率达到89.8%;单节点采用两颗Intel Xeon 5650 CPU,每颗CPU 12核心,主频 2.6GHz;拥有裸容量400T的高速并行文件存储系统。具体的参数指标见表1

表1 中国海洋大学计算中心的高性能计算机Polaris主要性能参数 Table 1 The main performance parameters of High Performance Computer--Polaris at Ocean University of China
3.2 模式运行环境配置

本文所有的CESM数值实验的移植、配置、测试等相关工作在中国海洋大学计算服务中心Polaris上完成,所用到的具体软件环境见表2

表2 模式移植和运行时的编译环境及运算环境 Table 2 The compiled environment and the computing environment

在本文的实验运算中,我们采用Intel c/c++/fortran 77/90/95编译器,运用OpenMPI进行并行运算。

4 模式的CPU配置策略(PE layout)

为了追求计算的高效率的同时节省计算资源,就必须进行最优化调试。模式的最优化意味着模式的输出量和消耗量达到最优化。对于一定的CPU核数而言,最优化意味着输出量最大。但是模式的最优化是相对的,对于不同的CPU核数,就需要找到一个最优化的平衡点:模式具有高输出量的同时具有低能耗。跟其他大多数模式一样,增加CESM的CPU核数会同时增加模式的输出量和消耗量。由于模式的运算不是线性的,因此核数的增加会导致模式的消耗量增加。因此在进行较长时间的模拟实验之前,非常有必要进行CPU的最优化配置测试。 为此,我们设计了一系列实验来测试移植以及配置。测试算例采用全耦合状态(B_1850-2000_CN),分辨率为0.9×1.25_gx1v6,算例中各模块状态以及分辨率等详细信息见表3

表3 测试算例的各个模块的状态和分辨率情况 Table 3 The component sets and resolution of each model in the test case

CESM的CPU配置中需要设置的参数有:MPI task的数目、线程数目和起始位置等。模块分辨率以及模块状态对每个配置参数的要求均有差别,所以参数配置对模式运行速度和效率会产生不可忽视的影响。因此在接下来的实验中我们重点探究不同的CPU配置策略及其对模式运算速度和效率的影响,以期找到一个最优化的配置策略。

为尽量减小偶然误差和不确定因素对模式运行的影响,我们对每个算例单独运算5次,本文中所用的模式数据均为多次运算模式的平均值。其中每个测试算例模拟10年。

4.1 配置实验一

首先,我们将所有模块顺序运行,这也是模式在高性能计算平台Polaris上默认采用的配置策略。由于是顺序运行,每个模块的MPI task起始位置相同,因此我们只需改变MPI task数目(即每个模块的CPU核数)即可。据此我们设计了实验一,模式运行数据如表4,运算速度和效率如图1

表4 实验一(全部模块顺序运行)的CPU配置情况以及模式运算速度和资源消耗情况 Table 4 Processor layout and the cost-throughput of components, with fully sequential options

图1 实验一的模式运算速度和效率曲线图
其中横轴是CPU核数;左侧纵轴是模式每天所模拟的时间(图中实线),表征模式运算速度;右侧纵轴是每个CPU所消耗的资源量(图中虚线),表征模式运算的效率
Fig.1 The cost-throughput of components with fully sequential options.
In the figure, the x-axis is the number of CPUs of all components; the left y-axis is the throughput, with units: Simulated_years/day, and the right is the cost, with units: Pe-hrs/simulated_year

在实验一中,我们均采用模式在Polaris上默认的配置策略,即各模块采用单线程顺序运行。据此我们设计了6个实验(其中算例0**仅作为比对算例),各模块核数和总核数都在增加。我们用两个量来表征运算速度和效率,其中我们将模式运算一天所输出的数据量作为模式运算速度的指标;将每个CPU所消耗的资源作为模式运算的效率。模式输出量越大,表征运算速度越快;每个CPU所消耗的资源越少,表征运算效率越大。我们根据实验一的表格数据计算了模式的运算速度和效率(图1)。

通过分析实验一的数据(表4)以及其运算速度和效率曲线图(图1),可以发现,在最开始核数增加时,即从算例1到算例3,模式运算速度有一定的提高,从每天能模拟4.85模式年提高到7.37模式年,其资源消耗也有一定程度的减小,即运算的效率也在提高;但是当核数继续增大时,即算例4~6,模式的运行速度反而是降低,并且资源消耗也在持续变大、效率降低。因此算例3在实验一中是最高效的,即运算速度快并且其消耗资源也少。

由于本次实验中模式分辨率约为1°×1°,就海洋模块的全球网格的格点数为384×320。当采用核数较多时,每个CPU所负责计算的区域面积较小,因此可以在一定程度上增加运算速度;但是采用的核数多,使得区域划分个数增加,同时也会增加MPI并行运算时各个CPU间数据的交换量,影响总的运算速度。因此,对于并行运算要求比较高的CESM模式而言,并不是单纯提高CPU核数就会提高其运算速度和效率。并且对比现,采用单线程、各模块顺序运行的策略(即实验一的配置策略)时,模式运行速度普遍很慢、消耗资源很大,效率很低,因此采用各模块顺序运行的CPU配置策略不具有实际应用价值。

4.2 配置实验二A

通过进一步分析发现,对模式运算速度影响最大的主要是大气和海洋模块。当这2个模块顺序运算时,会使运算的总时间增加,从而使得模式运算的速度减小,因此我们考虑将海洋模块和大气模块并行运算。由于CESM模式中陆地模块与大气模块只能顺序运算,因此我们采用的策略是海洋模块与其余模块(大气、海冰、陆地和CPL)并行运算,但大气、海冰、陆地和CPL之间均采用顺序运算,据此我们设计了实验二A,详细的输出及配置见如表5,运算速度和效率如图2

表5 实验二A的CPU配置情况以及模式运算速度和资源消耗情况 Table 5 Processor layout and the cost-throughput of components, with fully sequential options except the ocean running concurrently

图2 实验二A的模式运算速度和效率曲线图
其中横轴是CPU核数;左侧纵轴是模式每天所模拟的时间(图中实线),表征模式运算速度;右侧纵轴是每个CPU所消耗的资源量(图中虚线),表征模式运算的效率
Fig.2 The cost-throughput of components with fully sequential options except the ocean running concurrently.
In the figure, the x-axis is the number of CPUs of all components; the left y-axis is the throughput, with units: Simulated_years/day, and the right is the cost, with units: Pe-hrs/simulated_year

通过对实验一和实验二A的数据分析,发现实验二A中的模式计算速度在10模式年/天左右(图2),较实验一的速度(5模式年/天左右,图1)有很大提高,并且模式运算的资源消耗也有所降低。在本实验中随着核数的增大,从算例1至算例4中,运行速度和效率均有了较大的提高,到算例5时速度和效率都减小,这一点在实验一中这也得到验证(核数增大到一定程度时,运算速度和效率均降低)。进一步分析发现算例3,4的核数远比算例2多,但其运算速度和效率变化却不是特别明显,因此算例3,4的实际应用价值不如算例2好。

因此对于分辨率和状态确定的算例,其运算速度和效率不仅仅与分配核数(总核数、各个模块的核数)有关,还与模块间的串并行方案有关。增加核数仅在一定范围内使得模式的运算速度和效率增加,当超过一定的范围之后,反而会使模式运算速度和效率降低。

4.3 配置实验二B

进一步分析实验二A的详细输出数据,我们发现算例2中大气模块的核数不是模式运行的限制因素,因此进一步增加大气模块的核数对模式的影响已经不大,因此实验二A中的算例3、4虽然增加了使用的核数,但是相对于算例2而言,其运算速度和效率增加不明显的原因跟海洋模块所分配的核数有关。

因此我们以实验二A中的算例2为基准设计了实验二B来测试海洋模块分配核数对模式运行速度和效率的影响。在实验二B中海洋模块和其它模块同时运行,但是通过改变海洋模块分配的核数进行了一系列实验,得到算例1至算例5,其中本次实验中的算例5就是实验二A中的算例2,详细配置见表6,运算速度和效率如图3

表6 实验二B的CPU配置情况以及模式运算速度和资源消耗情况 Table 6 Processor layout and the cost-throughput of components, with fully sequential options except the ocean running concurrently

图3 实验二B的模式运算速度和效率曲线图
其中横轴是海洋模块的CPU核数;左侧纵轴是模式每天所模拟的时间(图中实线),表征模式运算速度;右侧纵轴是每个CPU所消耗的资源量(图中虚线),表征模式运算的效率
Fig.3 The cost-throughput of components with fully sequential options except the ocean running concurrently.
In the figure, the x-axis is the number of CPUs of ocean component; the left y-axis is the throughput, with units: Simulated_years/day, and the right is the cost, with units: Pe-hrs/simulated_year.

在实验二B中(表6,以及图3),我们发现减少海洋模块的CPU之后,大部分算例都比算例5(即实验二A中的算例2)的运算速度快并且效率也要高,其中运算最高效的是算例2,总用核数为336CPU,海洋模块为80核,其余模块均为256核,运算输出量为13.56模式年/天,模式消耗为594.74核小时数/模式年;而其中只有算例1运算速度要比算例5慢,分析原因是海洋分配的CPU过少,导致其运算速度和效率都变慢。因此,海洋模块分配的CPU不能过多,也不能过少。在保证每个模块分配的CPU核数不是计算瓶颈的前提下,适当减少海洋模块的核数反而在一定程度上使得模式运行速度提高、资源消耗减少。

对于全球1度的分辨率的全耦合算例而言,海洋模块分配80~120个CPU就可以足够保证其运算速度和效率维持在一个高的水平上。但是由于CESM是计算密集型应用,对资源的消耗相当大,计算平台的内存可能是模式运算的瓶颈。因此在不同的计算平台上运行模式时,也不容忽视内存对模式运算的速度和效率的影响。所以要综合考虑模块分配的核数以及内存的影响,不能单纯的增加或者减小CPU数量。

结合实验一和实验二,我们发现模式的运行速度与模式分配的总核数、各个模块分配的核数以及模块之间的并行策略等均有关。CPU核数在一定的范围内对模式运算有一定的影响,但是模块间的并行策略也起到很重要的作用;模式的运算速度和效率主要受大气模块和海洋模块的影响,其中大气的影响可能占到的比重更大一些。模式的PE配置时,在满足大气模块的CPU核数分配的前提下,将海洋模块跟其余模块并行,并适当分配海洋模块的CPU数就可以使满足模式运行的速度和效率[ 10]

5 模式移植稳定性验证

对于一个成熟的模式,其运算结果应该认为与所使用的运算工具无关,即模式的结果不受计算平台硬件、软件等计算环境的影响。但是由于CESM模式的复杂性,不能排除硬件以及计算配置等对结果的影响,因此需要验证移植的准确性和精确度。为此我们进行了一系列的敏感性试验,并将结果与NCAR的CESM模式组已经测试成功的实验结果进行对比,以此验证模式移植的准确性和精确度。

在稳定性试验中,这里主要测试海洋模块(POP)的准确性和精确度,因此我们采用C-compset,即只有海洋模块为active状态、其余模块为data或者stub状态;分辨率为T62_gx1v6[ 11]。数据输出是以每模式计算步(step)作为输出间隔。本次试验共有5个子实验算例,分别验证模式对模式收敛度、模式迭代次数、机器PE layout配置等参数的敏感度。如表7所示是各个实验的配置,其中算例1是模式默认的配置,算例2中改变了海洋模块分配的CPU数,算例3中将模式的收敛度由1.0e-13改为1.0e-14,算例4改变了收敛度、迭代次数,算例5在算例4的基础上又改变了海洋模块分配的CPU数。

表7 稳定性测试实验中各个算例的情况 Table 7 Port-validation information of POP2 on Polaris

模式运行1年后,取最后5天计算各个实验中的海表面高度的均方根进行对比(图4)。

图4 稳定性测试实验中各个算例间的海表面高度的均方根的差值
(a) 算例1与算例2的差,(b) 算例1与算例3的差,(c) 算例4与算例5的差
Fig.4 Timeseries of RMS differences of the SSH field in different port case on the new system Polaris.
In the figure, it respectively shows the differences of case1 with case2, case1 with case3, case4 with case5

图4a中验证了改变海洋模块CPU数对模式结果的影响,发现SSH的均方差在1.0e-10至1.0e-7之间,即当将模式移植到计算平台上运行时,CPU的分配数量对模式运算的结果影响很小,甚至可以忽略;图4b中验证了模式收敛度变化对海洋模式结果的影响,发现SSH的均方差在1.0e-7至1.0e-6之间,即由于计算平台计算能力的不同使得模式的计算迭代次数以及收敛度均不同,但是其对模式计算的影响也很小;图4c中验证了同时改变收敛度和迭代次数后,并且不同的CPU分配对模式的影响,发现SSH的均方差在1.0e-13至1.0e-10之间,即使同时改变计算平台的计算能力和PE layout,模式运算的准确性仍然可以得到保障。

为了检验模式在不同的计算平台上的模拟效果,我们将Polaris上的敏感性试验与NCAR官方的Bluefire机器的运算相同算例的结果进行对比,结果如图5所示。

图5 Polaris与NCAR机器Bluefire相同算例(C-compset)的海表面高度的均方根的差值
其中图a-e分别对应算例1至算例5
Fig.5 Timeseries of RMS differences of the SSH field in each port case between the Polaris solutions and those generated on a "trusted machine," the NCAR IBM bluefire.
In the figure, it respectively shows case1 to case5; figure a) is case1,and so on

图5中我们可以发现,不管是改变收敛度、迭代次数还是PE配置,两个计算平台模拟的结果很相近,差别比较小,可以看出计算环境的变化对模式的运算的影响基本可以忽略。

从以上的一系列敏感性试验以及其它的验证实验中,计算平台的计算能力、运算环境以及PE配置等对CESM模式的结果不会产生严重的影响。因此CESM模式是一个移植性较好、比较成熟的模式,可以应用在不同的计算平台上进行大规模的科学实验和研究。

6 总结

CESM(通用地球系统模式)是在CCSM(通用气候系统模式)的基础上发展起来的,是研究海洋和大气等地球系统的一个很有力的工具,对解决地球系统的新挑战和新问题具有很大的帮助。模式的程序框架和物理方案比较先进,并且具有较强的可移植性和高并行运算能力。科学家们能够获得对地球系统更广泛更清晰的研究和认知,能够更好地描述客观世界[ 1, 12]

在本文的一系列的移植测试中,我们使用f09_g16分辨率的CESM1.0模式的B_1850-2000_CN算例,针对其各模块的运行配置情况统计了各模块的计算量,对各模块所分配的核数和并行方案进行了测试。在Polaris的计算平台上,该算例最优化运算配置为使用336个CPU核,其中大气模块CAM分配256核,海洋模块POP采用80核,陆地模块CLM使用256核,海冰模块CICE使用256核,耦合器CPL使用256核;运算速度约为13.56模式年/天。

在对CESM的配置测试试验中,我们发现整个地球系统模式中大气模块是运算最大的瓶颈,其计算量最大、耗时最长,并且随着大气模块分辨率的提高,模式的计算量和消耗会明显增加,因此必须首先保证大气模块的运算,才能使整个模式运算速度和效率提高。CESM对计算平台的并行运算能力要求比较高,各个模块的并行方案和CPU核数的选取对整个模式的运算速度和效率都会有很大的影响。通过我们的测试发现,在Polaris计算平台上,采用海洋模块与其余模块并行的方案是最优选择,既能保证所用计算资源最少,同时还能确保计算速度和效率能够达到相对最优化。在确保大气模块不是运算瓶颈的前提下,海洋模块的CPU核数对模式的运算也有很大的影响,过多的海洋模块CPU核数,会使运算速度和效率降低。

由于地球系统模式的复杂性和高计算量,属于典型的计算密集型程序,其对计算平台的内存也提出了很高的要求。计算平台的多线程运算,也会使得运算速度和效率有进一步的提高。而随着模式分辨率的提高,地球系统模式在高性能计算机上要使用上千CPU核、数千CPU核甚至数万CPU核进行计算[ 13, 14],对计算平台的计算性能和技术又提出了新的需求和挑战。

地球本身就是一个很庞大和复杂的系统,对其的研究就要涉及到更多系统和因素,其复杂性和艰难性不言而喻[ 12]。现在包括CESM在内的模式都还存在很多的问题,模式的研究还不是很完善,也需要结合观测资料对模式的物理过程和参数化进行进一步的改进[ 15]。这需要科学家和相关的技术人员进行研究和改进,使之能够更好的模拟现实并预测未来。

The authors have declared that no competing interests exist.

参考文献
[1] Wang Bin, Zhou Tianjun, Yu Yongqiang. A perspective on Earth system model development[J]. Acta Meteorologica Sinica, 2008, 66(6): 857-869.
[王斌, 周天军, 俞永强. 地球系统模式发展展望[J]. 气象学报, 2008, 66(6): 857-869. ] [本文引用:3] [JCR: 0.799] [CJCR: 0.363]
[2] Zheng Peinan, Song Jun, Zhang Fangran, et al. Common instruction of some OGCM[J]. Marine Forecasts, 2008, 25(4): 108-120.
[郑沛楠, 宋军, 张芳苒, . 常用海洋数值模式简介[J]. 海洋预报, 2008, 25(4): 108-120. ] [本文引用:1] [CJCR: 0.2887]
[3] Zhou Tianjun, Yu Yongqiang, Liu Hailong, et al. Progress in the development and application of climate ocean models and ocean-atmosphere coupled models in China[J]. Advances in Atmospheric Sciences, 2007, 24(6): 729-738. [本文引用:1] [JCR: 1.338] [CJCR: 0.9244]
[4] Zou Liwei, Zhou Tianjun. A review of development and application of regional ocean-atmosphere coupled model[J]. Advances in Earth Science, 2012, 27(8): 857-865.
[邹立维, 周天军. 区域海气耦合模式研究进展[J]. 地球科学进展, 2012, 27(8): 857-865. ] [本文引用:1] [CJCR: 1.388]
[5] Vertenstein M, Craig T, Middleton A, et al. CESM-1. 0. 4 User’s guide[R/OL]. Boulder: National Center for Atmospheric Research, 2012. [2013-12-22]. http://www.cesm.ucar.edu/models/cesm1.0/cesm/cesm_doc_1_0_4/book1.Html. [本文引用:1]
[6] Lawrence D M, Oleson K W, Flanner M G, et al. Parameterization improvements and functional and structural advances in version 4 of the community land model[J]. Journal of Advances in Modeling Earth Systems, 2011, 3(1): 1-27, doi: 10.1029/2011MS00045. [本文引用:1] [JCR: 4.114]
[7] Lipscomb W H, Hunke E C, Maslowski W, et al. Ridging, strength, and stability in high-resolution sea ice models[J]. Journal of Geophysical Research: Oceans(1978-2012), 2007, 112(C3), doi: 10.1029/2005JC003355. [本文引用:1]
[8] Smith R, Gent P, Briegleb B, et al. The Parallel Ocean Program (POP) reference manual[R]∥Technical Report LAUR-10-01853. Los Alamos: Los Alamos National Laboratory, 2010. [本文引用:1]
[9] Zhou Tianjun, Yu Yongqiang, Yu Rucong, et al. Coupled climate system model coupler review[J]. Chinese Journal of Atmospheric Sciences, 2004, 28(6): 993-1008, doi: 103878/j. issn. 1006-9895. 2004. 06. 16.
[周天军, 俞永强, 宇如聪, . 气候系统模式发展中的耦合器研制问题[J]. 大气科学, 2004, 28(6): 993-1008, doi: 10.3878/j.issn.1006-9895.2004.06.16. ] [本文引用:1] [CJCR: 1.948]
[10] Dowd K, Severance C R, Loukides M K. High Performance Computing[M]. California: O’Reilly, 1998. [本文引用:1]
[11] Danabasoglu G, Bates S C, Briegleb B P, et al. The CCSM4 ocean compo/nent[J]. Journal of Climate, 2012, 25(5): 1361-1389. [本文引用:1] [JCR: 4.362]
[12] Zeng Qingcun, Lin Zhaohui. Recent progress on the Earth system dynamical model and its numerical simulations[J]. Advances in Earth Science, 2010, 25(1): 1-6.
[曾庆存, 林朝晖. 地球系统动力学模式和模拟研究的进展[J]. 地球科学进展, 2010, 25(1): 1-6. ] [本文引用:2] [CJCR: 1.388]
[13] Pu Ye, Li Lijuan. The application of thousand s of CPU cores in high resolution Earth system model[J]. e-Science Technology & Application, 2010, 1(4): 69-75.
[普业, 李立娟. 高分辨地球系统模式的千核应用[J]. 科研信息化技术与应用, 2010, 1(4): 69-75. ] [本文引用:1]
[14] Wang Bin.  A typical type of high-performance computation: Earth system modeling[J]. Physics, 2009, 38(8): 569-574.
[王斌. 一种典型的高性能计算: 地球系统模拟[J]. 物理, 2009, 38(8): 569-574. ] [本文引用:1] [CJCR: 0.2383]
[15] Wu Lixin, Chen Zhaohui. Progresses and challenges in observational studies of physical oceanography[J]. Advances in Earth Science, 2013, 28(5): 542-551.
[吴立新, 陈朝晖. 物理海洋观测研究的进展与挑战[J]. 地球科学进展, 2013, 28(5): 542-551. ] [本文引用:1] [CJCR: 1.388]