引用本文
王卷乐, 林海, 冉盈盈, 周玉洁, 宋佳, 杜佳. 面向数据共享的地球系统科学数据分类探讨. 地球科学进展, 2014, 29(2): 0265-274[Wang Juanle, Lin Hai, Ran Yingying, Zhou Yujie, Song Jia, Du Jia. A Study of Earth System Science Data Classification for Data Sharing.
地球科学进展, 2014, 29(2): 0265-274]
Permissions
Copyright©2014l, 地球科学进展 编辑部
This is an open-access article distributed under the terms of the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited.
1 中国科学院地理科学与资源研究所 资源与环境信息系统国家重点实验室 北京100101
3 天津国土资源和房屋职业学院 天津 300270
王卷乐(1976-),男,河南洛阳人,副研究员,主要从事资源环境科学数据集成与共享研究. E-mail:wangjl@igsnrr.ac.cn
基金:感谢孙九林、黄鼎成、陈泮勤等对分类体系的指导。感谢高孟绪、柏中强等参与分类研讨。; 国家科技基础条件平台专项项目“地球系统科学数据共享平台”(编号:2005DKA32300); 中国科学院信息化专顶项目(编号:XXH12504-1-01)资助.;
中图分类号:P315.69
文献标志码:P315.69;TP311.13
文章编号:1001-8166(2014)02-0265-10
1 引 言地球系统科学是以地球系统为研究对象,重点研究各圈层、各要素以及自然过程和人类活动之间相互作用关系的科学,是在科学技术自身发展和社会需求共同推动下发展起来的新兴学科领域。地球系统科学概念是为了解决全球性的资源环境问题和人类可持续发展的需要而提出的,这标示着地球科学走向以地球系统科学为特征的新时代,预示着地球科学的发展将表现为“微观更微、宏观更宏、交叉综合集成化”的发展态势[1]、[ 2]。地球系统科学的研究离不开强大的对地球系统各要素和各圈层的物理、化学和生物过程综合观测工作的支持[ 3]。地球系统科学研究具有明显的学科交叉和区域集成特征,不仅需要地球科学各分支学科基础数据,更需要交叉学科、多尺度、跨区域的综合集成数据。同时,地球系统科学研究需要有效的国际合作和各国科学家的协作,需要以全球性的科学研究计划来推动[ 4]。
地球系统科学数据共享是协调有关地球系统科学各类国家科技计划、集成不同尺度的多源数据、促进地球系统科学集成研究的重要途径。数据分类是数据管理中必不可少的环节[ 5],国内外相关的地球系统科学数据共享机构都建有自己的分类体系。然而,这些分类体系各自独立、应用目标差异很大,缺乏一个既能适应地球系统科学用户实际需求,又能够兼顾地球系统科学数据特点的,具有较强指导意见的数据分类体系。
本文拟在对国际上地球系统科学数据共享相关分类体系进行调研分析的基础上,借鉴国际上该领域的大型数据共享机构的数据分类思想,基于国家科技基础条件平台——地球系统科学数据共享平台的服务实践,探讨建立具有我国特色、同时又能满足该平台用户需求和数据集成要求的地球系统科学数据分类体系。
2 国际地球系统科学数据分类体系分析2.1 国际地球系统科学数据分类体系概况联合国粮农组织(FAO)针对地球空间数据共享,建立了GeoNetwork共享网络(http://www.fao.org/geonetwork),该网络的数据分类体系包括行政边界、农业牲畜、应用生态、基础底图、生物和生态资源、气候、渔业水产、森林、人类健康、大气和水资源、基础设施、土地利用和变化、人口和社会经济指标、土壤、地形等。美国国家海洋大气局(NOAA)建立的地球物理数据中心(NGDC,http://www.ngdc.noaa.gov),建立了包括灾害、海洋、卫星、冰雪、日地空间等领域的一级和二级分类体系。美国地质调查局(USGS)建立了地球科学数据目录(http://geo-nsdi.er.usgs.gov),该目录的主要内容包大气圈和气候、地质过程、地球特征、自然灾害、地球科学、自然资源、环境问题、海洋和海岸带等。美国国家宇航局(NASA)建立了地球观测资源数据目录(http://earthobservatory.nasa.gov),该分类以地球圈层结构为主线建立了包括大气、热量、土地、生命、水、冰雪、人文过程、遥感、生物等的分类系统。美国国家官方一站式地球空间数据网站(Geospatial One-Stop,https://catalog.data.gov/dataset)没有对地球科学数据进行具体的分类,而是按照数据集类型、标签、格式、分组、组织机构等进行检索,生成基于数据视图的展示分类。国际科学联盟理事会(ICSU)世界数据系统(WDS,World Data System)创建了国际地球科学领域的数据共享门户( http://www.icsu-wds.org/services/data-portal),只提供数据检索界面,无明确的数据分类体系,其检索方式直接针对数据的存储和管理机构,例如,NOAA的NGDC、NCDC、NODC,德国的PANGAEA,中国的GEODATA等。德国布莱梅大学的PANGAEA(Data Publisher for Earth & Environmental Science,http://www.pangaea.de)集成地球系统科学海洋领域相关的共享资源,其共享门户未建立直接的数据目录,仅提供按领域检索的入口,相应的领域包括水、沉积物、冰、大气。美国国家科学基金会资助的DataONE(http://www.dataone.org/)网站按照关键词、时间、空间范围、不同数据库搜索数据,没有进行地球科学数据的具体分类。美国哥伦比亚大学的地球科学信息国际共享网络(CIESIN,http://sedac.ciesin.columbia.edu/data/sets/browse)以数据检索为目标,设计的主题分类包括农业、气候、自然保护、政府管理、灾害、健康、基础设施、土地利用、海洋和海岸带、人口、穷困、遥感、可持续发展、城镇、水等。欧盟推出的地球科学空间信息基础设施平台(INSPIRE,http://inspire-geoportal.ec.europa.eu/discovery/)提供根据数据来源、元数据语言、空间数据、专题分类、服务类型等5个大类的搜索功能,其总体上注重数据检索实效,未建立非常完整和系统的数据分类体系。
基于以上调研和分析,认为这些分类体系呈现出分类扁平化和两极化的特征。扁平化是指一些数据共享机构在尽量减少数据分类层次,避免使用户一层一层“剥洋葱”似地访问数据。两极化是指一部分数据共享机构期望建立全面、系统的分类目录,例如NOAA和NASA的一些机构,而一些数据中心则期望建立简约的、适合本数据中心的小型数据目录,例如德国的PANGAEA和DataONE等领域数据中心。从数据分类目录建立的趋势上看,以圈层结构为主线进行构建仍然是主流,例如美国NASA和USGS等的数据体系。
2.2 美国NASA全球变化主目录分类进展除了一些直接共享数据的机构,美国NASA建立的全球变化主目录(GCMD)则是通过建立在线的地球科学数据目录为用户提供数据导航。GCMD的主要目的是为全球变化数据信息系统的用户提供关于全球变化数据和信息的详细信息,以便让用户能够快速地选定所需的有用信息。
GCMD在线目录如图1所示。其在2002年就有超过10,634条的地球科学描述信息,非常便于地球科学数据的搜索。数据目录提供方便的导航功能,避免参加机构重复性的建立许多孤立的数据目录。
表1
Table 1
表1(Table 1)
表1 美国GCMD数据类型2005年统计表 Table 1 Global Change Master Directory data type statistics in 2005序号 | 一级类型名称(英文) | 一级类型名称 | 一级类数据 | 二级类数据 | 三级类数据 |
---|
1 | Agriculture | 农业 | 1851 | 11 | 100 | 2 | Atmosphere | 大气圈 | 7434 | 13 | 153 | 3 | Biological Classification | 生物分类 | 3961 | 7 | 57 | 4 | Biosphere | 生物圈 | 6827 | 12 | 168 | 5 | Climate Indicators | 气候指示因子 | 334 | 4 | 21 | 6 | Cryosphere | 冰冻圈 | 2660 | 4 | 66 | 7 | Human Dimensions | 人文因子 | 3652 | 13 | 88 | 8 | Terrestrial Hydrosphere | 陆地水圈 | 3296 | 5 | 93 | 9 | Land Surface | 陆地表层 | 4876 | 9 | 98 | 10 | Oceans | 海洋 | 6221 | 18 | 210 | 11 | Paleoclimate | 古气候 | 1419 | 4 | 42 | 12 | Solid Earth | 固体地球 | 2599 | 8 | 49 | 13 | Spectral/Engineering | 光谱/工程 | 2351 | 11 | 50 | 14 | Sun-Earth Interactions | 日地相互作用 | 339 | 2 | 32 | 小计 | 30262 | 125 | 1195 |
| 表1 美国GCMD数据类型2005年统计表 Table 1 Global Change Master Directory data type statistics in 2005 |
全球变化数据主目录(GCMD)依据数据涉及的学科领域和数据获取方式将数据划分为三级。其中第一级展示了其主要的数据分类思路,即以地球系统大气圈、生物圈、水圈、冰冻圈、岩石圈的圈层结构为主线,辅以用户需求较大的农业、生物、人文因子、陆地表层等领域划分,形成数据分类体系。表1列出的是GCMD在2005年的数据目录结构。
2005到2013年5月底,GCMD的数据分类系统在不断更新,其相应的数据库也在动态演替。通过实际对比(图2),一级类型数据库从2005年的30 262个增加到47 820个,增长量达17 558,增长率为58%。几乎所有的领域都有明显增长,其中增幅快的主要是大气圈(47.7%)、冰冻圈(100%)、陆地水圈(50%)、海洋(57.3%)、古气候(103%)固体地球(50.2%)等。
GCMD的数据目录变化给我们的启示有2点,一是该分类体系完整,基本能够适应地球系统科学多样化数据集成的需要;二是该分类体系稳定性较好,2005-2013年的发展过程中,数据库容量在不断增大,但数据目录体系仍然保持较好的连续性。
3 地球系统科学数据共享的用户服务特征地球系统科学数据共享平台于2002年作为国家科学数据共享工程首批试点之一启动[ 6],其主要目标是整合、集成科研院所、高等院校和科学家个人通过科研活动所产生的研究型分散科学数据,服务于地球系统科学与全球变化等科学研究[7]、 [ 8]。2005年该平台纳入国家科技基础条件平台建设,2011年通过国家评议正式成为首批进入运行服务阶段的国家平台。
国家地球系统科学数据共享平台在近10年的数据服务历程中,提供了大量的在线数据服务。据统计,截止2013年5月下载次数在10次以上的数据有1,312条。其中,下载量在50次以上的数据有525条。表2列举了下载量排名前20的数据集目录。
表2
Table 2
表2(Table 2)
表2 下载次数位居前20位的数据集名称 Table 2 Top 20 download datasets name of DSNESS数据集名称 | 下载次数 |
---|
全国土地利用数据库(分省:1980s,1987—2001年;分县:1980s) | 21 060 | 中国1:400万全要素基础数据(1970s-1990s) | 11 295 | 1:400万全要素基础数据(1970s-1990s) | 10 257 | 全国1km网格土地利用数据(1980s,1995年,2000年) | 9 177 | 全国1:10万土地利用数据(1980s,1995年,2000年) | 5 216 | 全国1km网格人口数据(1995,2000年,2003年) | 5 184 | 陆地卫星MSS/TM/ETM+(1973—2008年、覆盖全国) | 4 460 | 四川卢山地震科技救灾及灾后重建专题库 | 4 233 | 青藏高原土壤研究数据 | 3 935 | 黄土高原地区500M分辨率资源与环境遥感系列图栅格数据集(1987—1990年) | 3 523 | 全国多年平均降雨分布图(1km)(建站到1996年) | 2 782 | 中国分省、分地区、分县区域发展社会经济数据库(1980、1985、1990—2006年) | 2 651 | 全国1:100万土地利用区划(1996年) | 2 524 | 中国1:400万资源环境数据(中国地形) | 2 478 | 中国1:400万地貌图(形态) | 2 283 | 全国1:25万土地覆被数据(1980s,2005两期) | 2 282 | 全国公里网格GDP数据(1995年,2000年,2003年) | 2 247 | 陆地卫星MSS/TM/ETM+(1973—2003年、覆盖全国) | 2 187 | 全国人口统计数据(分省、市、县) | 1 849 | 全国土地资源数据库(分省:1980s,1987—2001年) | 1 818 |
| 表2 下载次数位居前20位的数据集名称 Table 2 Top 20 download datasets name of DSNESS |
参照GCMD的导航分类做法,对国家地球系统科学数据共享平台的高频次下载数据集的检索词进行汇总分析如表3所示。
表3
Table 3
表3(Table 3)
表3 高频检索主题词列表 Table 3 List of high frequency search words检索主题词 | 频次 | 检索主题词 | 频次 |
---|
土地利用/覆盖 | 47 895 | 地质 | 882 | 基础地理 | 41 629 | 生物 | 803 | 土壤 | 18 215 | 动物 | 747 | 社会经济 | 17 303 | 雪 | 628 | 自然资源 | 16 037 | 地震 | 555 | 遥感 | 12 439 | 环境治理 | 540 | 植被 | 12 109 | 古气候 | 533 | 人口 | 11 138 | 沙漠 | 517 | 灾害 | 8 183 | 冻土 | 495 | 气候 | 6 379 | 地磁 | 455 | 降水 | 5 850 | 湿润指数 | 444 | 生态系统 | 5 054 | 海洋 | 428 | 水文 | 4 045 | 气象 | 426 | 黄土高原 | 4 041 | 干燥度 | 425 | 区划 | 3 491 | 极地 | 400 | 环境 | 2 481 | 辐射 | 386 | 冰川 | 2 473 | 风 | 298 | 气温 | 2 198 | 蒸发 | 276 | 湖泊 | 1 776 | 天文 | 218 | 古环境 | 14 73 | 气溶胶 | 144 | 青藏高原 | 1 056 | 空间 | 123 | 湿地 | 1 033 | 光谱 | 83 | 环境变迁 | 977 | | |
| 表3 高频检索主题词列表 Table 3 List of high frequency search words |
由上表可见,土地利用/覆盖、基础地理、土壤、社会经济、自然资源、遥感、植被、人口、灾害、气候、降水、生态系统、水文、黄土高原、区划、环境、冰川、气温、湖泊、古环境等45个主题词具有非常高的访问频次。认识到这些用户使用的特征,将有助于我们建立适合该平台用户需求特点的数据分类体系。
4 地球系统科学数据共享目录与关键词表分类4.1 分类模式结合GCMD的分类思想与国家地球系统科学数据共享平台的用户服务特征,可以更有效地构建既满足用户需求又兼顾地球系统科学数据体系的分类模式。地球系统科学数据分类体系可采取2种模式,一为数据分类目录模式,二为便于数据检索的关键词表分类模式。
数据分类目录模式主要满足数据管理和门户展示的需要,为用户呈现完整的、可管理的数据目录体系。其要遵循以下几个基本原则:①结合国际上当前的扁平化趋势,尽量减少数据分类层级;②参照GCMD的圈层分类思想,总体体现地球系统科学的圈层结构特征;③根据国家地球系统科学数据共享平台用户服务的实际需求,适当提高陆地表层和人地关系等数据密集和用户需求强烈领域的分类等级。
数据关键词表分类主要是为便于平台内数据快速检索、导航而建立的规范的关键词分类词表。具体用途包括2个方面,一方面便于数据在集成过程中,数据生产者可根据这一分类词表在元数据和数据文档中规范化地著录关键词和主题词;另一方面又适合于建立机器可读的关键词表,便于用户检索时的快速导航和数据库关联分析。
4.2 目录分类基于以上分析,初步建立的地球系统科学数据目录分类体系如表4所示。该分类目录包括14个一级类和173个二级类。二级类下不设三级类,可直接访问数据。一级分类中除了保留圈层结构的特点外,增加了典型区域、自然资源等中国特色的分类类型。其中典型区域所列的既是在世界和我国都极具重要地位的自然地理单元,同时也是国家地球系统科学数据共享平台的区域分中心[ 9]。
表4
Table 4
表4(Table 4)
表4 地球系统科学数据目录分类 Table 4 Data catalog classification system of Earth System Science一级类 | 二级类 |
---|
大气圈 | 温度、降水、气压、辐射、电离层、云、水汽、蒸发、风、二氧化碳、甲烷、臭氧、NO2、温室气体、气溶胶、湿度/干燥度、大气污染、大气成分 | 陆地表层 | 基础地理、土地利用/覆盖、区划、地形、地貌、土壤、沙漠、湖泊、湿地、环境、污染 | 典型区域 | 青藏高原、黄土高原、寒区旱区、长江三角洲、黄河中下游、东北黑土区、新疆与中亚、南海及毗邻海区、湖泊-流域 | 生物圈 | 生物、植被、动物、细菌、生态系统 | 冰冻圈 | 冻土、冰川、冰、雪 | 陆地水圈 | 地表水、地下水、水循环、径流、水利、水文、水系、水环境、水化学 | 人文因素 | 人口、社会经济、区划、灾害、荒漠化、农业/农作物、酸雨、残留物、污染物、重金属、噪声、城市化、环境治理、水土保持、土壤侵蚀、森林砍伐与恢复、开垦/复垦、退耕还林(草)、河道变迁、土地退化、环境变迁 | 自然资源 | 自然资源、气候资源、动物资源、草地资源、森林资源、水资源、土地资源、农业资源、矿产资源、海洋资源、药物资源、旅游资源、能源资源、可再生资源 | 海洋极地 | 基础地理、海冰、潮汐、温度、盐度、CTD、叶绿素、浮游动物、浮游植物、细菌、微生物、海洋生物、海洋化学、海洋物理、海洋生态、海洋初级生产力、海洋水产、海洋沉积、海岸带、陨石、极光、海平面变化、海洋调查、极地考察、极地大气、极地地球物理、极地生物、极地环境、极地地理、极地地质、极地工程、极地冰川 | 固体地球 | 地震、地磁、地电、矿物、地质、岩石、重力、地球化学、地热、火山 | 古气候/古环境 | 古地理、古环境、古气候、古生物、古地磁、气候因子、气候变化、气候重建、物候、树轮、孢粉、湖泊沉积、碳同位素、稳定同位素 | 日地空间环境 | 卫星探测、电离层观测、太阳活动观测、太阳高能粒子通量、太阳高能粒子特性、灾害性空间天气事件、空间目标及空间碎片、空间环境效应、宇宙线、宇宙噪声 | 天文 | 望远镜观测、光学天文学、红外天文学、亚毫米波和毫米波天文学、射电天文学、紫外天文学、X-射线天文学、γ-射线天文学、天文探测 | 遥感数据 | 航片、卫星影像、雷达影像、景观照片、其他影像、地物波谱、地面验证信息 |
| 表4 地球系统科学数据目录分类 Table 4 Data catalog classification system of Earth System Science |
4.3 关键词表分类地球系统科学数据关键词表分类如表5所示。该关键词表共包括13个一级类,71个二级类,以及686个关键词。根据国家地球系统科学数据共享平台的用户服务实践,在关键词表中增加了陆地表层(典型区域)、生物圈(生态系统)、人文因素(经济资源)、自然资源等特色数据资源关键词表。
表5
Table 5
表5(Table 5)
表5 地球系统科学数据关键词表分类 Table 5 Key words classification of Earth System Science一级类 | 二级类 | 关键词表 |
---|
大气圈 | 大气温度 | 空气温度、大气稳定性、边界层温度、度日(户外每日平均温度单位)、除冰温度、露点温度、逆温层高度、最高/最低温度、潜温、表面温度、静温度、地面空气温度、温度距平、温度剖面,温度廓线、温度趋势、有效温度、实际温度 | 降水 | 酸雨、云滴大小、冻雨、冰雹、水汽凝结体、液态水当量、降水量、降水距平,降水异常、降水强度、雨、冻雨,雨夹雪、雪 | 大气压力 | 反气旋/气旋、大气压力测量、大气分压力、重力波、流体静压、振荡、行星边界层高、行星波/罗斯贝波、气压异常、气压趋势、气压厚度、海面压力、静压、地形波、表面压力 | 大气辐射 | 吸收、气辉、反照率、各向异性、大气发射辐射、大气加热、发射率、热通量、太阳入射辐射、长波辐射、净辐射、光学深度/厚度、向外(出射)长波辐射、辐射通量、辐射强迫、反射系数、散射、短波辐射、太阳光、太阳辐射、透射比、紫外线辐射 | 大气电学 | 大气传导率、电场、闪电、总电容 | 云 | 云微物理、云特性、云辐射传输、云型 | 大气水汽 | 凝结、露点、蒸发、蒸散,土壤水分蒸发蒸腾损失总量、湿度、可降水分、升华、水汽、水汽剖面,水汽廓线、水汽趋势 | 大气风 | 边界层风、传送,对流、辐合/辐散、飞行层风、流函数、地面风、湍流、上层风、垂直风运动、旋涡、风寒、风廓线、风切变、风压力、风倾向 | 大气现象 | 气旋、干旱、雾、结冰、霜、飓风、闪电、季风、暴风雨、龙卷风、台风 | 大气化学(成分) | CO2、CH4、氧化物、氮化合物、硫化物、氢化物、卤烃和卤族、微量元素/微量金属、光化学、示踪气体/示踪核素 | 大气质量 | 一氧化碳、铅、 氧化氮、 微粒、 烟雾、 氧化硫、对流层臭氧、混浊度、能见度、挥发性有机化合物 | 气溶胶 | 气溶胶后向散射、 气溶胶消光、 气溶胶光学深度/厚度、 气溶胶颗粒特性、 气溶胶辐射率、 含碳气溶胶、 云凝结核、 灰尘/灰/烟、 硝酸盐颗粒、 有机物颗粒、 颗粒物质、 硫酸盐颗粒 | 高度 | 气压高度、位势高度、中间层顶、行星边界层高度、台站高度、平流层顶、对流层顶 | 陆地表层 | 区划 | 行政界线、自然区划、农业区划、土壤区划、生态区划、主体功能区划、灾害区划、自然保护区、流域分区、生态地理分区 | 地形地貌 | 等高线、DEM、坡度、坡向、坡位、坡长、山体阴影、地貌 | 水文/水循环 | 温度、降水、蒸发、水位、流速、径流 | 土壤 | 土壤类型、土壤C,N,P,S,K、土壤容重、重金属、电导率、土壤微量元素、阳离子交换能力、土壤PH值、土壤热收支、土壤温度、导热率、土壤有机物、土壤吸收率、土壤深度、土壤侵蚀、土壤肥力、土壤气体/空气、土壤呼吸、土壤剖面、土壤阻抗、土壤入渗、土壤力学、土壤湿度/水分含量、土壤可塑性、土壤孔隙率、土壤生产力、土壤固根深度、土壤盐渍度、土壤结构、土壤粗密度、土壤持水能力 | 地表辐射特性 | 反照率、各向异性、发射率、反射系数、热性质 | 土地利用/覆盖 | 土地利用格局、土地利用变化、土地覆盖格局、土地覆盖变化、验证点、森林、草地、耕地、沙漠、城市与农村聚落、湿地、水域 | 典型区域综合 | 青藏高原、黄土高原、寒区旱区、长江三角洲、黄河中下游、东北黑土区、新疆与中亚、南海及毗邻海区、湖泊—流域 | 生物圈 | 植被 | 植被覆盖、植被类型、植被指数、叶面积指数、增强叶面积指数、造林/重造林、生物量、碳收支、叶绿素、光合有效辐射、微藻类 | 动物 | 两栖动物、鸟类、鱼、哺乳动物、爬行动物 | 细菌 | 蓝藻、绿藻 | 生态系统 | 农田生态系统、森林生态系统、草地生态系统、荒漠生态系统、湿地生态系统、湖泊生态系统、海湾生态系统、城市生态系统 | 冰冻圈 | 冻土 | 活性层、冰雪物质、地下冰、冰缘作用、永冻带、冰川石流、季节性封冻带、土壤温度、居间不冻层 | 海冰 | 海冰 | 冰川/冰原 | 消融带/积雪带、冰原、冰川海拔/冰盾海拔、冰川表面、冰川质量平衡、冰川运动、冰川厚度、冰川地形、冰川、冻盾、冰山 | 雪/冰 | 反照率、雪崩、浓霜、冻洁/解冻、霜、冰冻深度、冰川长度、冰川增长/消融、冰川运动、冰川速率、湖冰、永冻带、河冰、雪盖、雪密度、雪深度、雪能量平衡、积雪表面、融雪、积雪地层学、积雪水当量、雪/冰化学、雪/冰温度 | 陆地水圈 | 地表水 | 含水层补给、流量、引流、洪水、水文类型、水文周期、水灾、湖、河流/溪流、径流、水位、地表水化学成分、地表水总量、水渠、水深、水压、产水量、流域特征、湿地、泥沙 | 地下水 | 含水层、色散、水系、地下水流量、地下水化学成分、下渗、地面沉降、渗流、海水入侵、泉水、潜水面 | 水质/水化学 | 酸沉降、碱度、生态指数、二氧化碳、致癌物、叶绿素含量、传导率、污染物质、溶解气体、溶解固体、碳水合物、无机物、光透射、氮化合物、营养盐、有机物、含氧量、磷化合物、pH、放射性同位素、稳定同位素、悬浮颗粒、有毒化学物质、微量矿物元素、浑浊度、水离子集中度、可饮用水、水温、水微量元素 | 人文因素 | 人口 | 人口数量、性别构成、年龄结构、教育程度、文盲率 | 经济资源 | GDP、全社会固定资产投资、社会消费品零售总额、工业总产值、出口总额、进口总额、外商直接投资(FDI)、年财政收入、年财政支出、第三产业增加值占GDP比重、第二产业增加值占GDP比重、第一产业增加值占GDP比重、文化产业增加值占GDP比重、人均GDP、GDP增速、R&D经费支出占GDP比重、劳动生产率、总人口、农业人口、人口自然增长率、城镇人口比重、失业率(城镇)、非农产业就业比重、基本社会保险覆盖率、义务教育普及率、适龄人口大学入学率、人均受教育年限、交通事故发生率、火灾发生率、发案率、基尼系数、城乡居民收入比、高中阶段毕业生性别差异系数、城市居民人均可支配收入、农村居民人均纯收入、恩格尔系数、5岁以下儿童死亡率、平均预期寿命、千人拥有医生数、千人拥有床位数、每百户拥有计算机台数、居民文教娱乐服务支出占家庭消费支出比重、人均住房使用面积、万元GDP能耗、万元GDP水耗、常用耕地面积指数、空气质量达到二级以上天数、万元GDP CO2排放量、森林覆盖率、中小学生态文化课程普及率 | 环境影响 | 酸雨沉降、农业扩张、生物化学元素排放、生物量消耗、化学溢出物、城市扰动、残留物、污染物、环境评价、化石燃料燃烧、瓦斯爆炸/泄漏、废气燃烧、重金属、工业废物排放、工业化、矿山排水、核辐射、石油泄漏、污水、城市化、水管理 | 自然灾害 | 生物危害性、火灾、地质灾害、水灾、气象灾害 | 生境转化 | 森林砍伐、沙漠化、富营养化、灌溉、开垦/复垦、再造林、退耕还林(草)、水土保持、湖泊围垦、河道变迁、城镇化 | 自然资源 | 气候资源 | 光能资源、热量资源、降水资源、大气资源、风能资源、气候灾害 | 生物资源 | 森林资源、草地资源、藻类资源、动物资源、微生物资源、药物资源 | 水资源 | 大气水(云水)、地表水、土壤水、地下水(潜水) | 土地资源 | 资源类型、适宜性 | 农业资源 | 水稻、小麦、玉米、大豆、棉花、蚕、茶叶、水果、畜产品、水产品、光温潜力 | 矿产资源 | 金属矿产、非金属矿产、水气矿产 | 海洋资源 | 海洋生物资源、海底矿产资源、海水资源、海洋能资源、海洋空间资源 | 旅游资源 | 地文景观、水域风光、生物景观、天象与气候景观、遗址遗迹、建筑与设施、旅游商品、人文活动 | 能源资源 | 石油、天然气、煤炭 | 可再生资源 | 风能、太阳能、生物质能、地热、潮汐、水电 | 海洋与极地 | 海洋 | 海洋水产学、海洋光学、海底地貌、海洋压力、海岸过程、海洋温度、海洋环境监测、海浪、海洋地球物理、海洋风、海洋沉积物、盐度/密度、海洋火山作用、海冰、海洋声学、海面起伏、海洋化学、潮汐、海洋环流、海洋水质、海洋热量收支、海洋生物 | 极地 | 极地海洋学、极地地球物理学、极地大气科学、极地生物学、极地环境科学、极地地理学、极地地质学、极地工程、极地冰川学、南极天文学 | 固体地球 | 地球化学 | 元素地球化学、有机地球化学、天体化学、环境地球化学、矿床地球化学、区域地球化学、勘查地球化学、地球化学其它 | 大地测量/重力 | 控制调查、地壳运动、大地水准面属性、引力场、重力加速度、海洋地亮变形、参照系统、旋转变异、卫星轨道 | 岩石/矿物 | 年代探测、基岩岩性、火成岩、变质岩、陨石、准矿物、矿物/水晶、沉积岩、沉积物 | 地磁 | 电场、地磁预报、地磁指数、地磁感应、磁异常、磁偏角、磁场、磁倾角、磁感应强度、古地磁、参照场 | 地震 | 地震动力学、发震记录、地震预报、地震体波、地震剖面、地震面波 | 构造地质 | 中心演化、断层、褶皱、均衡反弹、岩石圈板块运动、构造、板块边界、板块构造、应变、地层顺序、应力 | 地热 | 地热能量、地热温度 | 火山 | 喷发动力、熔岩、岩浆、火山碎屑、火山灰、火山气体 | 古气候/古环境 | 冰芯记录 | 二氧化碳、电学性能、冰心气泡、离子、同位素、甲烷、一氧化碳、颗粒物、火山堆积 | 海洋/湖泊记录 | 钻孔、珊瑚沉积、同位素、湖平面、厚重大化石、微体化石、氧同位素、古地磁数据、花粉、放射性碳、沉积物、地层序列、纹泥沉积 | 陆地记录 | 钻孔、洞穴沉积、冰川作用、同位素、黄土、厚重大化石、微体化石、古地磁数据、古土壤、古植被、花粉、放射性碳、沉积物、地层序列、树木年轮、火山堆积 | 古气候重建 | 气温重构、大气环流重构、干旱/降水重构、地下水重构、湖面重构、海洋含盐重构、海平面重构、海表面温度重构、日照重构、溪流重构、植被重构 | 日地空间环境 | 空间环境卫星探测 | ACE卫星探测、双星卫星、SOHO卫星、其他卫星、神舟飞船 | 空间环境地面观测 | 地磁观测、重力观测、中高层大气环境观测、电离层观测、太阳活动观测、太阳高能粒子通量、太阳高能粒子特性 | 灾害性空间天气事件 | 太阳耀斑事件、太阳质子事件、地磁暴事件 | 空间目标及空间碎片 | 空间碎片、卫星编目与异常 | 空间环境效应 | 航天器故障异常事件、其他环境效应 | 国际交换和镜像 | SPIDR镜像、其他国际数据资源 | 天文 | 望远镜观测 | 望远镜观测 | 全波段天文学 | 光学天文学、红外天文学、亚毫米波和毫米波天文学、射电天文学、紫外天文学、X-射线天文学、γ-射线天文学 | 天文探测 | 天文探测 | 遥感数据 | 天基遥感 | 航片、卫星影像、雷达影像、景观照片、其他影像 | 地面遥感 | 地物波谱、遥感解译标志、地面验证信息 |
| 表5 地球系统科学数据关键词表分类 Table 5 Key words classification of Earth System Science |
5 讨论与结论本文针对地球系统科学数据共享缺少一致性的数据分类问题,综合分析国际上主要的分类体系,重点对全球变化主目录(GCMD)分类系统及其2005—2013年的演变趋势进行分析,得到分类启示。在此基础上,重点梳理了国家地球系统科学数据共享平台的用户服务记录,汇总了常用的高频数据集和关键词需求。结合GCMD系统化、结构化的分类思想和国家地球系统科学数据共享平台用户化的数据实际需求,提出扁平化的地球系统科学数据分类目录体系和规范化的关键词表体系2种模式,初步形成以下认识。
(1)数据分类扁平化是地球系统科学数据分类的总体趋势。长期以来数据分类遵循面分类和线分类的传统方法,要求分类体系有严格的层级、门类关系,这给一些新兴交叉学科的数据分类带来困难。分类扁平化则强调减少由分类到数据的层级,分类要更贴近数据的真实集聚状态,避免“空架子、无内容”的分类体系。
(2)以圈层结构为核心,兼顾领域应用需求的分类体系符合地球系统科学数据分类的要求。本研究中建立的数据目录分类保留了传统的大气圈、生物圈、水圈、冰冻圈、岩石圈等圈层结构,同时根据数据资源的实际需求,在目录分类中增加了自然资源、极地、天文、遥感数据源等实际数据资源类别。
(3)面向用户检索和数据关联分析的数据关键词表分类体系在吸收GCMD分类导航指标的基础上,引入了许多国家地球系统科学数据共享平台的特色资源。例如,在陆地表层领域引入典型区域综合的二级类,把我国特有的青藏高原、黄土高原、长江三角洲等典型区域纳入进来,在人文因素中细化的各类经济资源的中国特色指标,在生境转化中增加了退耕还林(草)、水土保持、湖泊围垦等中国特色的环境变化要素,在自然资源中列举了水资源、土壤、大气、生物、矿产、能源、旅游等各类自然资源。
(4)本研究提出的地球系统科学数据分类体系可以在多个方面支撑和促进地球系统科学数据共享平台的共享服务。其具体作用可以体现在以下3点,一是面向数据管理者,以分类为主线,可以更清晰地梳理出地球系统科学数据共享平台集成整合的数据资源体系,便于自上而下部署和组织数据集的生产和集成;二是面向用户,本分类中充分考虑到实际的用户服务记录,把用户需求量大的数据分类前提,便于生成更实用的前台数据展示目录,同时关键词表也丰富了用户检索数据的手段;三是面向数据集生产者,关键词表分类可为各数据集生产者填写关键词、主题词信息提供规范化的参考,同时为大数据时代下更多数据集的关联分析提供可能途径,这也正是数据分类在未来应用中的新契机。
致谢:感谢孙九林、黄鼎成、陈泮勤等对分类体系的指导。感谢高孟绪、柏中强等参与分类研讨。
The authors have declared that no competing interests exist.