面向数据共享的地球系统科学数据分类探讨
王卷乐1, 林海1,2, 冉盈盈1,3, 周玉洁1,4, 宋佳1, 杜佳1
1 中国科学院地理科学与资源研究所 资源与环境信息系统国家重点实验室 北京100101
2 国家自然科学基金委员会 北京 100085
3 天津国土资源和房屋职业学院 天津 300270
4 中国矿业大学(北京) 北京 100083

王卷乐(1976-),男,河南洛阳人,副研究员,主要从事资源环境科学数据集成与共享研究. E-mail:wangjl@igsnrr.ac.cn

摘要

地球系统科学数据共享在国际、国内都有迫切的需求。由于地球系统科学固有的学科交叉性和综合性,如何建立科学、通用的数据分类体系是困扰该领域数据共享和服务的难题。首先综合分析了国际上地球系统科学领域主要的数据分类体系,重点对美国全球变化主目录(GCMD)分类系统及其2005—2013年的演变趋势进行分析,指出当前该数据分类呈现扁平化、两极化的显著特征。在此基础上,重点梳理了国家科技基础条件平台——地球系统科学数据共享平台的用户服务记录,揭示了用户访问频次最高的数据集和检索关键词。结合GCMD系统化、结构化的分类思想和国家地球系统科学数据共享平台用户化的数据服务需求,提出扁平化的地球系统科学数据目录分类和规范化的关键词表体系2种分类模式。

关键词: 地球系统科学; 数据分类; 数据共享; 目录体系;
中图分类号:P315.69 文献标志码:P315.69;TP311.13 文章编号:1001-8166(2014)02-0265-10
A Study of Earth System Science Data Classification for Data Sharing
Wang Juanle1, Lin Hai1,2, Ran Yingying1,3, Zhou Yujie1,4, Song Jia1, Du Jia1
1.State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101,China
2. National Natural Science Foundation of China, Beijing 100085,China
3. Tianjin Land Resources and House Vocational College, Tianjin 300270, China
4. China University of Mining & Technology (Beijing), Beijing 100083, China
Abstract

There are urgent requirements for data sharing on Earth System Science in China and abroad. How to build a scientific and universal data classification system is a difficult problem faced by Earth System Science data sharing because there are inherent characteristics of interdisciplines and integration. Firstly, the main international Earth System Science data classification systems are comprehensively analyzed in the paper. Global Change Master Directory (GCMD) classification architecture and its change trend from 2005 to 2013 are studied in detail. Then two typical classification features nowadays are pointed out, which are flat classification trend and bipolarity feature,i.e., super simple classification and super comprehensive classification. Online data services records of Data Sharing Network of Earth System Science (DSNESS), National Scientific and Technological Infrastructure, were calculated. High frequency visiting data sets and key words querying records were listed. Classification idea was produced with the combination of GCMD system and structural classification and DSNESS's user requirements and data services in practice. Data catalog system and keyword system are proposed finally. Data catalog system has 14 first class types and 173 second class types. Besides traditional sphere structure classification, new classification with China features are added to the data catalog system, such as typical region, nature resources, and so on. Keyword system includes 13 first class types, 71 second class types and 686 keywords. According to the service practice of DSNESS, serials of typical keywords are added to keyword system, such as typical natural region in land surface, ecosystem in biosphere, economic resources in human factor, nature resources, and so on.

Keyword: Earth System Science; Data classification; Data sharing; Catalog system; system.
1 引 言

地球系统科学是以地球系统为研究对象,重点研究各圈层、各要素以及自然过程和人类活动之间相互作用关系的科学,是在科学技术自身发展和社会需求共同推动下发展起来的新兴学科领域。地球系统科学概念是为了解决全球性的资源环境问题和人类可持续发展的需要而提出的,这标示着地球科学走向以地球系统科学为特征的新时代,预示着地球科学的发展将表现为“微观更微、宏观更宏、交叉综合集成化”的发展态势[1]、[ 2]。地球系统科学的研究离不开强大的对地球系统各要素和各圈层的物理、化学和生物过程综合观测工作的支持[ 3]。地球系统科学研究具有明显的学科交叉和区域集成特征,不仅需要地球科学各分支学科基础数据,更需要交叉学科、多尺度、跨区域的综合集成数据。同时,地球系统科学研究需要有效的国际合作和各国科学家的协作,需要以全球性的科学研究计划来推动[ 4]

地球系统科学数据共享是协调有关地球系统科学各类国家科技计划、集成不同尺度的多源数据、促进地球系统科学集成研究的重要途径。数据分类是数据管理中必不可少的环节[ 5],国内外相关的地球系统科学数据共享机构都建有自己的分类体系。然而,这些分类体系各自独立、应用目标差异很大,缺乏一个既能适应地球系统科学用户实际需求,又能够兼顾地球系统科学数据特点的,具有较强指导意见的数据分类体系。

本文拟在对国际上地球系统科学数据共享相关分类体系进行调研分析的基础上,借鉴国际上该领域的大型数据共享机构的数据分类思想,基于国家科技基础条件平台——地球系统科学数据共享平台的服务实践,探讨建立具有我国特色、同时又能满足该平台用户需求和数据集成要求的地球系统科学数据分类体系。

2 国际地球系统科学数据分类体系分析
2.1 国际地球系统科学数据分类体系概况

联合国粮农组织(FAO)针对地球空间数据共享,建立了GeoNetwork共享网络(http://www.fao.org/geonetwork),该网络的数据分类体系包括行政边界、农业牲畜、应用生态、基础底图、生物和生态资源、气候、渔业水产、森林、人类健康、大气和水资源、基础设施、土地利用和变化、人口和社会经济指标、土壤、地形等。美国国家海洋大气局(NOAA)建立的地球物理数据中心(NGDC,http://www.ngdc.noaa.gov),建立了包括灾害、海洋、卫星、冰雪、日地空间等领域的一级和二级分类体系。美国地质调查局(USGS)建立了地球科学数据目录(http://geo-nsdi.er.usgs.gov),该目录的主要内容包大气圈和气候、地质过程、地球特征、自然灾害、地球科学、自然资源、环境问题、海洋和海岸带等。美国国家宇航局(NASA)建立了地球观测资源数据目录(http://earthobservatory.nasa.gov),该分类以地球圈层结构为主线建立了包括大气、热量、土地、生命、水、冰雪、人文过程、遥感、生物等的分类系统。美国国家官方一站式地球空间数据网站(Geospatial One-Stop,https://catalog.data.gov/dataset)没有对地球科学数据进行具体的分类,而是按照数据集类型、标签、格式、分组、组织机构等进行检索,生成基于数据视图的展示分类。国际科学联盟理事会(ICSU)世界数据系统(WDS,World Data System)创建了国际地球科学领域的数据共享门户( http://www.icsu-wds.org/services/data-portal),只提供数据检索界面,无明确的数据分类体系,其检索方式直接针对数据的存储和管理机构,例如,NOAA的NGDC、NCDC、NODC,德国的PANGAEA,中国的GEODATA等。德国布莱梅大学的PANGAEA(Data Publisher for Earth & Environmental Science,http://www.pangaea.de)集成地球系统科学海洋领域相关的共享资源,其共享门户未建立直接的数据目录,仅提供按领域检索的入口,相应的领域包括水、沉积物、冰、大气。美国国家科学基金会资助的DataONE(http://www.dataone.org/)网站按照关键词、时间、空间范围、不同数据库搜索数据,没有进行地球科学数据的具体分类。美国哥伦比亚大学的地球科学信息国际共享网络(CIESIN,http://sedac.ciesin.columbia.edu/data/sets/browse)以数据检索为目标,设计的主题分类包括农业、气候、自然保护、政府管理、灾害、健康、基础设施、土地利用、海洋和海岸带、人口、穷困、遥感、可持续发展、城镇、水等。欧盟推出的地球科学空间信息基础设施平台(INSPIRE,http://inspire-geoportal.ec.europa.eu/discovery/)提供根据数据来源、元数据语言、空间数据、专题分类、服务类型等5个大类的搜索功能,其总体上注重数据检索实效,未建立非常完整和系统的数据分类体系。

基于以上调研和分析,认为这些分类体系呈现出分类扁平化和两极化的特征。扁平化是指一些数据共享机构在尽量减少数据分类层次,避免使用户一层一层“剥洋葱”似地访问数据。两极化是指一部分数据共享机构期望建立全面、系统的分类目录,例如NOAA和NASA的一些机构,而一些数据中心则期望建立简约的、适合本数据中心的小型数据目录,例如德国的PANGAEA和DataONE等领域数据中心。从数据分类目录建立的趋势上看,以圈层结构为主线进行构建仍然是主流,例如美国NASA和USGS等的数据体系。

2.2 美国NASA全球变化主目录分类进展

除了一些直接共享数据的机构,美国NASA建立的全球变化主目录(GCMD)则是通过建立在线的地球科学数据目录为用户提供数据导航。GCMD的主要目的是为全球变化数据信息系统的用户提供关于全球变化数据和信息的详细信息,以便让用户能够快速地选定所需的有用信息。

GCMD在线目录如图1所示。其在2002年就有超过10,634条的地球科学描述信息,非常便于地球科学数据的搜索。数据目录提供方便的导航功能,避免参加机构重复性的建立许多孤立的数据目录。

图1 美国全球变化主目录(GCMD)分类系统首页Fig.1 Interface of Global Change Master Dictionary classification system

表1 美国GCMD数据类型2005年统计表 Table 1 Global Change Master Directory data type statistics in 2005

全球变化数据主目录(GCMD)依据数据涉及的学科领域和数据获取方式将数据划分为三级。其中第一级展示了其主要的数据分类思路,即以地球系统大气圈、生物圈、水圈、冰冻圈、岩石圈的圈层结构为主线,辅以用户需求较大的农业、生物、人文因子、陆地表层等领域划分,形成数据分类体系。表1列出的是GCMD在2005年的数据目录结构。

2005到2013年5月底,GCMD的数据分类系统在不断更新,其相应的数据库也在动态演替。通过实际对比(图2),一级类型数据库从2005年的30 262个增加到47 820个,增长量达17 558,增长率为58%。几乎所有的领域都有明显增长,其中增幅快的主要是大气圈(47.7%)、冰冻圈(100%)、陆地水圈(50%)、海洋(57.3%)、古气候(103%)固体地球(50.2%)等。

图2 美国GCMD一级数据库类型2005—2013年变化Fig.2 Databases change of first class of GCMD from 2005 to 2013

GCMD的数据目录变化给我们的启示有2点,一是该分类体系完整,基本能够适应地球系统科学多样化数据集成的需要;二是该分类体系稳定性较好,2005-2013年的发展过程中,数据库容量在不断增大,但数据目录体系仍然保持较好的连续性。

3 地球系统科学数据共享的用户服务特征

地球系统科学数据共享平台于2002年作为国家科学数据共享工程首批试点之一启动[ 6],其主要目标是整合、集成科研院所、高等院校和科学家个人通过科研活动所产生的研究型分散科学数据,服务于地球系统科学与全球变化等科学研究[7]、 [ 8]。2005年该平台纳入国家科技基础条件平台建设,2011年通过国家评议正式成为首批进入运行服务阶段的国家平台。

国家地球系统科学数据共享平台在近10年的数据服务历程中,提供了大量的在线数据服务。据统计,截止2013年5月下载次数在10次以上的数据有1,312条。其中,下载量在50次以上的数据有525条。表2列举了下载量排名前20的数据集目录。

表2 下载次数位居前20位的数据集名称 Table 2 Top 20 download datasets name of DSNESS

参照GCMD的导航分类做法,对国家地球系统科学数据共享平台的高频次下载数据集的检索词进行汇总分析如表3所示。

表3 高频检索主题词列表 Table 3 List of high frequency search words

由上表可见,土地利用/覆盖、基础地理、土壤、社会经济、自然资源、遥感、植被、人口、灾害、气候、降水、生态系统、水文、黄土高原、区划、环境、冰川、气温、湖泊、古环境等45个主题词具有非常高的访问频次。认识到这些用户使用的特征,将有助于我们建立适合该平台用户需求特点的数据分类体系。

4 地球系统科学数据共享目录与关键词表分类
4.1 分类模式

结合GCMD的分类思想与国家地球系统科学数据共享平台的用户服务特征,可以更有效地构建既满足用户需求又兼顾地球系统科学数据体系的分类模式。地球系统科学数据分类体系可采取2种模式,一为数据分类目录模式,二为便于数据检索的关键词表分类模式。

数据分类目录模式主要满足数据管理和门户展示的需要,为用户呈现完整的、可管理的数据目录体系。其要遵循以下几个基本原则:①结合国际上当前的扁平化趋势,尽量减少数据分类层级;②参照GCMD的圈层分类思想,总体体现地球系统科学的圈层结构特征;③根据国家地球系统科学数据共享平台用户服务的实际需求,适当提高陆地表层和人地关系等数据密集和用户需求强烈领域的分类等级。

数据关键词表分类主要是为便于平台内数据快速检索、导航而建立的规范的关键词分类词表。具体用途包括2个方面,一方面便于数据在集成过程中,数据生产者可根据这一分类词表在元数据和数据文档中规范化地著录关键词和主题词;另一方面又适合于建立机器可读的关键词表,便于用户检索时的快速导航和数据库关联分析。

4.2 目录分类

基于以上分析,初步建立的地球系统科学数据目录分类体系如表4所示。该分类目录包括14个一级类和173个二级类。二级类下不设三级类,可直接访问数据。一级分类中除了保留圈层结构的特点外,增加了典型区域、自然资源等中国特色的分类类型。其中典型区域所列的既是在世界和我国都极具重要地位的自然地理单元,同时也是国家地球系统科学数据共享平台的区域分中心[ 9]

表4 地球系统科学数据目录分类 Table 4 Data catalog classification system of Earth System Science
4.3 关键词表分类

地球系统科学数据关键词表分类如表5所示。该关键词表共包括13个一级类,71个二级类,以及686个关键词。根据国家地球系统科学数据共享平台的用户服务实践,在关键词表中增加了陆地表层(典型区域)、生物圈(生态系统)、人文因素(经济资源)、自然资源等特色数据资源关键词表。

表5 地球系统科学数据关键词表分类 Table 5 Key words classification of Earth System Science
5 讨论与结论

本文针对地球系统科学数据共享缺少一致性的数据分类问题,综合分析国际上主要的分类体系,重点对全球变化主目录(GCMD)分类系统及其2005—2013年的演变趋势进行分析,得到分类启示。在此基础上,重点梳理了国家地球系统科学数据共享平台的用户服务记录,汇总了常用的高频数据集和关键词需求。结合GCMD系统化、结构化的分类思想和国家地球系统科学数据共享平台用户化的数据实际需求,提出扁平化的地球系统科学数据分类目录体系和规范化的关键词表体系2种模式,初步形成以下认识。

(1)数据分类扁平化是地球系统科学数据分类的总体趋势。长期以来数据分类遵循面分类和线分类的传统方法,要求分类体系有严格的层级、门类关系,这给一些新兴交叉学科的数据分类带来困难。分类扁平化则强调减少由分类到数据的层级,分类要更贴近数据的真实集聚状态,避免“空架子、无内容”的分类体系。

(2)以圈层结构为核心,兼顾领域应用需求的分类体系符合地球系统科学数据分类的要求。本研究中建立的数据目录分类保留了传统的大气圈、生物圈、水圈、冰冻圈、岩石圈等圈层结构,同时根据数据资源的实际需求,在目录分类中增加了自然资源、极地、天文、遥感数据源等实际数据资源类别。

(3)面向用户检索和数据关联分析的数据关键词表分类体系在吸收GCMD分类导航指标的基础上,引入了许多国家地球系统科学数据共享平台的特色资源。例如,在陆地表层领域引入典型区域综合的二级类,把我国特有的青藏高原、黄土高原、长江三角洲等典型区域纳入进来,在人文因素中细化的各类经济资源的中国特色指标,在生境转化中增加了退耕还林(草)、水土保持、湖泊围垦等中国特色的环境变化要素,在自然资源中列举了水资源、土壤、大气、生物、矿产、能源、旅游等各类自然资源。

(4)本研究提出的地球系统科学数据分类体系可以在多个方面支撑和促进地球系统科学数据共享平台的共享服务。其具体作用可以体现在以下3点,一是面向数据管理者,以分类为主线,可以更清晰地梳理出地球系统科学数据共享平台集成整合的数据资源体系,便于自上而下部署和组织数据集的生产和集成;二是面向用户,本分类中充分考虑到实际的用户服务记录,把用户需求量大的数据分类前提,便于生成更实用的前台数据展示目录,同时关键词表也丰富了用户检索数据的手段;三是面向数据集生产者,关键词表分类可为各数据集生产者填写关键词、主题词信息提供规范化的参考,同时为大数据时代下更多数据集的关联分析提供可能途径,这也正是数据分类在未来应用中的新契机。

致谢:感谢孙九林、黄鼎成、陈泮勤等对分类体系的指导。感谢高孟绪、柏中强等参与分类研讨。

The authors have declared that no competing interests exist.

参考文献
[1] Earth Science Development Strategy Research Group, Earth Sciences Division of Chinese Academy of Sciences. Earth Sciences Strategy Development Report of China in 21st Century[R]. Beijing: Science Press, 2009.
[中国科学院地学部地球科学发展战略研究组. 21世纪中国地球科学发展战略报告[R]. 北京: 科学出版社, 2009. ] [本文引用:1]
[2] Liu Dongsheng. Step into Earth System Science: Rudiment Earth System Science and our opportunities[J]. Bulletin of National Natural Science Foundation of China, 2006, (5): 266-272.
[刘东生. 走向“地球系统”的科学: 地球系统科学的学科雏形及我们的机遇[J]. 中国科学基金, 2006, (5): 266-272. ] [本文引用:1] [CJCR: 0.6914]
[3] Huang Dingcheng, Lin Hai, Zhang Zhiqiang. International Earth System Science Development Strategy Analysis and Discussion on the Earth System Science Innovation Environment of China[M]. Beijing: Meteorology Press, 2005.
[黄鼎成, 林海, 张志强. 国际地球系统科学发展战略分析——兼论中国地球系统科学发展的创新环境[M]. 北京: 气象出版社, 2005. ] [本文引用:1]
[4] Fu Bojie, Niu Dong, Yu Guirui. The roles of ecosystem observation and research network in Earth System Science[J]. Progress in Geography, 2007, 26(1): 1-16.
[傅伯杰, 牛栋, 于贵瑞. 生态系统观测研究网络在地球系统科学中的作用[J]. 地理科学进展, 2007, 26(1): 1-16. ] [本文引用:1] [CJCR: 1.959]
[5] Liao Shunbao, Jiang Lin. Study on classification system of data for Earth System Science[J]. Progress in Geography, 2005, 24(6): 93-98.
[廖顺宝, 蒋林. 地球系统科学数据分类体系研究[J]. 地理科学进展, 2005, 24(6): 93-98. ] [本文引用:1] [CJCR: 1.959]
[6] Xu Guanhua. Implement scientific data sharing for strengthening the national science & technology competitive power[J]. Chinese Basic Science, 2003, (1): 5-9.
[徐冠华. 实施科学数据共享, 增强科技竞争力[J]. 中国基础科学, 2003, (1): 5-9. ] [本文引用:1]
[7] Sun Jiulin, Shi Huizhong. Construction of Earth System Science data sharing network of China[J]. Chinese Basic Science, 2003, (1): 76-82.
[孙九林, 施慧中. 中国地球系统科学数据共享服务网的构建[J]. 中国基础科学, 2003, (1): 76-82. ] [本文引用:1]
[8] Sun Jiulin, Wang Juanle. Discover disperse scientific data resources sharing approach[M]∥Wang Xiaofang, Zhao Lu, eds. Integration Sharing Innovation—National Science and Technology Infrastructure Construction Review and Prospect. Beijing: Chinese Science and Technology Press, 2009.
[孙九林, 王卷乐. 探索分散科学数据资源共享之路[M]∥王晓方, 赵路, 著. 整合共享创新——国家科技基础条件平台建设回顾与展望. 北京: 中国科学技术出版社, 2009. ] [本文引用:1]
[9] Wang Juanle, Sun Jiulin, Zhu Yunqiang, et al. A study on the organizational architecture and stand ard system of the data sharing network of Earth System Science in China[J]. Data Science Journal, 2013, (12): 91-101. [本文引用:1]