地球科学进展, 2020, 35(8): 839-847 DOI: 10.11867/j.issn.1001-8166.2020.070

科学数据?

科学数据汇聚的模式分析及对我国的发展建议

王卷乐,1,4, 石蕾2, 王玉洁1, 高孟绪2, 徐波2, 王超2, 王明明1, 王艳杰1,3, 周业智1,3

1.中国科学院地理科学与资源研究所 资源与环境信息系统国家重点实验室,北京 100101

2.国家 科技基础条件平台中心,北京 100862

3.中国矿业大学(北京) 地球科学与测绘工程学院,北京 100083

4.江苏省地理信息资源开发与利用协同创新中心,江苏 南京 210023

Analysis of the Modes of Aggregation of Scientific Data and Proposals for its Development in China

Wang Juanle,1,4, Shi Lei2, Wang Yujie1, Gao Mengxu2, Xu Bo2, Wang Chao2, Wang Mingming1, Wang Yanjie1,3, Zhou Yezhi1,3

1.State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China

2.National Science and Technology Infrastructure Center, Beijing 100862, China

3.College of Geoscience and Surveying Engineering, China University of Mining & Technology, Beijing 100083, China

4.Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China

收稿日期: 2020-05-11   修回日期: 2020-07-06   网络出版日期: 2020-09-15

基金资助: 中国科学院战略性先导科技专项(A类).  XDA19040501
国家科技基础条件平台专项课题“科学数据汇聚的模式与方法研究”.  2017DDJ1ZZ15

Received: 2020-05-11   Revised: 2020-07-06   Online: 2020-09-15

作者简介 About authors

王卷乐(1976-),男,河南洛阳人,研究员,主要从事科学数据共享、地理信息系统与遥感应用研究.E-mail:wangjl@igsnrr.ac.cn

WangJuanle(1976-),male,LuoyangCity,He’nanProvince,Professor.Researchareasincludescientificdatasharing,geographicinformationsystemsandremotesensingapplications.E-mail:wangjl@igsnrr.ac.cn

摘要

科学数据的汇聚是抢占科学数据这一战略资源上游和竞争高地的重要手段。把握科学数据汇聚模式的国际态势和科学规律,探索适合我国国情的科学数据汇聚模式和方法是当前急需解决的问题。从国际组织、国际科学计划、政府机构和专业数据中心等方面调研分析国内外科学数据汇聚现状,梳理归纳出科学数据汇聚的5种模式,包括科研项目集中向指定数据中心/仓储汇聚模式、科研项目分散向数据中心/仓储汇聚模式、科学家个人以论文出版方式向数据中心/仓储汇聚模式、科研项目/科学家个人向数据共享目录/网络汇聚模式、大数据计算/处理平台和公民科学开放汇聚模式,并对各模式和相应典型案例进行剖析。在此基础上,提出我国科学数据汇聚在科学数据管理办法落实、数据汇聚中心认证、期刊论文数据汇聚、数据汇聚网络构建、国际资源汇聚和数据汇聚全链条建设等6个方面的发展建议。

关键词: 科学数据汇聚 ; 模式分析 ; 数据中心建设 ; 数据共享

Abstract

Scientific data are strategic resources, and the aggregation of scientific data is an important method to seize the upstream and competitive highlands of scientific data. Notably, it is challenging to grasp the international situation and the scientific laws concerning the mode of scientific data aggregation; exploring the modes and methods of scientific data aggregation that are suitable for China's national conditions is also difficult. This paper investigated and analyzed the modes of scientific data aggregation both at home and abroad from the viewpoints of international organizations, international scientific programs, government agencies, and professional data centers. Five modes of scientific data aggregation were summarized, including scientific research projects converging to designated data centers/repositories, scientific research projects dispersing to data centers/repositories, individual scientists submitting datasets to data centers/repositories with published papers, scientific research projects/individual scientists sharing directories/networks, big data computing/processing platform, and citizen science models of open and public convergence. This paper analyzed each mode and the corresponding cases. On this basis, the paper put forward six suggestions for the reasonable aggregation of scientific data in China, including the implementation of the “Measurement of Scientific Data Management”, certification of data aggregation centers, scientific data collection and publishing in journals, construction of data aggregation networks, aggregation of international resources, and construction of the whole data aggregation chain.

Keywords: Scientific data aggregation ; Mode analysis ; Data center construction ; Data sharing

PDF (1329KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

王卷乐, 石蕾, 王玉洁, 高孟绪, 徐波, 王超, 王明明, 王艳杰, 周业智. 科学数据汇聚的模式分析及对我国的发展建议. 地球科学进展[J], 2020, 35(8): 839-847 DOI:10.11867/j.issn.1001-8166.2020.070

Wang Juanle, Shi Lei, Wang Yujie, Gao Mengxu, Xu Bo, Wang Chao, Wang Mingming, Wang Yanjie, Zhou Yezhi. Analysis of the Modes of Aggregation of Scientific Data and Proposals for its Development in China. Advances in Earth Science[J], 2020, 35(8): 839-847 DOI:10.11867/j.issn.1001-8166.2020.070

1 引 言

科学数据是“数据—信息—知识—智慧”这一创新价值链的基础,是最基本的科技创新资源。随着“大数据”理念的普及、数据驱动科学研究“第四范式”的兴起,世界各国都将科学数据视为一个国家重要的战略性资源和科技实力竞争的重要资本,科学数据的汇聚则是抢占这一战略资源上游和高地的全球竞争领域。科学数据汇聚是一个系统的数据资源积聚过程,涉及数据资源产生、流动、分发、增值等演变过程,科学分析和认识数据汇聚模式是解决国家投资科学数据资源、学科领域科学数据资源、公民科学众源科学数据资源等多种数据资源汇聚的必经途径。

欧美发达国家早在20世纪90年代就开始制定了国家资助产生的科学数据汇聚政策,陆续开展了实质性的科技计划项目数据归档,并在近年来呈现深入和推广的趋势。美国国家科学基金会(National Science Foundation, NSF)、美国国家航空航天局(National Aeronautics and Space Administration, NASA)等科技计划项目管理机构都制定了明确的数据归档政策,要求所有项目计划提交数据之前都要提供一份完整的数据管理计划(Data Management Plan, DMP)。美国大气与海洋管理局(National Oceanic and Atmospheric Administration, NOAA)环境数据管理委员会(Environmental Data Management Committee, EDMC)于2011年发布了“数据管理计划程序指令”,并根据NOAA观测系统委员会(NOAA Observing Systems Council, NOSC)的建议于2015年2月发布V 2.0.1版本[1],要求使用基于国际标准化组织(International Organization for Standardization,ISO)19115和19139标准的结构化元数据来规范描述环境数据。学术期刊组织较早关注并实施了实质性的论文数据汇聚政策和举措。例如,在生物进化领域的学术刊物群体于2009年提出联合数据发布政策(Joint Data Archiving Policy, JDAP)。随着该政策的发布和应用,其获得了诸多主流期刊的认可,ScienceThe American NaturalistHeredityMolecular EcologyThe Journal of Evolutionary Biology等重要期刊均已采用[2,3]。许多国际数据组织都制定了数据汇聚或发布的政策。例如,国际科学理事会(International Science Council, ISC)世界数据系统(Word Data System, WDS)采用“数据共享原则”推进其“开放科学”的目标,该数据共享原则符合国际相应数据政策,并针对全球重大科技计划组织开展数据汇交和共享服务[4]。美国地球物理协会(American Geophysical Union, AGU)于1993年发布了该组织的第一个数据归档政策[5],并于2019年开启了AGU旗下期刊数据存储计划,要求AGU旗下学术期刊,在发表论文的同时也将该论文关联的原创数据公开出版,强调论文作者必须在论文发表前将论文的原创数据存储于AGU认定的221个数据仓储中心[6]

中国科学技术部(以下简称科技部)于2001年启动“科学数据共享工程”项目,2006年建立国家科技基础条件平台,极大地推动了科学数据汇聚和开放共享的试点、政策、标准和基础设施建设。例如,具有多学科交叉领域数据汇聚特点的国家地球系统科学数据共享平台提出过付费整合、先服务后集成、建立地球系统科学数据联盟等方法模式[7]。科技部于2008年在原国家重点基础研究发展计划(973计划)资源环境领域开展数据共享试点[8],2011年和2012年着力推动了人口健康领域和农业领域科技资源汇交汇交工作[9],2013年启动了科技基础性工作专项项目数据汇交与规范化整编工作[10],2019年《科技计划形成的科学数据汇交技术与管理规范》等相关国家标准完成。国家自然科学基金委员会于2005年启动中国西部环境与生态科学数据中心建设,推动“西部项目”科学数据汇交试点建设[11]。然而,总体而言我国仍然缺少系统的数据汇聚模式和方法支撑,影响我国科学数据资源自身建设和参与全球竞争,甚至还导致我国许多科学数据资源汇聚到国外,造成资源流失。

针对上述现状,本文从国际组织、国际科学计划、国家机构和数据中心、科技计划项目汇交、科学数据出版和网络开源数据汇聚等方面分析国内外科学数据汇聚模式,归纳总结规律性的科学数据汇聚模式,提出我国科学数据合理汇聚的模式和方法建议。

2 科学数据汇聚的模式分析

科研项目是科学数据产出的主体,科研基础设施是科学数据产生的工具和手段,数据中心、数据仓储、共享网络、大数据计算(处理)平台是数据汇聚的归口。在这个数据产生和归口的过程中,形成了5种汇聚模式(图1)。具体包括:模式一,科研项目集中向指定数据中心/仓储汇聚模式;模式二,科研项目分散选择数据中心/仓储汇聚模式;模式三,科学家个人以论文出版方式向数据中心/仓储汇聚模式;模式四,科研项目/科学家个人向数据共享目录/网络汇聚模式;模式五,大数据计算/处理平台和公民科学开放汇聚模式。

图1

图1   科学数据汇聚模式分类

Fig.1   Classification of scientific data aggregation mode


2.1 科研项目集中向指定数据中心/仓储汇聚模式

2.1.1 模式解析

集中数据中心/存储模式是指科学数据由科研项目指定性汇聚在某个数据中心或数据存储。这一行为通常与政策性或制度性的要求有关。该模式的特点:政策约束。通常有国家法令或者行业领域政策,要求将国家投资产生的某一方面的科学数据在规定时间内,汇聚到指定的机构。计划先行。这一类数据汇聚的计划性很强,因此国际上要求数据汇交的计划要先于项目执行制定,并且规范了数据管理计划的格式和内容要求。标准支持。在科技计划项目数据汇交的内容和格式要求上,国际上发布了相关约束规则文件。国内在科技计划项目数据汇交上也重视并制定相应的标准规范。持续积累。指定性的科学数据中心汇聚具有数据资源持续积累和共享的优势,这使得科学数据能够稳定而持续地汇聚,而不易形成碎片化的数据孤岛,但同时对数据中心的整合、存储、处理、服务能力提出更高要求。如果不具备数据的处理能力,则这些数据会越堆越乱、积重难返,难以对数据进行发现和利用。同时,由于项目资助方要求尽可能将数据提交到指定的数据中心,这也从一方面限制了研究者提交数据时选择的自主性。

2.1.2 典型案例

美国国立卫生研究院(National Institutes of Health, NIH)是倡导项目数据共享并开展早期实践的组织之一,要求在项目申请时应根据数据共享政策的要求制定《数据共享计划》[12],并于2015年制定了《National Institutes of Health Plan for Increasing Access to Scientific Publications and Digital Scientific Data from NIH Funded Scientific Research》。NIH各研究项目向其指定的现有科学数据中心存储数据。如基因组数据共享(Genomic Data Sharing, GDS)政策规定所有有关人类基因组数据的研究都应在基因型和表型数据库(The Database of Genotypes and Phenotypes, dbGaP)中注册,并将数据提交给NIH指定的数据存储库。为帮助不同领域研究人员找到合适的数据库来接受他们的数据,NIH不断扩大可提供存储的数据库列表(https://www.nlm.nih.gov/NIHbmic/nih_data_sharing_repositories.html)。截止2020年5月,列表中共有包含dbGaP、PDB和GenBank等在内的97个数据中心。

2.2 科研项目分散选择数据中心/仓储汇聚模式

2.2.1 模式解析

科研项目所产生的数据在更多情况下可以向多个相近或交叉领域的数据中心或仓储中心进行汇聚。这种情况下相关资金资助方并不强行或特定指定一个数据中心集中汇交,而是给出一个汇聚指导策略。该模式的特点:布局可控。分散数据存储是在有限学科领域内,相近但不重复的一批科学数据中心的分布式存储架构,允许有本领域的顶层设计,相关数据中心之间可以有业务分工或者逻辑连通。竞争择优。同类数据中心之间允许一定的学科领域交叉甚至重复,这使得科研项目或者科学家个人在提交数据时,可以择优选择相近领域,通过竞争提高数据中心汇聚的质量。数据中心之间也可以通过绩效评估来进行优胜劣汰,提高总体运营成效。机制透明。数据中心群体形成一个科学共同体后,就会稳定地形成相应的管理机制,同样良好的数据中心管理机制可以催生和可持续发展各类相关的数据中心。认证严格。要保证一个科学数据中心共同体的良好、健康发展,需要有严格的质量约束。国际上已经有CoreTrustSeal认证等做法,在对数据中心的准入和更新进行审定[13]。但由于科研数据归档位置分散也使得数据共享难度增加,同时对各数据存储机构间的协调和互联互通提出了更高的要求。

2.2.2 典型案例

NASA的数据共享政策是由日本、欧洲和美国国际地球观测系统(Earth Observing System, EOS)的参与者在20世纪90年代和21世纪初共同制定的。该政策规定NASA所有地球科学任务、项目以及资助和合作协议都应通过数据管理计划书来落实NASA的数据共享原则。NASA的数据管理办法规定DMP应该描述通过研究生产的数据是否或怎样共享和存储(包括时间表)。NASA的地球观测系统数据和信息系统(EOSDIS,https://earthdata.nasa.gov/)是NASA地球科学数据系统的核心,也是其科学数据汇聚的重要分布式基础设施。该系统自1994年起就提供了端到端的功能来管理从EOS卫星仪器和其他NASA数据测量系统获得的地球科学数据[14]。EOSDIS被设计成分布式系统,由分布在美国各地的分布式活动存档中心(Distributed Active Archive Centers, DAACs)的主要设施构成。通过NASA下属的12个科学数据存档中心,对NASA地球观测卫星和现场测量程序观测的数据进行处理、归档、记录和分发,进而实现数据共享。这些分布式的数据汇聚基础设施具体包括:阿拉斯加卫星设施、大气科学数据中心、地壳动力学数据信息系统、全球水文资源中心、戈达德地球科学数据和信息服务中心、土地处理分布式活动存档中心、一级与大气档案和分配系统、国家冰雪数据中心、橡树岭国家实验室、海洋生物学分布式活动存档中心、物理海洋学分布式活动存档中心、社会经济数据和应用数据中心。NASA下属的12个科学数据存档中心分工清晰,具有业务衔接关系,且不重复,分别负责制作EOS观测得到的各类各级数据产品,并进行存档管理,为不同领域的用户提供特色数据产品、数据信息和数据使用工具等方面的服务[15,16]

2.3 科学家个人以论文出版方式向数据中心/仓储汇聚模式

2.3.1 模式解析

科学家个人的数据汇聚方式通常具有自主性,但在发表数据或者论文时则受某些期刊的约束性汇聚要求。本模式专指当受某些出版条件限制时,科学家个人需要集中向某数据中心/仓储进行数据汇聚。该模式包括两种形式:学术期刊论文数据汇聚。学术论文投稿和评审过程中,为了保证学术论文的数据能够被重用或验证,一些传统的学术期刊强制要求作者将论文中的数据存储在开放获取的数据仓储(数据中心)。作者可以从期刊指定的多个仓储列表中选择与本研究最为接近的领域。此类模式的特点是能够把学术期刊和专业数据中心的优势结合起来[17]数据论文出版。这是针对数据发布需求创建的专门刊登数据论文的数据期刊。该类期刊不把数据作为传统学术论文的支撑或辅助信息,而是作为直接对象进行管理。这丰富和补充了科学数据归档的方式,尤其是实现了那些未能直接支撑学术论文产出的科学数据长期保存和共享。需要说明的是数据论文与传统学术论文有较大的区别。前者重在从数据的产生背景、获得方法和实验方法、应用场景、使用方法和补充说明等方面描述数据[18],目的是数据的共享、引用与重用;后者重在通过数据佐证论文的观点与结论,不强调科学数据的规范性、完整性和可共享性。综合以上情况,此类数据汇聚模式的特点为:自主提交。学术期刊论文和数据论文对于所有的投稿作者是开放的,允许科学家个人或者科研团队通过这种形式发表自己成果并同时汇聚数据。流程清晰。无论是学术期刊还是数据期刊,都按出版要求进行严格的过程管理。从论文投稿、审查修改、发表或退稿等各个环节均有相应制度规范和行内操守的约束,具有清晰的、各方认同的汇聚流程。同行评议。论文评审过程中的同行评议是其质量保证的根本。这两类期刊数据发布均有严格的同行评议过程,能够有效保证数据质量。值得一提的是,除了传统的盲审模式,当前一些学术期刊和数据期刊还尝试采用开放讨论区发布论文(预印本)或数据的新模式,扩大评议范围。绩效激励。经此过程汇聚的科学数据具有科学数据标识,便于知识产权界定,允许数据的规范化引用。进而可以通过数据引用来对成果进行评价,对作者产生正向的绩效激励。也正因为如此,一些影响因子高的学术期刊和数据期刊往往受到学者们的青睐而踊跃投稿。

2.3.2 典型案例

(1)《地球物理学研究杂志》(Journal of Geophysical Research, JGR)是美国地球物理协会(American Geophysical Union,AGU)主办的旗舰期刊,创刊于1896年,覆盖大气、生物地球科学、地球表面、海洋、行星、固体地球、空间物理等7个领域。JGR是目前国际地球物理学界论文质量最高、覆盖领域最广、发行数量最多的国际顶尖学术期刊之一。为了最大限度地提高存储数据的互操作性和可重用,AGU建议作者在向其旗下期刊投稿时,将论文数据存储在本学科领域对应的存储库。如Journal of Geophysical Research: Solid Earth推荐将地球和环境数据、地球化学数据、地震数据分别存储在PANGAEA、EarthChem Library、IRIS Data Management System存储库中[19]。AGU建议作者尽早与存储库合作,尽可能将研究所用的原始数据和过程数据,甚至相关的软件代码等也一并保存。为了进一步明晰这一政策,AGU声明自2019年8月1日起遵循通用的“Enabling FAIR data Project”准则。凡在AGU期刊上发布的论文,要求作者必须将支持论文中的研究和可视化效果的数据存放在支持FAIR原则的受信任存储库中,并在论文中给出引用这些数据的访问信息[20,21]

(2)《地球系统科学数据》(Earth System Science Data,ESSD)是一本国际性、跨学科的期刊,旨在发表关于原始研究数据(集)的文章,进一步重用有益于地球系统科学的高质量数据。该期刊于2008年起出版地球系统科学数据,以维护科学数据资源的可信度,同时通过数据论文的文献计量学探索,极力提升数据论文作者的学术影响力[22]。ESSD由哥白尼出版社(Copernicus Publications)出版。该刊的影响因子,2018年达到了10.95,成为数据期刊类中的翘楚。ESSD要求稿件在ESSD及其科学讨论论坛“地球系统科学数据讨论”中发布前,稿件中引用的数据集必须提交到经认证的数据中心/存储库中,目前ESSD已与地球与环境科学数据出版信息系统(PANGAEA, Data Publisher for Earth & Environmental Science)等多个数据中心合作完成数据存储。PANGAEA是ISC-WDS的正式成员,拥有自己的数据仓储[23]。PANGAEA接受地球科学和生命科学的所有数据,对数据格式没有特殊的要求。

2.4 科研项目/科学家个人向数据共享目录/网络汇聚模式

2.4.1 模式解析

多个单一的或者相近领域的数据中心、仓储可以形成一个更具国际影响力的网络,或者在相关国际合作和政府协议下形成某种汇聚网络。这些网络不受制于数据实体约束,允许数据实体汇聚和数据目录汇聚。该模式的特点:自主存储。允许科研群体自建数据库,只提交数据目录的方式形成数据发布。分类积聚。数据目录汇聚对目录的分类分级要求严格,通常有其科学的分类编目体系。标准统一。相近学科领域的数据如果放在同一目录下,其数据格式标准要有严格的统一。广泛联盟。开放数据目录的共享方式的最大优点就是广泛促进不同数据中心或科研共同体的联盟,促进相近学科领域的数据发现和共享。但是这一模式要求各数据存储方自身负责数据质量,可能会存在数据质量参差不齐的情况。

2.4.2 典型案例

全球变化主目录(Global Change Master Directory, GCMD,现更名为International Directory Network,https://idn.ceos.org/)是一种开放数据目录汇聚的方式,是NASA于1990年开始资助的一种汇聚全球变化数据集目录的有效方式,通过建立在线的地球科学数据目录为用户提供数据导航。GCMD的主要目的是为全球变化数据信息系统的用户提供关于全球变化数据和信息的详细信息,以便让用户能够快速地选定所需的有用信息。GCMD依据数据涉及的学科领域和数据获取方式将数据划分为3级。其中第一级展示了其主要的数据分类思路,即以地球系统大气圈、生物圈、水圈、冰冻圈和岩石圈的圈层结构为主线,辅以用户需求较大的农业、生物、人文因子、陆地表层等领域划分,形成数据分类体系[24]。GCMD在线目录在2020年初就有超过34 000条的地球科学描述信息,拥有农业、大气、生物分类、水文、地表、数据分析及可视化等26种数据目录。GCMD维护和建立了一组分层的受控地球科学词汇的层次结构集——关键词,这在标准上有助于确保以一致和全面的方式描述地球科学数据、服务和变量,并允许精确搜索。

2.5 大数据计算/处理平台和公民科学开放汇聚模式

2.5.1 模式解析

大数据计算/处理平台和公民科学开放汇聚模式是在公民科学的大数据时代下,快速发展起来的一种公众多元参与的社会化的数据汇聚模式,更多是和应用联系在一起。该模式的特点:应用导向。大数据计算/处理平台和公民科学的汇聚平台是面向应用的,而非直接面向共享。人人为主。在这一模式下,通常数据以千万的个人成为科学数据贡献的主体。质量参差。大数据平台的信息获取重视海量和快捷,对数据质量的准入和控制普遍不严格,使得大量科学数据汇聚的过程中个体数据的质量不能得以保证。群智创新。大数据汇聚模式的一个突出特点是可以允许任何人贡献数据,允许任何人提供不同方式的特色资源,这就为相互借鉴、启发带来创新环境,促进信息的交换、共享和利用。

2.5.2 典型案例

谷歌地球引擎(Google Earth Engine, GEE)是一个基于云的平台[25],用于大尺度的地理空间分析。它利用谷歌的海量影像资源和巨大计算能力,允许公众研究和评估各种地球系统和人类可持续发展问题,包括森林砍伐、干旱、灾害、疾病、粮食安全、水资源管理、气候监测和环境保护等。它是一个集成平台,不仅为传统的遥感科学家提供支持,而且为缺乏超级计算机、大规模云计算等资源和技术能力的、更广泛的受众提供支持。从本质上来讲,GEE云平台包括三大部分:前端、后台以及前端后台的交互。前端为Python桌面客户端或JavaScript网页客户端。后台数据库存储已有数据集以及用户上传数据。前端与后台的交互即使用客户端函数库通过Web REST APIs(本质为HTTP请求)。这些请求由前端服务器处理成一系列子查询请求并传给主服务器,然后主服务器将请求分配给子服务器计算,如果请求计算量较小,服务器则进行动态计算,如果请求计算量较大,则进行批处理;计算完成后将结果传给前端经过解析后进行显示。

GEE云平台公共数据目录中,大部分是地球观测遥感影像数据,包括全部的Landsat影像数据、Sentinel影像数据;此外还包括天气预报数据、土地覆盖和诸多其他的环境、地球物理以及社会经济数据集等;并且每天都有新的影像数据不断更新补充到GEE云平台数据目录中。用户在使用GEE平台的同时,也可以申请向GEE公共数据目录中添加新的数据,或者上传自己的私有数据,根据需要选择是否共享等。

3 科学数据汇聚的政策建议

我国开展科学数据汇聚已有一定实践。例如,国家地质调查资料(档案)汇交工作,自建国以来即制定国务院条例予以立法执行,属于强制向某一指定数据中心汇聚模式。科技部在持续推动国家科技基础资源调查专项项目数据汇交的基础上[10],于2019年国家整合形成20个国家科学数据中心后[26],制定了国家科技计划项目数据汇交工作方案,推动各类国家重点研发计划项目向现有国家数据中心对应汇聚。在数据出版方面,国内相继建立了《中国科学数据》、《全球变化数据出版系统》、Big Earth Data等数据期刊,快速推动国内数据出版。国家科技基础条件平台建立了中国科技资源共享网,把各国家科学数据中心的数据目录形成门户汇聚。原中国科学院资源环境科学信息中心(现为中国科学院西北生态环境资源研究院)长期维护建立地学领域的科学数据链接目录等。在大数据处理和公民科学开放汇聚方面,我秀中国、遥感集市等公众交互平台得到应用发展。但总体来看,我国的科学数据汇聚在学科领域的进展和影响力还远远落后于发达家,在数据汇聚和利用效益方面还有很大提升空间。结合本文分析,提出以下发展建议。

(1)加强科学数据管理办法中数据汇聚的策略落实。尽管我国已经制定了《科学数据管理办法》,但其在行业、部门、领域的辐射力度有限,对上需要有法律层面的制度保障,对下需要有更具实施操作性的配套细则。建议从国家和地方两个统筹视角推进办法的落实。以科技部统筹的科研项目为切入口,尽快建立科学数据汇交的技术标准,促进科技计划项目数据的汇交管理,并形成更多示范,促进国家数据中心建设。跟踪和指导各地方建立自身科学数据管理的细则和实施方案,结合不同区域、领域示范,促进地方科学数据办法的落实和数据汇聚,提高区域数据集成和应用能力。

(2)开展科学数据汇聚中心的识别和认证,形成我国可信任的科学数据中心布局。WDS所采用的Data Seal Approval(DSA)的分层认证、逐步完善的认证流程对我国建立自主科学数据仓储认证机制有重要借鉴意义[27]。借助DSA认证经验,探索适合我国可信赖科学数据仓储建设发展的标准,一方面便于推动和提升我国数据仓储的建设发展;另一方面也使我国有更多的机会在国际相关领域发声和交流,促进我国科学数据管理的国际化与影响力。评价的核心指标包括数据保存、数据访问许可、数据连续使用计划、数据使用法律和伦理、专业分工、专家和用户监督、数据标准、数据归档和存储、数据规划、数据质量评价、数据发现、数据重用、数据软硬件环境、技术基础设施等。

(3)加强我国学术期刊和数据论文仓储建设,提升论文数据出版影响力。在众多的科学数据汇聚模式中,期刊论文的汇聚模式具有同行评议的质量控制要求、严格有序的流程管理举措,以及有效的数据(论文)引用评价机制,因此能够吸引科学家和科研团队积极提交和汇聚科学数据资源。应用好这个模式的根本就是建立高质量的期刊数据仓储,然而当前这一领域的优势数据仓储还是以国外为主。结合我国学术期刊和数据期刊发展的国情,应加强数据仓储与期刊的紧密合作,产生1+1大于2的成效,在数据汇聚的过程中,同步提升数据仓储和期刊的影响力,形成正向互馈。

(4)以科学数据目录方式促进科学数据快速汇聚网络建设。科学数据目录汇聚是一种快捷的科学数据汇聚方式。针对当前我国诸多现有科学数据开放度不足的现状,如果把加强科学数据目录快速发布与数据实体出版相结合,将极大地提高现有科学数据平台的发布能力和影响力,快速打开科学数据开放共享的新局面。具体建议就是加强国家科技平台标识标准的宣贯,并与当前国家数据平台发布数据相衔接。加强该标识系统与科学数据出版系统的技术关联,推动高质量平台数据发布向数据出版的转变,提高平台科学数据出版的效率和数据汇聚的吸引力。

(5)提高国内科学数据中心的国际化水平和能力,加强国际资源的国内汇聚。我国在科学数据上总体取得了重大进展,但是与国外发达国家相比,我国科学数据在国际化建设方面差距显著。针对科学数据产权问题,对数据业者的科学数据知识产权作出界定和原则性规定,做好与知识产权法律制度的衔接,合理保护数据业者的科学数据资源权益。针对物理安全,应加强对科学数据采集、传输、存储、处理、使用、销毁等生命周期全过程的安全防护,构建大数据全生命周期运行保障体系。通过国内、国际交流和合作,夯实我国科学数据的自身基础,充分、合理引进我们急需国际科学数据资源,为更多领域的全球和区域性合作提供可持续的科学数据支撑。

(6)加强科学数据汇聚的全链条建设,促进科学数据汇聚的开放共享效益。面向科学数据的汇交、管理与共享服务一体化建设,各科学数据中心要以科学数据重用为出口,积极面向用户提供科学数据服务,注重在用户群体中的声誉,提高自身在用户群体中的粘着性,进而提高科学数据中心汇聚资源的影响力。建议利用信息技术对科学数据管理和开放服务的效益进行量化和引用统计,客观上促进优质科学数据资源的社会推广和科学界评价。除了引用率,领域科学数据共享的绩效评价中的用户贡献亦可加强。

参考文献

NOAA Data Management Planning Procedural Directive[EB/OL]. (2015-02-11)[2020-07-05]. .

[本文引用: 1]

Wang Juanle, Zhu Junxiang, Yang Yaping, et al.

Edifying by data archiving policy of international science and technology research program to China

[J]. China Science & Technology Resources Review, 2013, 45(2):17-23.

[本文引用: 1]

王卷乐, 祝俊祥, 杨雅萍.

国外科技计划项目数据汇交政策及对我国的启示

[J]. 中国科技资源导刊, 2013, 45(2):17-23.

[本文引用: 1]

Huang Yongwen, Zhang Jianyong, Huang Jinxia, et al.

Research on the open research data

[J]. New Technology of Library and Information Service, 2013(5):21-27.

[本文引用: 1]

黄永文,张建勇,黄金霞.

国外开放科学数据研究综述

[J].现代图书情报技术, 2013(5):21-27.

[本文引用: 1]

Wang Juanle, Sun Jiulin, Yang Yaping, et al.

A new approach to research data archiving for WDS sustainable data integration in China

[J]. Data Science Journal, 2013,12: 120-123.

[本文引用: 1]

AGU’s Data Policy:

History and Context

[EB/OL]. (201-09-16)[2020-07-05]..

[本文引用: 1]

Finder Repository[EB/OL].(2020-05-07)[2020-07-05]. .

[本文引用: 1]

Sun Jiulin.

Tactics of dispersed data resources integration and model research

[J]. China Science & Technology Resources Review, 2008, 40(3):6-11.

[本文引用: 1]

孙九林.

分散数据资源整合策略和模式研究

[J].中国科技资源导刊,2008, 40(3):6-11.

[本文引用: 1]

Lin Hai, Wang Juanle. The data archiving work in resource and environment field of National Basic Research Program of China (973

Program) has been officially launched

[J]. Advances in Earth Science, 2008, 23(8): 895-896.

[本文引用: 1]

林海, 王卷乐.

国家重点基础研究发展计划(973)资源环境领域项目数据汇交工作正式启动

[J].地球科学进展, 2008, 23(8): 895-896.

[本文引用: 1]

Shi Lei, Yuan Wei.

Some thoughts on the long-term mechanism construction of S&T resources collection

[J]. China Science & Technology Resources Review, 2012, 44(4):2-5.

[本文引用: 1]

石蕾, 袁伟.

建立科技计划资源汇交长效机制的思考

[J].中国科技资源导刊, 2012, 44(4):2-5.

[本文引用: 1]

Zhu Yunqiang, Sun Kai, Yang Yaping, et al.

Data resources collection and reorganization for national special program on basic works for science and technology of China

[J]. China Science & Technology Resources Review, 2017, 49(5):12-20.

[本文引用: 2]

诸云强, 孙凯, 杨雅萍.

科技基础性工作数据资料的汇交与整编

[J].中国科技资源导刊,2017,49(5):12-20.

[本文引用: 2]

Li Xin, Zhuotong Nan, Wu Lizong, et al.

Environmental and ecological science data center for West China integration and sharing of environmental and ecological data

[J]. Advances in Earth Science, 2008(6):628-637.

[本文引用: 1]

李新,南卓铜,吴立宗.

中国西部环境与生态科学数据中心:面向西部环境与生态科学的数据集成与共享

[J].地球科学进展,2008(6):628-637.

[本文引用: 1]

Wang Jun. American scientific data sharing experience and its implications for NSFC:

Case study of NSF and NIH

[J]. Bulletin of National Natural Science Foundation of China, 2016(1):69-75.

[本文引用: 1]

汪俊.

美国科学数据共享的经验借鉴及其对我国科学基金启示:以NSF和NIH为例

[J]. 中国科学基金, 2016(1):69-75.

[本文引用: 1]

Wang Juanle, Wang Yi, Bu Kun, et al.

Practice in the CoreTrustSeal certification of world data center—A case study of WDC-Renewable resources and environment

[J]. Journal of Agricultural Big Data, 2019, 1(3):71-81.

[本文引用: 1]

王卷乐,王祎,卜坤.

世界数据系统CoreTrustSeal数据中心认证实践——以WDC可再生资源与环境数据中心为例

[J].农业大数据学报,2019,1(3):71-81.

[本文引用: 1]

EOSDIS Distributed Active Archive Centers DAACs [EB/OL]. [2020-04-28]. .

[本文引用: 1]

Wang Wenyan.

Data and data management of earth sciences daya distributed active archive centers in NASA

[C]//Paper Abstract of 2011 Annual Meeting of Committee of Meteorological Communication and Information Technology, Chinese Meteorological Society and National Meteorological Information Center. Committee of Meteorological Communication and Information Technology, Chinese Meteorological Society, National Meteorological Information Center: Chinese Meteorological Society, 2011:443-450.[

[本文引用: 1]

王旻燕.

NASA地球科学数据分布式数据存档中心的数据和数据管理

[C]//2011年中国气象学会气象通信与信息技术委员会暨国家气象信息中心科技年会论文摘要.中国气象学会气象通信与信息技术委员会、国家气象信息中心:中国气象学会, 2011:443-450.]

[本文引用: 1]

Wang Juanle, Wang Mingming, Shi Lei, et al.

The situation of scientific data management and its enlightenment to Earth Sciences of China

[J]. Advances in Earth Science, 2019, 34(3): 306-315.

[本文引用: 1]

王卷乐,王明明,石蕾.

科学数据管理态势及其对我国地球科学领域的启示

[J]. 地球科学进展, 2019, 34(3): 306-315.

[本文引用: 1]

Li Hongxing, Wu Lizong, Zhuotong Nan, et al

. Collaborative publishing of scientific data:Model and implementation

[J]. Remote Sensing Technology and Application, 2016, 31(4): 801-808.

[本文引用: 1]

李红星,吴立宗,南卓铜.

科学数据联合出版模式与内容研究

[J].遥感技术与应用,2016,31(4):801-808.

[本文引用: 1]

Huang Guobin, Zheng Xia.

Research on content normalization of data paper

[J]. Library and Information Service, 2019, 63(22):129-140.

[本文引用: 1]

黄国彬,郑霞.

数据论文的内容规范性研究

[J].图书情报工作,2019,63(22):129-140.

[本文引用: 1]

JGR:

Solid Earth Data & Software Guidance

[EB/OL]. [2020-07-18]. .

[本文引用: 1]

Enabling Fair Data Project[EB/OL][2020-07-18]. .

[本文引用: 1]

Data for Publication Guidelines to Support Author Compliance with Open Data Standards[EB/OL]. [2020-07-20]. .

[本文引用: 1]

Li Jianhui, Wu Chao, Zhang Lili, et al.

Survey and analysis of scientific data publishing

[J/OL]. China Scientific Data, 2016, 1(1): 70-80.

[本文引用: 1]

黎建辉, 吴超, 张丽丽.

科学数据出版调查与分析

[J/OL]. 中国科学数据, 2016, 1(1): 70-80.

[本文引用: 1]

PANGAEA[EB/OL]. [2020-04-28]. .

[本文引用: 1]

Wang Juanle, Lin Hai, Ran Yingying, et al.

A study of Earth System Science data classification for data sharing

[J]. Advances in Earth Science, 2014, 29(2):265-267,273-274.

[本文引用: 1]

王卷乐, 林海, 冉盈盈.

面向数据共享的地球系统科学数据分类探讨

[J].地球科学进展, 2014, 29(2):265-267,273-274.

[本文引用: 1]

Google Earth Engine[EB/OL]. [2020-04-28]. .

[本文引用: 1]

Notice of the Ministry of Science and Technology and the Ministry of Finance on Issuing the List of Optimization and Adjustment of National Science and Technology Resource Sharing Service Infrastructure[EB/OL]. (2019-06-05)[2020-07-05]..

[本文引用: 1]

科技部财政部关于发布国家科技资源共享服务平台优化调整名单的通知

[EB/OL]. (2019-06-05)[2020-07-05]. .

[本文引用: 1]

Han Xuehua, Wang Juanle, Shi Lei, et al.

Identification and its inspiration for Netherlands’ Data-Seal-of-Approval in scientific data repositories

[J]. China Science & Technology Resources Review, 2018, 50(1): 14-19.

[本文引用: 1]

韩雪华,王卷乐,石蕾.

荷兰数据认可印章科学数据仓储认证及启示

[J].中国科技资源导刊,2018,50(1):14-19.

[本文引用: 1]

/