科学数据汇聚的模式分析及对我国的发展建议
1.
2.
3.
4.
Analysis of the Modes of Aggregation of Scientific Data and Proposals for its Development in China
1.
2.
3.
4.
收稿日期: 2020-05-11 修回日期: 2020-07-06 网络出版日期: 2020-09-15
基金资助: |
|
Received: 2020-05-11 Revised: 2020-07-06 Online: 2020-09-15
作者简介 About authors
王卷乐(1976-),男,河南洛阳人,研究员,主要从事科学数据共享、地理信息系统与遥感应用研究.E-mail:wangjl@igsnrr.ac.cn
科学数据的汇聚是抢占科学数据这一战略资源上游和竞争高地的重要手段。把握科学数据汇聚模式的国际态势和科学规律,探索适合我国国情的科学数据汇聚模式和方法是当前急需解决的问题。从国际组织、国际科学计划、政府机构和专业数据中心等方面调研分析国内外科学数据汇聚现状,梳理归纳出科学数据汇聚的5种模式,包括科研项目集中向指定数据中心/仓储汇聚模式、科研项目分散向数据中心/仓储汇聚模式、科学家个人以论文出版方式向数据中心/仓储汇聚模式、科研项目/科学家个人向数据共享目录/网络汇聚模式、大数据计算/处理平台和公民科学开放汇聚模式,并对各模式和相应典型案例进行剖析。在此基础上,提出我国科学数据汇聚在科学数据管理办法落实、数据汇聚中心认证、期刊论文数据汇聚、数据汇聚网络构建、国际资源汇聚和数据汇聚全链条建设等6个方面的发展建议。
关键词:
Scientific data are strategic resources, and the aggregation of scientific data is an important method to seize the upstream and competitive highlands of scientific data. Notably, it is challenging to grasp the international situation and the scientific laws concerning the mode of scientific data aggregation; exploring the modes and methods of scientific data aggregation that are suitable for China's national conditions is also difficult. This paper investigated and analyzed the modes of scientific data aggregation both at home and abroad from the viewpoints of international organizations, international scientific programs, government agencies, and professional data centers. Five modes of scientific data aggregation were summarized, including scientific research projects converging to designated data centers/repositories, scientific research projects dispersing to data centers/repositories, individual scientists submitting datasets to data centers/repositories with published papers, scientific research projects/individual scientists sharing directories/networks, big data computing/processing platform, and citizen science models of open and public convergence. This paper analyzed each mode and the corresponding cases. On this basis, the paper put forward six suggestions for the reasonable aggregation of scientific data in China, including the implementation of the “Measurement of Scientific Data Management”, certification of data aggregation centers, scientific data collection and publishing in journals, construction of data aggregation networks, aggregation of international resources, and construction of the whole data aggregation chain.
Keywords:
本文引用格式
王卷乐, 石蕾, 王玉洁, 高孟绪, 徐波, 王超, 王明明, 王艳杰, 周业智.
Wang Juanle, Shi Lei, Wang Yujie, Gao Mengxu, Xu Bo, Wang Chao, Wang Mingming, Wang Yanjie, Zhou Yezhi.
1 引 言
科学数据是“数据—信息—知识—智慧”这一创新价值链的基础,是最基本的科技创新资源。随着“大数据”理念的普及、数据驱动科学研究“第四范式”的兴起,世界各国都将科学数据视为一个国家重要的战略性资源和科技实力竞争的重要资本,科学数据的汇聚则是抢占这一战略资源上游和高地的全球竞争领域。科学数据汇聚是一个系统的数据资源积聚过程,涉及数据资源产生、流动、分发、增值等演变过程,科学分析和认识数据汇聚模式是解决国家投资科学数据资源、学科领域科学数据资源、公民科学众源科学数据资源等多种数据资源汇聚的必经途径。
欧美发达国家早在20世纪90年代就开始制定了国家资助产生的科学数据汇聚政策,陆续开展了实质性的科技计划项目数据归档,并在近年来呈现深入和推广的趋势。美国国家科学基金会(National Science Foundation, NSF)、美国国家航空航天局(National Aeronautics and Space Administration, NASA)等科技计划项目管理机构都制定了明确的数据归档政策,要求所有项目计划提交数据之前都要提供一份完整的数据管理计划(Data Management Plan, DMP)。美国大气与海洋管理局(National Oceanic and Atmospheric Administration, NOAA)环境数据管理委员会(Environmental Data Management Committee, EDMC)于2011年发布了“数据管理计划程序指令”,并根据NOAA观测系统委员会(NOAA Observing Systems Council, NOSC)的建议于2015年2月发布V 2.0.1版本[1],要求使用基于国际标准化组织(International Organization for Standardization,ISO)19115和19139标准的结构化元数据来规范描述环境数据。学术期刊组织较早关注并实施了实质性的论文数据汇聚政策和举措。例如,在生物进化领域的学术刊物群体于2009年提出联合数据发布政策(Joint Data Archiving Policy, JDAP)。随着该政策的发布和应用,其获得了诸多主流期刊的认可,Science、The American Naturalist、Heredity、Molecular Ecology、The Journal of Evolutionary Biology等重要期刊均已采用[2,3]。许多国际数据组织都制定了数据汇聚或发布的政策。例如,国际科学理事会(International Science Council, ISC)世界数据系统(Word Data System, WDS)采用“数据共享原则”推进其“开放科学”的目标,该数据共享原则符合国际相应数据政策,并针对全球重大科技计划组织开展数据汇交和共享服务[4]。美国地球物理协会(American Geophysical Union, AGU)于1993年发布了该组织的第一个数据归档政策[5],并于2019年开启了AGU旗下期刊数据存储计划,要求AGU旗下学术期刊,在发表论文的同时也将该论文关联的原创数据公开出版,强调论文作者必须在论文发表前将论文的原创数据存储于AGU认定的221个数据仓储中心[6]。
中国科学技术部(以下简称科技部)于2001年启动“科学数据共享工程”项目,2006年建立国家科技基础条件平台,极大地推动了科学数据汇聚和开放共享的试点、政策、标准和基础设施建设。例如,具有多学科交叉领域数据汇聚特点的国家地球系统科学数据共享平台提出过付费整合、先服务后集成、建立地球系统科学数据联盟等方法模式[7]。科技部于2008年在原国家重点基础研究发展计划(973计划)资源环境领域开展数据共享试点[8],2011年和2012年着力推动了人口健康领域和农业领域科技资源汇交汇交工作[9],2013年启动了科技基础性工作专项项目数据汇交与规范化整编工作[10],2019年《科技计划形成的科学数据汇交技术与管理规范》等相关国家标准完成。国家自然科学基金委员会于2005年启动中国西部环境与生态科学数据中心建设,推动“西部项目”科学数据汇交试点建设[11]。然而,总体而言我国仍然缺少系统的数据汇聚模式和方法支撑,影响我国科学数据资源自身建设和参与全球竞争,甚至还导致我国许多科学数据资源汇聚到国外,造成资源流失。
针对上述现状,本文从国际组织、国际科学计划、国家机构和数据中心、科技计划项目汇交、科学数据出版和网络开源数据汇聚等方面分析国内外科学数据汇聚模式,归纳总结规律性的科学数据汇聚模式,提出我国科学数据合理汇聚的模式和方法建议。
2 科学数据汇聚的模式分析
科研项目是科学数据产出的主体,科研基础设施是科学数据产生的工具和手段,数据中心、数据仓储、共享网络、大数据计算(处理)平台是数据汇聚的归口。在这个数据产生和归口的过程中,形成了5种汇聚模式(图1)。具体包括:模式一,科研项目集中向指定数据中心/仓储汇聚模式;模式二,科研项目分散选择数据中心/仓储汇聚模式;模式三,科学家个人以论文出版方式向数据中心/仓储汇聚模式;模式四,科研项目/科学家个人向数据共享目录/网络汇聚模式;模式五,大数据计算/处理平台和公民科学开放汇聚模式。
图1
2.1 科研项目集中向指定数据中心/仓储汇聚模式
2.1.1 模式解析
集中数据中心/存储模式是指科学数据由科研项目指定性汇聚在某个数据中心或数据存储。这一行为通常与政策性或制度性的要求有关。该模式的特点:
2.1.2 典型案例
美国国立卫生研究院(National Institutes of Health, NIH)是倡导项目数据共享并开展早期实践的组织之一,要求在项目申请时应根据数据共享政策的要求制定《数据共享计划》[12],并于2015年制定了《National Institutes of Health Plan for Increasing Access to Scientific Publications and Digital Scientific Data from NIH Funded Scientific Research》。NIH各研究项目向其指定的现有科学数据中心存储数据。如基因组数据共享(Genomic Data Sharing, GDS)政策规定所有有关人类基因组数据的研究都应在基因型和表型数据库(The Database of Genotypes and Phenotypes, dbGaP)中注册,并将数据提交给NIH指定的数据存储库。为帮助不同领域研究人员找到合适的数据库来接受他们的数据,NIH不断扩大可提供存储的数据库列表(
2.2 科研项目分散选择数据中心/仓储汇聚模式
2.2.1 模式解析
科研项目所产生的数据在更多情况下可以向多个相近或交叉领域的数据中心或仓储中心进行汇聚。这种情况下相关资金资助方并不强行或特定指定一个数据中心集中汇交,而是给出一个汇聚指导策略。该模式的特点:
2.2.2 典型案例
NASA的数据共享政策是由日本、欧洲和美国国际地球观测系统(Earth Observing System, EOS)的参与者在20世纪90年代和21世纪初共同制定的。该政策规定NASA所有地球科学任务、项目以及资助和合作协议都应通过数据管理计划书来落实NASA的数据共享原则。NASA的数据管理办法规定DMP应该描述通过研究生产的数据是否或怎样共享和存储(包括时间表)。NASA的地球观测系统数据和信息系统(EOSDIS,
2.3 科学家个人以论文出版方式向数据中心/仓储汇聚模式
2.3.1 模式解析
科学家个人的数据汇聚方式通常具有自主性,但在发表数据或者论文时则受某些期刊的约束性汇聚要求。本模式专指当受某些出版条件限制时,科学家个人需要集中向某数据中心/仓储进行数据汇聚。该模式包括两种形式:
2.3.2 典型案例
(1)《地球物理学研究杂志》(Journal of Geophysical Research, JGR)是美国地球物理协会(American Geophysical Union,AGU)主办的旗舰期刊,创刊于1896年,覆盖大气、生物地球科学、地球表面、海洋、行星、固体地球、空间物理等7个领域。JGR是目前国际地球物理学界论文质量最高、覆盖领域最广、发行数量最多的国际顶尖学术期刊之一。为了最大限度地提高存储数据的互操作性和可重用,AGU建议作者在向其旗下期刊投稿时,将论文数据存储在本学科领域对应的存储库。如Journal of Geophysical Research: Solid Earth推荐将地球和环境数据、地球化学数据、地震数据分别存储在PANGAEA、EarthChem Library、IRIS Data Management System存储库中[19]。AGU建议作者尽早与存储库合作,尽可能将研究所用的原始数据和过程数据,甚至相关的软件代码等也一并保存。为了进一步明晰这一政策,AGU声明自2019年8月1日起遵循通用的“Enabling FAIR data Project”准则。凡在AGU期刊上发布的论文,要求作者必须将支持论文中的研究和可视化效果的数据存放在支持FAIR原则的受信任存储库中,并在论文中给出引用这些数据的访问信息[20,21]。
(2)《地球系统科学数据》(Earth System Science Data,ESSD)是一本国际性、跨学科的期刊,旨在发表关于原始研究数据(集)的文章,进一步重用有益于地球系统科学的高质量数据。该期刊于2008年起出版地球系统科学数据,以维护科学数据资源的可信度,同时通过数据论文的文献计量学探索,极力提升数据论文作者的学术影响力[22]。ESSD由哥白尼出版社(Copernicus Publications)出版。该刊的影响因子,2018年达到了10.95,成为数据期刊类中的翘楚。ESSD要求稿件在ESSD及其科学讨论论坛“地球系统科学数据讨论”中发布前,稿件中引用的数据集必须提交到经认证的数据中心/存储库中,目前ESSD已与地球与环境科学数据出版信息系统(PANGAEA, Data Publisher for Earth & Environmental Science)等多个数据中心合作完成数据存储。PANGAEA是ISC-WDS的正式成员,拥有自己的数据仓储[23]。PANGAEA接受地球科学和生命科学的所有数据,对数据格式没有特殊的要求。
2.4 科研项目/科学家个人向数据共享目录/网络汇聚模式
2.4.1 模式解析
多个单一的或者相近领域的数据中心、仓储可以形成一个更具国际影响力的网络,或者在相关国际合作和政府协议下形成某种汇聚网络。这些网络不受制于数据实体约束,允许数据实体汇聚和数据目录汇聚。该模式的特点:
2.4.2 典型案例
全球变化主目录(Global Change Master Directory, GCMD,现更名为International Directory Network,
2.5 大数据计算/处理平台和公民科学开放汇聚模式
2.5.1 模式解析
大数据计算/处理平台和公民科学开放汇聚模式是在公民科学的大数据时代下,快速发展起来的一种公众多元参与的社会化的数据汇聚模式,更多是和应用联系在一起。该模式的特点:
2.5.2 典型案例
谷歌地球引擎(Google Earth Engine, GEE)是一个基于云的平台[25],用于大尺度的地理空间分析。它利用谷歌的海量影像资源和巨大计算能力,允许公众研究和评估各种地球系统和人类可持续发展问题,包括森林砍伐、干旱、灾害、疾病、粮食安全、水资源管理、气候监测和环境保护等。它是一个集成平台,不仅为传统的遥感科学家提供支持,而且为缺乏超级计算机、大规模云计算等资源和技术能力的、更广泛的受众提供支持。从本质上来讲,GEE云平台包括三大部分:前端、后台以及前端后台的交互。前端为Python桌面客户端或JavaScript网页客户端。后台数据库存储已有数据集以及用户上传数据。前端与后台的交互即使用客户端函数库通过Web REST APIs(本质为HTTP请求)。这些请求由前端服务器处理成一系列子查询请求并传给主服务器,然后主服务器将请求分配给子服务器计算,如果请求计算量较小,服务器则进行动态计算,如果请求计算量较大,则进行批处理;计算完成后将结果传给前端经过解析后进行显示。
GEE云平台公共数据目录中,大部分是地球观测遥感影像数据,包括全部的Landsat影像数据、Sentinel影像数据;此外还包括天气预报数据、土地覆盖和诸多其他的环境、地球物理以及社会经济数据集等;并且每天都有新的影像数据不断更新补充到GEE云平台数据目录中。用户在使用GEE平台的同时,也可以申请向GEE公共数据目录中添加新的数据,或者上传自己的私有数据,根据需要选择是否共享等。
3 科学数据汇聚的政策建议
我国开展科学数据汇聚已有一定实践。例如,国家地质调查资料(档案)汇交工作,自建国以来即制定国务院条例予以立法执行,属于强制向某一指定数据中心汇聚模式。科技部在持续推动国家科技基础资源调查专项项目数据汇交的基础上[10],于2019年国家整合形成20个国家科学数据中心后[26],制定了国家科技计划项目数据汇交工作方案,推动各类国家重点研发计划项目向现有国家数据中心对应汇聚。在数据出版方面,国内相继建立了《中国科学数据》、《全球变化数据出版系统》、Big Earth Data等数据期刊,快速推动国内数据出版。国家科技基础条件平台建立了中国科技资源共享网,把各国家科学数据中心的数据目录形成门户汇聚。原中国科学院资源环境科学信息中心(现为中国科学院西北生态环境资源研究院)长期维护建立地学领域的科学数据链接目录等。在大数据处理和公民科学开放汇聚方面,我秀中国、遥感集市等公众交互平台得到应用发展。但总体来看,我国的科学数据汇聚在学科领域的进展和影响力还远远落后于发达家,在数据汇聚和利用效益方面还有很大提升空间。结合本文分析,提出以下发展建议。
(1)加强科学数据管理办法中数据汇聚的策略落实。尽管我国已经制定了《科学数据管理办法》,但其在行业、部门、领域的辐射力度有限,对上需要有法律层面的制度保障,对下需要有更具实施操作性的配套细则。建议从国家和地方两个统筹视角推进办法的落实。以科技部统筹的科研项目为切入口,尽快建立科学数据汇交的技术标准,促进科技计划项目数据的汇交管理,并形成更多示范,促进国家数据中心建设。跟踪和指导各地方建立自身科学数据管理的细则和实施方案,结合不同区域、领域示范,促进地方科学数据办法的落实和数据汇聚,提高区域数据集成和应用能力。
(2)开展科学数据汇聚中心的识别和认证,形成我国可信任的科学数据中心布局。WDS所采用的Data Seal Approval(DSA)的分层认证、逐步完善的认证流程对我国建立自主科学数据仓储认证机制有重要借鉴意义[27]。借助DSA认证经验,探索适合我国可信赖科学数据仓储建设发展的标准,一方面便于推动和提升我国数据仓储的建设发展;另一方面也使我国有更多的机会在国际相关领域发声和交流,促进我国科学数据管理的国际化与影响力。评价的核心指标包括数据保存、数据访问许可、数据连续使用计划、数据使用法律和伦理、专业分工、专家和用户监督、数据标准、数据归档和存储、数据规划、数据质量评价、数据发现、数据重用、数据软硬件环境、技术基础设施等。
(3)加强我国学术期刊和数据论文仓储建设,提升论文数据出版影响力。在众多的科学数据汇聚模式中,期刊论文的汇聚模式具有同行评议的质量控制要求、严格有序的流程管理举措,以及有效的数据(论文)引用评价机制,因此能够吸引科学家和科研团队积极提交和汇聚科学数据资源。应用好这个模式的根本就是建立高质量的期刊数据仓储,然而当前这一领域的优势数据仓储还是以国外为主。结合我国学术期刊和数据期刊发展的国情,应加强数据仓储与期刊的紧密合作,产生1+1大于2的成效,在数据汇聚的过程中,同步提升数据仓储和期刊的影响力,形成正向互馈。
(4)以科学数据目录方式促进科学数据快速汇聚网络建设。科学数据目录汇聚是一种快捷的科学数据汇聚方式。针对当前我国诸多现有科学数据开放度不足的现状,如果把加强科学数据目录快速发布与数据实体出版相结合,将极大地提高现有科学数据平台的发布能力和影响力,快速打开科学数据开放共享的新局面。具体建议就是加强国家科技平台标识标准的宣贯,并与当前国家数据平台发布数据相衔接。加强该标识系统与科学数据出版系统的技术关联,推动高质量平台数据发布向数据出版的转变,提高平台科学数据出版的效率和数据汇聚的吸引力。
(5)提高国内科学数据中心的国际化水平和能力,加强国际资源的国内汇聚。我国在科学数据上总体取得了重大进展,但是与国外发达国家相比,我国科学数据在国际化建设方面差距显著。针对科学数据产权问题,对数据业者的科学数据知识产权作出界定和原则性规定,做好与知识产权法律制度的衔接,合理保护数据业者的科学数据资源权益。针对物理安全,应加强对科学数据采集、传输、存储、处理、使用、销毁等生命周期全过程的安全防护,构建大数据全生命周期运行保障体系。通过国内、国际交流和合作,夯实我国科学数据的自身基础,充分、合理引进我们急需国际科学数据资源,为更多领域的全球和区域性合作提供可持续的科学数据支撑。
(6)加强科学数据汇聚的全链条建设,促进科学数据汇聚的开放共享效益。面向科学数据的汇交、管理与共享服务一体化建设,各科学数据中心要以科学数据重用为出口,积极面向用户提供科学数据服务,注重在用户群体中的声誉,提高自身在用户群体中的粘着性,进而提高科学数据中心汇聚资源的影响力。建议利用信息技术对科学数据管理和开放服务的效益进行量化和引用统计,客观上促进优质科学数据资源的社会推广和科学界评价。除了引用率,领域科学数据共享的绩效评价中的用户贡献亦可加强。
参考文献
Edifying by data archiving policy of international science and technology research program to China
[J].
国外科技计划项目数据汇交政策及对我国的启示
[J].
Research on the open research data
[J].
国外开放科学数据研究综述
[J].
A new approach to research data archiving for WDS sustainable data integration in China
[J].
Tactics of dispersed data resources integration and model research
[J].
分散数据资源整合策略和模式研究
[J].
Program) has been officially launched
[J].
国家重点基础研究发展计划(973)资源环境领域项目数据汇交工作正式启动
[J].
Some thoughts on the long-term mechanism construction of S&T resources collection
[J].
建立科技计划资源汇交长效机制的思考
[J].
Data resources collection and reorganization for national special program on basic works for science and technology of China
[J].
科技基础性工作数据资料的汇交与整编
[J].
Environmental and ecological science data center for West China integration and sharing of environmental and ecological data
[J].
中国西部环境与生态科学数据中心:面向西部环境与生态科学的数据集成与共享
[J].
Case study of NSF and NIH
[J].
美国科学数据共享的经验借鉴及其对我国科学基金启示:以NSF和NIH为例
[J].
Practice in the CoreTrustSeal certification of world data center—A case study of WDC-Renewable resources and environment
[J].
世界数据系统CoreTrustSeal数据中心认证实践——以WDC可再生资源与环境数据中心为例
[J].
Data and data management of earth sciences daya distributed active archive centers in NASA
[C]//
NASA地球科学数据分布式数据存档中心的数据和数据管理
[C]//
The situation of scientific data management and its enlightenment to Earth Sciences of China
[J].
科学数据管理态势及其对我国地球科学领域的启示
[J].
. Collaborative publishing of scientific data:Model and implementation
[J].
科学数据联合出版模式与内容研究
[J].
Research on content normalization of data paper
[J].
数据论文的内容规范性研究
[J].
Survey and analysis of scientific data publishing
[J/OL].
科学数据出版调查与分析
[J/OL].
A study of Earth System Science data classification for data sharing
[J].
面向数据共享的地球系统科学数据分类探讨
[J].
科技部财政部关于发布国家科技资源共享服务平台优化调整名单的通知
[EB/OL]. (
/
〈 |
|
〉 |
