余星(1981-),男,浙江淳安人,副研究员,主要从事岩石地球化学与海底资源成矿研究. E-mail:yuxing@sio.org.cn
PetDB是目前海洋科学及地学领域最重要的基础数据库资源之一,是海底岩石地球化学数据库的旗舰,它为海洋地质和岩石地球化学专业人员提供了最好的“大数据”支持。PetDB综合了全球海底岩石、矿物和包裹体等的元素化学数据、同位素数据和矿物学数据,数据收录全面、完整、更新快,数据格式规范、统一,数据组织结构清晰,数据查询、输出方便快捷,用户体验感强。将面向国内同行详细介绍海底岩石地球化学“大数据”工具——PetDB数据库,包括PetDB的设计理念、使用方法和应用特色,旨在抛砖引玉,倡导基础数据的及时积累和整理,为建立自主的研究型数据库奠定基础,为迎接“大数据”时代的到来做好充分的准备。
PetDB is one of the most important basic databases in earth science and marine science. It is also the flagship for seabed petrogeochemical databases, which benefits marine geologists. PetDB combines nearly all the data of rocks from ocean floor, including petrological, mineralogical and geochemical data for rocks, glass, minerals and inclusions. For geochemical data it often contains the major elements, trace elements and isotopic ratios. The data in the database is integrated, well organized, easy for quiry and download. This quite popular and widely used database for petrology of ocean floor—PetDB, which can be treated as a BigData tool in petrology, including the ideas to design the database, use instructions as well as its features, is introduced to domestic colleagues. It is well hoped that more and more petrogeochemists will pay more attention to and take interest in the database construction and BigData analysis, which is quite helpful in discussing new issues and performing scientific research.
随着计算机技术和网络技术的发展,数据存储、处理、统计分析和共享能力日益增强,海量数据的综合集成成为可能,这预示着“大数据”时代已经到来。大数据使我们不再依靠单一的或小部分的样本数据,而是使用可以代表全局的所有数据来探寻相关关系,挖掘出更多、更直观、更有价值的信息[ 1~ 3]。大数据引发了第二次数据革命,它改变了传统的基于样本的科学研究范式,成为继实验科学、理论推演和计算机仿真这三者之后的第四种科研范式-数据密集型科学[ 4]。在地学和海洋科学领域,各种观测数据、实验数据、理论数据、统计数据、模拟数据等已汇集成各类的专题数据库或数据集,广泛应用于科研、生产和社会实践中。这表明地学海洋领域的“大数据”时代已然悄悄降临,PetDB就是其中一个范例[ 5]。
PetDB集成了海量的海底岩石数据,并正在不断更新扩容,可以为海底岩石地球化学研究提供全方位的“大数据”支持。在个体样本数据不断增加、空间覆盖不断加密的现实条件下,个体数据的重要性变得越来越小,除了人类从未涉足的新领域或新地域。如何有效地综合分析、消化吸收已积累的数据资源,即合理使用“大数据”工具是新时代科学研究的新挑战。本文将详细介绍时下流行的海底岩石地球化学“大数据”工具-PetDB数据库,包括PetDB的设计理念、使用方法和应用特色,旨在抛砖引玉,呼吁广大岩石地球化学工作者重视基础数据的积累,为建立我国自主的研究型数据库奠定基础,为迎接“大数据”时代的到来做足准备。
PetDB是the Petrological Database of the Ocean Floor的简称,意指海底岩石学数据库,是对全球海底岩石、矿物和包裹体等的元素化学数据、同位素数据和矿物学数据的综合[ 6]。数据来源于学术期刊论文、专著、IODP(包括DSDP和ODP)出版物和学位论文等。
PetDB数据库系统于2000年开始投入使用,目前运行于哥伦比亚大学拉蒙特-多尔蒂地球观测中心(LDEO),系统版本号为v.2.6.1,更新日期为2013年7月29日。PetDB是基于网络的数据库管理系统,能让广大科研人员和其他感兴趣的用户在线访问地球化学和岩石学数据。
PetDB数据库隶属于EarthChem系统的一部分,而EarthChem是IEDA工程的重要组成部分(图1)。EarthChem(Geochemical Databases for the Earth)是以PetDB,GEOROC,NAVDAT等火成岩地球化学数据库为基础的地球化学数据综合管理联合会,成立于2003年,2005年获得美国自然科学基金会资助,旨在建立固体地球的地球化学数据综合管理和信息系统,加强不同数据库间的协作,减少重复工作,共享数据管理经验和管理工具[ 7]。IEDA(Integrated Earth Data Applications)是指综合地球数据应用工程,是EarthChem和MGDS合作共建的地球基础数据工程,成立于2010年10月15日,受美国自然科学基金会资助。MGDS(Marine Geoscience Data System),是拉蒙特—多尔蒂地球观测中心的海洋地学数据库系统。IEDA拥有EarthChem和MGDS中的一系列数据库和数据集,包括来自海洋、大陆、极地的各种固体地球数据,供全世界各类社会团体使用。
Geochron为地质年代学数据库;SESAR(System for Earth Sample Registration)为地球样品统一注册系统;Deep Lithosphere Dataset为深部岩石圈数据集(已于2013年2月集成到PetDB);VentDB为海底热液地球化学数据库;EarthChem Library为存档、出版和制作地学研究所需数据的数据仓库;SedDB为全球海洋沉积物地球化学数据库;NAVDAT(North American Volcanic and Intrusive Rock Database)为北美火山岩和侵入岩数据库;USGS(U.S. Geological Survey)为美国地质调查局;GANSEKI(Geochemistry and Archives of ocean floor rocks on Networks for Solid Earth Knowledge Integration)为海底岩石地球化学资料网络存档,实现固体地球知识整合;MetPetDB(A Database for Metamorphic Petrology)为变质岩石学数据库;EarthChem Portal为地球化学数据跨库联合查询工具;ASODS(Antarctic and Southern Ocean Data Synthesis)为南极和南大洋数据综合体;ASP(Academic Seismic Portal)为学术研究地震资料库;GMRT(Global MultiResolution Topography)为全球多分辨率地形资料;Ridge 2000洋中脊从地幔到微生物的多学科交叉研究数据;MARGINS为大陆边缘多学科交叉研究数据;GeoPRISMS(Geodynamic Processes at Rifting and Subducting Margins)为裂谷和俯冲边缘地球动力学过程;USAPDCC(U.S. Antarctic Program Data Coordination Center)为美国南极项目数据协调中心
PetDB所收录的数据对象主要为海底火成岩和变质岩,以及来自地幔和下地壳的捕虏体样品。它可以提供这些样品的主量元素氧化物含量、微量元素丰度、同位素、年龄和矿物模式含量等,共254个参数的数据,并且这些数据都有相应的元数据支持,提供与数据对应的样品、地理位置、岩石结构、分析测试方法、航次站位和参考文献等信息[ 6]。
截至2013年7月,数据库收录的数据包括17 583个站位(图2)。总样品数64 526件,其中太平洋约35 000余件,大西洋约20 000余件,印度洋约9 000件样品。按样品分布的水深数据来看,约75%的样品来源于水深1 000-4 000m的海底区域,最深的样品来源于汤加海沟,水深9 760m,此外PetDB数据库中也包含有少量的陆地样品数据。PetDB总计数据条数2 316 809条,其中全岩数据803 162条,矿物数据900 263条,火山玻璃数据557 460条,熔融包裹体数据55 499条。数据来源参考文献1 657条,最早的来源文献为1937年有关印度洋卡尔斯伯格洋脊玄武岩的地球化学数据报道。从所收录文献的发表时间来看,自1976年以来,平均每年30-50篇。PetDB数据库更新非常及时,通常更新频率约为一个季度。
PetDB拥有强大的数据查询能力,可以支持各种参数、各种条件的独立查询或组合查询,一步一步聚焦到用户需要的样品或数据。常用的查询条件包括经纬度、地理名称、构造环境、样品特征、航次信息、数据可用性、数据库版本、样品编号等。
按经纬度查询,可以手动输入选区的经纬坐标,北纬东经为正值,南纬西经为负值,纬度范围-90°~90°,经度范围-180°~180°。同时可以在地图上拉水平展布的矩形框选择,目前还不支持任意多边形的选择查询。此外还可以按水深范围查找样品,海平面以下水深用负值表示。
按地理名称查询,根据样品所处的位置名称或地理要素类型来设置查询条件,地理名称可以来自不同尺度,如大洋的名称、海山名、海台名、断裂带名称等。可以同时设定多个地名进行综合查询。
按所处的构造环境、地貌单元或其他样品属性分类查询,分了洋脊区、岛弧、弧后盆地、火山渣锥、克拉通、火山道、焦点区、残留洋脊、断裂带、洋岛、岛群、海山、海山链、大火成岩省、所属洋区或海区、洋底高原、洋盆、数据来源国家。
按样品特征查询,如根据样品的采样方式查询,区分拖网、抓斗、钻探、深潜等不同来源样品;如按样品的蚀变程度,区分不同蚀变状况的样品数据;如按样品的岩性,区分基性岩、基性侵入岩、超镁铁质岩、玄武质岩等不同岩性的数据。
按航次信息查询,如航次编号、考察船名称、调查年份、首席科学家、航次组织单位等。
按数据可用性查询,查找具有指定数据项的数据条目,如查找含有主量元素数据的样品数据。
此外,还可以按数据提供者或来源文献信息查询,按样品编号查询,甚至按数据库版本进行查询,查找特定更新阶段内新增的数据,方便在原有的基础上只追加更新的数据,而无需重新下载所有数据。
PetDB数据库平台对查询结果的输出符合人性化设计,不仅给用户提供了所查询的数据主体,同时也给出了数据主体对应的元数据。数据主体一般包括全岩分析数据、矿物分析数据、岩石矿物模式分析数据和包裹体分析数据等。元数据则包括参考文献信息、航次信息、样品信息等。
数据主体的输出可根据用户需求设定选用的数据字段(数据列),如只输出主量元素中的部分元素数据。另一方面,数据条目(数据行)的输出也可以有2种方式:直接输出和整编后输出( precompiled)。直接输出是指将一个样品由同种分析方法获得的数据或同一文献来源的数据作为单独数据行输出。一个样品的数据可能会分多行显示,表示不同来源或不同测试方法。而整编后输出则将一个样品的数据归整到一行,当数据有重复和冲突时,系统会自己选择其认为质量较高的数据,这样方便用户使用,提高数据处理的效率。数据冲突时其整编的规则为:对于同位素数据,选用最新发表的数据,而摒弃较老的数据,相同时间发表的数据则以数据的标准差作为筛选标准。对于主量元素、稀土元素和其他微量元素,则按分析方法的优先级进行筛选,一般主量元素优选XRF分析结果,微量元素(包括稀土元素)采用质谱分析结果。如果是相同分析方法的冲突数据,则比较数据发表的时间先后,最新的数据被系统保留输出。
查询结果对应的元数据信息非常丰富,并且相互之间通过超链接形式密切关联。如点选参考文献信息( View References),可以看到数据来源的参考文献列表,列表可以按不同字段进行排序显示,也可下载整个列表。文献列表中的 data tables链接可以打开显示各条文献的详细信息,包括DOI链接,以及文献中被PetDB收录的原始数据表,实现了数据的溯源。点选航次信息( View Expeditions),可以看到数据来源的航次列表,显示各航次的基本信息,各航次名称链接可以打开显示航次详细信息,并提供了站位信息链接、样品信息链接和参考文献链接。打开站位信息链接,可以浏览站位基本信息表,各站位名链接到站位详细信息页面,页面除展示站位信息外,还包括站位位置图示、航次信息链接和样品信息链接。点选样品信息链接( View/Pick Samples),可以显示查询结果的样品信息表,包括样品编号、类型、岩性、采样方式、蚀变程度、样品位置、所处构造环境等信息,打开样品编号链接,可以显示样品的详细信息,除样品基本信息外,还提供样品对应的航次信息链接和站位信息链接,提供了样品的主体数据表,以及数据来源文献链接和数据测试方法链接。数据测试方法链接展示了数据质量信息,包括数据测试方法、分析实验室、标样测试情况、标准化情况、数据精确度等。
除了PetDB,目前影响力较大的岩石地球化学数据库还有GEOROC,PANGAEA,GANSEKI,MetPetDB,以及同属于EarthChem旗下的NAVDAT(表1)。其中GEOROC,PANGAEA 和PetDB是Nature杂志推荐使用的3个地学数据库。
GEOROC(Geochemistry of Rocks of the Oceans and Continents),是大陆和海洋岩石的地球化学数据库,由德国Max Planck化学研究所的Bärbel Sarbas博士研究小组负责建设和维护[ 8, 9]。GEOROC包括板内洋岛火山岩以及汇聚板块边缘和大火成岩省的火山岩数据, 2012年11月1日更新后数据库共含有数据条目599 450条,其中全岩(包括玻璃)数据298 700条,矿物数据277 370条,包裹体数据23 380条。GEOROC可支持按作者文献查询、地质环境查询、按地理坐标(经纬度)查询、按化学元素(包括主量、微量、稀土元素和放射性同位素)含量查询、按岩石类型查询等多种查询方式。GEOROC与PetDB的不同点在于, GEOROC预先按各种不同专题对数据进行了整编,形成csv文件,可供直接下载,方便使用。
PANGAEA是地球和环境科学数据的发布平台,由德国阿尔弗雷德-魏格纳极地与海洋研究所、布莱梅大学海洋环境科学中心共建[ 10, 11]。1987年开始筹建,1995年开始正式在网络上运行,主要数据包括沉积物柱状样数据、航次报告和数据、海洋观测数据、海底照片、海冰物性、Polarstern极地考察船气象学资料、Hausgarten深海观测资料、南大洋海图资料等,也包含岩石和矿物数据。PANGAEA数据库查询界面非常简洁,类似Google搜索页面。但其查询功能异常强大,可以使用全部字顺查询、使用模糊查询、使用通配符查询、使用排除式查询以及针对特定字段内查询等方法。PANGAEA不仅是Nature杂志推荐使用的地学数据库之一,也成为世界数据中心(WDC)海洋环境科学分支的长期归档资料库。与PetDB不同,PANGAEA除了收藏有岩石、矿物数据之外,还有更多环境科学数据,如水、冰、大气和沉积物等数据。
GANSEKI是日本JAMSTEC所建立的深海岩石样品数据库,既有实体的样品,也有样品对应的分析数据,旨在建立固体地球的综合知识体系[ 12]。GANSEKI数据库的特色之外在于大部分样品均配有手标本照片,少量还附有显微薄片照片,方便了用户对样品进行直观的了解。GANSEKI数据库目前拥有22 614件样品数据,手标本照片11 525幅,薄片照片1 767幅。
MetPetDB是由伦斯勒理工学院的全球变质岩岩石学家社团和计算机科学家合作开发的变质岩岩石学数据库,旨在归档整理发表的数据,为科研人员使用便利提供[ 13]。2006年MetPetDB数据库受到美国自然科学基金会资助。MetPetDB的样品按来源不同分为不同级别,包括公共样品、共享样品、发表样品、私人样品,目前MetPetDB含有发表样品8 541件、公共样品9 040件、私人样品6 639件。样品的数据分为2种类型,一是实测数据,二是解释数据。
上述各个数据库各有特色。GEOROC,PANGAEA和GANSEKI在数据上与PetDB有部分重叠,而MetPetDB和NAVDAT则与PetDB定位明显不同,MetPetDB主要侧重变质岩,NAVDAT主要侧重北美地区。GEOROC包含更多陆地火成岩的数据,PANGAEA包含了环境科学方面的数据。GANSEKI和PetDB的数据库定位最为相似,都是存档海底岩石数据。不同的是GANSEKI提供了实体样品信息以及样品图片信息,可供样品申请,数据库的数据来源主要为日本自主调查研究数据。而PetDB则是目前针对海底岩石数据最齐全的数据库,拥有样品数是GANSEKI的3倍多。
PetDB数据库还具体其他一些独有的特色。PetDB包含了细致的航次信息、站位信息,以帮助介绍样品的来源。PetDB拥有详细的数据质量控制信息,明确各个数据的分析测试方法。PetDB引入了IGSN国际地质样品统一编号(The International Geo Sample Number),由SESAR(System for Earth Sample Registration)统一管理。编号共由9个字符组成,前3个是唯一的用户编码,后6位字符随机,字符可以是26个英文字母或10个阿拉伯数字。因此一个用户编码,可以有2 176 782 336个样品标识符。PetDB数据完全一体化,支持任何单个化学数据的查询或各种复杂条件的组合查询。PetDB可以实现与MGDS的交叉查询。PetDB数据库的更新非常及时,平均每季度更新一次。
![]() | 表1 PetDB及相关岩石地球化学数据库信息表(截至2013年8月) Table 1 General Information for PetDB and similar databases (by August 2013) |
PetDB提供了最全面的海底岩石信息,包括岩石类型、矿物组成、化学成分、同位素特征、岩石分布、年龄信息等等。基于这些数据,全球尺度或区域尺度的岩石地球化学研究成为可能,区域对比、综合研究更加方便。目前已有超过400篇的高质量学术论文引用了PetDB,并且这一数据正以每年40-50篇的速度不断增加。论文绝大部分发表于地学领域的主流Top期刊,并且被引频次较高(如 Saal等[ 16] 2002年在Nature发表的文章已被引用254次,Herzberg等[ 17] 2007在Geochemistry Geophysics Geosystems杂志发表的文章被引用176次,数据来源于Google Scholar)。
基于PetDB提供的数据,采用新思路或新方法解决一系列重要科学问题,如地幔的化学和矿物组成[ 18, 19])、大陆和大洋地壳的形成和演化[ 20, 21]、熔体运移[ 22]以及全球海水的地球化学平衡[ 23]等。Salters & Stracke[ 18]利用MORB、OIB以及地幔橄榄岩的成分估算了亏损地幔的主量元素和微量元素组成,Thirlwall等[ 19]利用玄武岩的Sr-Nd-Pb同位素数据研究了冰岛及附近洋脊的地幔同位素组成。Weyer等[ 20]通过估算亏损地幔中的Nb/Ta,Zr/Hf和REE组成,研究壳幔分异作用的历史。 Cipriani等[ 21]研究洋中脊玄武岩-橄榄岩对的Sr、Nd同位素,提示洋壳形成过程。Spiegelman & Kelemen[ 22]利用熔体包裹体和MORB数据,研究了通道式熔体运移对化学成分不均一性的影响效应。van de Flierdt等[ 23]通过研究海底岩石和结壳的Pb-Hf-Nd同位素组成,恢复海底热液输入历史以及热液成因Hf对海水的补偿作用。
此外,还有更多有趣的研究课题,如Yamagishi等[ 24]利用PetDB数据探索岩石和沉积物地球化学数据的Google Earth可视化,Rauch[ 25]研究了地球表层的Fe,Al,Cu和Zn的全球分布,Rubin和Sinton[ 26]从洋中脊玄武岩推测洋中脊热结构和岩浆结构。利用PetDB中提供的岩石地球化学数据,可以开展地幔中He同位素演化研究[ 27],应用Ne同位素限定地幔对流和挥发份起源[ 28],洋脊跃迁对洋中脊岩浆分段性的影响[ 29],拆离断层对慢速扩张大洋岩石圈增生的关键作用[ 30],地幔、地壳和碳质球粒陨石中的Cl同位素均一性[ 31],等等。由此可见,PetDB数据库在地学研究方面的应用已十分广泛。
不过,由于目前数据库中的数据来源于各个发表文献,且录入数据库时尊重原文中的数据样式,未作深入的整编和归一化处理,同一类型不同来源的数据可能存在分析方法和分析精度不一致的问题,不同样品的新鲜程度和蚀变程度也会有差异,同一站位可能有多个样品数据,甚至同一样品也可能存在不同批次分析的数据结果,诸如此类。因此使用PetDB数据时应小心谨慎,宁缺勿滥。首先,要选择合适的数据。从研究的需求出发,挑选恰当的数据条目,注重数据的代表性、规范性和完整性,优选年代较新的数据,优选分析方法先进的数据,优选精度较高的数据,优选样品较新鲜的数据,忌求全求多。其次,对数据进行深入的分析和处理,剔除异常数据和无用字段。从PetDB下载的数据一般都包括较全的字段或参数,其中冗余字段在数据处理时非常不便,必须果断删除,精简数据表,利用统计工具对数据进行深入的分析,剔除异常值,剔除时可以参照元数据进一步查验。再次,也是最重要的环节,进行数据溯源。对于重要的数据必须查看原文出处,详细了解数据产出的相关背景资料。数据库的存在不单是为了方便用户获取数据,而更主要的是方便用户进行数据溯源。
PetDB的成功指明了岩石地球化学研究新的发展方向,研究对象由点发展到面,从表层深入到地核地幔,研究意义由局部扩展到区域或全球,体现了地球系统科学的特点,这也是“大数据”时代的显著特征。当个体数据积累到一定阶段,各领域或地域均有数据覆盖时,“大数据”就形成了。一旦“大数据”形成,个体数据的重要性就会变得越来越小,除非技术的进步拓展了人类新的认知领域或地域。大数据可以代表全局,揭示出全局特有的宏观信息,这些信息是单个数据或单批数据难以挖掘的。PetDB,GEOROC,PANGAEA,GANSEKI,MetPetDB等数据库已经清晰地勾勒出了岩石地球化学的“大数据”趋势,未来它们将进一步融合,形成从陆地到海洋、从地表到地下各岩类全覆盖的全球岩石地球化学“大数据”,离“数字地球”、“玻璃地球”的目标将更进一步[ 32]。不同行业的数据积累也都朝着“大数据”方向发展,并且在时间和空间体系内相互关联,至此地球系统科学的框架将逐渐明朗。
我国在海洋科学和地质学领域的科研成就有目共睹,但数据库建设工作重视和投入仍显不足[ 33]。前人做过很多尝试和努力,但发展仍然缓慢,这可能与数据共享机制以及数据开放度有一定的关系[ 34~ 41]。中国地质科学院曾建立有火成岩数据库、矿物数据库和同位素地球化学数据库等,但存在数据比较分散,未作系统地关联等问题,且可能由于经费问题,更新比较缓慢,推广仍有待加强。中国科学院广州地球化学研究所也“十五”期间的“中国岩矿地球化学数据库”的基础上开发了地球化学研究数据库,包括常量元素地球化学数据、微量元素地球化学数据和稀土元素地球化学数据等。数据库为国内外地球化学工作者、在校师生及生产部门专业人员提供了良好的数据平台,为科研项目提供了科技服务。不过与PetDB等国外主流数据库相比,数据总量仍有待提升。
身处“大数据”时代,我们必须紧跟世界的脚步,谁掌握了“大数据”谁就能主导下一个未来。国内外岩石地球化学数据库建设的差距,对我们既是机遇,更是挑战。若今天我们出卖数据,不注重数据积累,明日我们将需花重金赎回它们,个中利害不言自明。PetDB为我们建立地学和海洋科学领域的数据库提供了参考,指明了方向。对于自主获得的特色数据,应组建自己的数据库,并不断更新和积累,为实现“大数据”而努力,为“数字地球”建设奠定基础。对于国际上已比较成熟的数据库,则应学习借鉴其建库方法和数据管理方法,消化吸收已有的数据,建立适合自身需求的数据库,掌握数据自主权。数据库建设贵在积累与坚持,需要不断地投入,不断地维护,与时俱进。
感谢哥伦比亚大学拉蒙特—多尔蒂地球观测中心IEDA研究小组Leslie Hsu博士提供的最新IEDA和PetDB应用推广情况统计资料,以及有关PetDB数据库方面的有益讨论。感谢匿名评审人对本文提出的宝贵修改意见。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|
[33] |
|
[34] |
|
[35] |
|
[36] |
|
[37] |
|
[38] |
|
[39] |
|
[40] |
|
[41] |
|