作者简介:谢榕(1968-),女,福建泉州人,教授,主要从事时空数据挖掘研究. E-mail:xierong@whu.edu.cn
建立卫星对地观测数据集成系统是遥感卫星数据信息资源有效管理与应用的重要手段。从我国对地观测重大需求以及前沿科学问题入手,提出大数据环境下卫星对地观测数据集成系统建立中亟待解决的关键技术,包括大容量异构对地观测数据集成的语义技术、基于网格的遥感图像快速处理技术、遥感大数据深度分析技术、多数据中心协同处理及云平台技术,为实现集成卫星图像、地面观测数据和模拟模型的元数据管理、几何精度纠正和卫星数据质量评价、海量卫星图像数据的空间分析与知识发现、分布式高性能卫星图像数据管理和归档等基本功能,为解决海量卫星数据分布式存储与计算、数据集成与互操作、空间数据分析与地学知识发现提供新思路、新技术与新方法。
世界各国相继发射各类遥感卫星, 全球高分观测时代到来, 卫星遥感对地观测范围越来越广泛, 覆盖水与能量循环、陆地、海洋等多方面[1], 并由此呈现出“ 三高” 特点, 即高空间分辨率、高时间分辨率和高光谱分辨率[2]。在经济全球化和网络信息技术飞速发展的背景下, 快速获取、高效处理和有效应用对地观测数据成为世界各国的共同需求[3]。面临卫星遥感对地面观测所形成的地球空间海量信息流, 一方面如何有效地对卫星图像、地面观测数据以及各种模拟模型等多源、异构、不同平台的数据进行有效集成, 另一方面如何将其中未经加工的数据转变成可供用户直接利用的有价值信息[4, 5], 建立卫星对地观测数据集成系统正成为遥感卫星数据信息资源有效管理与应用的重要手段[6]。
在对地观测基础科学问题[2, 7]中, 卫星图像数据与地面观测数据的有效集成方法是其中主要问题之一。从认知科学来看, 研究很大程度上沿着“ 信号— 数据— 信息— 知识” 的数字化信息化过程展开, 具有显著的信息学基本特征。同时, 从知识工程角度来看, 对地观测活动从海量遥感数据的获取、存储、处理, 到地学知识分析、发现、分发, 也体现出“ 信号传输— 数据获取— 信息处理— 知识呈现” 的数据处理生命周期。因此, 除地球科学方法论以外, 认知理论、信息学、知识工程方法论也对对地观测的研究与应用起着十分重要的指导意义与推进作用。
大数据[8~11]的出现给对地观测研究带来了全新挑战、发展机遇和解决思路[12]。超大规模数据、海量数据、大数据可看作是三代数据管理技术的标签[13]。“ 超大规模” 数据研究重点是数据模型、事务管理、索引技术与查询优化等方面。“ 海量数据” 主要考虑各种非结构化数据有效管理、多数据源集成等问题。
而“ 大数据” 的技术难点和瓶颈[14, 15]归纳起来主要表现为以下3个方面, 需要研究更有效、更实用的大数据管理与分析技术。
(1)数据量的膨胀。遥感平台的技术进步使得获取的观测数据量大幅度增大。以ZY3卫星为例, 在轨工作期间每天获取的观测数据量可高达10 TB以上。同样, 当前大量传感器部署在卫星、飞机等飞行平台上, 未来10年全球天、空、地部署的数百万计传感器每天获取的观测数据将超过10 PB, 呈现出显著的大数据“ 4V” 特征, 即海量数据规模(Volume)、多样数据类型(Variety)、动态数据体系(Velocity)和巨大数据价值(Value)。从对地观测过程的信息学特征可以清晰地看到此领域大数据的发展趋势, 需要解决对地观测数据量增大所带来的遥感大数据存储与处理问题[12]。
(2)数据深度分析需求的增长。遥感技术发展初期, 专业人员通过目视判读对信息进行解译及修正。当观测数据量较小时, 传统数据挖掘手段已能成功地解决一定地学知识的定量查询与分析以及单一内容应用服务, 但它们不能满足日益增大的观测数据量和日益复杂的应用模式需求。在数据维度和规模不断增大、信息提取精度不断提高的情况下, 层级深度与复杂性也随之增大。在大数据深度分析(Deep Analysis)的挑战下, 传统数据挖掘技术的扩展性遇到了前所未有的困难[16~18], 应对PB级以上的大数据分析还需要研究新的方法[19], 依赖于计算机处理的数据深度分析新模式的出现以及以数据为核心的知识发现方法来解决分析较大地理尺度上的复杂地学问题。
(3)多源数据的高度异构与分散自治。对地观测数据集成的最终目标是建立能使用户直接获取有价值信息的卫星集成数据管理与归档系统。信息化与网络化的飞速发展与深入应用, 遍布全球的多个数据观测中心都积聚了巨大的海量数据, 它们高度异构、分散自治和动态更新。集成系统的建设涉及到众多领域、众多部门, 目前这些子系统、组件和服务被独立开发和部署, 协调困难, 难以实现卫星遥感信息资源在领域之间和部门之间的交流与共享。如何提供一个高效的数据管理与信息整合的途径或平台, 支持分布式环境下这些大规模数据的逻辑关联表达、语义集成、协同综合管理以及共享归档成为迫切需要和亟待解决的难题。
国际标准组织ISO/TC211, OGC(Open GIS Consortium)等正在制定一系列地理信息元数据、卫星图像相关的标准计划[20, 21]来有效地管理地理信息, 如ISO制定了19115地理信息元数据(Geographic Information-Metadata), 19115-2地理信息元数据 Part II:影像和栅格数据的扩展(Metadata Extensions for Imagery and Gridded Data), 19130地理信息影像与栅格数据的传感器数据模型(Sensor Data Model for Imagery and Gridded Data), 19139地理信息元数据-XML模式实现(Metadata-XML Schema Implementation)等; OGC制定了Topic 15图像使用服务(Image Exploitation Service), Topic 16图像坐标转换服务(Image Coordinate Transformation Service)以及地球影像(Earth Imagery Case)等。然而这些标准并不能完全满足卫星数据集成系统开发的需要, 具体表现在:
(1)卫星数据模型尚缺乏表达卫星图像数据的地理定位、地理参考等语义信息, 特别是缺乏一个统一的卫星图像元数据模型来描述和集成卫星图像、地面观测和仿真模拟等数据。
(2)缺乏卫星影像与地面栅格之间的空间对应关系的定义, 不能满足地面坐标转换的几何纠正服务功能和精度的要求。
(3)缺乏标准化卫星集成数据仓库和知识库, 以及集数据集成、空间查询与知识发现为一体的卫星数据分析功能, 不能满足为用户自动提取有用信息的应用服务。
在我国, 卫星遥感信息已成为不可或缺的战略资源和经济资源, 未来5~10年自主遥感卫星数据将呈爆炸性增长, 遥感卫星应用产业蕴藏着巨大的跨越式发展机遇[22]。我国国家重大专项“ 高分辨率对地观测系统” [23]把实施目标确定为全面提升我国自主获取高分辨率观测数据的能力, 加快我国空间信息应用体系的建设, 推动卫星及应用技术的跨越发展。然而, 国内对地观测系统建立以及对地观测集成标准化建设的严重不足也直接影响了自主遥感卫星数据的开放利用, 存在卫星数据“ 不能用、不好用、不会用、得不到” 等现实问题[24], 迫切需要对多源卫星和航空遥感数据、不同平台卫星遥感数据之间、卫星数据与地面观测数据之间进行整合, 建立完整的卫星应用技术支撑体系。
针对对地观测的重大需求以及前沿科学问题, 结合当今计算机科学与技术领域中大数据应用的最新技术, 本文提出大数据环境下卫星对地观测数据集成系统建立与应用中亟待解决的关键技术。
面临卫星对地面遥感所形成的地球空间海量信息流, 对卫星图像数据、地面观测数据以及仿真模型等多源、异构、不同平台的数据进行有效集成, 建立能反映地面参数时空变化与信息关联的卫星图像知识库, 面向海量卫星数据开发集数据集成、空间查询与知识发现为一体的卫星大数据分析功能, 并进行几何精度纠正和卫星数据质量评价, 最终形成能使用户直接获取有价值信息的分布式高性能的卫星集成数据管理与归档云平台。
提出如图1所示的基于大数据技术的卫星观测数据集成系统总体技术框架。卫星观测数据集成系统包括标准化卫星数据集成元数据管理、几何精度纠正和卫星数据质量评价、海量卫星遥感图像数据分析与知识发现、分布式高性能卫星图像数据管理与归档云平台这些基本功能。在系统建立过程中贯穿运用大数据技术体系(包括大数据存储与管理、大数据计算模式、大数据分析与挖掘), 其中关键实现技术包括大容量异构对地观测数据集成的语义技术、基于网格的遥感图像快速处理技术、卫星遥感大数据深度分析与地学知识发现技术、基于共享知识库的多数据中心协同处理及云平台技术。充分利用国际标准组织ISO/TC211、OGC等一系列卫星数据国际标准计划以及国内标准, 对它们进行扩展与集成, 使得通过建立共同的标准和协议联接全球分布式网络化卫星遥感数据库, 确保卫星数据与服务的兼容性和互用性, 使所有的卫星遥感数据都可以通过网络实现规范化共享与应用。
对卫星图像、地面观测数据、模型模拟结果等异构数据源数据以及不同数据归档系统之间数据进行有效集成, 可建立如图2所示的标准化卫星数据集成元数据模型。基于时空间信息认知模式, 通过语义技术, 将卫星数据、地面观测数据及仿真模型相集成的通用元数据模型与图像元数据模型进行语义集成, 实现对卫星元数据的高效管理。
![]() | 图2 基于语义技术的大容量异构对地观测数据集成Fig.2 Massive heterogeneous Earth observation data integration based on semantic technologies |
从时空间信息的认知机理出发, 建立一种形式化数据结构方式来表达概念的内涵和外延以及概念与概念之间的不同层次的抽象关系, 同时描述时空数据时间、空间概念的形成、时空概念的结构关系。利用形式化的理论和方法, 表达与描述卫星遥感时空数据分析过程中时间、空间概念的形成、时空概念的结构关系, 反映遥感数据的时空特点, 形成统一框架下“ 概念— 关系” 为中心[25]的认知模式与语义模型。
地理定位信息是定义图像数据地理定位的重要信息, 但这些信息在ISO 19115、19115-2中没有得到定义, 而ISO 19130仅支持地理定位和传感器特性。因此, 为了把图像数据运用于地理信息, 并能有效地描述图像元数据, 需要对ISO元数据标准(ISO 19115、19115-2)进行扩展, 并结合ISO图像标准(ISO 19130)中的地理定位信息和传感器特性。在ISO 19115、19115-2和19130的基础上, 开发卫星数据集成通用元数据模型以及图像元数据模型。通过定义元数据元素公共集、元数据的定义和内在的关联以及元数据的扩展, 运用Proté gé 工具对卫星数据的抽象结构和内容进行描述, 并将不同来源的异构数据映射成一种规范化形式的本体数据类型, 构建卫星遥感语义模型。
大容量异构卫星数据的集成, 需要解决卫星数据目录功能复杂性问题, 因此建立标准化卫星数据集成元数据模型, 对卫星遥感、地面观测、仿真模型等异构数据源以及不同数据归档系统之间数据进行有效集成。一个完整的元数据模型可包含多个元数据包[26], 包括主类定义、支撑类定义和描述图像的扩展类定义和特殊类定义。每个元数据包包含一个或多个元数据实体。元数据实体由一系列元数据元素组成。元数据元素可包括3类成分, 即核心元素、特殊类元素和扩展类元素。其中, 核心元素定义每个数据集应该包含的元数据最小集; 扩展类元素则定义描述图像的扩展元数据; 特殊类元素包括专业元素和组织机构专用元素。图像元数据类包括元数据集信息、识别信息、数据质量信息、空间信息表示、参考系统信息、内容信息。
在此基础上, 采用分布式数据管理架构[27], 将元数据分散在多个节点上, 以目录为粒度对元数据进行划分, 并根据集群负载状况建立目录子树, 实现元数据在集群中的合理分布与存储, 解决元数据服务器性能瓶颈问题, 提高可扩展性。
快速生产标准遥感产品需要开发系统具有大吞吐量的、高精度的以及自动化的数据处理能力。海量遥感数据的高效处理及其标准产品的快速生成属于数据密集型的计算工作, 而传统计算模式无法满足这种遥感图像实时快速处理的应用需求, 因此, 需要充分利用庞大的网络计算资源, 通过集群计算、分布式处理等技术来实现网络化大容量数据处理及多机分布式并行处理。基于网格计算模式, 开发基于网格计算的图像处理中间件, 以及影像处理算法和数据质量评价, 可集中实现对海量遥感图像的快速处理及应用。
利用网格技术[28]可以把分散于不同地理位置的计算机集中起来组织成一个虚拟超级计算机, 为完成数据密集型的计算任务提供高吞吐量、高性能的计算环境; 同时充分利用网络上一些闲置资源设备及其处理能力, 完成传统计算模式下难以完成的各种大数据量的计算任务, 保证卫星数据快速处理以及标准产品生成。
根据用户具体任务以及网格计算资源实际情况, 对图像处理任务进行分割管理[29], 并将分割任务及其执行任务所需程序和参数提交给中央管理服务器, 通过中央管理器分发给网格计算资源中各个节点。完成图像处理后, 再将各个计算节点上作业的计算执行结果返回到中央管理节点服务器进行数据合成。在处理过程中, 还需要监控网格平台中计算资源的状况, 包括工作状态、闲置状态以及各节点上作业执行情况等。
由于遥感平台运动、地球自传等因素影响, 卫星遥感对地观测所获得的影像会在几何上产生形变、在灰度上产生衰减。为了能从对地观测数据中精确提取所需地理空间信息, 必须对获取的遥感影像进行影像处理, 因此开发影像处理算法, 包括遥感影像精确几何纠正算法和辐射校正算法, 同时建立卫星数据质量评价体系。
在数据量增大、信息提取精度高等需求下, 从对地观测数据和时空信息中发现地学知识, 需要解决海量遥感数据深度分析的新模式问题。目前, 以Hadoop-MapReduce为代表的非关系数据分析技术, 以其适合非结构化数据处理、大规模并行处理等突出优势, 在海量数据存储与分析应用领域中取得了重大进展, 已成为大数据分析的主流技术。尽管如此, Hadoop在应用性能等方面仍存在问题, 其编程模型处于较低层次。针对不同数据分析任务, 需要开发不同MapReduce程序进行处理, 使系统具有高扩展性大数据分析能力。在进行海量卫星遥感数据深度分析与地学知识发现时, 可建立反映地面参数时空变化信息及其关联的卫星图像数据仓库, 开发基于Hadoop的高扩展性数据分析算法、以及统一框架的时空分析具体任务, 包括聚类、关联、分类、时序分析、不确定性挖掘、以及知识表达与解释。
从应用深度上, 可将遥感大数据分析划分为3个层次空间, 即:①数据空间。在该空间上利用现有数据库管理系统的查询检索功能, 进行基于关键字或字段的信息查询, 实现联机事务处理。②聚合空间。从时空数据集中获取满足空间与时间约束的时空对象集合, 在该空间上利用聚集运算, 并结合多维分析和统计分析, 实现联机分析处理, 以提供决策参考的统计分析。③影响空间。按照相似性的聚类, 发现关联性、相似时序、分类结构以及不确定性知识等。按照这种层次空间建立卫星图像数据仓库, 并从数据仓库中发现隐含的有用信息。
针对大数据计算模式和处理环境, 利用Hadoop[30], 并结合MapReduce编程模型, 可采用一种基于数据本地化计算的数据分析技术[31, 32], 包括数据分布策略和数据挖掘算法两个方面。
数据分布策略将逻辑相关数据聚集存储在相同节点上, 对其特定属性进行哈希操作, 使得属于同一哈希分区的数据以及属于不同数据表但具有相同哈希分区序号的数据能够集中存放在同一节点上。哈希技术将数据表在机群上进行分布, 以分区作为处理单位, 分析算法只需执行Map任务, 进行分析处理并直接完成结果输出, 从而可以避免Reduce操作带来的巨大时间开销, 大幅度提升连接查询与分析处理的效率。
然后在MapReduce上开发增量式模式挖掘快速算法, 针对对地观测系统在时间粒度、空间尺度、语义层次上的时空聚类、时空关联等特征, 通过遥感卫星数据的时空分析, 提取面向不同时空知识类型与形式的高层时空模式, 建立聚类、关联、时序、分类、不确定性等挖掘为一体的统一模式知识发现体系框架, 实现高效的模式分析与挖掘以及知识表达解释。
对地观测活动的最终目标是以满足用户需求为导向, 为不同应用需求的用户提供有价值的卫星数据产品和信息资源。因此, 通过建立分布式多中心计算环境, 实现海量卫星数据分布式存储与共享, 使用户能从不同节点方便地获取所需数据、并能直接获得数据分析与知识发现中有价值信息。实现该目标的关键在于建立共享知识库、多中心协同计算以及分布式高性能的卫星图像数据管理与归档。
通过卫星数据管理中心主节点的一级知识目录(即共享知识库)及操作工具, 从宏观上引导用户使用所发现的信息。同时通过常驻在各个分节点上的二级知识目录, 提供详细信息的线索, 使用户能进一步了解信息, 确定需要获取的信息内容、获取途径和方法, 并支持通过网络传输查询结果。对内部用户, 通过知识目录及操作工具, 既可查询检索其它站点的信息, 也可维护管理自己的知识目录。对外部用户, 通过知识目录及其浏览工具发现信息、概略或详细地了解信息, 并通过适当途径获取信息。同时信息共享知识实施还应包括提供使用卫星数据服务界面的详细描述。
通过构建分布式多中心计算环境, 开发算法实现有效地调度计算资源以及跨异构系统高性能计算, 将独立的或大量松散绑定的数据处理任务动态地分配给闲置计算资源, 实现动态资源调度及任务分配。
遥感信息的应用需要为各类需求用户提供一个基础平台。运用云计算模式[33], 借助云平台先进的基础架构与管理方式, 构建有效的遥感信息公共服务平台, 提供权限管理、遥感图像智能化搜索、图像资源浏览、结果获取、订单处理及反馈等基本功能。
利用高性能处理终端集群[34]可在遥感数据处理中建立云平台来处理卫星遥感数据, 证明云计算模式具有较好的应用潜力。
云平台的构建包括3个不同任务, 即虚拟化、平台搭建以及服务提供[35]。其中, 虚拟化是整个云平台构建的基础, 在此基础上, 平台搭建实现对信息资源以及相应虚拟化资源的调度和管理, 服务提供则将相应信息资源转化为服务。采用虚拟化软件(如Vmware、Virtual PC等)在虚拟服务器和底层硬件之间建立一个抽象层, 然后将卫星遥感相关应用模块迁移到虚拟层上, 不同应用模块共享底层硬件计算和存储资源。在建设时, 服务器、存储设备以及应用程序等通过虚拟化软件整合成统一资源, 动态地给各个应用系统按需分配资源, 实现应用的动态迁移。平台搭建具体包括搭建公共云、业务云、支撑云3个平台, 对相应信息和数据资源等进行整合。其中, 公共云将可供公共使用的数据和信息以及其它相应资源放在该平台上; 业务云为数据中心内部各个业务部门的相互连通而搭建; 支撑云为公众云和业务云的搭建和运行提供资源和技术层面的支持。服务提供使所建云平台向不同的集成系统提供丰富的云端服务。通过分布式高性能卫星遥感信息归档云平台, 为用户提供能进入数据分析、知识查询的专用入口。
本文提出大数据环境下卫星对地观测数据集成系统建立与应用中亟待解决的关键技术, 包括大容量对地观测数据的存储优化技术、基于网格的遥感图像快速处理技术、海量卫星遥感图像数据的深度分析与地学知识发现技术、基于共享知识库的多数据中心协同处理及归档技术。通过这些关键技术建立卫星对地观测数据集成系统, 实现集成卫星图像、地面观测数据和模拟模型的元数据管理、几何精度纠正和卫星数据质量评价、海量卫星图像数据的空间分析与知识发现、分布式高性能卫星图像数据管理和归档系统等基本功能, 能够为解决海量卫星数据分布式存储与计算、数据集成与互操作、空间数据分析与地学知识发现这些问题提供新思路、新技术与新方法。
The authors have declared that no competing interests exist.
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|
[33] |
|
[34] |
|
[35] |
|