地球科学进展, 2021, 36(2): 211-220 DOI: 10.11867/j.issn.1001-8166.2021.017

研究简报

基于BiLSTM-CRF的中文地质时间信息抽取

刘文聪,1, 张春菊,1,3, 汪陈1, 张雪英2, 朱月琴4, 焦守涛4, 鲁艳旭2

1.合肥工业大学土木与水利工程学院,安徽 合肥 230009

2.南京师范大学虚拟地理环境教育部重点 实验室,江苏 南京 210023

3.自然资源部城市国土资源监测与仿真重点实验室,广东 深圳 518034

4.中国地质调查局发展研究中心,北京 100037

Geological Time Information Extraction from Chinese Text Based on BiLSTM-CRF

LIU Wencong,1, ZHANG Chunju,1,3, WANG Chen1, ZHANG Xueying2, ZHU Yueqin4, JIAO Shoutao4, LU Yanxu2

1.School of Civil Engineering,Hefei University of Technology,Hefei 230009,China

2.MOE Key Laboratory of Virtual Geographical Environment,Nanjing Normal University,Nanjing 210023,China

3.Key Laboratory of Urban Land Resources Monitoring and Simulation,Shenzhen Guangdong 518034,China

4.Development Research Center,China Geological Survey,Beijing 100037,China

通讯作者: 张春菊(1984-),女,安徽宿州人,副教授,主要从事地理信息智能处理与服务研究. E-mail:zcjtwz@sina.com

收稿日期: 2020-11-04   修回日期: 2021-01-15   网络出版日期: 2021-04-13

基金资助: 自然资源部城市国土资源监测与仿真重点实验室开放基金“面向国土资源信息感知的定性位置空间语义计算”.  KF-2020-05-084
国家自然科学基金项目“‘文本—地图’结合的地理知识图谱构建方法”.  41971337

Corresponding authors: ZHANG Chunju (1984-), female, Suzhou City, Anhui Province, Associate professor. Research areas include the intelligent processing and service of geographic information. E-mail:zcjtwz@sina.com

Received: 2020-11-04   Revised: 2021-01-15   Online: 2021-04-13

作者简介 About authors

刘文聪(1998-),女,安徽合肥人,硕士研究生,主要从事地图制图学与地理信息工程研究.E-mail:2019110618@mail.hfut.edu.cn

LIUWencong(1998-),female,HefeiCity,AnhuiProvince,Associateprofessor.Researchareasincludecartographyandgeographicalinformationengineering.E-mail:2019110618@mail.hfut.edu.cn

摘要

时间信息贯穿于地质现象和事件产生、发展、消亡的整个过程中,反映了地质现象和事件的状态和演变过程。特别是,地质时间表达通常与成矿内在机制和时空演化规律有关。设计并实现了基于深度学习的通用时间和地质时间信息抽取方法。结合地质矿产文本中时间信息的描述特点,将时间信息划分为通用时间信息与地质时间信息两种类型,并对两种时间信息类型进行细分;基于自主研发的“交互式矿产信息标注软件”,采用交叉验证及意见反馈模式构建了地质时间信息语料库;实现了基于双向长短期记忆神经网络—条件随机场(BiLSTM-CRF)的时间信息抽取方法;并与主流的卷积神经网络(CNN)和条件随机场(CRF)模型的抽取结果进行了比较。实验结果表明,基于双向长短期记忆神经网络—条件随机场的时间信息抽取效果最好,对总体时间抽取的F1值达到95.49%,较好地解决了地质文本中时间信息的规范化表达和结构化抽取问题。

关键词: 地质时间 ; 时间抽取 ; 时间信息语料库 ; 条件随机场 ; 双向长短期记忆神经网络

Abstract

Time information runs through the entire process of the creation, development and extinction of geological entities, reflecting the state and evolution of geological entities. In particular, the expression of geological time is usually related to metallogenetic mechanism and space time evolution regularity. This paper designs and implements a universal time and geological time information extraction method based on deep learning methods. Combining the description characteristics of time information in the Chinese text of geological and mineral resources, the time information in geological reports and documentation is divided into two types: universal time information and geological time information, and the two types of time information are subdivided. The self-developed geological time information corpus is constructed using cross-validation and opinion feedback mode. The time information extraction method based on BiLSTM-CRF is realized, and this method is compared with CNN and CRF. The experimental results show that the BiLSTM-CRF model is better than the mainstream model in time information extraction, and the F1-Measure of the overall time extraction reaches 95.49%, which solves the problem of standardized expression and structured extraction of time information in geological text.

Keywords: Geological time ; Temporal extraction ; Geological time information corpus ; Conditional random field ; Bidirectional long short-term memory network

PDF (3519KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘文聪, 张春菊, 汪陈, 张雪英, 朱月琴, 焦守涛, 鲁艳旭. 基于BiLSTM-CRF的中文地质时间信息抽取. 地球科学进展[J], 2021, 36(2): 211-220 DOI:10.11867/j.issn.1001-8166.2021.017

LIU Wencong, ZHANG Chunju, WANG Chen, ZHANG Xueying, ZHU Yueqin, JIAO Shoutao, LU Yanxu. Geological Time Information Extraction from Chinese Text Based on BiLSTM-CRF. Advances in Earth Science[J], 2021, 36(2): 211-220 DOI:10.11867/j.issn.1001-8166.2021.017

1 引 言

大数据时代背景下,数据已经成为最具竞争力的资产。在地质矿产领域,随着理论方法的进步和研究技术的创新,在地质调查、矿产勘查和科研工作中积累了海量无序庞杂但有价值的信息和真实权威的数据,为矿产行业发展提供了前所未有的机遇和挑战。地质大数据包括结构化数据和非结构化数据,结构化数据通常使用数据库存储和管理,已经充分发挥了价值。然而,非结构化数据中包含更具丰富性的碎片化信息,还未得到充分利用与挖掘,具有更大的潜在价值。面对巨量非结构化数据的增长与地质资料中蕴含丰富知识信息未被有效利用之间的矛盾,从地质文本中挖掘未被分析的时空及主题信息已成为目前地质信息科学迫切需要解决的问题1。其中,地质文本中的时间信息是地学现象和事物本身固有的一项基本特征,描述与展示了地质事件发生时间、持续时间及事件发生的频率等信息,贯穿于地质实体产生、发展、消亡的整个过程中,反映了地质现象和事件的状态和演变过程。特别是,地质时间表达通常与成矿内在机制和时空演化规律有关。例如,陈衍景等2通过时间信息,分析出金矿床大规模成矿的时间和构造背景,推理出导致矿集区形成的主导因素。张祺等3结合时间信息和地球化学,分析出金成矿关键控制因素和成矿时空演化规律。因此,从地质文本这类非结构化数据中提取潜在有用的时间信息,跟随时间脉络,能够帮助地质学者科学、合理、高效地从事地质工作,测定矿床成矿时代和矿床资源,为国家政府管理部门提供决策依据。

目前,时间信息抽取研究内容主要包括时间信息标注语料库的构建和时间信息识别两个方面4。英文时间信息标注规范体系成熟,TimeML标注规范已被纳入ISO标准,并且创建了相应英文文本的语料库TimeBank5。SemEval 2010语料库将英文时间表达式分为DATE(日期)、TIME(时刻)、DURATION(时间段)和SET(时间集合)等4种类型6。中文时间信息与英文相比,词语应用灵活,词汇组成复杂,英文表达的时间语料库无法直接迁移到中文的时间表达上。标注语料库是时间信息识别的金本位,而时间分类体系是构建标注语料库的基础7。目前相关学者从自然语言和地理学语言的角度,不断完善对时间信息的分类8,具体包括日历时间、时钟时间、时段时间、段时间、周期时间、相对时间、事件时间和模糊时间等8种时间信息类型9,制定了时间信息标注规范10,并构建了时间信息标注语料库11,解决了通用领域中文文本中非结构化时间信息的规范化表达问题12。针对地质时空大数据多源、海量、多类、多维、多尺度、多时态和多主题的特点13,国内外专家学者对适用于地质领域的时间分类体系进行了初步探索。刘刚等14提出地质时间是一组合对象类的概念,划分成地质时间实体(描述时间、日期、时间段或时间间隔)和地质时间参考(描述时间参考系信息)两类,初步建立了一套地质时间分类体系,但并未完成地质时间信息语料库的构建。张雪英等15在地质实体信息的要素分类体系中将特征要素中的时间要素分为通用时间(按照朝代或纪年法进行细分)和地质时间(参考地质年代进行细分)两类,构建了地质实体信息的标注规范和小规模的语料库。目前在地质领域,地质时间信息分类体系较少,缺乏统一的标注规范和公开的大规模语料库。

在时间信息识别方面,目前相关工作集中于通用时间信息识别,常用方法主要有基于规则和词典的方法16、基于统计学习的方法17和基于深度学习的方法18。基于规则和词典的方法通过构造时间词汇词典,归纳总结时间信息表达的规则进行识别,准确性高,使用简便19。但规则模板由语言学专家手工构造,编制过程耗时且难以涵盖所有的语言现象,可移植性差,对于规则中没有出现的时间信息需要语言学专家重新书写规则。基于统计学习的方法通过分析训练语料,设置合适的上下文特征向量,采用统计模型进行时间信息训练和识别20,如条件随机场模型21。陈婧汶等22基于条件随机场(Conditional Random Fields,CRF)模型,选取适当的特征模板和序列标注集,结合已有的地质词典特征,对地质矿产文本中的时间信息进行提取。但CRF的识别效果依赖于标注语料的质量且需要设定复杂的特征模板,无法有效解决地质领域文本中包含大量的地质专有时间名词及地质领域专有的文本表述方式。基于深度学习模型的地质时间信息识别方法不再需要人工制定特征模板,而是通过有效的学习输入语料的特征以及上下文的表示,来优化最终输出23。主流的深度学习方法有卷积神经网络(Convolutional Neural Networks,CNN)24和双向长短期记忆神经网络(Bidirectional Long Short-Term Memory Network,BiLSTM)25等神经网络模型。其中CNN是最为常用的一种深度学习算法。不需要精确的数学表达式,只要用已知的模式对卷积网络加以训练,网络就具有输入输出对之间的映射能力26。深度学习模型BiLSTM具有良好的序列建模能力,能够有效地学习通用领域及地质领域词语依赖结构及分布。Qiu等27侧重于地学命名实体识别的研究,提出了基于BiLSTM-CRF架构的地学领域命名实体识别模型,对地质历史信息进行提取,其中地质历史信息分为相对时间和绝对年龄两类,覆盖的时间类型较少。然而在地质文本中时间信息的描述表现出复杂多样、分布散乱和领域性强的特点,既包含对通用时间描述,如地质科研工作开展时间、完成矿床详查工作的时间等,也具备地质领域时间的描述,如矿产的年龄值、岩浆侵入时代等,导致识别精度较低28。制定详细合理的时间分类方式,构建大规模的时间信息标注语料库,并设计灵活可扩展的时间信息识别模型和方法,有望提高大量非结构化地质文本的时间信息识别性能。

本文在分析中文文本通用时间信息描述规则和抽取方法特点的基础上,参考地质领域的行业规范,结合地质矿产中时间信息的描述特点,将地质矿产报告和地质科技文献这类文本中出现的时间划分为通用时间与地质时间两种类型,并对两种时间类型进行细分,总结归纳出一套适用于地质矿产领域的时间参考体系;采用交叉验证及意见反馈模式标注了大规模的地质时间信息语料库;基于BiLSTM和CRF构造地质矿产时间信息抽取模型,利用模型对小规模的地质时间信息语料库进行训练,从地质矿产海量文本信息中抽取通用时间和地质时间等关键信息,并与命名实体识别领域主流模型CNN和CRF进行精度比较,发现本文模型在地学领域的优势。以期帮助地质调查部门迅速处理海量地质大数据,挖掘它们背后有价值的丰富信息。

2 时间信息分类

地质矿产文本中的时间信息贯穿于地质体对象演化的整个进程中,反映了地质实体的演化过程及状态。在地质矿产报告和地质科技文献中关于时间的描述表现出复杂多样、分布散乱、领域性强的特点,既有在通用领域上的描述,如地质勘查工作开展的具体时间、物探队发现矿床的时间等。又有在地质领域上的描述,如成岩成矿的年龄值和时代、发生围岩蚀变的时间、成矿时空演化的成矿期和成矿阶段等。因此,需要一个标准化的时间信息分类体系对这些散乱的非结构化数据进行归纳总结,从而制定合理的地质时间信息标注规范,用于机器学习模型对时间信息的自动识别。本文在国内外学者对通用领域时间信息分类研究的基础上,根据地质科技文献中时间信息语义表达的独有特点,对该类文本中通用时间信息的分类进行完善。将通用领域时间信息表达的方法扩展到地质矿产领域,参考地质领域的行业规范,结合地质矿产文本的时间信息描述特点,归纳了地质时间信息的语义特征。总结为通用时间信息及地质时间信息2种类型,结合这两类时间信息呈现出一定的规律性,将通用时间信息分为直接时间短语、间接时间短语和时间介词3类,将地质时间信息划分为地质年代和年龄值2类,总结归纳出一套适用于地质矿产领域的时间信息参考体系。

2.1 通用时间信息

2.1.1 直接时间信息

按照朝代或纪年法进行细分,时间信息描述一般都是由日期等基本的时间元素构成,通常是以“天”为粒度或者其他粒度(世纪、年代、年、月、日等)的时间。由于地质科技文献属于一类比较规范化的文档,严格按照中国地质调查局的编写规范进行撰写,主要由现代汉语常用词汇和地质矿产专业术语组成。因此此类时间信息相对来说比较规范,最小的粒度单位通常到“日”,比如“2020年02月02日”,“20世纪80年代”。

2.1.2 间接时间信息

由于自然语言表达的随意性和模糊性,与直接时间信息相比,间接时间信息也是精确但不完整或隐含的。有3种情况:不完整时间信息。地质学家或者编写工作者在进行时间描述时,出于表达上的连续性,往往在上下文语境中会省略部分信息,导致部分时间表达式不够完整,例如“5月”,这需要参考上下文语境信息才能够将年份信息补充完善。相对时间信息,例如“今年”。段时间信息,例如“10个月”。为了精确定义间接时间信息,可以通过词性、词之间的关联和上下文等信息建立隐式时间表达式并通过统计学习的方法来识别。

2.1.3 时间介词

除年、月、日外还包括一些前缀词(如:自、近、长达、晚于),连接词(如:至、到、-)和后缀词(如:左右、前后、以来、以前、以后)。

2.2 地质时间信息

地质时间是地球科学研究的重要内容,地质时间信息一般为时间词和时间段等时间元素组成,可通过名称、符号、时间范围和别名等方式进行描述29。时间词由单独固定时间词汇表示,如地质年代、年代地层、生物起源或灭绝时间等。时间段表达了时间的间隔长度,如成岩成矿持续时间和造山运动周期等。本文设计的地质时间信息分类体系参考地质领域已有的行业规范进行细分,地质时间信息的描述在用词、词性、语言表达、结构编写等方面都有着自身的特点与特性,与通用时间信息表达有很大差异,但地质时间信息在地质文献的表达中编写规范,用词准确,相对于复杂的通用时间信息类别表达更为清晰。

2.2.1 地质年代

地质年代是地球科学研究中最基本的要素之一30。地质年代是各类地质事件发生时代,分为相对年代和绝对年龄(同位素年龄)31。通过地质年代信息,能够很好地反映出地质体的时空演化规律。本文对地质年代时间划分主要依据为中国地质年代表和国际地质年代表,其中地质年代单位包括宙(eon)、代(era)、纪(period)、世(epoch)、期(age)、时(chron)。在地质时间划分时,为避免混淆,对中国地质年代与中国年代地层进行区分,中国年代地层32指在特定地质时间间隔内形成的岩石体,其顶底界线都是以等时面为界的33,地层表述单位包括宇、界、系、统、阶、带。

2.2.2 年龄值

地质科技文献中针对矿产资源形成时间的描述方式比较丰富,通过同位素测年法,测定具体的成矿成岩年龄,揭示成矿内在机制。但测定出的同位素年龄值尺度具有较大差异,大多以百万年(Ma)、小部分用亿万年(Ga)为基本单位,用具体的数值进行表示。例如“160 Ma”、“1.8~0.6 Ga”。表1为地质矿产领域的时间信息参考体系。

表1   地质矿产领域的时间信息参考体系

Table 1  Time information reference system in the field of geology and mineral resources

大类二级类三级类样例

时间

信息

通用时间纪年时间世纪、年代、年、季度、月、旬、星期、日、节日、节气
不完整时间5月
相对时间今年、去年
段时间六七年、10个月
时间介词(适用于通用时间和地质时间)前缀词自、近、长达、晚于
连接词至、到、-
后缀词左右、前后、以来、以前、以后
地质时间地质年代宙、代、纪、世、期、时
年龄值Ma、Ga

新窗口打开| 下载CSV


3 时间信息抽取

本文在命名实体识别领域主流的机器学习模型CRF基础上,联合具有代表性的深度学习模型BiLSTM进行时间信息的抽取。时间信息抽取流程如图1所示,根据时间信息分类体系进行地质时间信息语料库的构建,通过对标注时间信息的语料库的学习,训练机器学习模型,并基于训练后的模型实现时间信息的抽取。本文采取的方法可以充分利用语料库中己标注的上下文信息,获得较高的召回率,在覆盖范围和鲁棒性方面都表现出较好性能。

图1

图1   时间信息抽取流程

Fig.1   Time information extraction process


3.1 地质时间信息语料库构建

不同层次的标注语料库是文本中地质语义信息抽取的必备资源,为其提供标准化的训练和测试数据。传统人工标注方式存在错误率高、重复工作量大等缺点。为了提高地质信息标注语料构建的效率和准确性,同时符合信息共享与交换要求,满足信息解析模型的数据格式需求,需要根据时间信息的分类体系,构建通用时间和地质时间信息的语料库。

本文在中国知网上检索,并下载《地质科学》《矿产与地质》《地质找矿论从》和《地矿测绘》等矿产类期刊中的文章,随机选取其中300篇地质矿产论文作为数据源。由于这些收集的地质论文都是以PDF格式存储,在进行实验过程中首先需要对文献中内容进行清洗,将PDF格式转换成txt文本格式数据(约97万字),剔除其中的图件信息和表格信息等。使用本研究团队自主研发的“交互式矿产信息标注软件”(软著登字第5448333号)对文本中的时间信息进行词性标注。该软件可将时间信息以句子作为基本单元降低地质论文文本抽取的难度,提高地质论文语义解析的性能。通用时间信息和地质时间信息分别采用“TIME”和“SJ”的标签,数据的每一行由一个字及其对应的标注组成,句子之间用一个空行隔开。用B、I、O格式规范对时间信息进行标注,B-TIME表示通用时间信息词首,I-TIME表示通用时间信息词中或词尾,B-SJ表示地质时间信息词首,I-SJ表示地质时间信息词中或词尾,O表示其他词。输出时得到时间信息标注成果一份,存储在txt格式的文件中。交互式矿产信息标注软件界面和标注结果样例如图2图3所示。

图2

图2   交互式矿产信息标注软件界面

Fig.2   Interface of interactive mineral information labeling software


图3

图3   地质时间信息标注结果样例

Fig.3   Sample of geological time information marking results


为了能够保证标注体系的鲁棒性及普适性,最大程度地降低标注者知识储备和理解能力对标注体系与标注规范的影响,在实际标注过程中采用交叉验证及意见反馈模式对语料库进行标注。对标注过程中形成的认知差异与特殊问题进行意见及时迭代反馈,并与领域专家学者交流讨论,不断对标注体系与标注规范进行迭代反馈与修正。采用多次、多人校验的标注方法,由同一名标注者在标注完成后对其标注成果进行检验修改,由多名标注者对同一份标注成果进行检验修改,避免漏标、错标情况。构建的语料库中包含通用时间信息284条,地质时间信息3 287条。

3.2 基于BiLSTM-CRF的时间信息抽取

长短期记忆网络(Long Short-Term Memory,LSTM)是具备长短时记忆单元的循环神经网络,可以有效地基于句子的上下文进行特征学习,控制上文信息对当前输出的影响,被广泛地应用于文本序列建模任务中34。单向的LSTM神经网络模型,只能获取句子的上文信息,对于句子的下文信息无法获取。BiLSTM使用双向结构完成的对句子内部信息的考虑,它是由前向LSTM与后向LSTM构成的新的递归神经网络,这样网络结构就可以获取地质文本的上下文信息,提取描述地质时间的文本信息。CRF是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型35,可以为BiLSTM的输出结果添加约束,来保证输出结果的最优序列,在训练过程中,这些约束可以通过CRF自动学习获得。BiLSTM-CRF模型为基于字符的序列标注模型,主要可分为3部分:输入特征层、BiLSTM中间层和CRF输出层。基于BiLSTM-CRF进行时间抽取时先将地质时间语料库中语料按7∶2∶1的比例随机划分为训练集(train)、测试集(test)和验证集(dev),进行文本预处理,转化成模型可识别的数据格式。本文用word2vec训练词向量,word2vec是Google于2012年发布的词向量工具,该工具能够快速地获取文本特征,并生成高质量的词向量。词向量输入到BiLSTM层,输出信息为每句话每个标签的预测分数,将它的输出信息在最后一层输出叠加形成CRF层的输入,利用CRF层对标签顺序的约束,保证标签的合理性,来做模型最后对标签的预测。

4 实验与分析

CRF使用CRF++0.58(https://taku910.github.io/crfpp/#tips),BiLSTM-CRF使用ChineseNER(https://github.com/zjy-ucas/ChineseNER),CNN使用dilated-cnn-ner(https://github.com/iesl/dilated-cnn-ner)。通过准确率(Precision,P)、召回率(Recall,R)和综合指标F1值(F1-Measure),对于测试集中模型抽取出的通用时间信息和地质时间信息,计算其与人工标注文本中正确要素信息之间的准确率、召回率以及F1值。

P=×100%
R=×100%
F1=2×P×RP+R×100%

4.1 基于BiLSTM-CRF的时间信息抽取结果

基于BiLSTM-CRF的时间信息抽取结果示例如表2所示,抽取实验结果如表3所示。从结果可以看出,基于BiLSTM-CRF的地质矿产实体抽取效果较为乐观,对通用时间信息和地质时间信息两类的总体时间信息抽取准确率达94.82%,召回率达96.18%,F1值达95.49%,由于地质矿产文本的描述特点,造成语料库中通用时间信息与地质时间信息在数量上有一定差距,通用时间信息的数量较少,构成该类型在字符组合上比较规范,用“年”“月”等描述,通用时间信息识别效果优于地质时间信息;地质时间信息的数量较多,存在时间概念边界不确定问题,如(90±1) Ma。模型可能对边界信息抽取不完整,界限不明确影响抽取的效果。

表2   基于BiLSTM-CRF的时间信息抽取结果示例

Table 2  Example of time information extraction results based on BiLSTM-CRF

原文通用时间信息地质时间信息
20世纪60年代以前,以寻找“玲珑式”石英脉型金矿为主,自60年代末山东省第六地质队发现“焦家式”金矿以后,该区的金矿找矿取得了巨大突破,先后在招掖、牟乳2个成矿带发现了几十处大型金矿床。90年代以后,找矿步伐明显变缓['TIME 20世纪60年代以前','TIME 自60年代末', 'TIME 90年代以后']
按1989年1∶20万碧口幅区测资料,前震旦纪基底岩系主要为白云岩、灰岩、硅质岩、板岩及绿片岩相、具复理石特征的变火山岩—碎屑岩系,出露厚达16 000 m['TIME 1989年']['SJ 前震旦纪']
胶东金矿区脉岩和金矿蚀变岩的年龄为90~130 Ma。区内花岗岩极为发育,但与成矿有关的主要是燕山期花岗岩。矿区外围还出露中石炭世闪长斑岩、长石斑岩和煌斑岩等岩脉['SJ 90~130 Ma', 'SJ 燕山期', 'SJ 中石炭世']

新窗口打开| 下载CSV


表3   基于BiLSTM-CRF的地质时间抽取实验结果

Table 3  Experimental results of geological time extraction based on BiLSTM-CRF

模型信息类别准确率P/%召回率R/%F1值/%
BiLSTM-CRF通用时间95.4597.6796.55
地质时间94.7796.0795.42
总体时间94.8296.1895.49

新窗口打开| 下载CSV


4.2 模型评测

目前在地质领域缺乏公开的地质时间信息语料库,模型进行训练的语料库难以统一。为验证本文构建的时间信息分类体系的合理性和语料库的完备性,同时为验证在同一语料下不同模型间的识别能力。甄选了在时间信息识别性能方面,表现较好的统计学习模型CRF和最为常用的深度学习模型CNN,与BiLSTM-CRF模型进行比较。3个模型使用相同的训练集和测试集,训练集中含通用时间信息186条,地质时间信息2 080条。测试集中含通用时间信息43条,地质时间信息585条。BiLSTM-CRF模型和CNN模型使用相同的验证集,使用的验证集中含有通用时间信息32条,地质时间信息314条,对相同的测试集中时间信息进行识别,模型识别效果如表4所示。模型通过学习语料库训练集上的数据,识别出的时间信息与测试集中标注的时间信息数量较为一致,时间信息分类体系基本涵盖了地质中文文本中的时间信息类型,验证了时间信息分类体系和语料库构建的可行性。

表4   识别效果

Table 4  Recognition effect

模型通用时间 信息识别地质时间 信息识别识别时间 信息总数
CRF41581622
CNN45594639
BiLSTM-CRF44593637

新窗口打开| 下载CSV


基于不同模型的时间信息抽取实验结果如表5所示。本文使用的基于BiLSTM-CRF的中文时间信息识别模型性能优异,增加了BiLSTM层后,抽取的准确率、召回率和F1值较CRF都有显著提升(P提升3.18%,R提升5.42%,F1提升4.29%);CNN模型识别效果优于CRF,略低于BiLSTM-CRF。BiLSTM-CRF模型在3种模型上的识别最优,实验结果验证了针对地质领域时间信息的文本描述具有领域性特征,基于BiLSTM和CRF集成的中文时间信息识别模型是可行有效的,较好地适应了中文文本中通用时间信息和地质时间信息识别的需求。

表5   基于不同模型的时间信息抽取实验结果

Table 5  Experimental results of time information extraction based on different models

模型准确率P/%召回率R/%F1值/%
CRF91.6490.7691.20
CNN94.2895.7395.00
BILSTM-CRF94.8296.1895.49

新窗口打开| 下载CSV


5 结 论

本文结合地质科技文献中时间信息描述的特点,对通用时间信息和地质时间信息分类进行了扩展与完善,并构建地质时间信息语料库,实现了基于BiLSTM-CRF的时间信息抽取方法,将时间抽取问题转化为序列标注问题,为给定的输入句子搜索最佳标记序列。按7∶2∶1的比例划分语料,通过监督学习的方法对语料进行训练。并在同一语料下与CNN和CRF比较时间信息抽取精度。解决了文本数据中地质时间信息的规范化、结构化处理问题。从上文实验的结果来看,结合通用领域时间信息与地质矿产领域时间信息语料构建基于深度学习的地质时间抽取模型,对地质科技文献文本进行时间信息抽取取得了较好的效果,验证了本文构建的时间信息分类体系的合理性和语料库的完备性。验证了在同一语料下BiLSTM-CRF模型的识别效果最好,模型在通用时间信息和地质时间信息抽取F1值分别达到96.55%和95.42%,不仅有效识别此类文本中的基本时间单元,并有助于正确理解该文本的含义。后续可围绕挖掘地质时间的各种有效特征、优化时间抽取模型、应用到地质领域其他命名实体抽取和其他领域时间抽取等方面开展工作。

参考文献

ZHOU YongzhangCHEN ShuoZHANG Qiet al.

Advances and prospects of big data and mathematical geoscience

[J]. Acta Petrologica Sinica,2018342):255-263.

[本文引用: 1]

周永章陈烁张旗.

大数据与数学地球科学研究进展——大数据与数学地球科学专题代序

[J].岩石学报,2018342):255-263.

[本文引用: 1]

CHEN YanjingPIRAJNO FLAI Yonget al.

Metallogenic time and tectonic setting of the Jiaodong gold province

[J]. Acta Petrologica Sinica, 2004204):907-920.

[本文引用: 1]

陈衍景PIRAJNO Franco赖勇.

胶东矿集区大规模成矿时间和构造环境

[J].岩石学报, 2004204):907-920.

[本文引用: 1]

ZHANG QiXUE ChunjiZHAO Xiaoboet al.

Geology, geochemistry and metallogenic epoch of the Katebasu large-sized gold deposit, Western Tianshan Mountains, Xinjiang

[J].Geology in China, 2015423):411-437.

[本文引用: 1]

张祺薛春纪赵晓波.

新疆西天山卡特巴阿苏大型金矿床地质地球化学和成岩成矿年代

[J].中国地质, 2015423):411-437.

[本文引用: 1]

ZHANG XueyingZHANG ChunjuWU Mingguanget al.

Spatiotemporal features based geographical knowledge graph construction

[J]. Scientia Sinica(Informationis), 2020507):1 019-1 032.

[本文引用: 1]

张雪英张春菊吴明光.

顾及时空特征的地理知识图谱构建方法

[J].中国科学:信息科学, 2020507):1 019-1 032.

[本文引用: 1]

LI LubiaoZHANG YinshengWANG Huilin.

Application of TimeML in the text time relation resolution

[J]. China Science & Technology Resources Review, 2014465):95-103.

[本文引用: 1]

李路标张寅生王惠临.

TimeML在文本时间关系解析中的应用

[J]. 中国科技资源导刊, 2014465):95-103.

[本文引用: 1]

VERHAGEN MSAURÍ RCASELLI Tet al.

SemEval-2010 task 13: TempEval-2

[C]∥Proceedings of the 5th International Workshop on Semantic Evaluation.Uppsala,Sweden201057-62

[本文引用: 1]

ZHANG Chunju.

Interpretation of event spatio-temporal and attribute information in chinese text

[J]. Acta Geodaetica et Cartographica Sinica, 2015445):590.

[本文引用: 1]

张春菊.

面向中文文本的事件时空与属性信息解析方法研究

[J].测绘学报, 2015445):590.

[本文引用: 1]

WU Qiong.

Research on automatic recognition of chinese time expression

[D]. DalianDalian University of Technology2015.

[本文引用: 1]

吴琼.

中文时间表达式自动识别的研究

[D].大连大连理工大学2015.

[本文引用: 1]

SONG GuominZHANG SanqiangJIA Fenliet al.

Temporal information extraction and normalization method in chinese texts

[J]. Journal of Geomatics Science and Technology, 2019365):538-544.

[本文引用: 1]

宋国民张三强贾奋励.

中文文本中时间信息抽取及规范化方法

[J].测绘科学技术学报, 2019365):538-544.

[本文引用: 1]

MA LeileiLI HongweiWEI Yonget al.

Chinese text temporal expression recognition and normalization method based on rules

[J]. Journal of Information Engineering University, 2017185):560-565.

[本文引用: 1]

马雷雷李宏伟魏勇.

基于规则的中文文本时间表达式识别和规范化方法

[J].信息工程大学学报, 2017185):560-565.

[本文引用: 1]

ZHANG ChunjuZHANG XueyingLI Minget al.

Interpretation of temporal information in chinese text

[J]. Geography and Geo-Information Science, 2014306):1-7.

[本文引用: 1]

张春菊张雪英李明.

中文文本中时间信息解析方法

[J].地理与地理信息科学, 2014306):1-7.

[本文引用: 1]

YAN ZifeiJI Donghong.

Exploration of chinese temporal information extraction based on CRF and semi-supervised learning

[J]. Computer Engineering and Design, 2015366):1 642-1 646.

[本文引用: 1]

闫紫飞姬东鸿.

基于CRF和半监督学习的中文时间信息抽取

[J].计算机工程与设计, 2015366):1 642-1 646.

[本文引用: 1]

QUE Xiang.

Geological spatiotemporal data model for dynamic process simulating and real-time expression

[D]. WuhanChina University of Geosciences2015.

[本文引用: 1]

阙翔.

面向动态过程模拟和实时表达的地质时空数据模型研究

[D].武汉中国地质大学2015.

[本文引用: 1]

LIU GangWU ChonglongHE Zhenwenet al.

Data model for geological spatiotemporal big data expression and storage management

[J]. Bulletin of Geological Science and Technology, 2020391):164-174.

[本文引用: 1]

刘刚吴冲龙何珍文.

面向地质时空大数据表达与存储管理的数据模型研究

[J].地质科技通报, 2020391):164-174.

[本文引用: 1]

ZHANG XueyingYE PengWANG Shuet al.

Geological entity recognition method based on Deep Belief Networks

[J]. Acta Petrologica Sinica, 2018342):343-351.

[本文引用: 1]

张雪英叶鹏王曙.

基于深度信念网络的地质实体识别方法

[J].岩石学报, 2018342):343-351.

[本文引用: 1]

JONES C BPURVES R S.

Geographical information retrieval

[J]. International Journal of Geographical Information Science, 2008223):219-228.

[本文引用: 1]

LIU Z JTANG B ZWANG X Let al.

CMedTEX: A rule-based temporal expression extraction and normalization system for chinese clinical notes

[C]. AMIA Annual Symposium Proceedings2016818-826.

[本文引用: 1]

LIU ShuaishiCHENG XiGUO Wenyanet al.

Progress report on new research in deep learning

[J]. CAAI Transactions on Intelligent Systems, 2016115):567-577.

[本文引用: 1]

刘帅师程曦郭文燕.

深度学习方法研究新进展

[J].智能系统学报, 2016115):567-577.

[本文引用: 1]

LE XiaoqiuYANG ChongjunYU Wenyang.

Spatial concept extraction based on spatial semantic role in natural language

[J].Geomatics and Information Science of Wuhan University, 20053012):1 100-1 103.

[本文引用: 1]

乐小虬杨崇俊于文洋.

基于空间语义角色的自然语言空间概念提取

[J].武汉大学学报:信息科学版, 20053012):1 100-1 103.

[本文引用: 1]

YANG JinfengYU QiubinGUAN Yiet al.

An overview of research on electronic medical record oriented named entity recognition and entity relation extraction

[J]. Acta Automatica Sinica, 2014408):1 537-1 562.

[本文引用: 1]

杨锦锋于秋滨关毅.

电子病历命名实体识别和实体关系抽取研究综述

[J].自动化学报, 2014408):1 537-1 562.

[本文引用: 1]

LAFFERTY J DMCCALLUM APEREIRA F.

Condictional random fields: Probabilistic models for segmenting and labeling sequence data

[J]. International Conference on Machine Learning, 200132):282-289.

[本文引用: 1]

CHEN JingwenCHEN JianguoWANG Chengbinet al.

Research on segmentation of geological mineral text using conditional random fields

[J]. China Mining Magazine, 2018279):907-922.

[本文引用: 1]

陈婧汶陈建国王成彬.

基于条件随机场的地质矿产文本分词研究

[J].中国矿业, 2018279):907-922.

[本文引用: 1]

ZHOU YongzhangLI PeixingWANG Shugonget al.

Research progress on big data and intelligent modelling of mineral deposits

[J]. Bulletin of Mineralogy, Petrology and Geochemistry,2017362):327-331344.

[本文引用: 1]

周永章黎培兴王树功.

矿床大数据及智能矿床模型研究背景与进展

[J].矿物岩石地球化学通报,2017362):327-331344.

[本文引用: 1]

/