面向石油化工领域的语料库建设研究
来源:爱问旅游网
文章编号:1006—3269(2Ol5)01—0029 05 面向石油化工领域的语料库建设研究 肖 莉 ,柳晶晶 (1.中国石化石油工程技术研究院,北京100101;2.北京亿维讯科技有限公司,北京100025) 摘 要: 基于专家内省方法获取领域知识已无法满 guage Processing简称NI P)领域,一直存在两个流 派之争:理性主义和经验主义L4].所谓理性主义,就 足要求,试图发挥内省和统计两种方法的优势,提出包含生 语料级、词汇级、句子级和篇章级4个层级的领域语料库设 计框架,使每一个层级的语料可以独立地进行NI P分析和 服务高一个层级语料.在此设计框架下,建立了大规模的石 是指以生成语言学为基础的方法,依靠语言专家、领 域专家的“内省”、基于规则、自顶向下的方式获取知 识;所谓经验主义,就是指以大规模语料库的分析为 基本方法,依靠真实的语料,基于统计,自底向上的 方式来获取知识. 目前,国内外针对具体领域的语料库建设相对 缺乏,本研究的中石化知识工程项目需要处理大量 油化工领域语料库,为石油化工行业的知识获取和分析提供 基础资源和素材,支撑石化领域知识工程项目的研究与 应用. 关键词:语料库;知识工程;知识获取;自然语言处 理(NI P) 中图分类号:H319 文献标识码:A 的内外部信息文本,仅依靠有限专家的“内省”方式 来获取知识显然不现实,因此拟发挥内省和统计的 优势,将两者结合,通过建立大规模的石油化工领域 语料库,为石油化工行业的知识获取和分析提供基 doi:10.3969/ .issn.1006—3269.2015.01.006 知识经济的时代已经到来,对于知识这一概念, 一种普遍持有但稍有争议的观点认为:数据是没有 础的资源和素材. 加工的数字和事实,信息是被处理过的数据,知识是 经过鉴别的信息 ].微软则给出了更形象的描述: “当前多数智能系统涉及的主要知识基本上可以表 示为一个包含多种不同类型的节点和边的知识图以 1 语料库的国内外发展现状 语料库,可以简单理解为存放语言材料的仓库. 早在上世纪2O年代就出现了传统语料库(计算机化 以前的语料库),这些语料库主要为词典编撰、语法 及图节点之间的关系集合” ].这些不同类型的边 和节点被称为信息.从工程学的角度来看,知识工 程重点关注知识获取与知识表示 j,而作为知识原 始载体的信息文本(或称自然语言文本)是知识获取 的主要来源之一.因此,知识工程需要处理大量的 研究、教学目的或者语言调查等传统语言研究而收 集和整理.1957年,乔姆斯基的《句法理论》及其以 后的一系列论著的发表(生成语言学),开始了理性 主义的时代,语料库的发展剧烈震荡 ].而随着因 特网和大容量存储技术的普及以及计算机处理速度 的提升,大规模真实文本的处理成为可能.1990年 8月在芬兰赫尔辛基举行的第13届国际计算语言 学会议(即COI ING'90)为会前讲座确定的主题是: “处理大规模真实文本的理论、方法和工具”,这说 明,实现大规模真实文本的处理将是自然语言处理 在今后一个相当长时期的战略目标 ],语料库的建 信息文本,从而获得构成知识必不可少的节点和边, 必然涉及到自然语言处理. 自然语言处理(又称计算语言学,Natural I an一 收稿日期:201 4 1l一22 基金项目:国家科技支撑计划资助项目(2012BAH34F04) 作者简介:肖 莉(1 968一),女,四川I江安人,工程硕士,高级工程 师,研究方向为油田石油工程信息化. Group Technology&Production Modernization Vo1.32,No.1,2015 设再一次焕发活力. 本挖掘就是从生语料中抽取知识.由于文本非结构 化,内容繁杂,因此文本挖掘是一项极其困难的工 现代语料库,即计算机化的语料库,除了一些为 传统语言研究目的的语料库外,还出现了为自然语 言处理而基于统计或实例研究,或用于开发特定语 作,常常涉及信息技术、文本分析、模式识别、统计学 和机器学习等多学科.特别是对特定领域的文本挖 掘,不仅要用到文本挖掘技术,更需要挖掘人员具备 领域知识. 2.2语料库建设原则 言分析技术的专用语料库. 目前,国内外建设的语料库大多为通用语料库和 平衡语料库:国外的语料库如UPenn树库(宾州树 库).国内的语料库,诸如北京大学计算语言学研究 所和日本富土通公司合作的《人民日报》标注语料库, 也是我国第一个大型现代汉语标注语料 ];清华大学 的ZW大型通用汉语语料库系统 和TH通用语料 语料库是构建领域本体的基础.语料库中语料 的选取主要遵循3个原则[I。。。 . (1)适应性.从语料库的定义可以看出,语料库 是为一定目的而建立的,因此语料的选取要与建库 的目的相适应.语料库的目的决定了收集语料的范 库系统【 ;北京语言大学的现代汉语语法研究语料 库,清华大学和北京语言大学合作建立的HuaYu人 工标注语料库;微软亚洲研究院的中文分词语料库; 围与规模,决定着建立抽样语料库,还是兼收并蓄的 全面语料库. 山西大学的专有名词标注语料库和分词与词性标注 语料库,等等.这些语料库的一个共同特点是为NI P 分析和统计提供基础支撑,最典型的应用有中文分 (2)代表性.为了保证研究结果的高信度和效 度,语料的选取必须具有代表性.语料库的代表性 取决于在语料库中选进文本的类别、多少以及长 短等. 词、命名实体抽取、专有名词识别和句法分析. 2基于领域信息文本挖掘的语料库建设研究 2.1领域信息文本挖掘 文本挖掘技术是从大量非结构化的文本信息中 获取有用模式或知识的技术,包括信息抽取、信息检 索、自然语言处理和数据挖掘等技术lf .简言之,文 (3)时效性.这个问题涉及语言的历史发展. 因此,研究者需要根据研究的目的适当确定语料库 语料选取的时间跨度并考虑语料库的更新问题. 2.3语料库建设流程 领域语料库建设的设计框架如图l所示.根据 领域的语料特征,该框架可分为4个层次. 篇章级落料分库 l ’ ,——、 ^◇一 句锄 涟I—l篇一髓l一 篇章语料库 句子级语料分麾 —、 潜i[语料库文本 链蜥l。 —l .^ I枇关一I一 句子 裤 ‘ 。 :语料加工) 词汇级谮料分库 ’ 本 标准化蔟生语料 昱摘附录蘸鼗域 : 关键词域 八 一 匪 噩 (., 词汇语料库 1 生语料分库 一 (识别内容) _一 _一 要 文 域 域 摘 正 :一 懒fI—f一码I一 标准化后生语料 -一 _一 图I领域语料库建设整体框架 《成组技术与生产现代化》2OI5年第32卷第1期 [7] 付永领,祁晓野.AMESim系统建模和仿真参考手册[M].北 京:北京航空航天大学出版社,2011. Abstract:Combining the features of a certain type of shield machine,the volumetric speed control technology of thrust hydraulic system of shield tunneling machine with 陈小虎,何庆飞,等.基于AMESim液压元件设计库的 [8] 张宪宇,液压系统建模与仿真研究[J].机床与液压,2012,40(13): 1 72—174. closed loop control is introduced in this paper.Firstly,ac cording to the feedback signal of the hydraulic cylinder,ad— just the output flow of proportional variable pump and the Simulation Analysis of Thrust Hydraulic outlet pressure of proportional decompressing valve to meet the requirements of the velocity and pressure and can be con— tinuously controlled.Then,the simulation model of propor— System of Shield Tunneling Machine with Closed Loop Control tional variable pump,proportional decompressing valve and hydraulic cylinder are established on the AMESim.Finally, XIE Qun ,JIANG Rui—qi , SI Bao—yu。.YANG Chun—yang。 (1.Schoo1 of Mechanical Engineering,Shenyang Ligong University,Shenyang 110159,China;2.Shenyang the simulation result is discussed and analyzed to verify the correctness of the simulation model and the good adaptability and response characteristics of the system,and provides the reference basis for using the shield tunneling machine. Key words:shield tunneling machine;thrust hydraulic Heavy Machine Group Co.,Ltd.Shenyang 1 10025, China;3.Shenyang Machine Tool Group Co.,Ltd. Shenyang 1 10042,China) system;AMESim;modeling and simulation (上接第33页) 参考文献: [1]Maryam Alavi,Dorothy E Leidner.知识管理和知识管理系 Research on Corpus Construction for Petrochemical Industry 统:概念基础和研究课题[J].郑文全,译.管理世界,2012(5): 157—169. [2]史树明.自动和半自动知识提取[J].中国计算机学会通讯, 2o13。9(8):65-73. XIAO I.i ,LIU Jing—jing。 (1.SINOPEC Research Institute of Petroleum Engineering, [3]化柏林.论知识管理与知识工程的差异性及其发展[J].图书 馆杂志,2008,27(11):2-5. Beijing 100101,China;2.Beijing 1wINT INC, Beijing 100025,China) [4]冯志伟.自然语言处理中理性主义和经验主义的利弊得失[J]. 长江学术,2007(2):79—85. Abstract:As a method of expert introspection to obtain domain knowledge,it has been unable to meet the require— E5]冯志伟.计算语言学基础[M].北京:商务印书馆,2001:5-35. [6]俞士汶,段慧明,朱学锋.北京大学现代汉语语料库基本加工 规范[J].中文信息学报,2002,15(5):49—7l_ ments.This paper tries to take advantage of both introspec— tion and statistic method to present a framework of domain corpus,which includes four levels,such as raw corpus level, lexieal level,sentence level and chapter leve1.Every layer of corpus can provide service for the higher and NI P analysis. A large—scale domain corpus in petrochemical field has been established,which can provide material for knowledge acqui— sition and knowledge engineering application. Key words:corpus;knowledge engineering;knowledge [7]罗振声.清华大学zw大型通用汉语语料库的研究FJ].中文 信息,1994(1):10—12. E8]罗振声.清华大学TH大型通用汉语语料库系统的研制[J]. 清华大学学报:哲学社会科学版,1996,11(1):94—98. [9] 梅馨。邢桂芬.文本挖掘技术综述[J].江苏大学学报:自然 科学版,2003,24(5):72—76. [1O]王建新.计算机语料库的建设与应用[M].北京:清华大学出 版社,2005:16,57—64. [11]何放滨,吴尚义.物流英语语料库的建库研究FJ].物流技术, 2009,28(4):157—158,160. acquisition:natura1 language processing ・50・ 《成组技术与生产现代化》2015年第32卷第1期