彝文信息处理自动分词技术的研究现状与难点分析
来源:爱问旅游网
ISSN 1009-3044 E—mail:kfyj@eeee.net.cn http://www.dnzs.net.cn Te1:+86-55 1-5690963 5690964 Computer Knowledge and Technology电脑知识与技术 Vo1.8,No.4,February 2012 彝文信息处理自动分词技术的研究现状与难点分析 王成平 (西南民族大学民族语言文字信息处理实验中心,四川成都610041) 摘要:彝文分词是彝文信息处理领域一项基础性研究课题。文章首先分析了彝文的特点,其次对彝文分词的概念与应用,以及各类 彝文分词算法做了系统的介绍,然后结合彝文的特点分析了实现彝文自动分词所面对的难点所在,指出了彝文分词技术未来的发 展方向。 关键词:彝文;自动分词;分词算法;难点分析;发展方向 中图分类号:TP391.1 文献标识码:A 文章编号:1009—3044(2012)04—0944—03 Status of the Research and Dificulfties in Word Segmentation Technology WANG Cheng——ping (Nationalities Languages Information Processing Expeirment Center,Southwest University for Nationalities,Chengdu 610041,China) Abstract:Yi word automatic segmentation is a basic Yi language information processin research.The article first analyzes the characteristics of Yi language.Second,the concept of word of Yi and application,and a variety of Yi segmentation algorithm has done a systematic intro— duction.Then combined with the characteristics ofYi Yi automatic segmentation tO achieve the diiculfties faced where the word Yi point- ed out the future direction of technology. Key words:Yi language;automatic segmentation;segmentation algorithm;dificultfies analysis;development direction 彝文属于是大字符集,因此,彝文信息处理就增加了大字符集处理和字串到词串处理这两大块任务。彝文信息处理应用系统 只要涉及到检索、机器翻译、文摘、校对等就需要以词为基本单位。彝文信息处理应用系统只要涉及到检索、机器翻译、文摘、校对 等就需要以词为基本单位。然而由于彝文本身的复杂性,使得彝文分词成为了语言分词技术中的一个难点。 1彝文的特点 字形上,彝文大部分是独体字,是不可再分的文字;音节上,彝文是单音节的文字,一个字代表一个音节,也即是一个具有独立 意义的词;语法上,彝语是以词序和虚词为表达语法意义的主要手段。 彝文同汉文一样,每个字的大小基本相同,汉文被称为“方块字”,彝文被称为“石块字”。而且,字与字之间有明显的分界,字与 词或词与词之间也没有明显的界限,不按词分写。此外彝语中的词没有固定或明显的词头、词尾和性、数、格变化等分词标志。彝 文和汉文的这些相同的特点,决定了在彝文信息处理领域彝文同样面临着分词技术问题。 2彝文分词概念与研究方法 2.1彝文分词概念 彝文分词属于自然语言理解技术的范畴,是语义理解的首要环节,是按照特定的规范,将彝文语句中具有确定的语义或语法功 能的词和词组按分词单位进行划分一种技术,它是彝文文本分类、自动标注、信息检索、机器翻译、语音识别与合成等领域的基础。 从信息处理过程来看,可以把彝文自动分词看作是用计算机自动识别彝文文本中的词,并在词与词之间加入明显切分标记的过 程。而从应用需求来看,彝文自动分词的主要目的是确定自然语言处理的基本分析单位,为进一步开展彝文的自动分析进而为实 现机器翻译、篇章理解、自动文摘、文本校对、自动标引等应用处理系统做好前期准备工作。 2.2彝文信息处理自动分词技术研究方法 目前彝文自动分词研究采用的方法归纳起来主要有以下i种类型: 2.2.1机械分词法 主要有最大匹配法、逆向最大匹配法、逐词匹配法、部件词典法、词频统计法、设立标志法、并行分词法、词库划分和联想匹配法 等,如:西南民族大学民族语言文字信息处理实验中心就采用了正向最大匹配法来设计与开发了“基于既定词表的彝文自动分词系 统”,分词正确率达到了85%以上。 收稿日期:2011—12—25 基金项目:国家民委科研项目{4--g息处理用规范彝文分词系统的设计与实现》(09xN07);2010年国家外专项目《信息处理用规范彝 文自动分词系统的设计与实现》(Y一2010—26) 作者简介:王成平(1979一),男(彝族),博士,助理研究员,西南民族大学民族语言文字信息处理实验中心,主要研究方向为民族文字 信息处理、计算语言学。 944 计算机工程应用技术* 本栏目责任编辑:梁书 第8卷第4期(2012年2月) ComputerKnowledgeandTechnology ̄m知识与技术 2.2.2语义分词法 引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹 配法、后缀分词法、特征词库法、约束矩阵法、语法分析法等,如:西南民族大学民族语言文字信息处理实验中心就采用了彝语语法 分析法与综合匹配法来设计与开发了“基于语料特征的彝文自动分词系统”,分词正确率达到了95%以上,也是目前彝文自动分词 技术研究的一个代表。 ’ 2.2.3人工智能法 是对信息进行智能化处理的一种模式,又称理解分词法,主要有两种处理方式:一种是基于心理学的符号处理方法。模拟人脑 的功能,像专家系统。即希望模拟人脑的功能,构造推理网络,经过符号转换,从而可以进行解释性处理。一种是基于生理学的模 拟方法。神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。目前西南民族大学民族语言文字信息处理实验 中心正在研发的“信息处理用彝文智能分词系统”就采用了此方法。 这三种方法又可分为两大类:一类是基于规则的,目前大多数彝文自动分词方法都采用此方法,如:基于既定词表的彝文自动 分词系统;一类是基于语料库的,如:基于语料特征的彝文自动分词系统。基于规则的分词算法的计算模型均是概率论中的马尔可 夫过程又称元语法、隐马尔可夫过程和通信中的信道噪声模型。但无论是马尔可夫过程还是信道噪声模型,最后都归结为计算彝 文词频的统计信息,串频和互信息是词频的另一种表现形式。 3彝文自身的特点与实现自动分词的难点分析 由于彝文文本是由连续的字符组成的,中间没有空格,不像西文那样有明显的分隔符,所以造成了彝文在自动分词上的极大困 难。综观彝文自身的特点与现阶段计算语言学在自动分词上的研究,彝文自动分词研究目前主要存在以下两方面的困难。 3.1语言学上的困难 3.1.1对词的定义的不统一 词是最小的能够独立应用的语言单位,这是语言学界对词的形式定义。而对词的具体界定一直飘忽不定,至今没有一个公认 的、具有权威性的词表。彝文同样存在这个困难:不仅没有统一、严格的非形式定义,对形式或抽象定义都还存在一定的问题。导 致这个困难一方面是单字词与语素之间的划界,另一方面是词与短语(词组)的划界。 如:名词+名词结构的:l豢鲞(花草)、 a(水木)、旺砬(别人 形容词+形容词结构 形容词+名词结构的 名词+形容词结构的 (糟糕),谁8群(精明人),趣眶(令人高兴) 名词+动词结构的: 乖(肚子疼)、囊尊(有神灵)、壤|(骗人) 形容词+否定词结构的:匡 耍亟互三三巫至王亟 动词+补语+否定结构的:匝 墓豆 三三 至 j函 3.1.2彝文分词还没有形成一个公认的分词标准 这样就造成了同一文本可能被不同的人划分为几种不同的结果。 如:臣垂叵亟 亟 (不该争而争,争荞饼熟不熟,争酸汤温不温)’’至少就有四种切分结果: 分词结果一:J掌/国/ /如《 / /国J a/ 国/ 分词结果二: I鱼 堕 垡 鱼 堡笪 亟翌鱼 剑 分词结果三: 国/ IJ/瓯睡 / 嘧/ a/ / 分词结果四: /国/留 /国j刚 / / a/ /酬 此外彝文中有大量 (尔比),即谚语、熟语。其结构紧密,语义完整,但其中的许多字符可以单独切分为词,也可以与其他字 符或字符串组成词,在彝文自动分词上也是一个难点所在。 3.2计算机技术方面的困难 3.2.1彝文自动分词所需的语法知识规则库、语义知识规则还不完善 彝文信息处理,都不是单纯意义上的语言学研究。信息处理用自动分词的研究还广泛涉及到计算机科学、信息科学、数学、自 动化技术、人工智能等多门学科。171前的彝文信息领域,都还没有与之相匹配的、权威公认的分词语法规则。 3.2.2无合理的自然语言形式模型 彝文自动分词技术的研究尚处在起步阶段,没有任何关于彝文语言模型理论或实践的可供参考。 3.2.3未登录词的识别和切分歧义消解 现有的彝文自动分词方法中,基于词表、词典的机械分词方法占有主导地位。而彝文分词的主要困难不在于词典中词条的匹 配,而是在于未登录词语的识别和切分歧义消解。 3.2.3.1未登录词的识别 在彝文分词中的未登录词,最典型的是人名,如:{ 丝ff亘主2: f量 2]未登录词还包括地名、产品名、机构名、商标名、简称略 本栏目责任编辑:梁书 m 计算机工程应用技术 945 Compu ̄r Knowledge and Technology电脑知识与技术 语、网络新词等。 第8卷第4期(2012年2月) 如机构名:I鱼堕坐篁壁塑监塑 塑兰墨 (全国彝语术语标准化委员会);地名:巨 (双流);产品名:匝 (录音笔);简称略语:圃(中 美)等。 无论是专名还是非专名的未登录词都很难处理,因为其数量庞大,又没有相应的规范,而且随着社会生活的变迁,使未登录词 的数量大大增加,这又为未登录词的识别增加了难度,因此,未登录词识别是彝文分词的一大难点。而新词识别准确率已经成为评 价一个分词系统好坏的重要标志之一。目前彝文信息处理对未登录词识别这领域,还没有专项地去做研究,相信随着彝文分词技 术的不断发展后会有新突破。 3.2.3.2切分歧义消解 歧义是指同样的一句话,可能有两种或者更多的切分方法。分词歧义处理之所以是彝文分词的困难之一,原因在于歧义分为 多种类型,针对不同的歧义类型应采取不同的解决方法。同时未登录词中也存在着歧义切分的问题,这也增加了歧义切分的难度。 如:匡亟 五匝至 夏至 互 j壹 耍 系统设计中以后需要不断深入研究的方向。 是词,这个短语就可以切分成巨 五互j匠至五 两 种结果。 所以歧义处理是影响分词系统切分精度的重要因素,如果能处理好消歧的问题,分词的精度也会相应提高,也是彝文自动分词 4结束语 由于在彝语中词与词之间没有明显的切分标志,因此在彝文信息处理中彝文分词这一研究领域应运而生,并成为彝文信息处 理中的基础课题之一。彝文自动分词技术在彝文信息检索、文字识别、机器翻译,语音识别与合成等领域中将有着广泛的应用前 景。本文主要是对现有彝文的各类分词算法做出了系统的介绍,同时结合彝文的特,从语言学和计算机技术两个不同学科角度分 析了实现彝文自动分词的难点所在,为以后信息处理彝文自动分词技术研究工作奠定了一个良好的基础。 参考文献: 【1]冯志伟.计算机中文信息处理【M】.北京:北京出版社,2001:20—145. 【2】沙马拉毅.计算机彝文信息处理【M].北京:电子工业出版社,2000:21—67. [3]陈小荷.现代汉语自动分析[M】.北京:北京语言文化大学出版社,2000:35—80. 『41邓宏涛_中文自动分词系统的设计模型lJJ-计算机与数字工程,2005(4):138—140. [5]孙铁利,刘延吉.中文分词技术的研究现状与困难[J】.信息技术,2009(7):187—189. 【6】周文帅,冯速.汉语分词技术研究现状与应用展望【JJ.山西师范大学学报:自然科学版,2006(3):32—35. [7]代建英.汉语自动分词系统的研究与实现【D】_重庆:重庆大学,2005:30—50. (上接第922页) 系统还可做进一步优化,在整体上向着低功耗,小体积,集成化的方向改进,在模块设计上可以考虑取消单片机,而采用嵌入式 系统芯片的GPIO口直接接传感器,而在WINCE系统中加入相应的驱动程序,直接在应用程序中调用,获得数据,在血压模块上,可 以通过对脉搏波的进一步分析,扩展计算脉率、诊断心率不齐等功能,在血压测量时的加气,放气部分,可进一步扩展为根据被测者 年龄不同而采用不同的速率和控制条件,通过收集足够多的诊断依据,可以不断完善诊断功能,形成一个病人看护专家系统。 参考文献: [1]汪兵,李存斌,陈鹏,等.EVC高级编程及其应用开发[M].北京:中国水利水电出版社,2005. 【2】谭明金.Visual c++图形编程技巧与实例【M】.北京:人民邮电出版社,2002. [3】罗斌.Visual c++编程技巧精选500例[M].北京:水利水电出版社,2005. [4】刘晓风.钡0振式自动血压测量中的一种脉搏波检测方法[J].中国医疗器械,1990,14,(2)73—77. [5]谭小丹,陈亚明,邓亲恺.数字血压计的软件系统研制[J】_中国医学物理学,2000,17(3):150—151. 【6】段晨东.单片机原理及接口技术【M】.北京:清华大学出版社,2008. [7】贺贵明.通信原理概论[M】.武汉:华中科技大学出版社,2000. [8]陈天华.面向对象程序设计与Visual c++6.0教程【M】.北京:清华大学出版社,2006. 本栏目责任编辑:梁书