《西藏科技 ̄2o12年2期(总第227期) 信息技术 藏文分词系统中紧缩格识别和 藏字复原的算法研究 巴桑杰布 羊毛卓玛 欧珠 (西藏大学工学院,西藏拉萨850000) 摘要:基于词典的藏文自动分词系统中,紧缩格的识别较大程度上影响着切分效果。本文针对紧缩格 的语法特点,在才智杰老师提出的利用紧缩格的添接规则还原藏文原文的还原法基础上,提出了识别末 尾添接的字符“ ”是否为再后加字,以提高识别紧缩格“翎’’的准确率;提出了切分紧缩格“禽 -聋 ’’后 将对黏附紧缩格的藏字进行复原的算法,以避免切分中造成切分错误现象,提高了切分准确率。 关键词:识别 紧缩格藏文复原算法 l 引言 藏语词从总体上分为实词和虚词两大类。藏语实 词可单独使用,且含有具体的词汇意义,包括名词、代 词、动词、形容词和数词等;虚词不能单独使用,只能附 着于各类实词后面,起语法作用或表示某种逻辑关系, 2紧缩格识别 紧缩格直接添接在前一音节后加字位置上,而后 加字中也有同紧缩格一样的“ ”、“ ”两个字符,容易 发生混淆,我们将其称之为特殊紧缩格;其余的“茂 R ’四个紧缩格,则其构件数目为二(基本集中),与 包括格助词、关联词等。传统藏文文法一向把所有虚 词按有无变体形式分为“不自由虚词”( )和“自由虚词”( ‘ 后加字在字符数量上就根本不同,不易混淆,因此,我 们将其称之为一般紧缩格。 2.1 特殊紧缩格的识别 ’ )两大类。不自由虚 词指的就是有三个以上不同变体,添接法受前一音节 后加字(毒 )限定制约的一类虚词。自由虚词指 的是与“不自由虚词”相对而言没有变体的单一形式 的一类虚词,使用这类虚词时不受前面音节的语音限 在藏文中,后加字无严格的语法规则,十个后加字 的构字能力极强,可以在所有基字后随意添接,其口诀 为“ 响茂 ’ ”。如同上述,“ ”、“ 出现在 后加字位置上时,我们无法直接判断它是后加字还是 制,所有后加字后面能够自由运用。 藏语中的紧缩格,主要由属格助词(姻 )茂、作 格助词( )“磕 ”的“ 省略后的列、位格助词( )Q 、离合词( )c4 ̄,I、终结词 ) 、饰集词( 紧缩格,但在语法意义上却完全不同,后加字是字的语 法范畴,而紧缩格是词的语法范畴,在传统藏文文法中 不可能相提并论,所以,识别特殊紧缩格的问题,可以 归结为现代计算机信息处理领域的新问题。任何词库 都不可能包揽全部词条,因此,基于词典的分词系统 中,识别紧缩格时一定存在识别错误,为了进一步减小 误差,本文以才智杰老师提出的还原法为基础,针对紧 缩格“ ”的识别进行了改进,其中心思想为:首先截取 “ ”结尾的藏字,根据再后加字“ ”的识别算法对其进 行判断,确定不是再后加字后利用还原法识别。具体 算法如下: ( 日 ) 等六个格助词(虚词)组成,这些紧缩格可 以直接黏附于后加字“R”或无后加字的单音节词后, 形成一个新的单音节词(无音节符)。例如:属格助词 “茂”(的)黏附于“ ”(我)形成“< ”(我的)。虽然这 些紧缩格与前一音节字共同构成一个新的音节字 (词),但从语法结构上来看这些格助词应和本体词分 离,分词结果为“ 茂”(我/属格助词)。由于紧缩格的 添接受前一音节后加字的限定制约,即其属于不自由 读字符串; 分块; S=块字符; 73 虚词,在本文中利用这一规则,设计和改进了识别算 法 信息技术 S1_n-S的尾字符; If(S1:=“ ”且S在词库中不存在) 《西藏科技))2o12年2期(总第227期) {Str30=‘ : ”;Str31:“ q ”;Str32: q因 “ 毒函 函 ”;Str33=“二2 Str34=”丌1 r日玎1 司 UJ {s2=S的最后音节字//取最后一个藏字(以音节 为单位) If(S2的尾字符为非再后加字)//是否再后加字 的判断算法见后 { S3=S—S1;//去S的尾字符 6击乓 冈 目 ”; Ch=S末尾第三字符;//从右起第三个字符 If(ch是Str30的成员)return1;//…+元音+后+ 再后 Else:swich(S的长度){//末尾第三个字符为非元 If(S3在词库中存在)returnl; elseif(S3+“R”在词库中存在)returnl;//添接后 加字“q” Else:returnO; } Else:returnO;//是再后加字则无需切分“ ” 实例说明:以“叩习1 ”(看见了)为例,块字符 “ 习1 ”(看)由“ ”结尾,通过再后加字的判断算法可 知“ ”为再后加字,故将切分为“甲玎1 1,,;若未 改进,且假设词库中有“ 日1”(豹子)这个词,而没有 “ ”,则将切分为“ 日1 q 1”,显然存在切 分错误。此类词语藏文中较多,如:“ ”(习俗、规 则)和“ ”(羊)、“ ”(扫)和“ ”(手)、“ ” (胖)和“ 目1”(射、打)、“ ”(心)和“ ”(见到、碰 到)、“ ”(雪)和“ ”(什么)等等。一般词库设计 中考虑到库的大小,往往排除单音节词,因此,在使用 还原法前进行再后加字的判断是有必要的。 2.2再后加字“”的识别算法 基于信息技术藏文编码字符集(基本集)的识别 再后加字“ ”的算法如下: 读入字符串; 分块; Strl=块字符; S=块末尾音节字;//取最后一个藏字(以音节为 单位) S1=S末尾字符;//最后一个字符 S2=s末尾第二字符;//从右起第二个字符 Str2=“日1 q ”;//藏字中可添接再后加字“ ” 的后加字集合 If(S1==“ ”且s2是Str2的成员)//“ ”结尾, 且末尾第二字符为“日1 q ”中的一个 { Ifstrl的长度>=3//藏文中三个或以上字符时才 可能出现再后加字 74 音时 Case3:{If(ch是Str34的成员)return1;//基+后 +再后 Else:return0;break:} Case4:{If(eh是Str33的成员))returnl;//基+下 +后+再后 elseif(eh是Str32的成员)return1;//上+基+后 +再后 elseif(eh是Str34的成员)returnl;//前+基+后 +再后 Else:return0;break;} Case5:{if(ch是Str33的成员)returnl;//上(前) +基+下+后+再后 elseif(ch是Str32的成员)returnl;//前+上+基 +后+再后 Else:return0;break;} Case6:{returnl;break;}//前+上+基+下+后 +再后 }. Else:return0;//长度小于三时不可能为再后加字 I 实例说明:以“亘习1 玎1 ‘ ”为例,块字符串“亘习1 ”的 结尾由“ ”构成,末尾第二个字符“日]”属于 “ q ”,且长度大于3,判断得知第三个字符属于 元音,可以断定“ ”为再后加字,故返回1;同样以 “ 磊日 ”为例,块字符“ ”与词库匹配成功, 而“q豳 ”由“ ”结尾,末尾第二个字符“日”也属于 “ 司 ”,末尾第三个字符“磊”属于基字(Str34的 成员),且串长为4,就可断定其结构是“前加字+基字 +后加字+再后加字”,即“ ”只能为后加字,返回0。 这里要说明,并不是所有末尾第一、二、三分别属于再 后加字、后加字、基字,长度为4的都是“前加字+基 字+后加字+再后加字”结构,要知道此时的末尾第 三个是纯基字(Str34的成员),而与纯基字在编码意义 完全相同关系的只有前加字和上加字,显然串长为4 《西藏科技))2012年2期(总第227期) 的不可能为“前加字+上加字+后加字+再后加字” 结构,因为不符合字性组织规则的,所以只能是“前加 字+基字+后加字+再后加字”结构。 本文算法能够解决孙媛等提出的《藏语自动分词 方案的设计》中未处理的第一问题,能够准确切分紧 缩格,并解决了“ 日 ”错误地切分成“ 日/ ”的问题。 2.3一般紧缩格的识别 一般紧缩格的识别算法,也是对还原法进行改进 而得出的,其中心思想是:首先将字符串按紧缩格分 块,并切分紧缩格,再通过切分紧缩格后的藏字复原算 法(见后)进行复原(即确定是否添接“ ”),并与词库 进行匹配。具体算法如下: 读入字符串; 分块; Strl=块字符; S=块末尾藏字;//此时根据音节符取最后藏字, 而非藏字符; S1=S末尾的两个藏字符; If(S1=:“ 或“R<”或“ ”或“ ”)//确定Sl 为一般紧缩格 S2=S S1;//从末尾藏字中切分紧缩格 If(s2满足添接“R”的条件)s2=s2+”R”;//见 切分紧缩格后的藏字复原算法(后) Str2:Strl—S+S2;//块字符中的末尾藏字由S2 替代 If(Str2在词库中存在)returnl; Else:retumO; } 实例说明:以“茸 珂a 玎1可 ”为例,读入后将分成 “封习1 娥”和“ 可 ”两个块,切分“ 后的剩余字符串 “ ”通过紧缩格切分后的藏字复原算法(见后)进行判 断,得知不满足添接后加字“R”的条件,而字符块 “茑习1 ”与词库匹配成功,字符串“习1 因”是单音节,故 切分为“茸 w 可 1;又以“ 茂 ’ 1”为例,同 样进行分块、切分紧缩格,并通过复原藏字算法判断得 知末尾剩余藏字“ ”满足添接“ ”的条件,添接后的 块字符“ 酬 ”与词库匹配成功,而另一块字符“ ”也与词库匹配成功,故将其切分为“ 司 因 1,,。 切分紧缩格后的藏字,无论与词库匹配成功与否, 都必须复原为添接紧缩格前的藏字,否则会造成切分 错误,甚至的可能会造成的拼写错误,所以,此算法的 信息技术 研究在分词系统中提高切分准确率方面具有一定的帮 助。 3切分紧缩格后的藏字复原 既然紧缩格有时直接替代后加字“q”,那么当切 分紧缩格时就要考虑如何复原的问题。实际上,只要 是添接了紧缩格,分词中的切分紧缩格,且必须复原添 接前的藏字,而不是试探性地切分这些紧缩格后的藏 字(词)能否与词库匹配,因为,词库毕竟不能包揽全 部词条。由语法规定,后加字“ ”只添接在“前加字+ 基字”(只有两个字符)结构中,其他情况下均可省略, 其口诀为“ ‘j n 目 1 1 习1 ’司 玎1 习1 1”,意思是纯基字带前加字时需加后加字“ ”, 基字带元音、上加字、下加字时则要省略。根据以上规 则,提出复原后加字“ ”的算法如下: Strl=切分紧缩格后的末尾藏字;//以音节为单 位,取切分后的最后藏字 If(Strl的长度为2)//添接“ ”的首要条件为只 有两个字符 {Chl=Strl的首字符;//取第一个字符 Ch2=Strl的尾字符;//取最后字符 S1=” 9 昌 ”;S2=”1q1司 闽”;S3 =”丌1 可 9 司 ”; S4 = ” 击目磊习1《 9 ”; S5 = ” 玎1乓 q 目 磊”;Swich(ch1){case“习1”:{if(Ch2为 Sl的成员)returnl; Else:returnO;} case“ ”:{if(Ch2为s2的成员)returnl; Else:returnO;} case“q”:{if(Ch2为S3的成员)returnl; Else:returnO;} case“ ”:{if(Ch2为s4的成员)return1; Else:returnO;}、 case“ ”:{if(Ch2为S5的成员)return1; Else:returnO;} default:returnO;}//returnl则满足添接“ ”的条件 Else:returnO;}//两个字符以上,则不满足条件 实例说明:以“ 司 司 禽蛩 ”为例,因为“ a”由 “茂”构成的,切分后的长度为2,且首字符(ch1)“5j”属 于“习1 司胬q”,尾字符(ch2)“ ”是前加字“5j”对应的 基字“ 函目磊 气 <9 ”(s4)中的一员,故返回1, 表明该字符串满足添接后加字“日”的条件;以“ ”为例,“ ”由于结尾由“ ”构成的,切分紧缩格后 末尾藏字的首字符为“ ”,不属于(下转79页) 75 《西藏科技 ̄2012年2期(总第227期) 入硬件设备升级安装调试步骤: 布线设备的安装; 交换机设备的安装、调试; 网络布线的验收; 服务器及磁盘阵列系统的安装与调试; 软件平台(操作系统与数据库)的安装; 信息技术 已完整准确的进入了信息系统,系统提供了大量扩展 的查询统计功能,医院应该在系统基础功能使用的基 础上加强对基础数据的开发利用,最大限度的利用新 系统的各种功能提高医院的信息管理水平。同时信息 系统的构建完成后并不是一劳永逸的,除了按步骤进 行下一阶段的信息建设外,各阶段医院信息管理系统 运行后,医院的相关配套管理制度还要根据新系统的 特点进一步完善,以最大化的利用信息管理软件的优 点完善和优化医院的管理。 参考文献 应用系统软件的安装; 医院的信息、数据的整理与输人; 网络中心设备的试运行与验收; 应用工作站的安装调试; 系统各子项目的验收; 应用人员工作的调整与配合; 3.3.3 系统试运行。以上软、硬件的安装调试完毕 后,进入系统试运行阶段。 [1] 黄梯云,主编.管理信息系统[M]. 高等教育出 版社,2005. [2] 胡燕峰,张汉雄.新时期计算中心在医院信息 管理中的作用[J].医学信息.2004(1). 编校土登达杰 4信息系统构建完成后的管理 医院信息管理系统运行后,医院的基础业务数据 (上接75页)“玎1 q 5j q”中,故无需进一步判断就能确 定不满足添接后加字“ ”的条件,返回0。此算法优点 出版.1998. [2] 杨金萍.日语、藏语格助词功能之比较[J].辽宁 行政学院学报,2007.7. [3] 陈玉忠,李保利,俞士汶,等.基于格助词和接续 特征的书面藏文分词方案[J].语言文字应用,2003. 在于我们可以断定是否满足添接后加字“ ”的条件, 而不是试探性的与词库进行匹配,更不用担心词库中 此类词条的收集全与否等问题。 4 结束语 目前,基于词典的藏文自动分词系统较多,并且切 [4] 才智杰.藏文自动分词系统中紧缩格的识别 [J].中文信息学报,2009.1. 分准确率也较高,但有些分词系统在看似简单的紧缩 格识别方面却表现不尽人意,甚至因切分不当而造成 切分后的藏字违反语法规则,甚至发生拼写错误。本 文旨在解决此类问题,并提出识别再后加字“ ”的算 法和切分紧缩格后的藏字复原算法,进一步提高了藏 文分词准确率。 [5] 格桑居冕,格桑央金.实用藏文文法教程[修订 本][M].四川出版集团、四川民族出版社,2004. [6] 孙媛,罗桑强巴,杨锐,赵小兵.藏语自动分词方 案的设计[J].中国少数民族语言文字信息处理研究 与发展,2010. [7] 刘开瑛.中文文本自动分词和标注[M].商务书 馆.2000.5. 5 致谢 特别感谢科技部973计划前期研究专项项目“信 息处理和资源优化的基础研究”的课题“藏语语音识 别技术研究”(2009CB326201)、国家自然科学基金项 目“木刻藏文经书识别系统中特征提取算法的研究 [8] 朱巧明,等.中文信息处理与技术教程[M].清 华大学出版社,2005.9. [9] 嘎玛司都.司都文法详解[M].青海民族出版 社.1982.6. (60863013)、教育部“长江学者与创新团队发展计 划”。 参考文献 [1O] 多吉杰布.藏文文法知识[M].西藏人民出版 社.1979.12. 编校土登达杰 [1] 才旦夏茸.藏文文法详解[M].西宁:青海民族 79