缩略语预测:基于支持向量回归的统计学习方法
Predicting Chinese Abbreviations from Definitions: An Empirical Learning Approach Using Support Vector Regression
-
摘要: 1. 本文的创新点(1) 提出了一个基于机器学习的汉语缩略语预测方法。本文提出基于经验学习的缩略语预测方法,即,从全称预测对应的缩略形式。缩略语预测可以形式化为概率评估和排序。我们选用支持向量回归(SVR)作为概率评估器,得到候选缩略语及对应SVR值,并通过SVR值进行候选缩略语排序。我们实验了多个特征,发现全称-缩略语映射特征(Definition-Abbreviation Mapping features)和缩略语形成特征(Conceptual Sequence Formation features)具有较强的区分能力。(2) 提出对缩略语的概念序列分析,并将聚类技术应用其中,证明了聚类技术在汉语缩略语处理任务中的有效性。2.实现方法2.1 系统框架缩略语预测的主要任务是预测全称可能的缩略形式。缩略语预测包括三个主要步骤。首先,在给定全称的基础上生成候选缩略语并进行精简。在候选缩略语生成过程中,全称的候选缩略可通过随机选取一些字符,同时去除另一些字符来进行穷举。例如,对于电力网,假设它是个全称,则总共有六个候选缩略语: 电, 力, 网, 电力, 电网, 和力网。一般而言,如果我们有一长度为L的全称, 则会有2L-2个候选缩略语(排除此全称本身以及空字符串)。但是,如果简单地把所有候选都提交给SVR模型处理,将严重影响效率,因为候选个数是指数爆炸的。在候选缩略语生成过程中,有必要把生成过程限制在较有希望成为真实缩略语的候选,而摒弃概率极低的候选,然后提交到SVR进行训练。其次,在训练阶段,每个候选缩略语被赋予一个训练值,对SVR模型的参数进行优化训练。在实现上,通过核函数变换Smola, 2003,SVR可解决非线性函数拟合问题。通过核函数变换,可用线性SVR在更高维空间解决低维的非线性函数回归问题。本研究中,我们使用Chang & Lin的SVR软件(http://www.csie.ntu.edu.tw/~cjin/libsvm)。SVR的训练例子分为正例“positive example”和反例“negative example”:对于一个给定全称(例如,“安全/保卫/人员”),其候选缩略语被生成用于SVR训练。其中,候选集中必有一个正确候选(例如,“安保员”)和其它错误候选(“保人”,“全卫人”,等等)。此正确候选被称为正例“positive example”,而其它错误候选被称为反例“negative example”。不同核函数适合不同的问题领域。在使用SVR进行函数估算时,核函数和相关参数的选取取决于训练语料。在支持向量回归参数优化算法中,我们使用较通用的K路交叉验证(K-fold cross validation),因为此方法无需领域知识或用户经验即可实现统计参数优化。K路交叉验证也有一个相对缺点,即其运算量相对较大。我们选择高斯RBF核函数(radial basis function kernel)用于SVR模型,且通过5路交叉验证(5-fold cross validation)和Hsu, 2003介绍的格搜索算法(grid search)优化系统参数。最后,在训练SVR模型后,得到的SVR模型可用于对新输入量进行输出估算。2.2 特征选择支持向量回归的关键是选取具有区分力的特征集,从而能从候选中有效区分伪缩略语和真实缩略语。我们选用了两组特征集: 全称-缩略语映射特征(definition-abbreviation mapping features)和缩略语形成特征(conceptual sequence formation features)。全称-缩略语映射特征支持向量回归允许我们把多个分散特征统一起来。我们认为全称生成缩略语经历了两个步骤,即选词(word selection)和选字(character selection)。以“上海/东方/电视台”的缩略语“东视”为例,在选词过程中,“东方”和“电视台”被选取而另一词“上海”被忽略;在选字过程中,“东”被选自“东方”,且“视”被选自“电视台”,从而最终生成缩略语“东视”。具体实现上,以下特征模版被用作全称-缩略语映射特征。映射模式(Mapping Pattern): 此特征通过比特模式(bit patterns)表达。例如,我们知道四字符的全称常被缩略为两字符缩略语,这种四字符全称通常由两个词构成,并在缩略过程中选取每个词第一个字符形成目标缩略语,此缩略模式可以用“1010”比特模式表达,其中,“1”表示选取对应位置的字符而“0”表示忽视此字符。例如,“台大-台湾/大学”就具有比特模式“1010”。词选取(Word Selection): 某些情况下,在缩略过程中会忽略全称第一个词,例如当第一个词是地名时(“东视-上海/东方/电视台”,“纺大-中国/纺织/大学”)。此特征用于学习哪些词类型在缩略语形成过程中倾向于被选取而哪些类型倾向于被忽略。字选取(Character Selection): 此特征用于学习哪些类型的字符倾向于被选取。考虑“台大-台湾/大学”,被选取字符是“台”和“大”,被忽略字符是“湾”和“学”。本系统中,此特征被定义为string类型。例如,“台”选取自“台湾”,在实现上对应特征将定义为“CharSlt_台湾_台”。缩略语形成特征从另一角度,缩略语生成过程可看作一个概念序列形成问题。其中,汉语缩略语生成可看作另两层过程,即概念序列形成(Concept Sequence Formalization)和字符实例化(Character Selection): 首先,人们挑选一个概念序列来建立缩略语的概念结构。然后,人们试图通过字符选取来最终表达每一个概念。例如,“上影厂”和“北工大”可认为生成自同一个概念结构:“地名+行业名+机构名后缀”。因此,虽然新缩略语一直被创造,其概念结构可能仍然来自于已有概念结构。在我们系统中,我们用一个词类来模拟对应的一个概念。3.结论及未来待解决的问题本文提出了一个基于机器学习的缩略语预测方法,使用支持向量回归模型(SVR)评估候选缩略语的概率。在得到候选缩略语对应SVR值后,我们通过SVR值对候选缩略语排序。在SVR模型中,本文实验了多个特征,发现全称-缩略语映射特征和缩略语形成特征具有较强的区分能力。 我们也提出对缩略语的概念序列分析,并将聚类技术应用其中,证明了聚类技术在汉语缩略语处理任务中的有效性。未来待解决的问题是,需要进一步研究缩略语词序变化的问题。也就是说,在全称生成缩略语的过程中,字词的次序有可能发生改变。比如,“德意志联邦共和国”会被换序缩略成“联邦德国”。对于这个问题,目前研究的难度很大,相应的研究也比较少,因为缩略语词序变化的例子本身也相对比较少。这是未来需要解决的一个问题。4.实用价值或应用前景汉语缩略语自动处理对中文信息处理具有较强的理论和现实意义。许多问题都与此相关,如切词,指代消解,命名实体识别等。如果能从全称预测可能的缩略,有利于信息检索领域(IR)的关键词扩展(query expansion)。当我们查找目标文档时,有必要预测查询关键词所对应的可能缩略形式,否则,因为很多目标文档不包括全称关键词而只包括其缩略形式,可能漏查相关文档。在单月规模的人民日报语料库上,如果我们只使用全称关键词“欧洲经济与货币联盟”,只能够获取17%的目标文档,而多于70%的目标文档无法被有效检索,仅仅因为这些文档只使用缩略语形式“欧盟”去表达同一个概念。所以,如果全称关键词的缩略形式能够有效地预测并被自动扩充进查询,信息检索的准确率和召回率能够更有效地获得提高。缩略语处理是自然语言处理的一个重要问题,具有理论意义和广泛应用价值。Abstract: In Chinese, phrases and named entities play a centralrole in information retrieval. Abbreviations, however, makekeyword-based approaches less effective. This paper presents anempirical learning approach to Chinese abbreviation prediction. In thisstudy, each abbreviation is taken as a reduced form of thecorresponding definition (expanded form), and the abbreviationprediction is formalized as a scoring and ranking problem amongabbreviation candidates, which are automatically generated from thecorresponding definition. By employing Support Vector Regression (SVR)for scoring, we can obtain multiple abbreviation candidates togetherwith their SVR values, which are used for candidate ranking.Experimental results show that the SVR method performs better than thepopular heuristic rule of abbreviation prediction. In addition, inabbreviation prediction, the SVR method outperforms the hidden Markovmodel (HMM).