使用多分类器和上下文限制的阿拉伯文字识别
Arabic Word Recognition by Classifiers and Context
-
摘要: 手写文本识别一直是一个非常活跃的研究领域。近年来,研究从孤立字符识别向连续复杂手写模式过渡,多见于拉丁文连续手写识别,如信件地址,在线填表和支票有效金额填写等。也有阿拉伯字符识别和单词识别的报道,但与其他语种比较,对阿拉伯文本识别的研究相对滞后,主要是由于这种语言本身特殊形态增大了识别难度、研究者之间缺乏交流等。阿拉伯文为从右向左连体书写。字符集有28个基本字母,通常一个阿拉伯单词包含一个或者多个子词(sub-word),每一个子词可能包含一个或多个字母。大部分阿拉伯字母含有辅助部分,这些辅助部分可能位于字母主体部分的上面、下面或者位于字母内部;辅助部分是为区分主体部分相同的字符而存在的。本研究将焦点放在基于小词表的脱机手写阿拉伯单词识别。在这方面,目前通常使用的方法有隐马尔可夫模型,神经网络方法,我们也曾尝试过使用结构模式识别方法和多分类器融合等。本文试图从分类器组合和多信息融合角度来提高识别性能,使用多分类器和句法上下文相关知识进行手写阿拉伯大写数字识别。系统使用的词表规模为48词,采用二值化、平滑和基线检测等对手写文本图像进行预处理,提取基于基线的上行笔段、下行笔段(分别类似于英文中的b,d,h和g,p等字母)、环状结构、位于主体部分上面、下面的点数等结构特征。用弗里曼链码(Freeman code chain)抽取图像轮廓,用边界跟踪算法处理有交叠的子词。识别器为三个分类器的并行组合,包括神经网络、k近邻分类器和基于模糊的k近邻分类器。样本库规模为4,800词,其中1,200词用来训练。多分类器的并行决策机制利用了各个分类器输出候选列表。即如果一个候选在三个列表中同时出现,其置信度为其在各表中分值的和;若只在两个表中出现,则只计算其在这两表中的分值的和;如果某候选只在一个表中出现,其分值不变。重新排序后既得最终候选列表。句法分析器根据候选列表做最终决策,若列表中置信度最大的候选满足句法则该候选为最终识别结果,否则拒绝,并依次查询其后的候选。若有两个置信度分值相同的候选同时满足句法关系,选择单一分类器分值最大的那个作为最终结果。测试结果显示,经组合分类器识别和后处理分析后,系统识别率达96%,比各单一分类器识别结果平均高出4个百分点。Abstract: Given the number and variety of methods used forhandwriting recognition, it has been shown that there is no singlemethod that can be called the ``best''. In recent years, the combinationof different classifiers and the use of contextual information havebecome major areas of interest in improving recognition results. Thispaper addresses a case study on the combination of multiple classifiersand the integration of syntactic level information for the recognitionof handwritten Arabic literal amounts. To the best of our knowledge,this is the first time either of these methods has been applied toArabic word recognition. Using three individual classifiers with highlevel global features, we performed word recognition experiments. Aparallel combination method was tested for all possible configurationcases of the three chosen classifiers. A syntactic analyzer makes afinal decision on the candidate words generated by the bestconfiguration scheme. The effectiveness of contextual knowledgeintegration in our application is confirmed by the obtained results.