We use cookies to improve your experience with our site.

中国书法字图像的分级匹配与近似检索

Hierarchical Approximate Matching for Retrieval of Chinese Historical Calligraphy Character

  • 摘要: 伴随着数字化技术、数字存储技术的发展,数字图书馆建设和研究在各国迅猛发展。中国历代书法作品是中国数字图书馆的重要组成部分,原始的历史书法作品存在于纸张、石头、绢丝或者竹简上,因容易破损而珍藏在博物馆里不允许随便翻阅。数字化历史书法作品,能使用户随时、随地、随意地浏览和欣赏民族文化瑰宝,更好地传承民族文化。然而,数字化书法作品的同时也带来了新挑战:当前的OCR技术能将扫描得来的打印体的图书页面图像识别成文本,从而进行检索,但却无法将其中的书法字识别成文本从而进行检索。与书法字检索相关的研究是针对受限领域的现代汉字手写体识别的研究,但这个技术无法应用到书法字检索上,因为:历史书法因饱经历史沧桑,比手写体具有更多的噪声,且大部分由毛笔写成,毛笔的柔软性能使书法家更好表达个性情绪的同时使书体多变,甚至同一个字的同一个笔画,其起始处和收尾处粗细都不一样,这个特征是现代手写体所没有的。针对英语、阿拉伯语手写体的研究,由于语种不同,识别字符所用的特征不同,也不能直接应用到汉字书法字的检索中。本论文提出了一种加速书法字检索速度,同时不损害检索效果的算法:扫描的原始书法页面图像先根据最小包围盒切分成单个书法字。当用户提交一个书法字样本,首先以书法字低维的大概的特征,构造剪枝算法,根据书法字复杂度、笔画密度、最左突起点等层层过滤出后台大量书法字数据库中与样本字有相似可能性的少量书法字;接着,将样本字与这些少量的书法字进行精确的形状匹配,获取匹配值;最后,按匹配值大小即相似程度,依次向用户显示与样本字为同一个汉字的不同的书法风格。这样做是因为精确的形状匹配所需的计算时间比较长,减少数据库中必须与样本字进行匹配的候选字能加速检索过程,前提条件是剪枝算法计算速度远比匹配速度快。为进一步加快检索速度,本论文提出采用高维数据结构PK树,为书法数据库建立索引,从而进一步减少比较次数,达到加快检索速度目的。在本文的实验中,测试所用的书法数据库由3012个单字构成,其中2087个是从27册《中国书法全集》中切分得到,包括书贴和拓碑两类;剩余的是从Internet上下载的书法页面图像中切分得到。每次以不同的书法字图像为样本进行检索,重复120次取平均值。把该实验结果汇成图表与数据库中只有336个书法字时的ISM算法相比:在速度上,本论文提出的算法每次检索所需平均时间仅为6.3秒,而ISM算法每次检索所需平均时间为289.8秒;在检索效果上(以查全率和查准率为衡量尺度),本论文算法具有与ISM算法相似甚至略好的效果,表明在提高检索速度的同时并未降低检索效果。

     

    Abstract: As historical Chinese calligraphy works are beingdigitized, the problem of retrieval becomes a new challenge. But,currently no OCR technique can convert calligraphy characterimages into text, nor can the existing Handwriting Character Recognitionapproach does not work for it. This paper proposes a novel approach toefficiently retrieving Chinese calligraphy characters on the basis ofsimilarity: calligraphy character image is represented by a collectionof discriminative features, and high retrieval speed with reasonableeffectiveness is achieved. First, calligraphy characters that have nopossibility similar to the query are filtered out step by step bycomparing the character complexity, stroke density and strokeprotrusion. Then, similar calligraphy characters are retrieved andranked according to their matching cost produced by approximate shapematch. In order to speed up the retrieval, we employed high dimensional datastructure --- PK-tree. Finally, the efficiency of the algorithm isdemonstrated by a preliminary experiment with 3012 calligraphy characterimages.

     

/

返回文章
返回