基于视觉相似性的文档版面分析
Visual Similarity Based Document Layout Analysis
-
摘要: 版面分析算法的研究已有二十多年的历史。传统算法针对特定样本集进行训练、调整,参数一旦固定,就无法进行在线自适应更改。事实上,不仅排版参数会有不同,不同文档在内容复杂度上的变化也是很大的,用于简单版面的算法不能适应复杂版面,反之用于复杂版面的算法也不能适应简单版面。虽然在之后的研究中也引入了聚类算法决定现场参数,但更多是用于分析二值图像上的几何特征,在图象质量较差时不适用。能不能发明出一种既充分利用文档图像中各种信息,同时又能引入对不同版面的自适应性处理的算法呢?本文算法提出的动机出于对文档图像中视觉相似性现象的注意。一般来说,人眼对一张文档图像所形成的第一印象,会倾向于对其中一些区域(文字、照片等等)形成相似的感知结果,这些在视觉前期相似的内容,往往就是文档中内容独立的区域。视觉相似性分析能够避免对文字等纹理作静态固定的模型描述,只要是当前版面上看起来相似的区域,就可以归为一类。显然,这样的做法在实际文档中是完全行得通的。因为尽管不同版面的文字样式会千差万别,但在同一张版面上却会非常统一。从这个动机出发,本文主要致力于解决两个问题:1) 如何得出与人眼视觉感知特性相似的视觉特征,从而可以用这些特征之间的相似性来代替视觉感知的相似性?2) 如何实现对特征的有效聚类?对前一个问题,我们首先针对文档图像中的典型纹理模式,找到了一组最有代表性的滤波器和统计特征,由此构成算法所需的纹理特征。这是通过一个名为“视觉相似性测试”的实验过程完成的。对后一个问题,我们设计了一个基于k均值聚类的算法,先固定初始类别数,然后对聚类结果进行合并分析,从而对简单文档图像中采用较少的视觉类别,有效地实现了自适应处理。最终,我们根据图像中具有不同视觉相似性的区域分割结果,确定文字和其他内容所对应的类别。测试表明,对内容相差很大的文档样本集,本算法具有非常突出的鲁棒性和自适应性。这些都是传统版面分析算法所不具备的。Abstract: In this paper, a visual similarity based document layout analysis (DLA) scheme is proposed, which by using clusteringstrategy can adaptively deal with documents in different languages,with different layout structures and skew angles. Aiming at a robustand adaptive DLA approach, the authors first manage to find a set ofrepresentative filters and statistics to characterize typical texturepatterns in document images, which is through a visual similaritytesting process. Texture features are then extracted from thesefilters and passed into a dynamic clustering procedure, which is calledvisual similarity clustering. Finally, text contents are locatedfrom the clustered results. Benefit from this scheme, the algorithmdemonstrates strong robustness and adaptability in a wide variety ofdocuments, which previous traditional DLA approaches do not possess.
下载: