基于视觉相似性的文档版面分析

摘要: 版面分析算法的研究已有二十多年的历史。传统算法针对特定样本集进行训练、调整，参数一旦固定，就无法进行在线自适应更改。事实上，不仅排版参数会有不同，不同文档在内容复杂度上的变化也是很大的，用于简单版面的算法不能适应复杂版面，反之用于复杂版面的算法也不能适应简单版面。虽然在之后的研究中也引入了聚类算法决定现场参数，但更多是用于分析二值图像上的几何特征，在图象质量较差时不适用。能不能发明出一种既充分利用文档图像中各种信息，同时又能引入对不同版面的自适应性处理的算法呢？本文算法提出的动机出于对文档图像中视觉相似性现象的注意。一般来说，人眼对一张文档图像所形成的第一印象，会倾向于对其中一些区域（文字、照片等等）形成相似的感知结果，这些在视觉前期相似的内容，往往就是文档中内容独立的区域。视觉相似性分析能够避免对文字等纹理作静态固定的模型描述，只要是当前版面上看起来相似的区域，就可以归为一类。显然，这样的做法在实际文档中是完全行得通的。因为尽管不同版面的文字样式会千差万别，但在同一张版面上却会非常统一。从这个动机出发，本文主要致力于解决两个问题：1) 如何得出与人眼视觉感知特性相似的视觉特征，从而可以用这些特征之间的相似性来代替视觉感知的相似性？2) 如何实现对特征的有效聚类？对前一个问题，我们首先针对文档图像中的典型纹理模式，找到了一组最有代表性的滤波器和统计特征，由此构成算法所需的纹理特征。这是通过一个名为“视觉相似性测试”的实验过程完成的。对后一个问题，我们设计了一个基于k均值聚类的算法，先固定初始类别数，然后对聚类结果进行合并分析，从而对简单文档图像中采用较少的视觉类别，有效地实现了自适应处理。最终，我们根据图像中具有不同视觉相似性的区域分割结果，确定文字和其他内容所对应的类别。测试表明，对内容相差很大的文档样本集，本算法具有非常突出的鲁棒性和自适应性。这些都是传统版面分析算法所不具备的。

Abstract: In this paper, a visual similarity based document layout analysis (DLA) scheme is proposed, which by using clusteringstrategy can adaptively deal with documents in different languages,with different layout structures and skew angles. Aiming at a robustand adaptive DLA approach, the authors first manage to find a set ofrepresentative filters and statistics to characterize typical texturepatterns in document images, which is through a visual similaritytesting process. Texture features are then extracted from thesefilters and passed into a dynamic clustering procedure, which is calledvisual similarity clustering. Finally, text contents are locatedfrom the clustered results. Benefit from this scheme, the algorithmdemonstrates strong robustness and adaptability in a wide variety ofdocuments, which previous traditional DLA approaches do not possess.

基于视觉相似性的文档版面分析

Visual Similarity Based Document Layout Analysis