摘要:
1.本文的创新点
Web图像检索系统往往会根据用户查询关键字返回多个主题混杂在一起的图像检索结果。这就需要在得到检索结果后对表达不同主题的图像进行聚类,按照类别来呈现检索结果。由于图像所表达的高层语义与其底层特征之间存在语义鸿沟,基于视觉特征的图像聚类往往不能取得好的效果。Web图像伴随文本以及一些文本标签(tags)描述了图像语义内容,本文挖掘伴随文本与Web图像之间的深层次关联,提出两种文本与图像之间的相关性关联:单词-图像可见度(visibility)关联以及文本-图像隐含主题关联。前者通过一种新定义的单词可见度计算模型与传统
tf-
idf方法相结合而求取,后者通过隐含主题模型LDA(Latent Dirichlet Allocation)挖掘得到。为了将文本和图像之间多种相关性融合到统一Web图像聚类框架中,本文提出利用多超图对多种关联关系进行表达的机制。同一图像检索结果集合上的可见度关联和隐含主题关联分别表达为两个超图。基于多视图学习(multi-view learning),本文将传统的多图学习算法推广到多超图学习并提出多超图谱聚类算法(spectral multiple hypergraph clustering, SMHC)。该算法在多超图上定义混合Markov模型而得到多超图Laplacian (multiple hypergraph Laplacian),可将多超图图分割问题转变为基于超图Lalacian的广义特征值求解问题。将SMHC算法应用于由多超图所表达的Web图像中,提出了融合文本图像之间关联性的Web图像多超图谱聚类方法。
2.实现方法
为了验证SMHC算法聚类性能,在UCI的开放基准数据集“Pen-Based Recognition of Handwritten Digits Dataset”上对比SMHC和k-means、Spectral Co-clustering算法的聚类互信息(normalized mutual information, NMI)。实验结果表明SMHC算法的聚类性能达到或超过两种基准算法的聚类性能。
为了验证可见度计算模型的有效性,在三个开放单词集合NIPS BoW、374 LSCOM和Flickr tags上对比其平均可见度。由于NIPS BoW中单词来自NIPS会议论文集,其多数描述机器学习领域中抽象感念,平均可见度较低;而374 LSCOM和Flickr tags分别为图像语义概念和用户描述图像内容的标签,其平均可见度较高。
为了验证融合两种文本图像相关性关联进行聚类的有效性,在5个Web图像检索结果集合上进行SMHC、k-means、Spectral Co-clustering以及Complex Graph Clustering算法的聚类性能对比,实验结果表明融合可见度关联和隐含主题关联进行Web图像聚类能提高聚类性能。
为了进一步验证SMHC聚类框架的整体性能,在开放的图像检索数据集IAPR TC-12 benchmark上进行实验,实验结果表明该聚类方法能够取得好的聚类效果。
3.结论及未来待解决的问题
本文提出多超图谱聚类算法,该算法能够融合Web图像和伴随文本中单词可见度关联以及隐含主题关联后,再进行统一的Web图像聚类。实验表明该算法能够取得好的聚类效果。由于基于社会标注的图像共享站点的兴起,如Flickr,如何将图像的多标注标签信息融合以进行更好的Web图像聚类和检索是未来待解决和研究的问题。
4.实用价值或应用前景
本文提出的融合文本图像相关性关联的Web图像多超图谱聚类方法可应用于改善目前基于文本的图像检索系统的检索结果聚类性能。本文提出的单词-图像可见度关联是一种新的属性,将其与传统的
tf-
idf方法结合能使高可见度单词与图像的相关性关联得到加强。