CAT:基于交叉注意力机制的单样本目标检测方法
CAT: A Simple yet Effective Cross-Attention Transformer for One-Shot Object Detection
-
摘要:研究背景 小样本目标检测是近年来兴起的一种全新的研究领域,希望利用一些特定的方法使得基于深度学习的目标检测模型能够通过一些类别的少量标注样本学习到其通用的特征,从而使得模型具备检测这些类别目标的能力,小样本目标检测研究的目的是减少深度学习模型对于数据的依赖,降低获取数据的人工成本,为小样本学习的一种。本文聚焦于小样本目标检测中的一种特殊形式,即每个类别仅给定一个标注样本,模型需要依据该标注样本寻找待检测图片所有中与给定样本相同类别的目标。然而即便相同类别的目标其整体特征也会存在较大差异,很大程度上会导致模型识别错误,数据量的限制则进一步加剧了这一现象。目的 现有的单样本目标检测方法未能充分利用待检测图片与参考的标注图片特征,不能很好地发掘两者更深层次的关联。我们的研究针对这一问题进行改进和优化,提出一种新的结构实现对图像特征的更好利用,进一步提升单样本目标检测的性能。方法 注意力机制在目标检测领域已经取得了成功的应用,我们借鉴其结构并针对单样本目标检测的要求和特点,设计了一种基于交叉注意力机制的网络模块,对于待检测图片和标注图片的特征,利用两个并行的特征注意力加权模块来挖掘两者的视觉特征序列之间的关联性,增强两者相似的特征。通过交叉注意力机制,模型可以聚焦于图像局部特征,减少信息的损失,有效提升单样本目标检测的性能。利用这一交叉注意力机制模块,我们构建了一个简单且高效的两阶段单样本目标检测模型。我们在三个公开数据集上进行了实验,并通过特征图可视化的手段来验证我们提出方法的有效性。结果 相比于当前最佳的单样本目标检测方法,我们的模型在COCO、VOC和FSOD三个数据集上分别取得了平均1%、1.3%和1.7%的AP值提升,得益于网络结构的设计。我们的模型推理速度是它的大约2.5倍。此外,我们在单样本设定下比较了本文方法和一些常规小样本目标检测方法的效果和推理速度,实验表明本文方法取得了最好的表现。结论 本文为单样本目标检测的研究提供了一种新的思路和视角,将问题看作是不同图像间特征序列的匹配问题,并将注意力机制应用于这一问题中,取得了更好的效果,相关的设计思想可以很好地推广到不同形式的小样本目标检测研究中。本文提出的交叉注意力模块也可以作为一个通用的即插即用网络模型,应用于类似问题的网络模型中,而非仅限于小样本目标检测领域。Abstract: Given a query patch from a novel class, one-shot object detection aims to detect all instances of this class in a target image through the semantic similarity comparison. However, due to the extremely limited guidance in the novel class as well as the unseen appearance difference between the query and target instances, it is difficult to appropriately exploit their semantic similarity and generalize well. To mitigate this problem, we present a universal Cross-Attention Transformer (CAT) module for accurate and efficient semantic similarity comparison in one-shot object detection. The proposed CAT utilizes the transformer mechanism to comprehensively capture bi-directional correspondence between any paired pixels from the query and the target image, which empowers us to sufficiently exploit their semantic characteristics for accurate similarity comparison. In addition, the proposed CAT enables feature dimensionality compression for inference speedup without performance loss. Extensive experiments on three object detection datasets MS-COCO, PASCAL VOC and FSOD under the one-shot setting demonstrate the effectiveness and efficiency of our model, e.g., it surpasses CoAE, a major baseline in this task, by 1.0% in average precision (AP) on MS-COCO and runs nearly 2.5 times faster.