基于细粒度特征挖掘与检测头选择的无人机目标检测

毕研超; 宁阳; 聂秀山; 卢宪凯; 张睿恒; 张焕龙

doi:10.1007/s11390-025-5252-z

基于细粒度特征挖掘与检测头选择的无人机目标检测

FGHDet: Delving into Fine-Grained Features with Head Selection for UAV Object Detection

摘要

摘要:
研究背景 检测无人机影像中的小目标是一项关键且富有挑战性的计算机视觉任务，无人机影像中普遍存在的小尺寸目标难以提取充分有效的特征，导致小目标与常规尺寸目标的检测性能存在显著差距。现有方法主要存在以下问题：1、浅层特征图难以获取足够相关语义信息以支持小目标从背景中分离。2、锚框尺寸与特征图尺度级不匹配，导致目标难以回归。anchor划分过细，导致多个检测头学习到大量相似特征，出现过拟合。
目的论文提出了一种即插即用的新方法--FGHDet。该方法简单、有效，可用于解决上述无人机场景下的挑战。作者探索了一种新颖的范式，通过学习与细粒度信息和锚头对齐视图相关的语义信息，全面提升无人机目标检测能力。
方法文章提出即插即用方法 FGHDet，以解决现有的小物体检测难题。具体来说，首先将图像输入主干网络，生成一系列不同分辨率的特征图。然后，利用细节保留语义信息增强模块（DSIEM）来学习与细粒度细节相关的语义信息，从而增强低层特征图对小物体的表达能力。在粗粒度特征和细粒度特征的共同引导下，粗粒度到细粒度特征引导模块（CFGM）将中层特征从粗粒度到细粒度逐步增强，从而实现对不同尺度物体的鲁棒检测。最后，采用基于锚头匹配的多尺度检测策略，保留匹配的检测头，实现锚点和特征图之间的尺度对齐，从而避免过拟合，提高无人机物体检测性能。
结果 FGHDet可以简单地整合进现有基于卷积的多尺度检测方法中。与不同类型的小目标检测最先进方法相比，该方法在三个不同分布的主流的无人机数据集中均取得最先进性能。与基线相比，该方法在三个主流的无人机数据集中分别取得4.9、4.1和2.2的mAP提升。从可视化结果来看，FGHDet激活了更多的小目标特征，与最先进方法相比存在更少误检和漏检问题。
结论结果表明，挖掘细粒度相关语义信息以及探寻锚点与特征图的尺度级匹配对无人机小目标检测存在很大影响。本文方法提升了小目标的检测性能，发现更多的较远处的密集分布的小目标。但是由于远处小目标存在各种遮挡和变形，准确检测这类模板仍然存在巨大挑战，仍需要探寻新的语义挖掘策略来辅助这类目标从背景中分离。目前大模型的出现可能会为其提供新的解决思路。

Abstract: Detecting small objects in unmanned aerial vehicle (UAV) imagery is a challenging and crucial task in computer vision. Most current methods struggle to address the challenges of small objects: fine-grained feature mining, multiple-layer feature fusion, and mismatches in scale between anchors and feature maps. To alleviate the aforementioned issues, we present FGHDet, which focuses on delving into fine-grained features in low-level features with a head selection mechanism. First, our approach introduces a detail-preserving semantic information enhancement module (DSIEM) to retain fine-grained information while excavating coarse-grained semantic details relevant to fine-grained information. Then, we devise a coarse-to-fine feature guidance module (CFGM) that leverages coarse-grained semantic information and fine-grained information to co-guide feature enhancement, further improving the model's classification ability. Finally, we introduce a multiscale detection strategy based on anchor-head matching, ensuring scale-level matching between anchors and feature maps to prevent overfitting due to overly fine anchor divisions. Extensive experiments on the VisDrone, CARPK, and Drone-vs.-Bird datasets demonstrate that FGHDet achieves notable improvements in mAP (IoU range 0.5: 0.95) of 4.9, 4.1, and 2.2, respectively. The code is available at https://github.com/b-yanchao/UAVDetection.git.

HTML全文

参考文献()

施引文献

资源附件()