概念引导的开放词汇时序动作检测

王松淼; 韩瑞泽; 冯伟

doi:10.1007/s11390-025-5281-7

摘要:

研究背景 随着视频理解技术的发展，时序动作检测（Temporal Action Detection，TAD）成为计算机视觉中的重要任务。然而，传统TAD方法依赖于大规模标注数据，难以适应新类别动作的检测需求。开放词汇时序动作检测（Open-Vocabulary Temporal Action Detection，OV-TAD）应运而生，旨在在缺乏标注的情况下识别未知类别的动作。但现有方法多依赖视觉特征，泛化能力有限，尤其在处理未见类别时，存在明显性能瓶颈。

目的本研究提出一种概念引导的语义投影框架，旨在提升开放词汇时序动作检测在未见类别上的泛化能力。通过引入动作概念空间（如图1所示），引导模型聚焦于动作的语义信息，而非表层视觉特征，从而增强模型在未知类别动作定位与识别上的表现。

方法 3、本方法包括两个关键创新模块：概念引导语义投影（CSP）：如图2所示，将视频特征映射到统一的动作概念空间中，利用语言模型（如GPT-4）生成多样的动作概念，通过CLIP文本编码器构建概念向量，实现语义对齐；互对比损失（MCL）：通过对比视频段与其语义标签之间的相似性矩阵，引导投影后的特征保持语义一致性与类别判别性（如图3所示）。此外，模型结构中集成了Transformer用于建模时序依赖，并设计了动作遮罩定位器与动作分类器，以完成完整的OV-TAD任务。

结果 在 ActivityNet-1.3 和 THUMOS14 两个数据集上，本文提出方法在多个 tIoU 阈值下均显著优于现有方法。例如，在 ActivityNet-1.3 的 50% Seen / 50% Unseen 设置下，平均mAP达到 25.7%，领先主流方法如STALE（20.5%）和DeTAL（22.4%）。消融实验表明，CSP模块和MCL损失在提升模型性能中起关键作用，缺失CSP将导致性能下降 3.2%。跨数据集评估中，模型在训练于THUMOS14、测试于ActivityNet的情况下，仍保持高鲁棒性（mAP最高达 31.3%），验证了其强泛化能力。对概念空间数量、构建方法及语义噪声的分析进一步证明了框架的稳定性和鲁棒性。图4和图5为部分实验结果图。

结论本文提出的概念引导语义投影方法，缓解了现有方法对视觉特征的依赖而带来的过拟合，显著提升了开放词汇动作检测中对未见类别的识别能力。实验表明，构建统一的语义概念空间并结合互对比损失，能有效增强模型的语义表达与判别能力。该方法不仅可推广至更多视频理解任务，也为构建低监督下的智能视频分析系统提供了新思路。未来工作可进一步探索更细粒度动作语义建模及多模态信息融合机制。

Abstract: Vision-language models (VLMs) have shown strong open-vocabulary learning abilities in various video understanding tasks. However, when applied to open-vocabulary temporal action detection (OV-TAD), existing OV-TAD methods often face challenges in generalizing to unseen action categories due to their reliance on visual features, resulting in limited generalization. In this paper, we propose a novel framework, Concept-Guided Semantic Projection (CSP), to enhance the generalization ability of OV-TAD methods. By projecting video features into a unified action concept space, CSP enables the use of abstracted action concepts for action detection, rather than solely relying on visual details. To further improve feature consistency across action categories, we introduce a mutual contrastive loss (MCL), ensuring semantic coherence and better feature discrimination. Extensive experiments on the ActivityNet and THUMOS14 benchmarks demonstrate that our method outperforms state-of-the-art OV-TAD methods. Code and data are available at Concept-Guided-OV-TAD.

概念引导的开放词汇时序动作检测

Concept-Guided Open-Vocabulary Temporal Action Detection