基于骨架视频人体早期动作预测的对抗式图卷积网络
Adversarial Graph Convolutional Network for Skeleton-Based Early Action Prediction
-
摘要:研究背景 人体早期动作预测是指根据一段未完全执行的人体动作视频来预测动作标签,相较于传统的人体动作识别更有挑战性,也更符合生活中的应用场景。这是因为在生活中获取到完整的动作执行视频后再去识别该动作通常是不常见且不合理的,如在家庭服务机器人领域,老人“摔倒”这一动作在执行完毕以后再识别是无法避免伤害发生的,这需要在老人摔倒动作的执行早期便做出判断,才能提醒机器人及时进行预警,避免伤害的发生。目的 我们的研究目的是实现一种对抗学习框架,在该框架中同时输入部分视频与完整视频进行训练,在训练过程中提取部分视频特征的图卷积网络通过与判别器的对抗优化自身特征分布,从而提高模型的早期动作预测性能。方法 我们提出了一种基于图卷积网络的对抗学习框架,并且针对不同动作视频帧数差异大的问题提出了一种新的数据预处理方法FNN。在我们的方法中,模型通过最小化部分视频与完整视频之间的特征差异来增强部分视频的特征表示,通过最小化部分视频特征与动作标签的差异来学习早期动作预测。在NTU RGB-D 60和SYSU 3D-HOI两个数据集上的大量实验,我们充分评估了我们的方法,包括先进性的比较与有效性的验证。结果 通过与其他方法的比较,我们的方法在两个数据集上取得了更好的结果,在NTU RGB-D和SYSU 3D-HOI数据集上,我们的方法分别高出同类型数据的方法平均5.66%和1.61%的准确率,证明了图卷积网络结合对抗学习的先进性。此外,通过对对抗学习框架和基线模型各个组件的消融实验结果,证明了对抗学习、数据处理方法FNN等方法的有效性。结论 实验结果表明对抗学习能有效提高基线模型对于人体早期动作预测的性能,同时FNN数据预处理方法能够一定程度上降低不同动作视频帧数差异对于模型预测的影响。我们的方法取得了一定的先进性,但模型的参数量较大、计算时间较长。在未来的工作中,我们将针对参数量与计算时间这一问题提出更加轻量化的人体早期动作预测模型。Abstract: This paper proposes a novel method for early action prediction based on 3D skeleton data. Our method combines the advantages of graph convolutional networks (GCNs) and adversarial learning to avoid the problems of insufficient spatio-temporal feature extraction and difficulty in predicting actions in the early execution stage of actions. In our method, GCNs, which have outstanding performance in the field of action recognition, are used to extract the spatio-temporal features of the skeleton. The model learns how to optimize the feature distribution of partial videos from the features of full videos through adversarial learning. Experiments on two challenging action prediction datasets show that our method performs well on skeleton-based early action prediction. State-of-the-art performance is reported in some observation ratios.