FaceCLIP—基于文本的面部表情生成方法
Facial Expression Generation from Text with FaceCLIP
-
摘要:研究背景 人脸图像包含了身份、性别、情绪、年龄和种族在内的丰富信息。深度学习方法在处理与面部相关的任务时通常需要大量标注数据以获得更好的效果,但是大规模数据的收集和人工标注成本巨大,代价高昂。为了克服这些限制,自动生成具有所需情绪的面部表情图像的方法备受关注。基于文本的跨模态面部表情生成是一种利用计算机自动、快速生成与文本描述的面部特征及表情一致的高真实感人脸图像的方法,为图像信息的获取提供了极大的方便。然而,面部结构很复杂,面部表情是由多个面部肌肉协调运动产生的,这导致建模文本和表情图像之间的映射关系具有一定的难度。现有方法通常依赖于根据文本提示处理源面部图像来生成新的表情,但这些方法生成表情图片的数量受到源面部数据集大小的限制,生成图像的分辨率也相对较低。目的 本研究旨在提出一种便捷且注重隐私的面部表情生成方法,以解决现有跨模态图像生成方法面临的问题,帮助研究人员构建大量自然生动的人脸及表情图像。方法 本文提出了一种名为FaceCLIP的跨模态人脸表情生成方法,该方法基于纯文本描述生成自然表情图像。提出的方法结合了基于GAN的多阶段生成网络和基于CLIP(contrastive language-image pre-training,对比语言-图像预训练)的语义先验,逐步生成与文本高度一致的高分辨率面部表情图像。此外,我们创建了一个包含3万多张图像的表情-文本对数据集(Facial Expression and Text,FET)。我们使用多个评估标准在FET数据集上对FaceCLIP进行了与目前最好方法的定量和定性比较。结果 在定量比较实验中,FaceCLIP在FID(35.52)和R-precision(70.15±0.53)标准上取得了最佳性能,表明该方法能够生成逼真且最符合描述的面部表情图像。在LPIPS标准上,FaceCLIP方法的表现优于AttnGAN、DM-GAN和UMDM模型,证明其生成相对多样化的面部表情图像的能力。在定性比较实验中,可视化结果证明FaceCLIP生成的图像在质量和语义一致性方面有所提高。通过利用多模态文本和视觉线索的强语义先验,该模型能够有效地分离面部属性,实现属性编辑和语义推理。Abstract: Facial expression generation from pure textual descriptions is widely applied in human-computer interaction, computer-aided design, assisted education, etc. However, this task is challenging due to the intricate facial structure and the complex mapping between texts and images. Existing methods face limitations in generating high-resolution images or capturing diverse facial expressions. In this study, we propose a novel generation approach, named FaceCLIP, to tackle these problems. The proposed method utilizes a CLIP-based multi-stage generative adversarial model to produce vivid facial expressions with high resolutions. With strong semantic priors from multi-modal textual and visual cues, the proposed method effectively disentangles facial attributes, enabling attribute editing and semantic reasoning. To facilitate text-to-expression generation, we build a new dataset called the FET dataset, which contains facial expression images and corresponding textual descriptions. Experiments on the dataset demonstrate improved image quality and semantic consistency compared with state-of-the-art methods.