Computer Graphics and Multimedia Under Construction
研究动机和创新性 在自动人脸表情识别领域,对多种内在状态人脸表情的变化进行检测是一个具有挑战性的研究方向。人脸表情是连续的,表情变化时表情图像是平滑变化的。表情图像的变化特性可以表示为图像空间的流形中类似凹陷和凸起的细微变化。因此,自动人脸表情识别可以通过检测在表情人脸空间流形的细微变化来实现。因为表情图像包含几种其它情绪以及许多混合情绪,所以情绪维度必须是连续的。这种情绪维度可以克服离散识别空间问题,因为离散的情绪可以看作是连续空间的部分区域。 之前的大部分人脸表情识别研究,并没有分析多种内在状态人脸表情图像的分布特性。他们把人脸表情映射为Ekman(1972)的六种基本情绪状态。这些研究对于自然人脸表情的识别存在局限性,因为自然人脸表情包含多种情绪以及复杂情绪。本研究利用情绪维度模型来改进这种局限性,基于情绪维度模型,采用LLE算法识别人脸表情的各种内在状态。LLE算法可以学习嵌入在人脸空间的低维人脸图像变化流形。 2,方法概述(包含实验环境和结果) 本文的目的在于通过局部线性嵌入算法,研究各种内在状态人脸表情的非线性流形的全局结构。首先评论了广泛使用的两种情绪模型:基本情绪模型和维度模型。然后提出一种人脸表情图像的表示方法,即利用局部线性嵌入算法提取各种内在状态人脸表情的特征。此部分包含三个子步骤:第一,介绍了用于本文研究的人脸表情数据库;第二,提出了一种用于光照不变图像的零相位白化滤波器;第三,提出通过局部线性嵌入的人脸表情表示。其次,给出了一个利用1-最近邻算法的各种内在状态人脸表情的分类器。最后,分析讨论通过局部线性嵌入所得到的非线性流形的全局结构,以及在两个情绪维度的人脸表情空间。通过LLE算法,映射到嵌入空间的多种内在状态表情的识别结果,有效地表达了二维情绪模型的结构本质。 3,结论 结果总结如下所述: 第一,通过LLE算法映射到嵌入空间的多种内在状态人脸表情,可以有效地表达二维情绪模型的结构本质。相似情绪强度的人脸表情位于同一区域的邻近位置。表情图像高兴和觉醒维度的强度越大,离散区域的表达越清楚。愤怒和觉醒强度大的表达也位于一个离散区域。本文中,在二维情绪模型中引入了四个分类识别空间。高兴和觉醒强度较大的人脸图像映射到标记为第3类的LLE嵌入空间;愤怒和觉醒强度较大的人脸图像映射到标记为第2类的LLE嵌入空间。然而,高兴/愤怒以及觉醒强度较弱的人脸表情图像与愤怒和觉醒强度较大的人脸图像相互混淆,不易区分。 第二,Ekman的六种基本情绪可以有效地表示为由LLE映射到嵌入空间的高兴/愤怒和觉醒强度较大的人脸表情。因此,利用LLE映射到嵌入空间的二维情绪模型,能够扩展到Ekman的六种基本情绪。 第三,本文利用局部线性嵌入算法识别44种内在状态的人脸表情。通过1-最近邻算法有效的获得每一维度的识别结果;在高兴-愤怒维度识别率达99%,在觉醒-睡眠维度识别率达60%。在LLE中取前120个成分、邻域K=80时,可以得到多种内在状态人脸表情识别的最好性能。对于人脸表情识别,情绪的二维结构被证明是一个稳定结构。特别地,高兴-愤怒维度比觉醒-睡眠维度更加稳定。Kim, Mum以及Oh (1999)通过MDS对二维情绪结构的稳定性进行研究,证明了高兴-愤怒维度相比觉醒-睡眠维度包含更多的解释。并且,在连续维度的相似表情,可以通过LLE的(d+1)个最小特征值进行检测。结果证明,连续维度的人脸表情可以通过表情流形的细微变化来表示。 贡献和意义 通过LLE算法,将多种内在表情状态映射到嵌入空间进行识别,所得识别结果可以有效地说明情绪二维模型的结构本质。此研究证明,通过LLE算法,可以在二维情绪模型中,精确地说明多种内在状态人脸表情之间的关系。并且,Ekman的六种基本情绪可以有效地表示为映射到LLE嵌入空间的高兴/愤怒和觉醒强度较大的人脸表情。因此,映射到LLE嵌入空间的情绪二维模型可以扩展到Ekman的六种基本情绪。 参考文献 P. Ekman, “Universal and cultural difference in facial expressions of emotions,” In J. K. Cole(Ed), Nebraska symposium on motivation, Lincoln: University of Nebraska Press, pp. 207-283. 1972. J.K. Kim, H.S. Mun and K.J. Oh, “Stability of two-dimension structure of emotion,” Korean Journal of the Science of Emotion and Sensibility, vol. 2. No.1, pp. 43-52, 1999.
1.动机与创新 人脸表情识别方法可广泛应用于人机交互、情感分析、视频与图像理解、人脸动画合成、类人机器人等领域。隐马尔可夫模型作为系统事件序列的统计模型已被用于人脸表情的识别,许多研究结果已表明了其有效性。为了提高表情的识别率,目前不少研究者也提出了一些改进的隐马尔可夫模型,如多流隐马尔可夫模型、嵌入式隐马尔可夫模型、分层隐马尔可夫模型、深隐马尔可夫模型等。深隐马尔可夫模型由于特征向量的每一个元素还考虑到了其他特征向量的元素的直接依赖关系其识别性能更显优越。在图像序列中存在噪音和特征值缺损时,这些模型的识别性能并不令人满意。为了提高总体识别性能,特别是提高有噪音和特征值缺损情形的识别性能,本文在深隐马尔可夫模型的基础上提出了一种新型的模式分类器—模糊深隐马尔可夫模型,该模型加入观察元素间的特殊依赖关系,并利用云分布模型描述状态转移和观察符号生成,同时采用最大互信息准则优化模型参数。 2.实现方法 在深隐马尔可夫模型基础上,增加考虑了对观测值间的相关性、观测值及状态转移的模糊随机性和各待测模型间互信息的相关性等因素,设计了互信息算法来计算观测值之间的相关性;以云分布模型代替高斯分布模型估计观测值和状态转移概率,实现了观测值和状态转移模糊随机估算;同时引入最大互信息准则代替最大期望值估计准则实现模型参数优化,从而形成了模糊深隐马尔可夫模型。 利用算法分析、信息论、概率论等相关理论,对模糊深隐马尔可夫模型的特性进行了形式化的证明。认证了模糊深隐马尔可夫模型的复杂性与经典隐马尔可夫模型相当,对相同的训练数据而言,模糊深隐马尔可夫模型可得到更多的有用信息。分析表明了模糊深隐马尔可夫模型比隐马尔可夫模型和深隐马尔可夫模型具有更好的类别鉴别能力和对测试数据的鲁棒性。 采用Gabor小波变换对表情图像序列进行特征提取,将模糊深隐马尔可夫模型应用于图像序列的人脸表情识别,实验表明模糊深隐马尔可夫模型具有更高的识别率,同时能更好地容忍有噪音和特征值缺损的情形。 3.结论及未来待解决的问题 经理论分析和实验结果验证表明,本文所提出的模糊深隐马尔可夫模型较之于传统隐马尔可夫模型和深隐马尔可夫模型,具有更好的分类识别性能和容忍噪音及特征值缺损的能力。下一步的工作是,确定模型的最佳状态数目和引入半监督学习的方法更合理地训练该模型。 4.实用价值或应用前景 模糊深隐马尔可夫模型适合于有噪音和特征值缺损情形的图像序列的表情识别,此外模糊深隐马尔可夫模型以其具有高的识别率和鲁棒性的特点,也可适用于其他有噪音的特征数据分类识别情形。
随着经济的发展,人们在娱乐和休闲领域的需求也越来越多,典型的,如卡通漫画已逐渐成为一种大众文化产品,具有巨大的文化影响力和市场商机。鲜有研究工作针对单张非正视人脸图像做漫画夸张。事实上,生活中有大量的非正视人脸图像;且某些人的正面图像体现不出太多的特点,在侧面图像中却能凸显其特质。因此,对单张非正视人脸图像的漫画夸张的研究是非常有必要的。本文对正面和半正面人脸的漫画合成算法进行了研究,提出了一种基于三维模型和非负矩阵分解的正面和半正面人脸漫画合成算法。 首先估计二维图像人脸姿态参数。利用训练数据获得基于多层感知器的面部姿态分类器,建立多视角的人脸活动表观模型以及三维平均脸特征点模型。检测到人脸区域之后,利用基于多层感知器的面部姿态分类器判断人脸的视角区间,然后用相应视角区间的二维人脸表观模型配准目标人脸区域,得到人脸的若干个特征点,最后,用三维平均脸特征点模型通过旋转、平移、投影等变换逼近二维特征点,估计出较准确的人脸姿态参数值。由于利用了面部姿态分类器的结果选择初值,因而能较好地避免在优化时陷入参数估计的局部极值点。 然后进行特征夸张和漫画绘制。把估计出变换参数应用到三维平均脸特征点模型,使其朝向和位置基本与该图像匹配,再把此时三维平均脸特征点模型的各个特征点的深度信息作为配准的人脸的二维相应特征点的近似深度,就形成了符合该图像的三维特征点模型;把恢复的三维特征点模型旋转到正面,在基于非负矩阵分解的人脸特征空间下,对跟平均脸相比的显著特征进行夸张,得到正面视图的夸张特征点。把正面视图的夸张后的三维特征点模型旋转回原姿态并投影,即得夸张后的人脸二维特征点。利用图像卷绕(Warping)技术把配准的人脸2D关键点包围的输入人脸的纹理映射到夸张后的人脸特征点包围的范围内,即得人脸的夸张效果。最后采用非真实感绘制技术得到最终的风格化的漫画夸张效果。 本文的主要创新在于:提出了一种有助于漫画合成的从三维平均脸特征点模型通过刚体变换和投影变换逼近二维人脸特征点的变换估计方法,该方法能较好地避免陷入变换估计的局部极值点;提出了一种适用于正面和非正面人脸图像漫画合成的策略,该策略使用了由人脸三维模型特征点非负矩阵分解后得到的三维人脸特征空间,能够对跟平均脸相比的显著特征进行夸张,同时对人脸三维形状特征夸张过程中的噪声进行了较好的控制。 基于用户打分的方式对实验结果进行的主观评测表明该方案能够生成具有较强的视觉冲击力和较好的诙谐效果的人脸夸张效果。所提出的方案能够处理自遮挡现象不明显的视角范围内的人脸图像。本文算法能够应用于日常数码照片中正面和半正面人脸图像的漫画夸张效果的合成,在网络通讯、网络游戏、动漫产业等多个领域中有很好的应用前景。
1.本文的创新点 根据视觉属性来分配码率是视频编码中的核心目标之一。本文以视频预处理方式,采用基于时空一致性的视觉重要性作为指导属性,实现了用于视频编码的保持重要性区域和边界强度等自适应内容精细度调整方法。本文的创新点主要在以下两点:本文从人的视觉感知属性出发,通过建立时空一致性保持的视觉重要性分析模型来得到视频内容的重要性分布信息;采用自适应保持重要区域和边界等重要内容的扩展双边滤波方法实现对视频内容的精细度预处理。该预处理依据重要性区域分配较多码率、其他区域则相对降低码率的原则,通过有效的参数调整实现自适应伸缩平滑滤波操作,能够保持重要性区域的内容信息,同时有选择性地合理抑制非重要性区域的高频信息,从而达到提高码率分配的增益。此外,我们的算法充分考虑了时间坐标上各帧间视频重要性内容的下降和突变等因素,因此能够有效保持视频内容一致性。 2.实现方法 在视频内容的重要性分析过程中,我们首先建立了自顶向下和自底向上的联合重要性分析模型。自顶向下模型主要分析了图像中人脸等视觉上最为敏感信息元素,而自底向上模型则充分考虑了颜色强度、边界方向、闪烁和运动等信息。此外我们还根据重要性区域在视频中的衰减原则和场景切换检测等计算来合成时空一致性分析图。在扩展的双边滤波中,本文算法通过空间适配参数和强度参数的自适应调整实现了从视觉重要性分析结果到视频内容精细度调整的合理映射,从而实现满足视觉特性地调整并达到编码时码率合理分配的目的。 3.结论及未来待解决的问题 与其他如基于图像宏块做处理、对图像做内容分割等方法不同,我们以视频内容自适应预处理方式来实现码率的自适应调整。本文的实验结果表明在保持重要性区域的内容前提下实现降低码率的目标。与此同时,我们还对其他文献中的相关算法做了比较,结果表明我们的算法在相同码率水平下具有更好的视觉效果。基于本文的研究内容和实现的结果,进一步需要研究的内容和改进方向包括: (1) 寻找更合理的用于精细度处理的颜色空间。本文的视频预处理是基于CIE-Lab空间,而从YUV到该空间会有一定的视频质量损失。 (2) 我们将致力于研究更鲁棒的时空视觉重要性分析模型。 4.实用价值或应用前景 本文提出了时空一致性的视觉重要性分析并将此应用于视频内容的精细度自适应预处理,从而实现了满足视觉感知的自适应码率调整机制,可有效利用于基于视频质量动态调整的网络传输等应用中。