融合时空域特征的人脸表情识别

Chen Tuo, Xing Shuai,Yang Wenwu,Jin Jianqiu

Journal of Image and Graphics(2022)

引用 0|浏览3
暂无评分
摘要
目的 人脸表情识别是计算机视觉的核心问题之一.一方面,表情的产生对应着面部肌肉的一个连续动态变化过程,另一方面,该运动过程中的表情峰值帧通常包含了能够识别该表情的完整信息.大部分已有的人脸表情识别算法要么基于表情视频序列,要么基于单幅表情峰值图像.为此,提出了一种融合时域和空域特征的深度神经网络来分析和理解视频序列中的表情信息,以提升表情识别的性能.方法 该网络包含两个特征提取模块,分别用于学习单幅表情峰值图像中的表情静态"空域特征"和视频序列中的表情动态"时域特征".首先,提出了一种基于三元组的深度度量融合技术,通过在三元组损失函数中采用不同的阈值,从单幅表情峰值图像中学习得到多个不同的表情特征表示,并将它们组合在一起形成一个鲁棒的且更具辩识能力的表情"空域特征";其次,为了有效利用人脸关键组件的先验知识,准确提取人脸表情在时域上的运动特征,提出了基于人脸关键点轨迹的卷积神经网络,通过分析视频序列中的面部关键点轨迹,学习得到表情的动态"时域特征";最后,提出了一种微调融合策略,取得了最优的时域特征和空域特征融合效果.结果 该方法在3个基于视频序列的常用人脸表情数据集CK+(the extended Cohn-Kanade dataset)、MMI(the MMI facial expression database)和Oulu-CASIA(the Oulu-CASIA NIR&VIS facial expression database)上的识别准确率分别为98.46%、82.96%和87.12%,接近或超越了当前同类方法中的表情识别最高性能.结论 提出的融合时空特征的人脸表情识别网络鲁棒地分析和理解了视频序列中的面部表情空域和时域信息,有效提升了人脸表情的识别性能.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要