基于深度神经网络的多模态情感识别(英文) |
| |
摘 要: | 为了提升音频和视频载体中的情感识别准确率,采用混合卷积神经网络和递归神经网络编码和集成视频与音频信息来源.通过智能的音频技术,从音频信号提取底层特征,然后用一维卷积神经网络抽象出高级特征,最后送入递归神经网络捕捉时间维度上的语调变化.作为对比,使用二维卷积神经网络和一个类似的卷积神经网络捕捉动态面部外观变化.该方法在2016年度中国模式识别会议提供的中国视觉与听觉情感数据库上达到了41.15%的平均精确度,相比会议基准算法的准确率提升了16.62%.证明所采用方法在情感信息识别中有更高的准确性.
|
本文献已被 CNKI 等数据库收录! |
|