首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对语音情感识别的特征提取和分类模型构建问题,首先提出了一种基于语谱图的特征提取方法,将语谱图进行归一灰度化后,利用Gabor滤波器进行纹理特征提取,并采用主成分分析(principal component analysis,PCA)对特征矩阵进行降维;然后分析了卷积神经网络(convolutional neural networks,CNNs)并把其作为情感识别分类器;最后在Emo DB和CASIA库进行了不同的比对实验.实验结果取得了较高情感识别率,表明了所提特征提取方法的有效性以及CNNs用作情感分类的可行性.  相似文献   

2.
为了提高语音情感识别的准确度,探讨了将Transformer应用于语音情感识别的可能性.将对数梅尔尺度谱图及其一阶差分特征相融合作为输入,使用Transformer来提取分层语音表示,分析注意头个数和Transformer编码器层数的变化对识别精度的影响.结果表明,在ABC、CASIA、DES、EMODB和IEMOCAP语音情感数据库上,相比以MFCC为特征的Transformer,所提模型的精度分别提高了13.98%、8.14%、24.34%、8.16%和20.9%.该模型表现优于递归神经网络(RNN)、卷积神经网络(CNN)、Transformer等其他模型.  相似文献   

3.
针对老年人的语音情感识别问题,提出一种基于语谱图的老年人语音情感识别方法。首先采用一种改进的基于先验信噪比的维纳滤波算法,针对老人语音情感库EESDB进行语音增强,选取合适的语音情感库,对语音进行语谱图特征提取与规范化,然后分析卷积神经网络(CNN)的结构并选定Cifar10网络对语谱图进行分类,最后采用3种方案进行对比实验。实验结果取得了较高的情感识别率,表明了该方法的有效性和可行性。  相似文献   

4.
为提高视频人体行为识别的性能,提出了一种分层建模行为的方法.该分层模型根据人体运动的属性概述不同时空域的行为内容.首先,利用时间梯度并结合连贯的运动模式约束提取稳定、密集的运动特征作为点特征;然后,采用自适应尺度核的mean-shift聚类算法标定这些特征.具有同一标签的特征组通过最大池运算产生身体部分表示后,累积大尺度的视频体内视觉词响应作为视频对象的表示.在基准的KTH和UCF-sports行为数据库上,实验结果表明所提方法增强了行为特征的代表性和判别能力,同时提高了识别率.与其他相关文献相比,所提方法获得了优越的识别性能.  相似文献   

5.
将基于多个嵌入图组合形式的半监督判别分析(SDA)以及核SDA(KSDA)应用于全监督的语音情感识别.在语音信号样本情感成分的预处理阶段,从样本语段中提取出多种特征及其统计参数,包括基音、过零率、能量、持续长度、共振峰和MFCC(Mel频率倒谱系数).在将样本特征送入分类器之前的维数约简阶段,使用经过参数优化的SDA或KSDA进行降维.Berlin语音情感数据库上的实验表明,在使用多类SVM分类器时的全监督语音情感识别中,SDA优于其他一些先进的基于谱图学习的维数约简算法,如LDA,LPP,MFA等,而KSDA通过核化的数据映射,能够取得比上述所有算法更好的识别效果.  相似文献   

6.
针对语音情感识别中不同表征空间的信息利用不足问题,提出了一种多头注意力的双层长短时记忆模型,用于充分挖掘有效的情感信息.该模型以具有时序情感信息的帧级别特征作为输入值,利用长短时记忆模块学习时域特征,设计了特征注意力模块和时间多头注意力模块,对长短时记忆模块的逐层输出值、特征注意力模块输出值、时间多头注意力模块输出值进行融合.结果表明,相比传统的长短时记忆模型,所提方法在eENTERFACE和GEMEP两个数据集上的识别准确率分别提升了14.6%和10.5%,从而证明了其在语音情感识别任务中的有效性.  相似文献   

7.
传统的人脸识别多采用浅层结构提取人脸特征,这类方法提取人脸图像能力有限,效果相对较差。针对上述缺陷,提出基于卷积神经网络的高效识别人脸方法。该方法所设计的模型,结合了VGGNet模型的层次结构优势并融合跨层次结构的上采样特征,大大提高了人脸识别的准确性及识别精度。该模型在Caffe下训练出样本集后在MATLAB上得到了验证。  相似文献   

8.
提出了一种基于级联投影的高斯混合模型算法.首先,针对不同的特征维度计算高斯混合模型的边缘概率,依据边缘概率模型构造出多个子分类器,每个子分类器包含不同的特征组合.采用级联结构的框架对子分类器进行动态融合,从而获得对样本的自适应能力.其次,在心电情感信号和语音情感信号上验证了算法的有效性,通过实验诱发手段,采集了烦躁、喜悦、悲伤等情感数据.最后,探讨了情感特征参数(心率变异性、心电混沌特征,语句级静态特征等)的提取方法.研究了情感特征的降维方法,包括主分量分析、顺序特征选择、Fisher区分度和最大信息系数等方法.实验结果显示,所提算法能够在2种不同的场景中有效地提高情感识别的准确率.  相似文献   

9.
在情感分析领域,仅依靠文本等单一模态进行情感分析,限制了从多模态数据中提取多样化特征的能力,限制了情感分析结果的准确度和鲁棒性。为此,提出了融合音频分析网络和文本分析网络的多模态情感分析方法。其中,利用预训练卷积神经网络(CNN)和迁移学习技术进行基于Mel频谱图的音频情感分类,通过改进的XLNet模型执行歌词文本的特征提取和情感分类任务。CNN和XLNet输出包含概率权重和不同情感值的情感预测矩阵,最后使用堆叠集成方法合并不同模态的输出结果,完成多模态情感分类。在自建民族音乐数据集的消融实验证明,多模态方法具有良好的互补性,在情感识别任务中的性能显著优于单模态方法。公开数据集结果表明,所提方法的分类准确度达到83.75%,优于其他先进方法。  相似文献   

10.
为了提升音频和视频载体中的情感识别准确率,采用混合卷积神经网络和递归神经网络编码和集成视频与音频信息来源.通过智能的音频技术,从音频信号提取底层特征,然后用一维卷积神经网络抽象出高级特征,最后送入递归神经网络捕捉时间维度上的语调变化.作为对比,使用二维卷积神经网络和一个类似的卷积神经网络捕捉动态面部外观变化.该方法在2016年度中国模式识别会议提供的中国视觉与听觉情感数据库上达到了41.15%的平均精确度,相比会议基准算法的准确率提升了16.62%.证明所采用方法在情感信息识别中有更高的准确性.  相似文献   

11.
为解决传统人脸识别算法手工提取特征困难的问题,将卷积神经网络引入人脸识别任务中。为适应ORL数据集人脸识别任务的需要,参照经典的卷积神经网络模型Lenet-5的结构,提出一种适用于该数据集的CNN结构。实验结果表明,所提出的CNN结构具有较少的学习参数,且在ORL数据集上取得了较高的识别率。与传统人脸识别算法进行比较研究,从实验结果可以看出,在识别正确率上,所提出的卷积神经网络结构优于大多数识别算法。  相似文献   

12.
为了实现高速公路场景下天气图像的准确识别,文章提出了一种基于语义分割的高速公路天气识别方法,通过设计一种结合语义分割模型提取道路区域特征的方法,构建了基于语义分割的结合道路天气图像全局特征及道路特征的融合网络,实现对高速公路的天气识别。在道路预处理阶段,应用具有密集连接结构的多尺度特征提取模块DASPP到Deep Labv3+网络,增大模型在不同尺度特征上的分辨率密集程度和特征图在不同维度的感受野,进而有效改善道路提取的效果。在特征提取阶段,基于引入深度可分离卷积层的Xception网络,设计了天气特征提取网络WFCN,分别提取输入图像和道路区域图像的全局天气特征和道路天气特征并进行融合分类,有效降低模型参数量和运算量,并增强模型的性能。在构建的高速公路数据集上,对设计的算法分别进行了消融实验和对比实验,实验结果证明了该算法的有效性及相比现有天气识别算法的优越性。  相似文献   

13.
针对静态词向量方法不能很好地解决一词多义,长短时记忆网络参数量较多、训练时间过长等不足,提出将ALBERT预训练模型、双向门控循环单元、多头注意力机制融合在一起,构建了一个微博文本情感预测模型.首先,通过ALBERT模型获取文本动态词向量;然后采用双向门控循环单元提取文本特征;接着引入多层注意力机制捕获文本序列中的重要信息;最后,通过Softmax进行情感分类.实验结果表明:所提出的模型与传统模型相比,能有效提取文本的特征,与静态词向量相比,模型准确率提升1.76%,与长短时记忆网络相比,参数数量下降25%,训练效率提升20%,有较好的实用价值.  相似文献   

14.
基于CNN的迁移模型用于铝型材表面瑕疵分类识别研究中,未考虑所提取的瑕疵特征图中冗余信息对分类性能的影响.针对该问题,提出了一种基于集成迁移学习的铝型材瑕疵分类方法,首先基于CNN的传统迁移模型自动获取铝型材瑕疵特征,再利用多尺度膨胀卷积对所提取的铝型材瑕疵特征进行稀疏采样,获取多组差异化的瑕疵特征,通过训练生成一组具有差异化的CNN分类器,并将其集成.实验结果证明,该方法相对于传统基于CNN的迁移模型,在铝型材瑕疵分类上,具有更高的分类准确率,性能更优.  相似文献   

15.
针对实际环境中干扰因素多和计算量大,导致人脸识别准确度下降和系统算力不足的问题,提出了一种基于深度神经网络与MPI并行计算的人脸识别算法.首先,分析深度神经网络模型,设计关键训练步骤,同时收集各类人脸图像,建立训练样本库.然后,结合深度神经网络模型,对样本库数据进行训练,生成识别框架,并借助TensorFlow开源模型与Python来实现算法,进而达到识别人脸的目的.最后,基于MPI并行计算技术,搭建高性能并行计算平台,对所提算法进行分段优化与集成,实现识别系统的高速计算效率.实验测试结果显示:与已有的相关识别技术相比,所提算法具有更高的人脸识别准确度与抗干扰能力,从而可为高端智能监控系统提供技术基础.  相似文献   

16.
用于改善web搜索的结构化数据抽取技术   总被引:1,自引:0,他引:1  
为了提高web文本搜索质量,提出了基于语义结构化数据的查询扩展方法.通过分析属性的语义特征(文档频率特征和辨识能力特征)将属性分为概念属性、背景属性和无用属性3类,并且提出了衡量属性语义相关度的标准.设计了trie-bitmap和pair pointer table数据结构来实现发掘属性语义特征和检测属性语义相关度的有效算法.通过使用合适的属性和它们的语义关系,可以为查询关键字生成扩展词并将它们嵌入到具有插值参数的向量空间模型中.实验使用IMDB电影数据库和真实文本数据集来比较所提方法和原始向量空间模型的性能.实验结果证明所提出的查询扩展方法可以有效地提高文本搜索性能,同时属性语义特征和属性语义相关度都具有良好的分类能力.  相似文献   

17.
针对唇语识别过程中唇部特征提取和时序关系存在的问题,提出一种卷积神经网络(CNN)和双向长短时记忆网络(Bi-LSTM)相结合的深度学习模型。利用CNN学习唇部特征,并将学习到的唇部特征送入Bi-LSTM进行时序编码,通过Softmax进行分类。建立NUMBER DATASET和PHRACE DATASET两个大型汉语数据集以解决汉语唇语数据缺失问题。将该模型与传统的唇语识别方法在两个数据集上进行实验对比,发现在NUMBER DATASET上识别准确率为81.3%,比传统方法提高了8.1%,在PHRACE DATASET上识别准确率为83.5%,比传统方法提高了9%。实验结果表明该模型能有效提高唇语识别的准确率。  相似文献   

18.
在VC++环境下,提取PLAR特征参数,基于听觉特性和语谱特性的语音增强器作为预处理器,对语音信号首先进行降噪处理,建立了基于DTW的抗噪声说话人识别系统.实验结果表明,即使在信噪比比较低的情况下,该系统都会在一定程度上提高多种噪声环境下说话人识别系统的识别性能.  相似文献   

19.
研究了基于认知评估原理的多维耳语音情感识别.首先,比较了耳语音情感数据库和数据采集方法,研究了耳语音情感表达的特点,特别是基本情感的表达特点.其次,分析了耳语音的情感特征,并通过近年来的文献总结相关阶特征在效价维和唤醒维上的特征.研究了效价维和唤醒维在区分耳语音情感中的作用.最后,研究情感识别算法和应用耳语音情感识别的高斯混合模型.认知能力的评估也融入到情感识别过程中,从而对耳语音情感识别的结果进行纠错.基于认知分数,可以提高情感识别的结果.实验结果表明,耳语音信号中共振峰特征与唤醒维度不显著相关,而短期能量特征与情感变化在唤醒维度相关.结合认知分数可以提高语音情感识别的结果.  相似文献   

20.
在线教育师生情感缺失问题是当前教育研究亟待解决的难题之一。在线教育弹幕文本作为学习者对在线课程内容及自身学习状态的实时反馈,隐含了大量情感信息,对于上述问题的解决具有重要意义。然而,目前鲜有针对在线教育弹幕文本开展情感分析的研究。基于此,设计了一种融合变式情感词典与深度学习技术的在线教育弹幕情感智能识别模型。具体而言:通过构建弹幕种子情感词集,计算弹幕文本与情感种子短语间的相似度,实现极短弹幕文本情感识别;借助BERT动态表征弹幕文本,双向长短时记忆网络挖掘弹幕文本中的深层特征,实现常规弹幕文本情感识别;融合两类弹幕文本情感识别信息并更新后,完成在线教育弹幕文本情感信息的智能识别。研究通过模型对比实验检验模型性能有效性,并借助具体案例验证模型应用可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号