-
作者
胡德生张雪英张静李宝芸
-
单位
太原理工大学信息与计算机学院
-
摘要
为了有效特征提取与融合提高语音情感识别率,提出了一种使用主辅网络进行深度特征融合的语音情感识别算法。首先将段特征输入BLSTM-Attention网络作为主网络,其中注意力机制能够关注语音信号中的情感信息;然后,把Mel语谱图输入CNN-GAP网络作为辅助网络,GAP可以减轻全连接层带来的过拟合;最后,将两个网络提取的深度特征以主辅网络方式进行特征融合,解决不同类型特征直接融合带来的识别结果不理想的问题。在IEMOCAP数据集上对比4种模型的实验结果表明,使用主辅网络深度特征融合的WA和UA均有不同程度的提高。
-
关键词
语音情感识别主辅网络长短时记忆单元卷积神经网络
-
基金项目(Foundation)
国家自然科学基金资助项目(61371193);山西省回国留学人员科研资助项目(HGKY2019025);山西省研究生教育创新计划项目(2020BY130);
-
文章目录
1 不同类别的特征提取
1.1 段特征提取
1.2 Mel语谱图生成
1.3 基于BLSTM-Attention的深度段特征提取
1.4 基于CNN-GAP的深度Mel语谱图特征提取
2 主辅网络特征融合模型
2.1 主辅网络特征融合的网络结构
2.2 主辅网络特征融合参数传递及更新
1) 参数初始化。
2) 主网络训练。
3) 辅助网络训练。
3 实验及结果
3.1 实验数据库及网络参数设置
3.2 实验结果及分析
4 结束语
-
引用格式
胡德生,张雪英,张静,李宝芸.基于主辅网络特征融合的语音情感识别[J].太原理工大学学报,2021,52(05):769-774.
-
相关文章