• 论文
主办单位:煤炭科学研究总院有限公司、中国煤炭学会学术期刊工作委员会
基于主辅网络特征融合的语音情感识别
  • 作者

    胡德生张雪英张静李宝芸

  • 单位

    太原理工大学信息与计算机学院

  • 摘要
    为了有效特征提取与融合提高语音情感识别率,提出了一种使用主辅网络进行深度特征融合的语音情感识别算法。首先将段特征输入BLSTM-Attention网络作为主网络,其中注意力机制能够关注语音信号中的情感信息;然后,把Mel语谱图输入CNN-GAP网络作为辅助网络,GAP可以减轻全连接层带来的过拟合;最后,将两个网络提取的深度特征以主辅网络方式进行特征融合,解决不同类型特征直接融合带来的识别结果不理想的问题。在IEMOCAP数据集上对比4种模型的实验结果表明,使用主辅网络深度特征融合的WA和UA均有不同程度的提高。
  • 关键词

    语音情感识别主辅网络长短时记忆单元卷积神经网络

  • 基金项目(Foundation)
    国家自然科学基金资助项目(61371193);山西省回国留学人员科研资助项目(HGKY2019025);山西省研究生教育创新计划项目(2020BY130);
  • 文章目录
    1 不同类别的特征提取
    1.1 段特征提取
    1.2 Mel语谱图生成
    1.3 基于BLSTM-Attention的深度段特征提取
    1.4 基于CNN-GAP的深度Mel语谱图特征提取
    2 主辅网络特征融合模型
    2.1 主辅网络特征融合的网络结构
    2.2 主辅网络特征融合参数传递及更新
    1) 参数初始化。
    2) 主网络训练。
    3) 辅助网络训练。
    3 实验及结果
    3.1 实验数据库及网络参数设置
    3.2 实验结果及分析
    4 结束语
  • 引用格式
    胡德生,张雪英,张静,李宝芸.基于主辅网络特征融合的语音情感识别[J].太原理工大学学报,2021,52(05):769-774.
  • 相关文章
相关问题

主办单位:煤炭科学研究总院有限公司 中国煤炭学会学术期刊工作委员会

©版权所有2015 煤炭科学研究总院有限公司 地址:北京市朝阳区和平里青年沟东路煤炭大厦 邮编:100013
京ICP备05086979号-16  技术支持:云智互联