• 论文
主办单位:煤炭科学研究总院有限公司、中国煤炭学会学术期刊工作委员会
基于SAE-LS-CGAN数据增强的语音情感识别
  • 108
  • 作者

    魏佳楠孙颖张雪英

  • 单位

    太原理工大学电子信息与光学工程学院

  • 摘要
    语音情感语料库具有数据稀少的问题,然而深度神经网络的训练需要大量的数据才能实现较好的性能。数据增强是解决这一问题的有效方法,但是目前语音情感识别领域缺乏对数据增强方法的有效性研究。在分析多种语音数据增强方法的基础上,本文提出了一种基于改进条件生成对抗网络(Conditional Generative Adversarial Network, CGAN)的新的数据增强网络SAE-LS-CGAN。其中,改进CGAN将语音特征映射为N个矩阵,鉴别器分别对每个矩阵进行评价,增加鉴别的准确性。另外,网络整体设计与传统的生成对抗网络(Generative Adversarial Network, GAN)不同,该网络增加栈式自编码器(Stacked AutoEncoder, SAE),并将其输出作为改进CGAN的输入,同时使用类别学习器(Class Learning Block, CLB)辅助提升生成样本的质量,最后引入最小二乘损失函数(The Least Squares Loss Function, LS)对网络进行对抗性训练,在原始特征空间和潜在空间中生成高质量的特征向量,这些生成数据扩展到训练数据中,用于分类。实验结果表明,在Emo-DB和IEMOCAP数据集上,都表现出较好的性能。
  • 关键词

    语音情感识别数据增强栈式自编码器条件生成对抗网络最小二乘损失函数

  • 文章目录
    1 基于SAE-LS-CGAN数据增强方法
    1.1 栈式自编码器
    1.2 生成对抗网络
    1.3 条件生成对抗网络
    1.4 损失函数
    2 实 验
    2.1 实验数据与特征预处理
    2.2 评价指标
    2.3 实验设置
    3 结 果
    3.1消融实验
    3.2对比实验
    4 结 语
相关问题

主办单位:煤炭科学研究总院有限公司 中国煤炭学会学术期刊工作委员会

©版权所有2015 煤炭科学研究总院有限公司 地址:北京市朝阳区和平里青年沟东路煤炭大厦 邮编:100013
京ICP备05086979号-16  技术支持:云智互联