基于深度学习的语音情感识别方法研究*

赵 鑫

(山西铁道职业技术学院,山西 太原030013)

语言作为人类沟通交流的工具,其声学信息和语言特性中都蕴含着大量的可挖掘情感信息。语音情感识别在诸多领域,特别是在心理疏导、抑郁症、孤独症等疾病的治疗,安全,教育等领域中都起到了极大的作用[1]。如何提高对语音情感的有效识别,使人机交互能更好的为人类服务,也成为语音识别领域新的研究方向。

随着语音情感识别研究的逐渐深入,语音情感识别也从传统的机器学习向深度神经网络转变。近年来,已有一些学者利用人工智能、机器学习的方法,在语音情感的处理与分析领域做了一定研究。其中王宇鹏等人提出可以通过卷积循环神经网络提取语谱图特征后与声学特征进行拼接识别,其识别率优于单一特征[2]。陶建华等人用权重衰减型神经网络和分类回归树的两个模型,证明了情感韵律与特征之间存在有密切联系[3]。高莹莹等人从情感的多视角出发,从不同的方面对语音中情感产生的过程和衍化进行刻画[4]。尽管通过深度学习来学习数据的高层抽象信息,已成功应用于语音识别和图像处理,但在语音情感识别方面还存在很大的研究空间。

本文提出一种极限学习机多层网络的语音情感识别方法,该方法通过对语音信号自编码获取高层情感特征,避免繁琐的手动提取特征的过程。训练过程中,利用语音情感隐含特征向量构建特征空间,提取、选择多个不同情绪的语音情感特征向量,用极限学习机深度自编码网络学习语音情感特征,以此对语音情感起一定的分类识别作用,如图1所示。

图1 语音情感识别过程图

1.1 语音情感特征提取

现有研究表明,日常生活中,人与人之间的交流不仅传递信息,还会通过语气和语调的变化表达自己的情感。语音的频率特征和音质特征都会发生一定的变化,其中所隐含的情感特征也不同。其中,频率特征首要考虑基频、均方根短时能量和过零率三个衡量指标。音质特征涉及谐波信噪比、对数频率功率系数(Log Frequency Power Coefficients,简称LFPC)、Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,简称MFCC)等。根据已有研究显示,将对数频率功率系数作为特征参数对5种基础情感的识别率更高。因此,在本文方法模型的参数选择上,设置并提取以1~12维LFPC系数、基频等共16种短时特征为参数。同时,通过提取对长语音进行裁剪,提取其短时特征及其一阶倒数完成情感特征统计量的构建,其中包括最大值、最小值、均值等10种,共计320个语音情感特征量,并从中优先选择前10个最有价值的特征,如表1所示。

表1 语音情感特征量等级排列前10

1.2 极限学习机自编码语音情感识别

本文提出采用多层特征提取的极限学习机深度自编码算法,如图2所示。与传统贪心学习框架不同,本文的自编码网络训练分为两个阶段,前一阶段采用基于多层极限学习机的自编码来提取输入数据的高层稀疏特征,第二阶段则使用原始极限学习完成最终的分类识别。

图2 分层极限学习机算法框架

首先,先将提取的语音特征作为输入数据转换到ELM特征空间中,通过多层极限学习机自编码网络学习获得高层稀疏特征。每个隐含层输出的数学表达式为:

Hi=g(Hi-1·β)

(1)

其中,Hi是第i层的输出(i∈[1,K]);
g(·)表示隐含层激励函数;
β代表输出权重。在数据特征进行分层极限学习机训练之后,最后一层输出的特征将作为原始ELM回归分析的输入。同时,为了加速学习速度,输入之前要将第K层的输出数据随机打乱。

2.1 实验数据

本实验采用的语音数据选自中国科学院自动化研究中文语音情感数据库,采用5折交叉验证方法,选取5类基本情感进行识别,共选取5000条语句,每种情感包含1000个短句,对于每种情感按3∶2随机选取600条进行训练,400条进行测试。

2.2 极限学习机网络参数设置

在特征学习阶段,需要指定自编码的层数和隐含层的激励函数。在实验过程中我们发现,提取的特征信息一开始具有明显的区分度,分类准确率会随着层数的增多而提高。但随着层数的进一步增加,抽象特征信息使得分类性能下降,分类准确率也会随之下降,根据实验测试,我们将特征学习的层数设置为4,如图3所示。

图3 特征学习中层数对识别准确率的影响

实验过程中,我们将不同类型的核函数分别运用到极限学习机深度网络框架中,如图4所示,不同类型的核函数运用到H-ELM中分类效果不同,结果显示非线性核函数比线性核函数能够取得较好的分类准确率。最后选用高斯函数作为自动编码的核函数,保证整个框架能够得到最好的结果。

图4 不同类型的核函数对识别准确率的影响

在有监督的特征分类阶段,与传统的神经网络训练算法相比,分层学习机训练过程中只需指定两个参数:用于计算最小均方误差的参数C和隐含层神经元的个数K。由图5可知,随着隐含层节点个数K的增加,合适的C会使得准确率曲线更加平滑并且测试准确率呈现上升趋势,当K值大于60时,曲线趋于水平。我们设置节点个数为90,最小均方误差参数C为108。

图5 参数C和K的取值和学习性能之间的关系

2.3 对不同语音情感特征的识别

通过对数据库中选取的5种基本情绪状态的情感语料信息的测试实验,分别计算出对5种不同情感的识别性能,如表2所示。

表2 对不同语音情感的识别率

2.4 不同方法实验分析

为更好的对本文算法识别准确率进行验证,我们使用相同的数据集将本文方法的实验结果和其他专家研究方法进行测试比较,如图6所示。

图6

如何构建更有效的语音情感识别算法模型一直是语音情感识别领域的研究热点。本文针对现有语音情感识别算法中的不足,提出一种将语音情感特征提取和深度自编码网络相结合的语音情感识别方法。先对语音中蕴含的情感进行特征提取与分析,同时使用深度极限学习机自编码网络对语音中潜在情感进行特征学习,提高了对语音情感的识别率,为更好的实现人机交互提供帮助。

猜你喜欢 学习机识别率编码 生活中的编码小学生学习指导(中年级)(2021年12期)2021-12-30“机”关文萃报·周五版(2021年30期)2021-09-05《全元诗》未编码疑难字考辨十五则汉字汉语研究(2020年2期)2020-08-13基于随机权重粒子群优化极限学习机的土壤湿度预测新疆大学学报(自然科学版)(中英文)(2020年2期)2020-07-25子带编码在图像压缩编码中的应用电子制作(2019年22期)2020-01-14基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系中国听力语言康复科学杂志(2019年3期)2019-06-24听力正常青年人的低通滤波言语测试研究*听力学及言语疾病杂志(2019年3期)2019-05-24Genome and healthcare疯狂英语·新读写(2018年3期)2018-11-29提升高速公路MTC二次抓拍车牌识别率方案研究中国交通信息化(2018年3期)2018-06-13基于改进极限学习机的光谱定量建模方法北京航空航天大学学报(2017年6期)2017-11-23

推荐访问:深度 语音 识别