可变时长的短时广播语音多语种识别

王瑶 龙华 邵玉斌 杜庆治

引用本文:
Citation:

可变时长的短时广播语音多语种识别

    作者简介: 王 瑶(1996−),男,湖北人,硕士生,主要研究语音信号处理. E-mail:1207829427@qq.com;
    通讯作者: 龙华, 1670931890@qq.com
  • 中图分类号: TP391

Multilingual recognition of short-time broadcast speech with variable duration

    Corresponding author: LONG Hua, 1670931890@qq.com ;
  • CLC number: TP391

  • 摘要: 针对短时语音时长过短以及训练语音和测试语音时长不等,导致语种识别性能大幅度下降的问题,提出了一种可变时长的短时广播语音多语种识别模型(Variable Duration-Language Identification, VD-LID). 首先,对不同时长的语音进行时长规整;然后,对规整后的短时语音进行特征提取,提取其对数功率谱包络图作为语种特征;最后,将语种特征输入到残差神经网络中进行分类. 实验结果表明:相比于传统特征输入,对数功率谱包络图特征将短时语音的语种识别准确率提高到了82.4%;相比于没有引入时长规整层的语种识别模型,VD-LID在测试语音时长为5 s和10 s的实验中,语种识别准确率分别提升了27.9%和37.7%.
  • 图 1  对数功率谱包络特征提取流程图

    Figure 1.  The features extraction of logarithmic power spectrum envelope

    图 2  同一帧语音信号的波形、对数功率谱和对数功率谱包络

    Figure 2.  The waveform, logarithmic power spectrum and logarithmic power spectrum envelope of the same frame speech signal

    图 3  生成对数功率谱包络图的流程图

    Figure 3.  Flowchart for generating a logarithmic power spectrum envelope diagram

    图 4  引入时长规整层的VD-LID模型

    Figure 4.  VD-LID model with regular duration layer

    图 5  残差单元结构图

    Figure 5.  Unit structure diagram of the residual neural network

    表 1  不同网络及特征的语种识别效果

    Table 1.  Language recognition effect of different networks and characteristics      %

    训练网络LPSEM语谱图FbankMFCC
    Resnet1878.774.273.973.0
    Resnet3482.476.475.274.5
    Resnet5080.178.574.275.7
    VGG1176.073.373.972.1
    VGG1677.975.374.273.8
    下载: 导出CSV

    表 2  特征数据扩展对短时语音语种识别率的影响

    Table 2.  The impact of feature data expansion on short-term speech language recognition rate %

    特征LPSEMFbankMFCC
    特征向量76.271.470.9
    特征图谱82.475.274.5
    下载: 导出CSV

    表 3  时长规整层对语种识别准确率的影响

    Table 3.  The impact of the time-length regulation layer on the ac­curacy of language recognition %

    训练网络测试语音时长/s
    1510
    VD-LID82.486.694.0
    Resnet3482.458.756.3
    下载: 导出CSV
  • [1] 瞿于荃, 龙华, 段荧, 等. 联合总变率空间和时延神经网络的说话人识别[J]. 计算机科学与探索, 2021, 15(7): 1255- 1264. Qu Y Q, Long H, Duan Y, et al. Speaker recognition combined with total variable rate space and time delay neural network[J]. Computer Science and Exploration, 2021, 15(7): 1255- 1264.
    [2] 苗晓晓, 张健, 索宏彬, 等. 应用于短时语音语种识别的时长扩展方法[J]. 清华大学学报:自然科学版, 2018, 58(3): 254- 259. Miao X X, Zhang J, Suo H B, et al. Time extension method applied to short-term speech language recognition[J]. Journal of Tsinghua University:Natural Science Edition, 2018, 58(3): 254- 259.
    [3] 苗晓晓, 徐及, 王剑. 基于降噪自动编码器的语种特征补偿方法[J]. 计算机研究与发展, 2019, 56(5): 1 082-1 091. DOI:  10.7544/issn1000-1239.2019.20180471. Miao X X, Xu J, Wang J. Language feature compensation method based on noise reduction autoencoder[J]. Computer Research and Development, 2019, 56(5): 1 082- 1 091.
    [4] Li C, Ma X, Jiang B, et al. Deep speaker: An end-to-end neural speaker embedding system[J]. ArXiv: 1705-1713, 2017
    [5] Snyder D, Ghahremani P, Povey D, et al. Deep neural network-based speaker embeddings for end-to-end speaker verification[C]//IEEE Workshop on Spoken Language Technology, San Diego, CA, 2016: 165-170. DOI: 10.1109/SLT.2016.7846260.
    [6] Karim F, Majumdar S, Darabi H, et al. LSTM fully convolutional networks for time series classification[J]. IEEE Access, 2017, 28(6): 1 662- 1 669.
    [7] Zhang Y, Pezeshki M, Brakel P, et al. Towards end-to-end speech recognition with deep convolutional neural networks[C]//17th Annual Conference of the International Speech Communication Association, San Francisco, CA, 2016: 410-414. DOI:  10.21437/Interspeech.2016-1446.
    [8] Cai W, Cai Z, Liu W, et al. Insights into end-to-end learning scheme for language identification[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, Calgary, Canada, 2018: 5 209-5 213.
    [9] Abdel-Hamid O, Mohamed A, Jiang H, et al. Convolutional neural networks for speech recognition[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(10): 1 533- 1 545. DOI:  10.1109/TASLP.2014.2339736.
    [10] He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]//Proceedings of the IEEE Conference on Computer Visio and Pattern Recognition,Nevada,USA, 2016: 770-778. DOI:  10.1109/CVPR.2016.90.
    [11] 刘梦媛, 杨鉴. 基于HMM的缅甸语语音合成系统设计与实现[J]. 云南大学学报: 自然科学版, 2020, 42(1): 19- 27. DOI:  10.7540/j.ynu.20190387. Liu M Y, Yang J. Design and implementation of Burmese speech synthesis system based on HMM[J]. Journal of Yunnan University: Natural Sciences Edition, 2020, 42(1): 19- 27.
    [12] 秦晨光, 王海, 任杰. 基于多任务学习的方言语种识别[J]. 计算机研究与发展., 2019, 56(12): 2 632- 2 640. Qing C G, Wang H, Ren J. Dialect language recognition based on multi-task learning[J]. Computer Research and Development, 2019, 56(12): 2 632- 2 640.
    [13] Lea F Y,Lin G L. An MFCC-based speaker identification system[C]//International Conference on Advanced Information Networking and Applications, Taipei, China, 2017: 1 055-1 062, DOI:  10.1109/AINA.2017.130.
    [14] 邵玉斌, 刘晶, 龙华, 等. 基于声道频谱参数的语种识别[J]. 北京邮电大学学报, 2021, 44(3): 112- 119. Shao Y B, Liu J, Long H, et al. Language recognition based on vocal tract spectrum para­meters[J]. Journal of Beijing University of Posts and Telecommunications, 2021, 44(3): 112- 119.
    [15] 徐欣, 李枚亭. 基于频谱包络算法的语音转换研究[J]. 数字技术与应用, 2011, 25(9): 123- 125. Xu X, Li M T. Speech conversion research based on spectrum envelope algorithm[J]. Digital Technology and Application, 2011, 25(9): 123- 125.
    [16] Li R, Mallidi S H, Burget L, et al. Exploiting hidden-layer responses of deep neural networks for language recognition[C]//Proceedings of the 26th Internation Joint Conference on Artifical Intelligence, San Francisco, CA, USA, 2016: 3 265-3 269. DOI: 10.21437/Interspeech.2016-1584.
    [17] Tkachenko M, Yamshinin A, Lyubimov N, et al. Language identification using time delay neural network D-vector on short utterances[C]// International Conference on Speech and Computer, Budapest, Hungary, 2016: 443-449. DOI: 10.1007/978-3-319-43958-7_53.
  • [1] 李淼周冬明刘琰煜谢诗冬王长城卫依雪 . 结合深度残差神经网络与Retinex理论的低照度图像增强. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20200421
    [2] 刘晶邵玉斌龙华李一民 . 基于GFCC和能量算子倒谱的语种识别. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20210177
    [3] 袁刚周冬明聂仁灿 . 基于简化脉冲耦合神经网络的噪声人脸识别. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20150056
    [4] 赵光兰周冬明赵东风聂仁灿 . 脉冲耦合神经网络的人脸识别方法. 云南大学学报(自然科学版),
    [5] 赵光兰周冬明赵东风聂仁灿 . 脉冲耦合神经网络的人脸识别方法. 云南大学学报(自然科学版),
    [6] 邱爽聂仁灿周冬明李兴叶 . 自归一化卷积神经网络的人脸识别方法. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20170436
    [7] 陶志勇胡启振任晓奎 . 基于二层分解技术和改进神经网络的河流溶解氧预测研究. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20210194
    [8] 刘鹏飞张伟峰何克晶 . 差分进化算法优化的图注意力网络集成研究. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.P00152
    [9] 丁斋生周冬明聂仁灿侯瑞超刘栋刘琰煜 . 基于视觉显著性与残差网络的红外-可见光图像融合方法. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20180692
    [10] 程祥磊鲍慈光彭莉 . 人工神经网络预测离子色谱分离条件. 云南大学学报(自然科学版),
    [11] 马晓敏王新 . 基于遗传算法的BP神经网络改进. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.2013b4
    [12] 陈智斌 . 网络中信息传播的最短时间算法. 云南大学学报(自然科学版),
    [13] 周冬明 . 具有变时滞的细胞神经网络的全局指数稳定性. 云南大学学报(自然科学版),
    [14] 姬晨郭延哺金宸段云浩李维华 . 一种基于卷积神经网络的跨领域情感分析. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20180050
    [15] 贾时银周冬明聂仁灿赵东风 . 脉冲耦合神经网络模型参数优化及图像分割. 云南大学学报(自然科学版),
    [16] 虞双吉苗春生王新 . 极限学习机神经网络在短期降水预报中的应用. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20120670
    [17] 胡芳周冬明聂仁灿赵东风 . 脉冲耦合神经网络模型参数估计及其图像分割. 云南大学学报(自然科学版),
    [18] 胡耀文孙俊方芳邵玉斌龙华 . 基于BP神经网络的接收信号强度的检测方法. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20160773
    [19] 范斌刘辉汪繁荣谭文龙 . 狼群算法优化BP神经网络的电缆故障测距算法. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20160132
    [20] 蒲越李国东赵静 . 基于细胞神经网络混沌特性的音频加密技术应用. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20150737
  • 加载中
图(5)表(3)
计量
  • 文章访问数:  108
  • HTML全文浏览量:  167
  • PDF下载量:  3
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-05-24
  • 录用日期:  2021-07-25
  • 网络出版日期:  2021-09-26

可变时长的短时广播语音多语种识别

    作者简介:王 瑶(1996−),男,湖北人,硕士生,主要研究语音信号处理. E-mail:1207829427@qq.com
    通讯作者: 龙华, 1670931890@qq.com
  • 昆明理工大学 信息工程与自动化学院,云南 昆明 650500

摘要: 针对短时语音时长过短以及训练语音和测试语音时长不等,导致语种识别性能大幅度下降的问题,提出了一种可变时长的短时广播语音多语种识别模型(Variable Duration-Language Identification, VD-LID). 首先,对不同时长的语音进行时长规整;然后,对规整后的短时语音进行特征提取,提取其对数功率谱包络图作为语种特征;最后,将语种特征输入到残差神经网络中进行分类. 实验结果表明:相比于传统特征输入,对数功率谱包络图特征将短时语音的语种识别准确率提高到了82.4%;相比于没有引入时长规整层的语种识别模型,VD-LID在测试语音时长为5 s和10 s的实验中,语种识别准确率分别提升了27.9%和37.7%.

English Abstract

  • 语种识别是指计算机根据不同语种之间的差异来判别语音样本中所用语言的种类. 在语种识别中,短时语音片段被用于多种场景,例如:军事监听、短语翻译和紧急救援等,但短时语音存在一些不足: ①随着语音时长的减少,语段特征中有效信息也随之减少[1],无法充分表达语种信息; ②由于训练语音的数量是有限的,无法覆盖到任意时长,而当待测语音与训练语音时长不等时,语种识别的准确率会急速下降. 文献[2]针对短时语音的语种识别问题提出了一种时长扩展方法,该方法通过对短时语音进行语速变速和时长拼接,将原有的短时语音片段转换成时长较长的语音,有效提高了短时语音的语种识别准确率. 但在语段拼接过程中,语音的条数和语速的快慢对语种识别结果影响较大. 为了解决训练语音与测试语音时长不等而导致语种识别率下降的问题,文献[3]采用语种特征补偿方法对不同时长语音的特征进行补偿,将不同长度的语音特征映射到了固定长度上,较好地解决了长度失配和音素失配不平衡的问题,但在短时语音的语种识别中,其准确率还不够理想. 文献[4]和文献[5]通过在深度神经网络中引用时间平均池化层(Temporal Average Pooling layer,TAP layer),将不同时长语音处理成相同维度的特征,虽然解决了训练语音和测试语音时长不匹配的问题,但也丢失了语音信号中的部分时域信息. 近些年来,长短时记忆网络(Long Short-term Memory Network,LSTM)[6]在处理可变时长语音的问题上取得了一定的成果,但还是存在两个缺点:①当输入序列较长时,由于时间的迭代乘法,训练速度可能非常缓慢[7];②训练过程中可能会出现梯度消失和梯度爆炸的问题[7]. 就目前而言,在可变时长的短时广播语音信号语种识别实验中,采用卷积神经网络(Convolutional Neural Network,CNN)[8]作为后端分类器是较为少见的. 同时,Abdel-Hamid等[9]认为CNN用于语音识别有3个重要的优势:①局部感受野可增强对非白噪声的鲁棒性;②权值共享可以进一步增强模型的鲁棒性;③池化操作可以抵抗频带带来的扰动.

    针对上述可变时长的短时语音在语种识别中存在的问题,本文在训练阶段,提取短时广播语音对数功率谱包络图(Logarithmic Power Spectrum Envelope Map,LPSEM)作为特征输入,并以CNN中的Resnet网络[10]作为分类模型. 在测试阶段,当待测语音的时长不等时,本文基于文献[10]中的深度残差网络Resnet34,在其前端引入时长规整层(Regular Duration layer,RD layer)构建出一个可以识别可变时长语音的语种识别模型(Variable Duration-Language Identifi­cation, VD-LID). 在时长为1 s的短时语音语种识别任务中,准确率达到了82.4%;此外,相比于没有引入时长规整层的Resnet34网络,VD-LID分别将测试语音时长为5 s和10 s的语种识别准确率提升了27.9%和37.7%.

    • 语谱图[11]、对数Mel尺度滤波器组能量(log Mel-scale filter bank energies,Fbank)[12]、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)[13]是进行语音识别的重要特征. 这些特征在说话人识别和语种识别中都取得了一定的成果,但在语种识别中还存在一些不足,语谱图、Fbank、MFCC包含了大量的说话人信息,这些信息会对语种识别产生较大影响. 并且对于Fbank而言,由于在提取过程中经过了梅尔滤波器组,使其具有了较高的相关性,这将会产生大量冗余信息. 相比于Fbank,MFCC在其基础上进行了离散余弦变换(Discrete Co­sine Transform,DCT),虽然降低了Fbank的相关性,但在一定程度上减少了语音中的原始信息量. 目前还没有文献明确何种特征会对语种识别起到关键作用,因此对特征提取的课题还有待研究. 针对上述问题,本文提出使用LPSEM作为特征输入.

      语音信号可以看作是由声门激励信号与声道冲激响应共同作用的结果,其中声门激励信号主要反映语音的说话人信息,将其滤除可以有效减少语音信号中的说话人信息[14]. 本文中声道冲激响应就是对数功率谱包络(Logarithmic Power Spectrum Envelope,LPSE). LPSE不仅与语义有关,还反映了语音信号的声道特性[15],声道特性是指人类发声时舌体、牙齿等器官的形状. 而不同语种在发音时,舌体、牙齿等器官的形状具有一定差异. 从语音的音素角度分析,不同的语种都有一套不同的音素来加以描述,并且不同音素的共振峰标度有所不同,而共振峰标度可以很好的在LPSE中显现出来,故选择LPSEM作为语种识别的特征.

    • 提取LPSE实际上就是将语音中的声门激励信号与对数功率谱包络分离的过程,具体流程如图1所示.

      图  1  对数功率谱包络特征提取流程图

      Figure 1.  The features extraction of logarithmic power spectrum envelope

      一帧语音信号 $x(n)$ 可以表示为:

      $ x(n) = {x_1}(n) * {x_2}(n) , $

      式中,${x_1}(n)$${x_2}(n)$ 分别表示对数功率谱包络和声门激励信号,$ * $ 表示卷积运算.

      步骤 1 分帧、加窗:对语音信号进行分帧,然后加上窗函数,取一帧语音信号 $x(n)$ 进行分析.

      步骤 2 DFT:通过离散傅里叶变换(Discrete Fourier Transform,DFT),将时域信号变换成为频域信号:

      $ \begin{split}{{f}}_{{\rm{dtc}}}(x(n))&={f}_{\rm{dtc}}({x}_{1}(n)\ast {x}_{2}(n))=\\ & {\sum \limits _{n=0}^{N-1}{x}_{1}(n){{\rm{e}}}^{-{\rm{j}}nk\frac{2\pi }{N}}}\cdot {\sum \limits _{n=0}^{N-1}{x}_{2}(n)}{{\rm{e}}}^{-{\rm{j}}nk\frac{2\pi }{N}}=\\ & {X}_{1}(k)\cdot {X}_{2}(k)=X(k)\end{split} , $

      式中,${f}_\rm{dtc}()$ 为离散傅里叶变换,$N$ 为序列长度,$n$ 为时域上的第 $n$ 个采样点,$k$ 为频域上第 $k$ 个采样点,${\rm{j}}$ 为虚部单位,$X(k)$ 为变换后的频域信号.

      步骤 3 取模、取对数:对式(2)中 $X(k)$ 取模,再求其对数:

      $ \ln {\text{|}}X(k){\text{|}} = \ln {\text{|}}{X_1}(k){\text{|}} + \ln {\text{|}}{X_2}(k)| = {\hat X_1}(k) + {\hat X_2}(k) = \hat X(k) , $

      式中,$\hat X(k)$ 为式(1)中语音信号 $x(n)$ 的对数功率谱. $\hat X(k)$ 的包络就是对数功率谱包络.

      步骤 4 IDFT:$\hat X(k)$ 进行逆离散傅里叶变换(Inverse Discrete Fourier Transform,IDFT)得到语音信号 $x(n)$ 的复倒谱 $\hat x(n)$

      $ \begin{split} {f_{{\rm{dtc}}}}^{ - 1}(\hat X(k)) &= {f_{{\rm{dtc}}}}^{ - 1}({{\hat X}_1}(k) + {{\hat X}_2}(k)) = \\ &\frac{1}{N}\sum\limits_{K = 0}^{N - 1} {{{\hat X}_1}(k)} {{\rm{e}}^{{\rm{j}}nk\frac{{2\pi }}{N}}}{\text{ + }}\frac{1}{N}\sum\limits_{K = 0}^{N - 1} {{{\hat X}_2}(k)} {{\rm{e}}^{{\rm{j}}nk\frac{{2\pi }}{N}}} = \\ &{{\hat x}_1}(n) + {{\hat x}_2}(n) = \hat x(n) \\[-13pt] \end{split} , $

      式中,$ {f}_{{\rm{dtc}}}{}^{-1}() $ 为逆离散傅里叶变换.

      步骤 5 取模:取式(4)中 $\hat x(n)$ 的模 $\hat y(n)$

      $ {\text{|}}\hat x(n){\text{|}} = {\text{|}}{\hat x_1}(n) + {\hat x_2}(n){\text{|}} = {\hat y_1}(n) + {\hat y_2}(n) = \hat y(n) , $

      步骤 6 滤波、DFT:对式(5)中的 $\hat y(n)$ 进行滤波处理,分离得到 ${\hat y_1}(n)$${\hat y_2}(n)$. 再对 ${\hat y_1}(n)$ 进行离散傅里叶变换,并对变换结果取绝对值,得到每一帧语音信号的对数功率谱包络,

      $ |{{f} _{{\rm{dtc}}}}({\hat y_1}(n))| = Y(k) , $

      式中,$ Y(k) $ 为语音信号 $x(n)$ 的对数功率谱包络. 语音信号 $x(n)$ 的波形、对数功率谱和对数功率谱包络如图2所示. 其中(a)为语音信号 $x(n)$ 的信号波形;(b)为 $x(n)$ 的对数功率谱 $\hat X(k)$ 和对数功率谱包络 $ Y(k) $ 的组合;(c)为对数功率谱包络 $ Y(k) $.

      图  2  同一帧语音信号的波形、对数功率谱和对数功率谱包络

      Figure 2.  The waveform, logarithmic power spectrum and logarithmic power spectrum envelope of the same frame speech signal

    • 语音信号作为非平稳信号,其频域随时间变化而变化,为了较好地保留语音信号的时域特性和频域特性,同时使得每一帧语音信号之间具有较强的关联性,在提取完一帧语音信号的LPSE之后,将同一段语音信号的每一帧LPSE按行拼接起来,形成一个 $f \times w$ 的矩阵 ${\boldsymbol{M}}$,其中 $f$ 代表帧数,$w$ 代表帧长. 其流程图如图3所示.

      图  3  生成对数功率谱包络图的流程图

      Figure 3.  Flowchart for generating a logarithmic power spectrum envelope diagram

      在LPSEM中,横轴为频率特性,纵轴为时域特性,每一个色块由矩阵 ${\boldsymbol{M}}$ 中的一个数据点扩展得到. 同时矩阵 ${\boldsymbol{M}}$ 是由每一帧语音的LPSE按行拼接而成,故 ${\boldsymbol{M}}$ 可以表示为:

      ${\boldsymbol{M}} = \left[ {\begin{array}{*{20}{c}} {{Y_1}(1)}& \cdots &{{Y_1}(j)}& \cdots &{{Y_1}(w)}\\ { \vdots \;}&{}& \vdots &{}& \vdots \\ {{Y_i}(1)}& \cdots &{{Y_i}(j)}& \cdots &{{Y_i}(w)}\\ \vdots &{}& \vdots &{}& \vdots \\ {{Y_f}(1)}& \cdots &{{Y_f}(j)}& \cdots &{{Y_f}(w)} \end{array}} \right],$

      式中,$i$ 代表第 $i$ 帧,$j$ 代表每一帧的第 $j$ 个点.

      将一个数据点扩展形成一个色块,即 ${Y_i}(j)$ 扩展得到色块 ${{\boldsymbol{Z}}_i}(j)$,矩阵 ${\boldsymbol{M}}$ 扩展为矩阵 ${{\boldsymbol{ Z}}}$,因此,LPSEM可以表示为:

      $ {{\boldsymbol{ Z}}} = \left[ \begin{array}{l} {{\boldsymbol{Z}}_{\boldsymbol{1}}}(1)\;\; \cdots\;\;{{\boldsymbol{Z}}_{\boldsymbol{1}}}(j)\;\; \cdots \;\;{{\boldsymbol{Z}}_{\boldsymbol{1}}}(w) \\ \;\; \vdots\;\;\;\;\;\;\;\;\;\;\;\;\;\; \vdots \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \vdots \;\; \\ {{\boldsymbol{Z}}_{\boldsymbol{i}}}(1)\;\; \cdots \;\; {{\boldsymbol{Z}}_{\boldsymbol{i}}}(j)\;\; \cdots \;\; {{\boldsymbol{Z}}_{\boldsymbol{i}}}(w) \\ \;\; \vdots \;\;\;\;\;\;\;\;\;\;\;\;\;\;\vdots\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \vdots \;\;\\ {{\boldsymbol{Z}}_{\boldsymbol{f}}}(1)\;\; \cdots \;\; {{\boldsymbol{Z}}_{\boldsymbol{f}}}(j)\;\; \cdots \;\; {{\boldsymbol{Z}}_{\boldsymbol{f}}}(w) \end{array} \right] , $

    • 对于一般的神经网络,尤其是全连接神经网络,其输入需要固定长度[16-17],然而在语种识别和说话人识别中使用的语音时长往往不是固定的. 为了让语种识别系统输入语音时长可变,并且不丢失语种信息,同时语种识别准确率保持在较高水平,本文在Resnet34网络前端引入一个时长规整层. 如图4所示.

      图  4  引入时长规整层的VD-LID模型

      Figure 4.  VD-LID model with regular duration layer

    • 本文根据语音的时长不同,将长语音分割为若干时长为1 s的短时语音,从而保证测试语音的特征能够映射到训练语音的输入特征上. 已知时长为1 s的短时语音片段生成LPSEM特征矩阵 ${\boldsymbol{M}}$ 的维度是 $f \times w$. 当语音片段时长大于1 s时,设其生成的LPSEM特征矩阵为 ${\boldsymbol{M}}'$,其维度为 $F \times w$,此时 $F \geqslant f$,故需要引入时长规整层对长语音进行时长规整,具体操作如下:将长语音切割成多条时长为1 s的短时语音,其结果表示如下:

      $ V(n) = [{V_1}(n) {\text{ }}{V_2}(n) {V_3}(n) \cdots {V_H}(n)] , $

      式中,${V_1}(n) ,{V_2}(n) ,{V_3}(n) \cdots {V_H}(n)$ 分别为时长为1 s的短时语音,$ V(n) $ 为时长大于1 s的语音,$n$ 代表第 $n$ 个采样点. 在进行语音分割时,首先要确定语音信号的时长 $T$,再确定所分时长为1 s的短时语音的个数 $H$.

      $ L = \frac{{H - \dfrac{T}{1}}}{{H - 1}} , $

      式中,$L$ 为长语音分割时相邻两段短时语音的重叠长度,当 $L$ 大于0时,$\left| L \right|$ 表示相邻两段短时语音的重叠时长,当 $L$ 小于0时,$\left| L \right|$ 表示相邻两段短时语音的距离.

    • 目前在语音识别领域比较流行的CNN网络主要是Resnet网络和VGG网络. 在VGG网络内部使用多个 $3 \times 3$ 的卷积核代替其他大尺度的卷积核,其优点在于,保证相同感知野的条件下,不仅提升了网络的深度,在一定程度上也提升了神经网络的效果. 然而VGG网络拥有3个全连接层,这意味着会使用大量的参数,因此它的计算会消耗大量的资源. 同时随着网络层数的增加,梯度消失导致其后端网络层无法对前端网络层进行调整,也会影响神经网络的性能.

      相比于VGG网络,Resnet网络引入残差单元来解决网络的退化问题. 残差单元可以表示为:

      $ y = F(x,{{\boldsymbol{W}}_i}) + x , $

      $ F(x) = {{\boldsymbol{W}}_2}\sigma ({{\boldsymbol{W}}_1}x) , $

      式中,$x$$y$ 分别表示所在网络层的输入和输出结果,$F(x,{{\boldsymbol{W}}_i})$ 表示要学习的残差映射,$F(x)$ 代表残差函数. ${{\boldsymbol{W}}_1}$${{\boldsymbol{W}}_2}$ 代表图5中第一个网络层和第二个网络层的权重向量,$\sigma $ 代表ReLU激活函数. 最后残差单元的输出为 $\sigma (F(x) + x)$.

      图  5  残差单元结构图

      Figure 5.  Unit structure diagram of the residual neural network

      当残差函数 $F(x){\text{ = }}0$ 时,此时堆积层做了恒等映射,网络的性能不会随着网络层数的增加而下降,事实上残差函数不会为0,因此堆积层在输入特征基础上还可以学习到新的特征,从而拥有更好的性能. 如图5所示为残差单元结构示意图.

      在VD-LID后端我们采用softmax函数来计算语音分属每一语种的概率.

      $ {p}_{J}=\frac{{c}_{I}}{{\displaystyle\sum \limits _{g=1}^{G}{c}_{g}}},0\leqslant {p}_{J}\leqslant 1 , $

      式中,${p_J}$ 表示判别为第 $J$ 类语种的概率,$G$ 代表语种个数,${c_I}$${c_g}$ 分别代表第 $I$ 个节点和第 $g$ 个节点的输出值.

      一段时长为 $T$ 的长语音,经过分割之后得到 $H$ 段时长为1 s的短时语音,将 $H$ 个短时语音的特征输入CNN网络得到 $H \times G$ 个节点的输出值,然后把这些节点的输出值映射到softmax函数中,得到各个短时语音识别为某种语种的概率 ${p_J}$.

      $ {Q}_{J}=\frac{{\displaystyle\sum \limits _{r=1}^{{e}_{J}}{p}_{r}}}{{\displaystyle\sum \limits _{j=1}^{G}{\displaystyle\sum \limits _{r=1}^{{e}_{J}}{p}_{J,r}}}},0\leqslant {Q}_{J}\leqslant 1 , $

      式中,${Q_J}$ 代表待测长语音被判别为第 $J$ 类语种的概率,${e_J}$ 表示第 $J$ 类语种片段的个数,${p_{J,r}}$ 代表被识别为第 $J$ 类语种的第 $r$ 条短语音的概率,${p_r}$ 表示当识别为第 $J$ 类语种时,第 $r$ 条短语音的概率.

      因此,当输入一段长语音时,首先经过时长规整层分割为若干条时长为1 s的短时语音,通过公式(13)计算得出每条短时语音识别为某种语种的概率 ${p_J}$,再将 ${p_J}$ 带入公式(14)计算这些短时语音的概率,最后计算得出长语音识别为某种语种的概率 ${Q_J}$.

    • 实验数据集从国际广播电台中录制,共8种语言,分别是普通话、缅甸语、越南语、柬埔寨语、老挝语、韩语、藏语、维语. 采样率为16 kHz,精度为16 bit,声道为单声道,每种语言4800段,其中3000段为时长为1 s的训练集,剩下的1800段为测试集. 测试集包含3种时长,分别为1、5 s和10 s,每种时长600段.

      本文中语种识别的测试标准采用识别准确率(Recognition Accuracy,AR)来评价.

      $ {A_{\rm{R}}} = \frac{{\displaystyle\sum\limits_{g = 1}^G {{a_g}} }}{{\displaystyle\sum\limits_{g = 1}^G {{b_g}} }} , $

      式中,$G$ 代表语种个数,${a_g}$ 是第 $g$ 个语种识别正确的语音个数,${b_g}$ 代表第 $g$ 个语种总的语音数,${A_R}$ 代表识别准确率.

      语种识别系统分为前端声学特征和后端语种分类模型,前端声学特征采用Fbank、MFCC、LPSEM和语谱图. 其中LPSEM作为实验特征,Fbank、MFCC和语谱图作为对比特征. 后端训练模型为Resnet网络和VGG网络. 网络采用交叉熵准则(cross entropy)进行训练.

      实验主要分为3个部分:第1部分分别将语音的Fbank、MFCC、LPSEM和语谱图特征拟合到Resnet网络和VGG网络中,研究各个特征在不同网络中的语种识别情况;第2部分分别对语音的Fbank、MFCC、LPSE的特征向量和Fbank、MFCC、LPSEM的特征图谱进行训练,研究特征数据扩展对短时语种识别效果的影响;第3部分在Resnet34网络前端引入一个时长规整层,同时与不加时长规整层的Resnet34网络进行对比,来研究时长规整层对不同时长语音输入的影响.

    • 在实验1中,语音时长为1 s,输入特征为Fbank、MFCC、LPSEM和语谱图,训练网络根据种类和层数的不同分为Resnet18、Resnet34、Resnet50、VGG11和VGG16. 从表1中可以看出Resnet网络的语种识别效果普遍高于VGG网络,这主要是由于VGG网络随着卷积层数的增加,梯度消失导致后端的网络层无法对前端的网络层进行调整. 而Resnet网络提出了shortcut捷径连接,很好地解决了梯度消失的问题. 同时在Resnet34中,当输入特征为LPSEM时,语种识别率最高,达到了82.4%,同比输入特征为语谱图增加了6%,比输入特征为Fbank增加了7.2%,比输入特征为MFCC增加了7.9%. 同样当输入特征为LPSEM时,各个网络的识别率相比于其他特征也是最高的,但在Resnet网络中随着网络层数的增加,语种识别率并不是随着层数增加而增加的,例如Resnet50相比Resnet34下降了2.3%,这可能是网络层数过高,使得网络在训练时出现了局部最优而造成的.

      训练网络LPSEM语谱图FbankMFCC
      Resnet1878.774.273.973.0
      Resnet3482.476.475.274.5
      Resnet5080.178.574.275.7
      VGG1176.073.373.972.1
      VGG1677.975.374.273.8

      表 1  不同网络及特征的语种识别效果

      Table 1.  Language recognition effect of different networks and characteristics      %

    • 在实验2中,输入分别为1 s短时语音的Fbank、MFCC、LPSE的特征向量和Fbank、MFCC、LPSEM的特征图谱,从表2可以看出各个特征的原始特征向量的短时语种识别效果普遍低于经过特征数据扩展后的特征图谱,因此在本文中将短时语音的特征向量扩展成为特征图谱有利于短时语音的语种识别.

      特征LPSEMFbankMFCC
      特征向量76.271.470.9
      特征图谱82.475.274.5

      表 2  特征数据扩展对短时语音语种识别率的影响

      Table 2.  The impact of feature data expansion on short-term speech language recognition rate %

    • 在实验3中,输入特征为LPSEM,语音时长为1、5 s和10 s. 训练模型为没有引入时长规整层的Resnet34网络和引入时长规整层的VD-LID模型. 实验结果如表3所示. 在没有引入时长规整层的Resnet34网络中,输入时长为5 s和10 s的广播语音语种识别率分别只有58.7%和56.3%,在VD-LID模型中,输入时长为5 s和10 s的广播语音的语种识别准确率为86.6%和94%,相比于没有引入时长规整层的Resnet34网络,两种输入时长的语音分别提高了27.9%和37.7%,并且输入时长为5 s的广播语音比输入时长为1 s的广播语音识别率提高了4.2%;输入时长为10 s的广播语音比输入时长为5 s的广播语音语种识别率提高了7.4%. 实验结果表明:当没有引入时长规整层时,由于训练语音与测试语音时长不匹配,会造成识别率大幅度下降;而在引入时长规整层之后,时长规整层将输入长语音分割为若干时长为1 s的短时语音,从而使得测试特征能够与训练特征相映射,在识别过程中,VD-LID模型后端又通过计算每段时长为1 s的短时语音语种识别情况来判别长语音的语种,而时长为1 s的短时语音语种识别准确率已经达到了82.4%,因此随着语音时长的增加,长语音的语种识别准确率也会随之提高.

      训练网络测试语音时长/s
      1510
      VD-LID82.486.694.0
      Resnet3482.458.756.3

      表 3  时长规整层对语种识别准确率的影响

      Table 3.  The impact of the time-length regulation layer on the ac­curacy of language recognition %

    • 在语种识别中,针对短时语音信息量较少,语种识别率较低的问题,本文使用了LPSEM作为特征输入,Resnet34网络作为分类模型,对时长为1 s的短时语音进行语种识别,其识别率达到了82.4%;针对训练语音与测试语音时长不匹配导致语种识别率急剧下降的问题,本文采用Resnet34网络结合时长规整层的方法,构建了可以识别不同时长语音语种的可变时长语种模型VD-LID,对比没有结合时长规整层的 Resnet34网络,VD-LID将时长为5和10 s的广播语音的语种识别率分别提升了27.9%和37.7%. 但考虑到短时语音的语种识别极易受到噪声的影响,因此,在后续的工作中还需对语音的降噪展开研究.

参考文献 (17)

目录

    /

    返回文章
    返回