基于GFCC和能量算子倒谱的语种识别

刘晶 邵玉斌 龙华 李一民

引用本文:
Citation:

基于GFCC和能量算子倒谱的语种识别

    作者简介: 刘 晶(1996−),男,湖北人,硕士生,主要研究语种识别、语音处理. E-mail:1505728066@qq.com;
    通讯作者: 邵玉斌, shaoyubin@kust.edu.cn
  • 中图分类号: TN912.3

Language identification based on GFCC and energy operator cepstrum

    Corresponding author: SHAO Yu-bin, shaoyubin@kust.edu.cn ;
  • CLC number: TN912.3

  • 摘要: 为了提高低信噪比下语种识别的准确率,引入一种新的特征提取融合方法. 在前端加入有声段检测,并基于人耳听觉感知模型提取伽玛通频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)提取特征,通过主成分分析对特征进行压缩、降噪,融合每个有声段的Teager能量算子倒谱参数,通过高斯混合通用背景模型进行语种识别验证. 实验结果表明,在信噪比为−5 dB~0 dB时,相对于基于对数梅尔尺度滤波器组能量特征方法,融合特征集方法对5种语言的识别率,分别提升了23.7%~34.0%,其他信噪比等级下也有明显的提升.
  • 图 1  基于GMM-UBM语种识别模型框架图

    Figure 1.  Framework diagram of language recognition model based on GMM-UBM

    图 2  特征提取和融合提取流程图

    Figure 2.  Flow chart of feature extraction and fusion extraction

    图 3  有声无声段检测

    Figure 3.  Detection of silent section with sound

    图 4  不同方法下的平均识别率

    Figure 4.  Average identification rate under different methods

    表 1  白噪声环境下不同方法识别率对比

    Table 1.  Comparison of identification rates of different methods under white noise environment %

    特征
    参数
    SNR/dB
    −505101520
    Fbank 26.3 32.5 63.6 71.3 76.6 81.7
    GFCC 21.0 24.3 60.6 69.2 75.2 77.1
    S-GFCC 32.8 41.0 68.1 71.9 76.8 83.8
    S-GFCC+PCA 33.2 49.3 69.6 76.7 78.5 82.5
    S-EGFCC 50.0 66.5 77.1 84.7 84.4 86.3
    下载: 导出CSV

    表 2  粉红噪声环境下不同方法识别率对比

    Table 2.  Comparison of identification rates of different methods under pink noise environment %

    特征
    参数
    SNR/dB
    −505101520
    GFCC19.220.040.552.764.670.4
    S-EGFCC41.356.770.478.380.283.5
    下载: 导出CSV

    表 3  白噪声环境下S-EGFCC不同时长下的语种识别平均值

    Table 3.  Average language identification values of S-EGFCC for different durations in a white noise environment %

    特征
    参数
    时长/s
    3610
    S-EGFCC67.971.374.8
    下载: 导出CSV
  • [1] Li H, Ma B, Lee K. Spoken language identification: from fundamentals to practice[J]. Proceedings of the IEEE, 2013, 101(5): 1 136-1 159. DOI:  10.1109/JPROC.2012.2237151.
    [2] 蒋兵. 语种识别深度学习方法研究[D]. 合肥: 中国科学技术大学, 2015.

    Jiang B. Research on deep learning methods for language identification [D]. Hefei: University of Science and Technology of China, 2015.
    [3] Davis S, Mermelstein P. Comparison of parametric representations for monosyllabic word identification in continuously spoken sentences [J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1980, 28(4): 65-74
    [4] Torres-Carrasquillo P A, Singer E, Kohler M A, et al. Approaches to language identification using Gaussian mixture models and shifted delta cepstral features [C]//Proceeding of the 7th International Conference on Spoken Language Processing, Piscataway, USA, 2002: 89-92.
    [5] Hermansk H. Perceptual linear predictive (PLP) analysis of speech[J]. The Journal of the Acoustical Society of America, 1990, 87(4): 1 738-1 752. DOI:  10.1121/1.399423.
    [6] 张卫强, 刘加. 基于听感知特征的语种识别[J]. 清华大学学报:自然科学版, 2009, 49(1): 78-81. Zhang W Q, Liu J. Language identification based on auditory perception characteristics[J]. Journal of Tsinghua University: Natural Science Edition, 2009, 49(1): 78-81.
    [7] Zhu D, Huang M, Yang J J, et al. Identification of spoken language from webcast using deep convolutional recurrent neural networks[C]// International Conference on Information Technology, Sanya, China, 2019: 1 147-1 152.
    [8] Hinton G E, Salakhtdinoy R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507. DOI:  10.1126/science.1127647.
    [9] Yu D, Seltzer M L. Improved bottleneck features using pretrained deep neural networks [C]//Proceedings of the 12th Annual Conference of the International Speech Communication Association, Florence, Italy, 2011: 237-240.
    [10] Lgnacio L M, Javier G D, Oldrich P, et al. Automatic language identification using deep neural networks [C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Florence, Italy, 2014: 5 337-5 341.
    [11] Montavon G. Deep learning for spoken language identification[J]. NIPS Workshop on Deep Learning for Speech Identification and Related Applications, 2009, 49(10): 911-914.
    [12] 苗晓晓, 张健, 索宏彬等. 应用于短时语音语种识别的时长扩展方法[J]. 清华大学学报:自然科学版, 2018, 58(3): 254-259. Miao X X, Zhang J, Suo H B, et al. Duration extension method applied to short-term speech language identification[J]. Journal of Tsinghua University:Natural Science Edition, 2018, 58(3): 254-259.
    [13] 付强. 基于高斯混合模型的语种识别的研究[D]. 合肥: 中国科学技术大学, 2009.

    Fu Q. Research on language identification based on Gaussian mixture model [D]. Hefei: University of Science and Technology of China, 2009.
    [14] 罗思洋, 龙华, 邵玉斌, 等. 噪声环境下多特征融合的语音端点检测方法[J]. 云南大学学报:自然科学版, 2021, 43(4): 671-680. Luo S Y,Long H,Shao Y B,et al. Voice activity detection method based on multi-feature fusion in noise environment[J]. Journal of Yunnan University: Natural Sciences Edition, 2021, 43(4): 671-680.
    [15] Terrence M, Brendan B, Eddie W, et al. A Syllable-scale framework for larguage identification [C]// Computer speech and Language, wiesbaden, Germany, 2006: 276-302.
    [16] 赵至柔, 邵玉斌, 龙华等. 基于能零比与峰谷点的汉语语音音节分割算法[J]. 电子测量技术, 2020, 43(6): 174-178. Zhao Z R, Shao Y B, Long H, et al. Chinese phonetic syllable segmentation algorithm based on energy ratio and peak-valley points[J]. Electronic Measurement Technology, 2020, 43(6): 174-178.
    [17] 史燕燕, 白静. 融合CFCC和Teager能量算子倒谱参数的语音识别[J]. 计算机科学, 2019, 46(5): 286-289. DOI:  10.11896/j.issn.1002-137X.2019.05.044. Shi Y Y, Bai J. Speech identification combining cepstrum parameters of CFCC and Teager energy operator[J]. Computer Science, 2019, 46(5): 286-289.
    [18] Kaiser J F. On a simple algorithm to calculate the‘energy’of a signal[C]//International Conference on Acoustics, Speech, and Signal Processing, Albuquerque, America, 2002: 381-384.
    [19] Qaraei M, Abbaasi S, Ghiasi S K. Randomized non-linear PCA networks[J]. Information Sciences, 2021, 545: 241-253. DOI:  10.1016/j.ins.2020.08.005.
  • [1] 周爱红尹超袁颖 . 基于主成分分析和支持向量机的砂土渗透系数预测模型*. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20150781
    [2] 彭友林陈敬邹挺杨国涛张杰王学春陈永军胡运高 . 杂交水稻亲本材料的产量主成分分析及品质鉴定. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20170717
    [3] 李洪磊王晓敏郑福顺李国花刘珮君胡新华付金军高艳明李建设 . 基于主成分和隶属函数分析的不同果色番茄品种引种初步评价. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20200106
    [4] 李海燕余鹏飞周浩 . 基于贝叶斯判别器的面部检测. 云南大学学报(自然科学版),
    [5] 刘绍华曲利利白家峰陈义昌王月贾学伟许春平 . 鸢尾根提取物膜分离组分分析及卷烟加香研究. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20190501
    [6] 陈兴利 . 催化速差动力学分析法同时测定钼、钨. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20160194
    [7] 周凡阮景军赵丽那严俊赵钢程剑平 . 两个群体燕麦资源β-葡聚糖含量的相关分析. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20170484
    [8] 李红星黄解军梁友嘉王欢张一驰 . 基于遥感生态指数的武汉市生态环境质量评估. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20190174
    [9] 阮春生徐若飞和智君徐常亮张鸽陈穗云方力 . 云南省不同烟叶的综合评价研究. 云南大学学报(自然科学版),
    [10] 虞双吉苗春生王新 . 极限学习机神经网络在短期降水预报中的应用. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20120670
    [11] 刘洋龙华赵继东杜庆治 . 基于GABP技术的PCA弥苴河水质预测. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20160125
    [12] 王冰陶伟曹杰 . 热带海温对纵向岭谷区5月降水年际变化的影响研究. 云南大学学报(自然科学版),
    [13] 王子武靳锦解亚龙郑智捷 . 基于TM影像自动提取昆明城区区域变化信息的应用. 云南大学学报(自然科学版),
    [14] 曲利利白家峰马扩彦宁振兴刘绍华许春平 . 反应温度对以鸢尾根为原料的美拉德产物分布及卷烟加香的影响. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20190244
    [15] 刘珮君王晓敏李国花郑福顺赵宇飞胡新华付金军高艳明李建设 . 166份番茄种质资源的综合评价. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20190654
    [16] 王晓敏刘珮君郑福顺李洪磊周鹏泽胡新华付金军高艳明李建设 . 宁夏露地夏茬大果番茄杂交组合的综合评价. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20200453
    [17] 王瑶龙华邵玉斌杜庆治 . 可变时长的短时广播语音多语种识别. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20210232
    [18] 古昆程伟贤李云川李聪 . 云南玉溪产迷迭香挥发油成分分析. 云南大学学报(自然科学版),
    [19] 李晓婷张静保华王超吕凯段雪梅潘凯李伟 . 云南3个主栽烤烟品种的化学成分含量和区域特征分析*. 云南大学学报(自然科学版), doi: 10.7540/j.ynu.20180054
    [20] 钟惠民袁瑾张书圣许泳吉 . 野生植物刺天茄和鸡蛋参的营养成分分析. 云南大学学报(自然科学版),
  • 加载中
图(4)表(3)
计量
  • 文章访问数:  112
  • HTML全文浏览量:  190
  • PDF下载量:  5
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-04-22
  • 录用日期:  2021-07-25
  • 网络出版日期:  2021-09-26

基于GFCC和能量算子倒谱的语种识别

    作者简介:刘 晶(1996−),男,湖北人,硕士生,主要研究语种识别、语音处理. E-mail:1505728066@qq.com
    通讯作者: 邵玉斌, shaoyubin@kust.edu.cn
  • 昆明理工大学 信息工程与自动化学院,云南 昆明 650500

摘要: 为了提高低信噪比下语种识别的准确率,引入一种新的特征提取融合方法. 在前端加入有声段检测,并基于人耳听觉感知模型提取伽玛通频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)提取特征,通过主成分分析对特征进行压缩、降噪,融合每个有声段的Teager能量算子倒谱参数,通过高斯混合通用背景模型进行语种识别验证. 实验结果表明,在信噪比为−5 dB~0 dB时,相对于基于对数梅尔尺度滤波器组能量特征方法,融合特征集方法对5种语言的识别率,分别提升了23.7%~34.0%,其他信噪比等级下也有明显的提升.

English Abstract

  • 语种识别(Language Identification,LID)是指计算机自动对一段输入语音进行识别并确认属于哪种语言. 目前,主要用于多语言语音处理系统的前端,对语音进行语种分类,然后送入相应语种的子系统处理[1]. 当前语种识别技术对无噪语种识别的准确率已经足够好,但低信噪比下语种的识别率仍需要提升[2].

    LID技术的核心问题就是提取有效的特征参数. 传统方法提取特征参数包括梅尔频率倒谱系数(Mel-frequency Cepstral Coefficient,MFCC)[3]、滑动差分倒谱(Shifted Delta Cepstra,SDC)、感知线性(Shifted Delta Cepstra,SDC)[4]、感知线性预测系数(Perceptual Linear Predictive,PLP)[5]、伽玛通频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)[6]等. 随着深度神经网络的快速发展,Zhu等[7]提取高维的64维的对数Mel尺度滤波器组能量(log Mel-scale Filter Bank Energies,Fbank)特征作为语种特征进行识别,由于特征的各个维度之间相关性较大,分类效果不佳. 蒋兵等[2]利用深度神经网络模型[8-10]强大的特征抽取功能提取深度瓶颈特征,该特征在噪声环境下冗余信息较多,识别率低. 随着图像识别被引入到语种识别领域,Montavon等[11]提取线性灰度语谱图特征(Linear Gray Scale Spectrogram,LGSS),将语种识别转为图像识别,该特征在噪声环境下会被掩蔽掉很多语种特征,低信噪比下识别效果不佳. 以上特征随着信噪比的降低,识别率急剧下降,甚至出现无法正常识别现象[12],因此基于以上方法提取的特征的抗噪性有待提升,而且复杂的网络模型和环境导致工程应用还有一定的局限性.

    本文在伽玛通频率倒谱系数特征基础上,提出了一种新的融合特征提取方法,很大程度上提升了低信噪比下的语种识别准确率. 本文的主要贡献:

    (1)目前语种识别主要是对全语音段进行特征提取,但是有很多噪音段和静音段都会对识别造成干扰. 为了解决上述问题,在特征提取前端引入有声无声段检测,再提取有声段的GFCC(Sound-Gammatone Cepstral Coefficients,S-GFCC)特征参数,以消除噪声段和静音段的干扰.

    (2)在低信噪比下提取的特征包含了很多噪声,识别率降低. 为了筛选出优质特征,利用主成分分析(Principal Components Analysis,PCA)对提取特征降维,得到新的特征参数(Sound-Gammatone Cepstral Coefficients Principal Components Analysis,S-GFCC+PCA),减少了噪声的干扰. 最后融合基于有声段提取的Teager能量算子倒谱参数(Sound-Teager Energy Operator Cepstral Coefficients,S-TEOCC)得到融合特征集S-EGFCC. 实验结果表明在低信噪比下融合特征集优于Fbank特征.

    • 本文采用高斯混合通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)[13]作为后端识别. 该模型可以很好地区分语言和公共背景,在训练集数据量较少的情况下也可得到高混合度的模型. 图1显示了基于GMM-UBM 的语种识别模型框架,如果有 $S$ 种语种要识别,则采用 $N$ 种语种样本进行训练UBM. 本文需要识别的语种为5种,因此语种背景数量 $N = 5$,GMM训练数量 $S = 5$,训练出来的UBM 与目标语种通过模型自适应模块得到 $S$ 种语种模型,测试语种与语种模型进行判决得到判定语种. 模型采用的混合高斯数目为32.

      图  1  基于GMM-UBM语种识别模型框架图

      Figure 1.  Framework diagram of language recognition model based on GMM-UBM

    • 带噪语音定义为 $x(n) = s(n) + w(n)$,平均信噪比定义为:

      $ {\bar \gamma _{{\text{dB}}}} = 10\lg \left( {\frac{{\sum\limits_{n = 1}^H {{s^2}} (n)}}{{\sum\limits_{n{\text{ = }}1}^H {{w^2}(n)} }}} \right), $

      其中,$\displaystyle\sum\limits_{n = 1}^H {{s^2}(n)} $ 是信号能量,$ \displaystyle\sum\limits_{n = 1}^H {{w^2}(n)} $ 是白噪声能量,$s(n)$ 为原语音,$w(n)$ 为零均值高斯白噪声,$H$ 为全语音的总采样点数.

      本文研究低信噪比(Signal to Noise Ratio,SNR)下语种识别问题,信噪比范围取 $ - 5\;{\text{dB}}\sim 20\;{\text{dB}}$. 随着信噪比降低,语音信号波形被白噪声淹没的面积增大,${\text{SNR}} = - 5\;{\text{dB}}$ 时基本只有局部强音信号波形凸显出来.

    • 有声段的GFCC特征参数是基于人耳听觉感知模型提取的,提取过程包括有声无声段检测、Gammatone滤波、分帧加窗、计算短时对数能量、计算DCT倒谱等. 将提取的有声段S-GFCC进行融合得到全语段的特征量S-GFCC. 每个有声段的Teager能量算子倒谱参数(each-Sound-Teager Energy Operator Cepstral Coefficients,S-TEOCC)特征参数具有非线性能量的特性,提取过程包括有声段检测、分帧加窗、Teager能量算子、归一化取对数、计算DCT取平均值等. 每个有声段的融合特征(S-EGFCC)提取过程包括S-GFCC采用主成分分析后融合S-TEOCC构成S-EGFCC,融合特征集表现了人耳听觉特性,又结合了有声段间能量变化的特性,也减少噪声段和静音段对识别率的影响,更适合在噪声环境下进行语种识别. 最后将提取的S-EGFCC进行融合得到全语段的特征量S-EGFCC. 特征提取和融合具体流程如图2所示.

      图  2  特征提取和融合提取流程图

      Figure 2.  Flow chart of feature extraction and fusion extraction

    • 传统的GFCC是基于全语音进行特征参数提取,而实际中的全语音信号包括很多无声段和混合有噪声的有声段,因此使用全语音段上的特征会引入大量噪声部分,特别是在低信噪比情况下[14]. 而位于有声段处的瞬时信噪比较全语音段上的平均信噪比高得多. 文献[15]证明有声段包含大部分语音信息,具有训练时间缩短、抗噪性增强的优点. 本文在特征提取前端采用文献[16]的音节分割方法首先将语音进行有声段检测,然后提取S-GFCC特征. S-GFCC特征参数提取步骤如下:

      步骤 1 有声无声段检测. 文献[16]分割算法在无噪的环境下切割准确率达到91.8%,在0环境下达到78.4%,本文仅是采用该方法进行无音段的判别和切除,不做严格的音节分割,因此相对于采用全语音段进行特征提取,在低信噪比环境下依然可以剔除无声段和混合大量噪声段,间接提高整段语音的信噪比,从而提高语种识别率. 如图3是10 dB音频的分割结果,图中虚线为有声段起始点,实线为有声段终点,粗点线为起始点和终点重合部分. 从图3可以获取有声段的起始点 ${T} \in \left\{ {{t_{1}},{t_{2}},\cdots,{t_{v}}} \right\}$ 和终点 ${B} \in \{ {{b_{1}},{b_{1}},\cdots, {b_{v}}} \}$,其中,${t_{v}}$ 为第 $v$ 个起始点,${b_{v}}$ 为第 $v$ 个终点,从而得到每个有声段的时间长度形成有声语音段:

      图  3  有声无声段检测

      Figure 3.  Detection of silent section with sound

      $ {x_j}(t){\text{ , }}{t_{j}} \leqslant t \leqslant {b_{j}},0 < j \leqslant v, $

      其中,$j$ 表示第 $j$ 个有声段,$v$ 是有声段个数,对 ${x_j}(t)$ 采样后得到对应有声段 $j$ 上的离散时间信号 ${x_j}(n)$$n$ 为采样点序列.

      步骤 2 滤波. 有声段 ${x_j}(n)$ 通过滤波器滤波,在时域等同于 ${x_j}(n)$ 与滤波器 ${g_i}(n)$ 卷积:

      $ {y_{i,j}}(n) = {x_j}(n) * {g_i}(n){\text{ , }}0 < i \leqslant N, $

      其中,${y_{i,j}}(n)$ 为滤波后的信号,$i$ 是指第 $i$ 个伽玛通滤波器 ,$N$ 表示滤波器个数,*表示卷积. 本文滤波器个数取 $N = 32$,即使用32个伽玛通滤波器组成一个人耳听觉感知模型. 伽玛通滤波器组结合了人耳的听觉特性,模拟耳蜗频率分解特点的滤波器组. 每个滤波器的冲激响应为:

      $ {g}_{i}(n)=\alpha {n}^{\delta -1}{e}^{-2\pi {b}_{i}n}\cos(2\pi {f}_{i}n+\phi )\text{ },0 < i\leqslant N, $

      其中,$\alpha $ 表示滤波器增益,$\delta $ 表示滤波器的阶数,本文滤波器阶数取 $\delta = 4$$n$ 为时间,$\phi $ 表示初始相位,${b_i}$ 是第 $i$ 个滤波器的衰减因子,与滤波器的带宽有关,${b_i} = 1.019{{E}}({f_i})$[6],其中,${{E(}}{f_i}{\text{) = 24}}{\text{.7}} \times \left( {\dfrac{{4.37{f_i}}}{{1\;000}} + 1} \right)$${f_i}$ 表示第 $i$ 个滤波器的中心频率.

      步骤 3 分帧加窗. 对伽玛通滤波后输出 ${y_{i,j}}(n)$ 进行分帧并加窗,根据实验,帧长取 $A{\text{ = 160}}$,帧移取 $\eta {\text{ = 80}}$,分帧后可以得到的第 $m$ 帧的数据为 $ {y_{m,i,j}}(n){\text{ ,0 < }}m \leqslant F $(共 $F$ 帧),由于各个有声段长度不同,$F$ 取值是随有声段变化的. 本文使用汉明窗,加窗后的信号为:

      $ {S_{m,i,j}}(n) = {y_{m,i,j}}(n) \cdot W(n){\text{ }},0 < n \leqslant A $

      其中,$W(n)$ 为窗函数,${S_{m,i,j}}(n)$ 为加窗后第 $j$ 个有声段通过第 $i$ 个滤波器的第 $m$ 帧的输出信号.

      步骤 4 短时对数能量. 每帧信号计算 ${S_{m,i,j}}(n)$ 的短时对数能量为:

      $ {S_{m,i,j}} = \lg \left( {\sum\limits_{n = 1}^A {{{\left( {{S^{(m,i,j)}}(n)} \right)}^2}} } \right). $

      步骤 5 计算GFCC系数. 对滤波器组输出的短时对数能量 ${S_{m,i,j}}$ 进行离散余弦变换,得出GFCC系数为:

      $ {g_{m,j}}(n) = \sqrt {\frac{2}{N}} \sum\limits_{i = 1}^N {{S_{m,i,j}}\cos \left[ {\frac{{\pi n(2i + 1)}}{{2N}}} \right]} {\text{ }},0 < n \leqslant 13, $

      其中,${g_{m,j}}(n)$ 是第 $j$ 个有声段的第 $m$ 帧的第 $n$ 个GFCC系数,融合成第 $m$ 帧的系数矩阵:

      $ {{\boldsymbol{G}}_{m,j}} = {\left[ {{g_{m,j}}(1),{g_{m,j}}(2),\cdots,{g_{m,j}}(n),\cdots,{g_{m,j}}(13)} \right]^{\text{T}}}. $

      步骤 6 S-GFCC特征提取. $ {{\boldsymbol{G}}_{m,j}} $ 通过

      $ {{\boldsymbol{G}}_j} = \left[ {{{\boldsymbol{G}}_{1,j}},{\boldsymbol{ }}{{\boldsymbol{G}}_{2,j}},..{\boldsymbol{ }}.,{{\boldsymbol{G}}_{m,j}},\cdots,{{\boldsymbol{G}}_{F,v}}} \right]{\text{ ,}}0 < j \leqslant v, $

      融合成第j个有声段的特征参数矩阵, 其中,称 $ {{\boldsymbol{G}}_j} $ 为融合后 $13 \times F$ 的特征参数矩阵(S-GFCC).

      步骤 7 S-GFCC特征融合. 再将每个S-GFCC进行融合得到S-GFCC为:

      $ {\boldsymbol{G}} = \left[ {{{\boldsymbol{G}}_1},{\boldsymbol{ }}{{\boldsymbol{G}}_2},\cdots,{\boldsymbol{ }}{{\boldsymbol{G}}_j},\cdots,{{\boldsymbol{G}}_v}} \right]{\text{,}} $

      其中,称 ${\boldsymbol{G}}$ 为融合后的S-GFCC特征矩阵.

    • Teager能量由Kaiser提出的一种非线性能量算法,具有跟踪语种信号非线性能量变化的特性,可以合理地呈现有声段之间能量变化[17].

      $j$ 个有声段Teager能量算子倒谱(S-TEOCC)提取具体步骤如下:

      步骤 1 分帧加窗. 对 ${x_j}(n)$ 进行分帧加窗后的第 $m$ 帧的数据为 ${x_{m,j}}(n)$,其中 $0 \leqslant m \leqslant F$.

      步骤 2 根据Teager能量算子[18]的定义,${x_{m,j}}(n)$ 的Teager能量为:

      $ \psi \left[ {{x_{m,j}}(n)} \right] = {x_{m,j}}{(n)^2} - {x_{m,j}}(n + 1){x_{m,j}}(n - 1), $

      其中,$\psi \left[ {{x_{m,j}}(n)} \right]$ 是输出第 $j$ 个有声段的第 $m$ 帧的Teager能量. 可将信号分为纯语音和噪声两部分:

      $ {x_{m,j}}(n) = {s_{m,j}}(n) + {w_{m,j}}(n), $

      其中,$ {x_{m,j}}(n) $ 是第 $m$ 帧的加噪数据,$ {s_{m,j}}(n) $ 是第 $m$ 帧中的纯语音数据,$ {w_{m,j}}(n) $ 是第 $m$ 帧中的零均值高斯白噪声. 将(11)式简化为:

      $ \begin{split} \psi [{x_{m,j}}(n)] =& \psi [{s_{m,j}}(n)] + \psi [{w_{m,j}}(n)] +\\ &2\tilde \psi [{s_{m,j}}(n),{w_{m,j}}(n)], \end{split}$

      其中,$\tilde \psi [{s_{m,j}}(n),{w_{m,j}}(n)]$${s_{m,j}}(n)$${w_{m,j}}(n)$ 的互Teager能量,而且两者都为零均值的且它们之间相互独立,所以 $E\{ \tilde \psi [{s_{m,j}}(n),{w_{m,j}}(n)]\} = 0$. 又因为噪声的TEO能量和语音的能量相比几乎可以忽略不记,因此可以得到:

      $ E\left\{ {\psi \left[ {{x_{m,j}}(n)} \right]} \right\} \approx E\left\{ {\psi \left[ {{s_{m,j}}(n)} \right]} \right\}. $

      由(14)式可知,Teager能量算子可以消除零均值噪声的影响,达到增强语音的目的[16]. 将Teager能量算子应用低信噪比下语种识别,可以降低噪声的干扰和增强语音信号能量,还可以反映不同语种有声段之间的能量变化,以使更好地区分不同语种.

      步骤 3 进行归一化并取对数,得到每帧的Teager能量算子:

      $ \widehat \psi \left[ {{x_{m,j}}(n)} \right] = \lg \left[ {\psi \left[ {{x_{m,j}}(n)} \right]/\max \left( {\psi \left[ {{x_{m,j}}(n)} \right]} \right)} \right], $

      步骤 4 对 $\widehat \psi \left[ {{x_{m,j}}(n)} \right]$ 进行DCT变换再求平均值得到一维Teager能量算子倒谱(TEOCC)[17],将单个有声段的所有帧的TEOCC求平均值得到一维的有声段Teager能量算子倒谱(S-TEOCC):

      $ \left\{\begin{array}{l}{e}_{m,j}(o)=\sqrt{\dfrac{1}{A}}{\displaystyle\sum\limits_{n=1}^{A}\widehat{\psi }\left[{x}_{m,j}(n)\right]}\text{ },o=1,\\ \begin{array}{l}{e}_{m,j}(o)=\sqrt{\dfrac{2}{A}}{\displaystyle\sum\limits_{n=1}^{A}\widehat{\psi }\left[{x}_{m,j}(n)\right]}\cos\left(\dfrac{\pi (o\text-1)(2n+1)}{2A}\right),\\\;\;\;\;\;\;\text{1} < o\leqslant A,\end{array}\end{array}\right. $

      $ {{\boldsymbol{e}}_j}{\text{ = }}\frac{1}{{A \times F}}\sum\limits_{m = 1}^F {\sum\limits_{o = 1}^A {{e_{m,j}}(o)} } , $

      其中,$ {e_{m,j}}(o) $ 是Teager能量算子倒谱,$ {{\boldsymbol{e}}_j} $ 是一维的第 $ j $ 个S-TEOCC.

    • 为了构造更适合在低信噪比环境下的特征集,本文提出将S-GFCC和S-TEOCC进行融合形成新的特征集S-TGFCC. 本文对S-GFCC采用主成分分析,从一个有声段对应 $ F $ 帧选取贡献率大的前几帧,消除贡献率低的噪声影响. 主成分分析(Principal Components Analysis,PCA)[19]技术作为非监督学习的PCA方法,主要就是线性代数里面的特征提取和分解,实现对原始数据进行降维.

      具体融合步骤如下:

      步骤 1 对提取的S-GFCC特征集进行均值化处理:

      $ {{\boldsymbol{X}}_{k,j}} = {{\boldsymbol{G}}_{k,j}} - \frac{1}{{13}}\sum\limits_{q = 1}^{13} {{{\boldsymbol{G}}_{k,j}}(q)} ,0 < k \leqslant F,0 < q \leqslant 13, $

      其中,${{\boldsymbol{G}}_j}$$13 \times F$ 维的第 $j$ 个有声段对应的原始特征对应的矩阵,$ {{\boldsymbol{X}}_j} $ 为中心化处理后的矩阵,$k$ 为列数,$ q $ 为每列的数据个数.

      步骤 2 计算样本的协方差矩阵 ${{\boldsymbol{C}}_j}$为:

      $ {{\boldsymbol{C}}_j}{\boldsymbol{ = }}{{\boldsymbol{X}}_j}{\boldsymbol{X}}_j^{\text{T}}. $

      步骤 3 计算协方差矩阵 ${{\boldsymbol{C}}_j}$ 的特征值并将按大小进行降序排列,即 ${\lambda _1} \geqslant {\lambda _2} \geqslant \cdots \geqslant {\lambda _F}$,以及特征值对应的特征向量 ${{\boldsymbol{u}}_1},{{\boldsymbol{u}}_2},\cdots,{{\boldsymbol{u}}_F}$.

      步骤 4 特征值贡献率的计算公式为:

      $ \frac{{\displaystyle \sum\limits_{i = 1}^S {{\lambda _r}} }}{{\displaystyle\sum\limits_{i = 1}^F {{\lambda _r}} }} \geqslant t, $

      其中,$\displaystyle\sum\limits_{i = 1}^S {{\lambda _r}}$ 为前 $S$ 个特征值之和. 通过实验证明特征值前两个的贡献率可以达到95%以上,前3个的贡献率可以达到96%以上,增加维数但贡献率增加不大,反而数据量增加,导致运行效率降低,所以本文采用贡献率阈值 $t = 95\% $.

      步骤 5 由步骤4分析可以选取第 $ j $ 个有声段的特征向量矩阵 ${{\boldsymbol{W}}_j}{\boldsymbol{ = }}\left[ {{{\boldsymbol{u}}_1}{\boldsymbol{ }}{{\boldsymbol{u}}_2}} \right]$,进而求取降维的特征集矩阵:

      $ {{\boldsymbol{Y}}_j}{\boldsymbol{ = }}{{\boldsymbol{G}}_j}{{\boldsymbol{W}}_j}, $

      其中,${{\boldsymbol{Y}}_j}$$13 \times 2$ 的对应的降维特征集矩阵,将 ${{\boldsymbol{Y}}_j}$ 拆分成两列,即 ${{\boldsymbol{Y}}_j}{\boldsymbol{ = }}\left[ {{{\boldsymbol{y}}_{1,j}}{\boldsymbol{ }}{{\boldsymbol{y}}_{2,j}}} \right]$${{\boldsymbol{y}}_{1,j}}$ 为第一列数据向量,${{\boldsymbol{y}}_{2,j}}$ 为第二列数据向量,${{\boldsymbol{W}}_j}$$F \times 2$ 的特征向量矩阵.

      步骤 6 利用

      $ {\boldsymbol{y}}_j' = \left[ \begin{gathered} {{\boldsymbol{y}}_{1,j}}{\boldsymbol{ }} \hfill \\ {{\boldsymbol{y}}_{2,j}}{\boldsymbol{ }} \hfill \\ {{\boldsymbol{e}}_j} \hfill \\ \end{gathered} \right], $

      将降维特征集矩阵和一维的s-TEOCC融合形成新的特征集S-EGFCC:

      其中,${\boldsymbol{y}}_j'$ 为融合后的第 $j$ 个有声段的特征矩阵,${{\boldsymbol{e}}_j}$ 是第 $j$ 个有声段对应的一维的S-TEOCC特征参数向量.

      步骤 7 将每个S-EGFCC融合形成特征集S-EGFCC,将融合特征集作为GMM-UBM的输入:

      $ {{\boldsymbol{Y}}'} = \left[ {{\boldsymbol{y}}_1'{\boldsymbol{ y}}_2',\cdots{\boldsymbol{ }},{\boldsymbol{y}}_j',\cdots,{\boldsymbol{y}}_v'} \right]{\text{ ,0 < }}j \leqslant v, $

      其中,${{\boldsymbol{Y}}'}$ 为融合后的有声段特征矩阵S-EGFCC.

    • 语料来源于中国国际广播电台,包括汉语、藏语、维吾尔语、英语、哈沙克斯坦语等5种语言. 音频采样率为8000 Hz、时长10 s的单声道语音文件. 随机选取每种语言300条作为训练集,前50条不加噪声,后250条分别与Nonspeech 公开噪声库里面的白噪声和粉红噪声构建形成SNR=[5,10,15,20,25]dB的带噪语音,每种信噪比语音50条,从而更好地模拟现实环境. 从剩下的音频中随机选取每种语种171条作为测试集,分别构建两种不同噪声源的信噪比范围在 $ - 5\sim 20\;{\text{dB}}$ 的测试语料库,UBM模型自适应采用的是非目标语种的1675条覆盖各种信噪比下的广播语料.

    • 为了验证本文提出的融合特征方法优于Fbank特征方法和GFCC特征方法. 实验分为5组实验,其中两组为对比方法,3组为本文方法.

      实验1 文献[7]提取64维的Fbank特征作为语种特征进行识别,由于Fbank特征更适用于深度学习模型,因此采用残差神经网络 (Residual Neural Network,ResNet)作为语种识别模型.

      实验2 文献[6]采用13维静态GFCC作为语种特征,使用GMM-UBM作为语种识别模型,UBM模型进行模型自适应,GMM进行模型训练.

      实验3 在实验2的基础上本文提取2.1节的13维S-GFCC特征作为语种特征.

      实验4 基于实验3,先对提取的s-GFCC特征进行主成分分析最终得到13维S-GFCC+PCA特征作为语种特征.

      实验5 在实验4的基础上,提取2.3节的S-EGFCC特征作为语种特征.

      采用的NIST语种评测规则中的识别率作为性能评价指标,有:

      $ \overline {{S_{\text{A}}}} = \frac{{{H_{\text{A}}} + {Z_{\text{A}}} + {W_{\text{A}}} + {Y_{\text{A}}} + {K_{\text{A}}}}}{{{G_{\text{A}}}}}, $

      其中,${H_{\text{A}}}$ 是汉语的识别正确个数,${Z_{\text{A}}}$ 是藏语的识别正确个数,${W_{\text{A}}}$ 是维吾尔语的识别正确个数,${Y_{\text{A}}}$ 是英语的识别正确个数,${K_{\text{A}}}$ 是哈沙克斯坦语的识别正确个数,${G_{\text{A}}}$ 是总的测试集个数,$\overline {{S_{\text{A}}}} $ 是平均识别正确率.

    • 为了验证提出方法在白噪声环境下的识别效果,进行了5组实验,实验结果如表1所示.

      特征
      参数
      SNR/dB
      −505101520
      Fbank 26.3 32.5 63.6 71.3 76.6 81.7
      GFCC 21.0 24.3 60.6 69.2 75.2 77.1
      S-GFCC 32.8 41.0 68.1 71.9 76.8 83.8
      S-GFCC+PCA 33.2 49.3 69.6 76.7 78.5 82.5
      S-EGFCC 50.0 66.5 77.1 84.7 84.4 86.3

      表 1  白噪声环境下不同方法识别率对比

      Table 1.  Comparison of identification rates of different methods under white noise environment %

      对比实验1~3的识别结果可知,GFCC特征相对于Fbank特征识别性能有所欠佳. 但是本文提出的S-GFCC在6种信噪比下,相对于Fbank特征都有小幅度提升. 由于S-GFCC特征在特征提取前端加入了有声无声段检测,消除了部分噪声段的干扰,间接地提升了信噪比,而GFCC特征和Fbank特征都存在大量的噪声段干扰,导致识别率欠佳.

      对比实验3、4的识别结果可得,在6种先信噪比等级下,采用S-GFCC+PCA特征集相对于S-GFCC的效果更好. 信噪比为0 dB时,识别率提高了8.5%,由于S-GFCC+PCA特征是对S-GFCC特征进行主成分分析得到的,选取了贡献率大的特征,舍弃贡献率小的特征和部分噪声,从而间接提高了识别率.

      从实验4、5的识别结果可知,相对于S-GFCC+PCA,S-EGFCC在不同信噪比下的识别率都有很大的提升,在信噪比 $ - 5\;{\text{dB}}$ 和0 dB下,识别率分别达到了50.0%和66.5%. 由于本文S-EGFCC特征融入了反应有声段能量变化的s-TEOCC特征,抗干扰的能力更强,从而提高了识别率.

    • 为了验证本文提出方法在粉红噪声环境下的识别效果依然优于GFCC特征方法,进行了2组实验,实验结果如表2.

      特征
      参数
      SNR/dB
      −505101520
      GFCC19.220.040.552.764.670.4
      S-EGFCC41.356.770.478.380.283.5

      表 2  粉红噪声环境下不同方法识别率对比

      Table 2.  Comparison of identification rates of different methods under pink noise environment %

      对比表12实验2、5的识别结果可知,在粉红噪声环境下,两种方法的识别效果都有所下降. 由于粉红噪声的频率分布和语音的频率分布类似,因此干扰更大,而白噪声在频率分布上较为固定,有一部分噪声分布在人耳不敏感区域,所以导致粉红噪声下识别效果不佳. 但是本文方法依然很大程度上优于GFCC特征方法,说明本文方法在粉红噪声环境下有效.

    • 为了验证本文提出方法在不同长度广播语音和白噪声环境下识别效果,本文对输入的10 s语音进行裁剪,分为3 、6 、10 s,然后再进行语种识别,实验结果如表3.

      特征
      参数
      时长/s
      3610
      S-EGFCC67.971.374.8

      表 3  白噪声环境下S-EGFCC不同时长下的语种识别平均值

      Table 3.  Average language identification values of S-EGFCC for different durations in a white noise environment %

      表3的识别结果可知,对语音进行剪切后,由于语种信息相对减少,导致所提方法随着语音的长度减少,语种识别效果稍有下降,但是依然保持60%以上的识别率.

    • 图4比较直观地描述了5组实验不同信噪比下平均识别率. 从图4中可以知道S-EGTCC相对于GFCC提升了20.2%,相对于Fbank提升了16.1%. 由于有声段长度占全段长度的60%左右,对有声段语音进行特征提取,意味着实际信噪比较全语音段提升了3 dB左右. 进行PCA降维,选取有声段所有帧中贡献率最高的2帧,去掉了大部分贡献率低的噪声和一些贡献率低的语音信息,实际信噪比较全语音段提高了若干dB,识别效率也有所提高. 因此融合特征集方法比Fbank特征和GFCC特征,在低信噪比下提升10 dB左右. 进一步验证了融合特征集S-EGFCC识别率高于Fbank特征和GFCC特征.

      图  4  不同方法下的平均识别率

      Figure 4.  Average identification rate under different methods

    • 本文从语种识别核心问题之一的特征提取入手,在伽玛通频率倒谱系数特征基础上,将有声无声段检测应用到语种特征提取前端,然后提取有声段语音GFCC特征,并验证S-GFCC特征集在识别率是否提升. 在此基础上,对S-GFCC特征集进行PCA降维,减小贡献率小的噪声干扰. 为了获得在低信噪比下更好的识别率,将有声段提取的S-TEOCC特征和S-GFCC+PCA特征进行融合得到特征集S-EGFCC. 相对于使用深度学习的Fbank特征方法,在6种信噪比下,S-EGFCC特征平均识别率提高了16.1%. 然而本文未涉及对非广播语种的研究,相对来说有一定的局限性,后续会考虑将该方法使用深度学习语种模型进行测试,并将工作重点转移到解决多种复杂环境下的语种识别问题.

参考文献 (19)

目录

    /

    返回文章
    返回