-
语种识别是指计算机根据不同语种之间的差异来判别语音样本中所用语言的种类. 在语种识别中,短时语音片段被用于多种场景,例如军事监听、短语翻译和紧急救援等,但短时语音存在一些不足: ①随着语音时长的减少,语段特征中有效信息也随之减少[1],无法充分表达语种信息; ②由于训练语音的数量是有限的,无法覆盖到任意时长,而当待测语音与训练语音时长不等时,语种识别的准确率会急速下降. 文献[2]针对短时语音的语种识别问题提出了一种时长扩展方法,该方法通过对短时语音进行语速变速和时长拼接,将原有的短时语音片段转换成时长较长的语音,有效提高了短时语音的语种识别准确率. 但在语段拼接过程中,语音的条数和语速的快慢对语种识别结果影响较大. 为了解决训练语音与测试语音时长不等而导致语种识别率下降的问题,文献[3]采用语种特征补偿方法对不同时长语音的特征进行补偿,将不同长度的语音特征映射到了固定长度上,较好地解决了长度失配和音素失配不平衡的问题,但在短时语音的语种识别中,其准确率还不够理想. 文献[4]和文献[5]通过在深度神经网络中引用时间平均池化层(Temporal Average Pooling layer,TAP layer),将不同时长语音处理成相同维度的特征,虽然解决了训练语音和测试语音时长不匹配的问题,但也丢失了语音信号中的部分时域信息. 近些年来,长短时记忆网络(Long Short-term Memory Network,LSTM)[6]在处理可变时长语音的问题上取得了一定的成果,但还是存在两个缺点:①当输入序列较长时,由于时间的迭代乘法,训练速度可能非常缓慢[7];②训练过程中可能会出现梯度消失和梯度爆炸的问题[7]. 就目前而言,在可变时长的短时广播语音信号语种识别实验中,采用卷积神经网络(Convolutional Neural Network,CNN)[8]作为后端分类器是较为少见的. 同时,Abdel-Hamid等[9]认为CNN用于语音识别有3个重要的优势:①局部感受野可增强对非白噪声的鲁棒性;②权值共享可以进一步增强模型的鲁棒性;③池化操作可以抵抗频带带来的扰动.
针对上述可变时长的短时语音在语种识别中存在的问题,本文在训练阶段,提取短时广播语音对数功率谱包络图(Logarithmic Power Spectrum Envelope Map,LPSEM)作为特征输入,并以CNN中的Resnet网络[10]作为分类模型. 在测试阶段,当待测语音的时长不等时,本文基于文献[10]中的深度残差网络Resnet34,在其前端引入时长规整层(Regular Duration layer,RD layer)构建出一个可以识别可变时长语音的语种识别模型(Variable Duration-Language Identification, VD-LID). 在时长为1 s的短时语音语种识别任务中,准确率达到了82.4%;此外,相比于没有引入时长规整层的Resnet34网络,VD-LID分别将测试语音时长为5 s和10 s的语种识别准确率提升了27.9%和37.7%.
-
语谱图[11]、对数Mel尺度滤波器组能量(log Mel-scale filter bank energies,Fbank)[12]、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)[13]是进行语音识别的重要特征. 这些特征在说话人识别和语种识别中都取得了一定的成果,但在语种识别中还存在一些不足,语谱图、Fbank、MFCC包含了大量的说话人信息,这些信息会对语种识别产生较大影响. 并且对于Fbank而言,由于在提取过程中经过了梅尔滤波器组,使其具有了较高的相关性,这将会产生大量冗余信息. 相比于Fbank,MFCC在其基础上进行了离散余弦变换(Discrete Cosine Transform,DCT),虽然降低了Fbank的相关性,但在一定程度上减少了语音中的原始信息量. 目前还没有文献明确何种特征会对语种识别起到关键作用,因此对特征提取的课题还有待研究. 针对上述问题,本文提出使用LPSEM作为特征输入.
语音信号可以看作是由声门激励信号与声道冲激响应共同作用的结果,其中声门激励信号主要反映语音的说话人信息,将其滤除可以有效减少语音信号中的说话人信息[14]. 本文中声道冲激响应就是对数功率谱包络(Logarithmic Power Spectrum Envelope,LPSE). LPSE不仅与语义有关,还反映了语音信号的声道特性[15],声道特性是指人类发声时舌体、牙齿等器官的形状. 而不同语种在发音时,舌体、牙齿等器官的形状具有一定差异. 从语音的音素角度分析,不同的语种都有一套不同的音素来加以描述,并且不同音素的共振峰标度有所不同,而共振峰标度可以很好的在LPSE中显现出来,故选择LPSEM作为语种识别的特征.
-
提取LPSE实际上就是将语音中的声门激励信号与对数功率谱包络分离的过程,具体流程如图1所示.
一帧语音信号
$x(n)$ 可以表示为:$ x(n) = {x_1}(n) * {x_2}(n) , $ 式中,
${x_1}(n)$ 和${x_2}(n)$ 分别表示对数功率谱包络和声门激励信号,$ * $ 表示卷积运算.步骤 1 分帧、加窗:对语音信号进行分帧,然后加上窗函数,取一帧语音信号
$x(n)$ 进行分析.步骤 2 DFT:通过离散傅里叶变换(Discrete Fourier Transform,DFT),将时域信号变换成为频域信号.
$ \begin{split}{{f}}_{{\rm{dtc}}}(x(n))&={f}_{\rm{dtc}}({x}_{1}(n)\ast {x}_{2}(n))=\\ & {\sum \limits _{n=0}^{N-1}{x}_{1}(n){{\rm{e}}}^{-{\rm{j}}nk\frac{2\pi }{N}}}\cdot {\sum \limits _{n=0}^{N-1}{x}_{2}(n)}{{\rm{e}}}^{-{\rm{j}}nk\frac{2\pi }{N}}=\\ & {X}_{1}(k)\cdot {X}_{2}(k)=X(k),\end{split} $ 式中,
${f}_{\rm{dtc}}()$ 为离散傅里叶变换,$N$ 为序列长度,$n$ 为时域上的第$n$ 个采样点,$k$ 为频域上第$k$ 个采样点,${\rm{j}}$ 为虚部单位,$X(k)$ 为变换后的频域信号.步骤 3 取模、取对数:对式(2)中
$X(k)$ 取模,再求其对数:$ \ln {\text{|}}X(k){\text{|}} = \ln {\text{|}}{X_1}(k){\text{|}} + \ln {\text{|}}{X_2}(k)| = {\hat X_1}(k) + {\hat X_2}(k) = \hat X(k) , $ 式中,
$\hat X(k)$ 为式(1)中语音信号$x(n)$ 的对数功率谱.$\hat X(k)$ 的包络就是对数功率谱包络.步骤 4 IDFT:对
$\hat X(k)$ 进行逆离散傅里叶变换(Inverse Discrete Fourier Transform,IDFT)得到语音信号$x(n)$ 的复倒谱$\hat x(n)$ :$ \begin{split} {f_{{\rm{dtc}}}^{ - 1}}(\hat X(k)) &= {f_{{\rm{dtc}}}^{ - 1}}({{\hat X}_1}(k) + {{\hat X}_2}(k)) = \\ &\frac{1}{N}\sum\limits_{K = 0}^{N - 1} {{{\hat X}_1}(k)} {{\rm{e}}^{{\rm{j}}nk\frac{{2\pi }}{N}}}{\text{ + }}\frac{1}{N}\sum\limits_{K = 0}^{N - 1} {{{\hat X}_2}(k)} {{\rm{e}}^{{\rm{j}}nk\frac{{2\pi }}{N}}} = \\ &{{\hat x}_1}(n) + {{\hat x}_2}(n) = \hat x(n), \\[-13pt] \end{split} $ 式中,
$f_{{\text{dtc}}}^{ - 1}()$ 为逆离散傅里叶变换.步骤 5 取模:取式(4)中
$\hat x(n)$ 的模$\hat y(n)$ ,$ {\text{|}}\hat x(n){\text{|}} = {\text{|}}{\hat x_1}(n) + {\hat x_2}(n){\text{|}} = {\hat y_1}(n) + {\hat y_2}(n) = \hat y(n) . $ 步骤 6 滤波、DFT:对式(5)中的
$\hat y(n)$ 进行滤波处理,分离得到${\hat y_1}(n)$ 和${\hat y_2}(n)$ . 再对${\hat y_1}(n)$ 进行离散傅里叶变换,并对变换结果取绝对值,得到每一帧语音信号的对数功率谱包络,$ |{{f} _{{\rm{dtc}}}}({\hat y_1}(n))| = Y(k) , $ 式中,
$ Y(k) $ 为语音信号$x(n)$ 的对数功率谱包络. 语音信号$x(n)$ 的波形、对数功率谱和对数功率谱包络如图2所示. -
语音信号作为非平稳信号,其频域随时间变化而变化,为了较好地保留语音信号的时域特性和频域特性,同时使得每一帧语音信号之间具有较强的关联性,在提取完一帧语音信号的LPSE之后,将同一段语音信号的每一帧LPSE按行拼接起来,形成一个
$f \times w$ 的矩阵${\boldsymbol{M}}$ ,其中$f$ 代表帧数,$w$ 代表帧长. 其流程图如图3所示.在LPSEM中,横轴为频率特性,纵轴为时域特性,每一个色块由矩阵
${\boldsymbol{M}}$ 中的一个数据点扩展得到. 同时矩阵${\boldsymbol{M}}$ 是由每一帧语音的LPSE按行拼接而成,故${\boldsymbol{M}}$ 可以表示为:${\boldsymbol{M}} = \left[ {\begin{array}{*{20}{c}} {{Y_1}(1)}& \cdots &{{Y_1}(j)}& \cdots &{{Y_1}(w)}\\ { \vdots \;}&{}& \vdots &{}& \vdots \\ {{Y_i}(1)}& \cdots &{{Y_i}(j)}& \cdots &{{Y_i}(w)}\\ \vdots &{}& \vdots &{}& \vdots \\ {{Y_f}(1)}& \cdots &{{Y_f}(j)}& \cdots &{{Y_f}(w)} \end{array}} \right],$ 式中,
$i$ 代表第$i$ 帧,$j$ 代表每一帧的第$j$ 个点.将一个数据点扩展形成一个色块,即
${Y_i}(j)$ 扩展得到色块${{\boldsymbol{Z}}_i}(j)$ ,矩阵${\boldsymbol{M}}$ 扩展为矩阵${{\boldsymbol{ Z}}}$ ,因此,LPSEM可以表示为:${\boldsymbol{Z}} = \left[ {\begin{array}{*{20}{c}} {{{\boldsymbol{Z}}_1}(1)}& \cdots &{{{\boldsymbol{Z}}_1}(j)}& \cdots &{{{\boldsymbol{Z}}_1}(w)} \\ \vdots &{}& \vdots &{}& \vdots \\ {{{\boldsymbol{Z}}_i}(1)}& \cdots &{{{\boldsymbol{Z}}_i}(j)}& \cdots &{{{\boldsymbol{Z}}_i}(w)} \\ \vdots &{}& \vdots &{}& \vdots \\ {{{\boldsymbol{Z}}_f}(1)}& \cdots &{{{\boldsymbol{Z}}_f}(j)}& \cdots &{{{\boldsymbol{Z}}_f}(w)} \end{array}} \right]. $ -
对于一般的神经网络,尤其是全连接神经网络,其输入需要固定长度[16-17],然而在语种识别和说话人识别中使用的语音时长往往不是固定的. 为了让语种识别系统输入语音时长可变,并且不丢失语种信息,同时语种识别准确率保持在较高水平,本文在Resnet34网络前端引入一个时长规整层. 如图4所示.
-
本文根据语音的时长不同,将长语音分割为若干时长为1 s的短时语音,从而保证测试语音的特征能够映射到训练语音的输入特征上. 已知时长为1 s的短时语音片段生成LPSEM特征矩阵
${\boldsymbol{M}}$ 的维度是$f \times w$ . 当语音片段时长大于1 s时,设其生成的LPSEM特征矩阵为${\boldsymbol{M}}'$ ,其维度为$F \times w$ ,此时$F \geqslant f$ ,故需要引入时长规整层对长语音进行时长规整,具体操作如下:将长语音切割成多条时长为1 s的短时语音,其结果表示如下:$ V(n) = [{V_1}(n) {\text{ }}{V_2}(n) {V_3}(n) \cdots {V_H}(n)] , $ 式中,
${V_1}(n) ,{V_2}(n) ,{V_3}(n) \cdots {V_H}(n)$ 分别为时长为1 s的短时语音,$ V(n) $ 为时长大于1 s的语音,$n$ 代表第$n$ 个采样点. 在进行语音分割时,首先要确定语音信号的时长$T$ ,再确定所分时长为1 s的短时语音的个数$H$ .L为长语音分割时相邻两段短时语音的重叠时长或间隔时长,其计算公式如下:$ L = \frac{{H - \dfrac{T}{1}}}{{H - 1}} , $ 当
$L$ 大于0时,$\left| L \right|$ 表示相邻两段短时语音的重叠时长,当$L$ 小于0时,$\left| L \right|$ 表示相邻两段短时语音的间隔时长. -
目前在语音识别领域比较流行的CNN网络主要是Resnet网络和VGG网络. 在VGG网络内部使用多个
$3 \times 3$ 的卷积核代替其他大尺度的卷积核,其优点在于,保证相同感知野的条件下,不仅可提升网络的深度,在一定程度上也提升可神经网络的效果. 然而VGG网络拥有3个全连接层,这意味着会使用大量的参数,因此它的计算会消耗大量的资源. 同时随着网络层数的增加,梯度消失导致其后端网络层无法对前端网络层进行调整,也会影响神经网络的性能.相比于VGG网络,Resnet网络引入残差单元来解决网络的退化问题. 残差单元可以表示为:
$ y = F(x,{{\boldsymbol{W}}_i}) + x , $ $ F(x) = {{\boldsymbol{W}}_2}\sigma ({{\boldsymbol{W}}_1}x) , $ 式中,
$x$ 和$y$ 分别表示所在网络层的输入和输出结果,$F(x,{{\boldsymbol{W}}_i})$ 表示要学习的残差映射,$F(x)$ 代表残差函数.${{\boldsymbol{W}}_1}$ 和${{\boldsymbol{W}}_2}$ 代表图5中第一个网络层和第二个网络层的权重向量,$\sigma $ 代表ReLU激活函数. 最后残差单元的输出为$\sigma (F(x) + x)$ .当残差函数
$F(x){\text{ = }}0$ 时,此时堆积层做了恒等映射,网络的性能不会随着网络层数的增加而下降,事实上残差函数不会为0,因此堆积层在输入特征基础上还可以学习到新的特征,从而拥有更好的性能. 图5为残差单元结构示意图.在VD-LID后端我们采用softmax函数来计算语音分属每一语种的概率.
$ {p}_{J}=\frac{{c}_{I}}{{\displaystyle\sum \limits _{g=1}^{G}{c}_{g}}},0\leqslant {p}_{J}\leqslant 1 , $ 式中,
${p_J}$ 表示判别为第$J$ 类语种的概率,$G$ 代表语种个数,${c_I}$ 、${c_g}$ 分别代表第$I$ 个节点和第$g$ 个节点的输出值.一段时长为
$T$ 的长语音,经过分割之后得到$H$ 段时长为1 s的短时语音,将$H$ 个短时语音的特征输入CNN网络得到$H \times G$ 个节点的输出值,然后把这些节点的输出值映射到softmax函数中,得到各个短时语音识别为某种语种的概率${p_J}$ .$ {Q}_{J}=\frac{{\displaystyle\sum \limits _{r=1}^{{e}_{J}}{p}_{r}}}{{\displaystyle\sum \limits _{j=1}^{G}{\displaystyle\sum \limits _{r=1}^{{e}_{J}}{p}_{J,r}}}},0\leqslant {Q}_{J}\leqslant 1 , $ 式中,
${Q_J}$ 代表待测长语音被判别为第$J$ 类语种的概率,${e_J}$ 表示第$J$ 类语种片段的个数,${p_{J,r}}$ 代表被识别为第$J$ 类语种的第$r$ 条短语音的概率,${p_r}$ 表示当识别为第$J$ 类语种时,第$r$ 条短语音的概率.因此,当输入一段长语音时,首先经过时长规整层分割为若干条时长为1 s的短时语音,通过公式(13)计算得出每条短时语音识别为某种语种的概率
${p_J}$ ,再将${p_J}$ 带入公式(14)计算这些短时语音的概率,最后计算得出长语音识别为某种语种的概率${Q_J}$ . -
实验数据集从国际广播电台中录制,共8种语言,分别是普通话、缅甸语、越南语、柬埔寨语、老挝语、韩语、藏语、维吾尔语. 采样率为16 kHz,精度为16 bit,声道为单声道,每种语言4800段,其中3000段为时长为1 s的训练集,剩下的1800段为测试集. 测试集包含3种时长,分别为1、5 s和10 s,每种时长600段.
本文中语种识别的测试标准采用识别准确率(Recognition Accuracy,AR)来评价.
$ {A_{\rm{R}}} = \frac{{\displaystyle\sum\limits_{g = 1}^G {{a_g}} }}{{\displaystyle\sum\limits_{g = 1}^G {{b_g}} }} , $ 式中,
$G$ 代表语种个数,${a_g}$ 是第$g$ 个语种识别正确的语音个数,${b_g}$ 代表第$g$ 个语种总的语音数,${A_R}$ 代表识别准确率.语种识别系统分为前端声学特征和后端语种分类模型,前端声学特征采用Fbank、MFCC、LPSEM和语谱图. 其中LPSEM作为实验特征,Fbank、MFCC和语谱图作为对比特征. 后端训练模型为Resnet网络和VGG网络. 网络采用交叉熵准则(cross entropy)进行训练.
实验主要分为3个部分:第1部分分别将语音的Fbank、MFCC、LPSEM和语谱图特征拟合到Resnet网络和VGG网络中,研究各个特征在不同网络中的语种识别情况;第2部分分别对语音的Fbank、MFCC、LPSE的特征向量和Fbank、MFCC、LPSEM的特征图谱进行训练,研究特征数据扩展对短时语种识别效果的影响;第3部分在Resnet34网络前端引入一个时长规整层,同时与不加时长规整层的Resnet34网络进行对比,来研究时长规整层对不同时长语音输入的影响.
-
在实验1中,语音时长为1 s,输入特征为Fbank、MFCC、LPSEM和语谱图,训练网络根据种类和层数的不同分为Resnet18、Resnet34、Resnet50、VGG11和VGG16. 从表1中可以看出Resnet网络的语种识别效果普遍高于VGG网络,这主要是由于VGG网络随着卷积层数的增加,梯度消失导致后端的网络层无法对前端的网络层进行调整. 而Resnet网络提出了shortcut捷径连接,很好地解决了梯度消失的问题. 同时在Resnet34中,当输入特征为LPSEM时,语种识别率最高,达到了82.4%,同比输入特征为语谱图增加了6%,比输入特征为Fbank增加了7.2%,比输入特征为MFCC增加了7.9%. 同样当输入特征为LPSEM时,各个网络的识别率相比于其他特征也是最高的,但在Resnet网络中随着网络层数的增加,语种识别率并不是随着层数增加而增加的,例如Resnet50相比Resnet34下降了2.3%,这可能是网络层数过高,使得网络在训练时出现了局部最优而造成的.
训练网络 LPSEM 语谱图 Fbank MFCC Resnet18 78.7 74.2 73.9 73.0 Resnet34 82.4 76.4 75.2 74.5 Resnet50 80.1 78.5 74.2 75.7 VGG11 76.0 73.3 73.9 72.1 VGG16 77.9 75.3 74.2 73.8 表 1 不同网络及特征的语种识别率
Table 1. Language recognition rate of different networks and characteristics
% -
在实验2中,输入分别为1 s短时语音的Fbank、MFCC、LPSE的特征向量和Fbank、MFCC、LPSEM的特征图谱,从表2可以看出各个特征的原始特征向量的短时语种识别效果普遍低于经过特征数据扩展后的特征图谱,因此在本文中将短时语音的特征向量扩展成为特征图谱有利于短时语音的语种识别.
特征 LPSEM Fbank MFCC 特征向量 76.2 71.4 70.9 特征图谱 82.4 75.2 74.5 表 2 特征数据扩展对短时语音语种识别率的影响
Table 2. The impact of feature data expansion on short-term speech language recognition rate
% -
在实验3中,输入特征为LPSEM,语音时长为1、5 s和10 s. 训练模型为没有引入时长规整层的Resnet34网络和引入时长规整层的VD-LID模型. 实验结果如表3所示. 在没有引入时长规整层的Resnet34网络中,输入时长为5 s和10 s的广播语音语种识别率分别只有58.7%和56.3%,在VD-LID模型中,输入时长为5 s 和10 s的广播语音的语种识别准确率为86.6%和94.0%,相比于没有引入时长规整层的Resnet34网络,两种输入时长的语音分别提高了27.9%和37.7%,并且输入时长为5 s的广播语音比输入时长为1 s的广播语音识别率提高了4.2%;输入时长为10 s的广播语音比输入时长为5 s的广播语音语种识别率提高了7.4%. 实验结果表明:当没有引入时长规整层时,由于训练语音与测试语音时长不匹配,会造成识别率大幅度下降;而在引入时长规整层之后,时长规整层将输入长语音分割为若干时长为1 s的短时语音,从而使得测试特征能够与训练特征相映射,在识别过程中,VD-LID模型后端又通过计算每段时长为1 s的短时语音语种识别情况来判别长语音的语种,而时长为1 s的短时语音语种识别准确率已经达到了82.4%,因此随着语音时长的增加,长语音的语种识别准确率也会随之提高.
训练网络 测试语音时长/s 1 5 10 VD-LID 82.4 86.6 94.0 Resnet34 82.4 58.7 56.3 表 3 时长规整层对语种识别准确率的影响
Table 3. The impact of the time-length regulation layer on the ac-curacy of language recognition
% -
在语种识别中,针对短时语音信息量较少,语种识别率较低的问题,本文使用了LPSEM作为特征输入,Resnet34网络作为分类模型,对时长为1 s的短时语音进行语种识别,其识别率达到了82.4%;针对训练语音与测试语音时长不匹配导致语种识别率急剧下降的问题,本文采用Resnet34网络结合时长规整层的方法,构建了可以识别不同时长语音语种的可变时长语种模型VD-LID,对比没有结合时长规整层的 Resnet34网络,VD-LID将时长为5 s 和10 s的广播语音的语种识别率分别提升了27.9%和37.7%. 但考虑到短时语音的语种识别极易受到噪声的影响,因此,在后续的工作中还需对语音的降噪展开研究.
可变时长的短时广播语音多语种识别
Multilingual recognition of short-time broadcast speech with variable duration
-
摘要: 针对短时语音时长过短以及训练语音和测试语音时长不等,导致语种识别性能大幅度下降的问题,提出了一种可变时长的短时广播语音多语种识别模型(Variable Duration-Language Identification, VD-LID). 首先,对不同时长的语音进行时长规整;然后,对规整后的短时语音进行特征提取,提取其对数功率谱包络图作为语种特征;最后,将语种特征输入到残差神经网络中进行分类. 实验结果表明,相比于传统特征输入,对数功率谱包络图特征将短时语音的语种识别准确率提高到了82.4%;相比于没有引入时长规整层的语种识别模型,VD-LID在测试语音时长为5 s和10 s的实验中,语种识别准确率分别提升了27.9%和37.7%.Abstract: Aiming at the problem that the language recognition performance is greatly reduced due to the short duration of short speech and the difference between the duration of training speech and the duration of test speech, a multi-language recognition model of short broadcast speech with variable duration is proposed. Firstly, the duration of different speech length is structured. Then the features of the structured short speech were extracted and the logarithmic power spectrum envelope was extracted as language features. Finally, the language features are input into the residual neural network for classification. The experimental results show that compared with the traditional feature input, the logarithmic power spectrum envelope feature improves the language recognition accuracy of short-time speech to 82.4%. Compared with the language recognition model without the introduction of the time-regular layer, VD-LID improved the accuracy of language recognition by 27.9% and 37.7% respectively in the experiments of 5 s and 10 s speech duration..
-
表 1 不同网络及特征的语种识别率
Table 1. Language recognition rate of different networks and characteristics
% 训练网络 LPSEM 语谱图 Fbank MFCC Resnet18 78.7 74.2 73.9 73.0 Resnet34 82.4 76.4 75.2 74.5 Resnet50 80.1 78.5 74.2 75.7 VGG11 76.0 73.3 73.9 72.1 VGG16 77.9 75.3 74.2 73.8 表 2 特征数据扩展对短时语音语种识别率的影响
Table 2. The impact of feature data expansion on short-term speech language recognition rate
% 特征 LPSEM Fbank MFCC 特征向量 76.2 71.4 70.9 特征图谱 82.4 75.2 74.5 表 3 时长规整层对语种识别准确率的影响
Table 3. The impact of the time-length regulation layer on the ac-curacy of language recognition
% 训练网络 测试语音时长/s 1 5 10 VD-LID 82.4 86.6 94.0 Resnet34 82.4 58.7 56.3 -
[1] 瞿于荃, 龙华, 段荧, 等. 联合总变率空间和时延神经网络的说话人识别[J]. 计算机科学与探索, 2021, 15(7): 1255- 1264. Qu Y Q, Long H, Duan Y, et al. Speaker recognition combined with total variable rate space and time delay neural network[J]. Computer Science and Exploration, 2021, 15(7): 1255- 1264. [2] 苗晓晓, 张健, 索宏彬, 等. 应用于短时语音语种识别的时长扩展方法[J]. 清华大学学报:自然科学版, 2018, 58(3): 254- 259. Miao X X, Zhang J, Suo H B, et al. Time extension method applied to short-term speech language recognition[J]. Journal of Tsinghua University: Natural Science Edition, 2018, 58(3): 254- 259. [3] 苗晓晓, 徐及, 王剑. 基于降噪自动编码器的语种特征补偿方法[J]. 计算机研究与发展, 2019, 56(5): 1 082-1 091. DOI: 10.7544/issn1000-1239.2019.20180471. Miao X X, Xu J, Wang J. Language feature compensation method based on noise reduction autoencoder[J]. Computer Research and Development, 2019, 56(5): 1 082- 1 091. [4] Li C, Ma X, Jiang B, et al. Deep speaker: An end-to-end neural speaker embedding system[J]. arXiv: 1705-1713, 2017 [5] Snyder D, Ghahremani P, Povey D, et al. Deep neural network-based speaker embeddings for end-to-end speaker verification[C]//IEEE Workshop on Spoken Language Technology, San Diego, CA, 2016: 165-170. DOI: 10.1109/SLT.2016.7846260. [6] Karim F, Majumdar S, Darabi H, et al. LSTM fully convolutional networks for time series classification[J]. IEEE Access, 2017, 28(6): 1 662- 1 669. [7] Zhang Y, Pezeshki M, Brakel P, et al. Towards end-to-end speech recognition with deep convolutional neural networks[C]//17th Annual Conference of the International Speech Communication Association, San Francisco, CA, 2016: 410-414. DOI: 10.21437/Interspeech.2016-1446. [8] Cai W, Cai Z, Liu W, et al. Insights into end-to-end learning scheme for language identification[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, Calgary, Canada, 2018: 5 209-5 213. [9] Abdel-Hamid O, Mohamed A, Jiang H, et al. Convolutional neural networks for speech recognition[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(10): 1 533- 1 545. DOI: 10.1109/TASLP.2014.2339736. [10] He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]//Proceedings of the IEEE Conference on Computer Visio and Pattern Recognition, Nevada, USA, 2016: 770-778. DOI: 10.1109/CVPR.2016.90. [11] 刘梦媛, 杨鉴. 基于HMM的缅甸语语音合成系统设计与实现[J]. 云南大学学报: 自然科学版, 2020, 42(1): 19- 27. DOI: 10.7540/j.ynu.20190387. Liu M Y, Yang J. Design and implementation of Burmese speech synthesis system based on HMM[J]. Journal of Yunnan University: Natural Sciences Edition, 2020, 42(1): 19- 27. [12] 秦晨光, 王海, 任杰. 基于多任务学习的方言语种识别[J]. 计算机研究与发展, 2019, 56(12): 2 632- 2 640. Qing C G, Wang H, Ren J. Dialect language recognition based on multi-task learning[J]. Computer Research and Development, 2019, 56(12): 2 632- 2 640. [13] Lea F Y,Lin G L. An MFCC-based speaker identification system[C]//International Conference on Advanced Information Networking and Applications, Taipei, China, 2017: 1 055-1 062. DOI: 10.1109/AINA.2017.130. [14] 邵玉斌, 刘晶, 龙华, 等. 基于声道频谱参数的语种识别[J]. 北京邮电大学学报, 2021, 44(3): 112- 119. Shao Y B, Liu J, Long H, et al. Language recognition based on vocal tract spectrum parameters[J]. Journal of Beijing University of Posts and Telecommunications, 2021, 44(3): 112- 119. [15] 徐欣, 李枚亭. 基于频谱包络算法的语音转换研究[J]. 数字技术与应用, 2011, 25(9): 123- 125. Xu X, Li M T. Speech conversion research based on spectrum envelope algorithm[J]. Digital Technology and Application, 2011, 25(9): 123- 125. [16] Li R, Mallidi S H, Burget L, et al. Exploiting hidden-layer responses of deep neural networks for language recognition[C]//Proceedings of the 26th Internation Joint Conference on Artifical Intelligence, San Francisco, CA, USA, 2016: 3 265-3 269. DOI: 10.21437/Interspeech.2016-1584. [17] Tkachenko M, Yamshinin A, Lyubimov N, et al. Language identification using time delay neural network D-vector on short utterances[C]// International Conference on Speech and Computer, Budapest, Hungary, 2016: 443-449. DOI: 10.1007/978-3-319-43958-7_53. -