基于过零率及频谱的语音音乐分类算法

孙慧芳 龙华 邵玉斌 杜庆治

引用本文:
Citation:

基于过零率及频谱的语音音乐分类算法

    作者简介: 孙慧芳(1995−),女,云南人,硕士生,主要研究方向为信号处理. E-mail:271611013@qq.com;
    通讯作者: 龙华, 1670931890@qq.com
  • 中图分类号: TP391

Speech music classification algorithm based on zero-crossing rate and spectrum

    Corresponding author: LONG Hua, 1670931890@qq.com ;
  • CLC number: TP391

  • 摘要: 针对语音/音乐分类过程中由于特征参数提取过多造成的维数灾难及分类准确率有待提高等问题,提出了一种基于过零率及频谱的语音/音乐分类算法. 该算法在对语音及音乐2类信号进行端点检测及分段预处理后,结合每一音频段的过零率和频谱幅值特性进行分类识别处理,最后通过计算被判别为语音或音乐的概率实现分类. 实验结果表明,此算法在音频分类中较同样最多只提2个音频特征且未用分类器算法的准确率平均提高约7.9%,较提取多个音频特征且采用分类器算法的准确率平均提高约5.7%. 证明了该算法不仅计算量小,且分类准确率也有所提高.
  • 图 1  音频信号波形图及其端点检测后波形

    Figure 1.  Audio signal waveform and its end-point detection waveform

    图 2  语音信号及音乐信号波形图及短时平均过零率

    Figure 2.  Speech signal and music signal waveform and zero-crossing rate

    图 3  语音信号及音乐信号频谱幅值

    Figure 3.  Speech signal and music signal spectrum amplitude

    图 4  基于短时平均过零率和信号频谱的语音/音乐分类算法流程图

    Figure 4.  Flow chart of speech/music classification algorithm based on zero-crossing rate and signal spectrum

    图 5  阈值设定流程图

    Figure 5.  Flow chart of threshold setting

    图 6  语音/音乐信号短时平均过零率和频谱图

    Figure 6.  Zero-crossing rate and spectrogram of speech/music signals

    图 7  分类准确率对比直方图

    Figure 7.  Classification accuracy compared with histogram

    表 1  数据集1实验结果

    Table 1.  Experimental results of datesct 1

    音频特征音频类型总样本数正确样本数错误样本数正确识别率/%平均识别率/%
    短时平均过零率语音360359199.791.55
    音乐3733116283.4
    频谱幅值语音360360010079.5
    音乐37322015359.0
    短时平均过零率+频谱幅值语音360359199.799.3
    音乐373369498.9
    下载: 导出CSV

    表 2  数据集2实验结果

    Table 2.  Experimental results of dateset 2

    音频数据集总样本数正确样本数错误样本数正确识别率/%平均识别率/%运行时长/s
    语音298296299.398.60.2-0.4
    音乐189185497.80.3-0.4
    下载: 导出CSV
  • [1] 陈功, 王振力, 张建兵. 基于短时能量的语音/音乐快速分类[J]. 电子技术应用, 2006, 32(1): 53-55, 63. DOI:  10.3969/j.issn.0258-7998.2006.01.019. Chen G, Wang Z L, Zhang J B. Speech/music fast classification based on short-time energy[J]. Application of Electronic Technology, 2006, 32(1): 53-55, 63.
    [2] 陈功, 张雄伟. 一种基于灰关联分析的语音/音乐分类方法[J]. 声学技术, 2007, 26(2): 262-267. DOI:  10.3969/j.issn.1000-3630.2007.02.020. Chen G, Zhang X W. A speech/music classification method based on grey relational analysis[J]. Acoustics Technology, 2007, 26(2): 262-267.
    [3] 吴顺妹, 许丽净, 许洪光, 等. 一种基于音调的语音/音乐实时分类算法[J]. 电声技术, 2010, 34(2): 66-68. DOI:  10.3969/j.issn.1002-8684.2010.02.015. Wu S M, Xu L J, Xu H G, et al. A real-time speech/music classification algorithm based on tone[J]. Electroacoustic Technology, 2010, 34(2): 66-68.
    [4] 梅铁民, 路瑞茜. 一种音频分类算法[J]. 沈阳理工大学学报, 2016, 35(5): 23-27. DOI:  10.3969/j.issn.1003-1251.2016.05.005. Mei T M, Lu R Q. An audio classification algorithm[J]. Journal of Shenyang University of Technology, 2016, 35(5): 23-27.
    [5] Vlaj D, Kos M, Kai Z. Acoustic classification and segmentation using modified spectral roll-off and variance-based features[J]. Digital Signal Processing, 2013, 23(2): 659-674. DOI:  10.1016/j.dsp.2012.10.008.
    [6] 卢坚, 陈毅松, 孙正兴, 等. 语音/音乐自动分类中的特征分析[J]. 计算机辅助设计与图形学学报, 2002, 14(3): 233-237. DOI:  10.3321/j.issn:1003-9775.2002.03.010. Lu J, Chen Y S, Sun Z X, et al. Feature analysis in speech/music automatic classification[J]. Journal of Computer Aided Design and Graphics, 2002, 14(3): 233-237.
    [7] 贾兰兰. 一种快速稳健的语音/音乐分类方法[J]. 信息与电子工程, 2008, 6(4): 281-283, 288. DOI:  10.3969/j.issn.1672-2892.2008.04.010. Jia L L. A fast and robust speech/music classification method[J]. Information and Electronic Engineering, 2008, 6(4): 281-283, 288.
    [8] 杨松, 于凤芹. 基于样本熵的语音/音乐识别[J]. 计算机工程与应用, 2012, 48(23): 125-127, 154. DOI:  10.3778/j.issn.1002-8331.2012.23.028. Yang S, Yu F Q. Speech/music recognition based on sample entropy[J]. Computer Engineering and Applications, 2012, 48(23): 125-127, 154.
    [9] 杨立东, 王晶, 谢湘, 等. 基于Tucker分解的音频分类研究[J]. 信号处理, 2015, 31(2): 221-225. DOI:  10.3969/j.issn.1003-0530.2015.02.013. Yang L D, Wang J, Xie X, et al. Study on audio classification based on Tucker decomposition[J]. Signal Processing, 2015, 31(2): 221-225.
    [10] 胡耀文, 龙华, 孙俊, 等. 基于音频特征的乐器分类研究[J]. 软件导刊, 2018, 17(6): 17-21. Hu Y W, Long H, Sun J, et al. Research on musical instrument classification based on audio features[J]. Software Guide, 2018, 17(6): 17-21.
    [11] 陈戈珩, 胡明辉, 吴天华. 基于支持向量机和HMM的音频信号分类算法[J]. 长春工业大学学报: 自然科学版, 2015, 36(4): 369-373. Chen G H, Hu M H, Wu T H. Audio signal classification algorithm based on support vector machine and HMM[J]. Journal of Changchun University of Technology: Natural Science Edition, 2015, 36(4): 369-373.
    [12] Bengolea G, Acevedo D, Rais M. Feature analysis for audio classification[J]. Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications, 2014, 8827: 239-246. DOI:  10.1007/978-3-319-12568-8.
    [13] Muthumari A, Mala K. Feature selection based on MBFOA for audio signal classification under consideration of Gaussian white noise[J]. IET Signal Processing, 2018, 12(6): 777-785. DOI:  10.1049/iet-spr.2016.0607.
    [14] Zahid S, Hussain F, Rashid M, et al. Optimized audio classification and segmentation algorithm by using ensemble methods[J]. Mathematical Problems in Engineering: Theory, Methods and Applications, 2015(9): 209814.1-209814.11.
    [15] 田旺兰. 语音/音乐的深度置信网络高准确度识别方法[J]. 吉首大学学报: 自然科学版, 2017, 38(1): 36-39. Tian W L. High accuracy recognition method for deep confidence network of speech/music[J]. Journal of Jishou University: Natural Science Edition, 2017, 38(1): 36-39.
    [16] 容宝华. 基于最小距离的音频分类方法的研究[J]. 电声技术, 2012, 36(11): 46-51. DOI:  10.3969/j.issn.1002-8684.2012.11.012. Rong B H. Research on audio classification method based on minimum distance[J]. Electroacoustic Technology, 2012, 36(11): 46-51.
    [17] Kang S I, Lee S. Improvement of speech/music classification for 3GPP EVS based on LSTM[J]. Symmetry, 2018, 10(11): 605-613. DOI:  10.3390/sym10110605.
    [18] Birajdar G K, Patil M D. Speech and music classification using spectrogram based statistical descriptors and extreme learning machine[J]. Multimedia Tools and Applications, 2018: 1-28.
    [19] 贾春花, 郭敏. 基于HHT方法的果蝇鸣声特征提取及分类[J]. 云南大学学报: 自然科学版, 2011, 33(2): 152-157. Jia C H, Guo M. Feature extraction and classification of fruit fly sounds based on HHT method[J]. Journal of Yunnan University: Natural Science Edition, 2011, 33(2): 152-157.
    [20] 张琳, 周韬, 杜庆治, 等. 基于物理特征的音频相似度比对算法研究[J]. 电视技术, 2017, 41(11): 110-114. Zhang L, Zhou T, Du Q Z, et al. Research on audio similarity comparison algorithm based on physical features[J]. TV Engineering, 2017, 41(11): 110-114.
    [21] Tzanetakis G, Cook P. Musical genre classification of audio signals[J]. IEEE Transactions on Speech and Audio Processing, 2002, 10(5): 293-302. DOI:  10.1109/TSA.2002.800560.
  • [1] 罗思洋龙华邵玉斌杜庆治 . 噪声环境下多特征融合的语音端点检测方法. 云南大学学报(自然科学版), 2021, 43(4): 671-680. doi: 10.7540/j.ynu.20200444
    [2] 刘兵杨鉴 . 无感知音频信号数字水印技术. 云南大学学报(自然科学版), 2003, 25(5): 408-411.
    [3] 赵纯善康国发张世杰 . 音频电磁波辐射场及其天线应用. 云南大学学报(自然科学版), 2006, 28(4): 319-322.
    [4] 王唐宇周丽萍李海燕余鹏飞陈建华张榆锋 . 多尺度复数滤波器及PI值相结合的奇异点检测. 云南大学学报(自然科学版), 2018, 40(4): 652-658. doi: 10.7540/j.ynu.20180024
    [5] 蒲越李国东赵静 . 基于细胞神经网络混沌特性的音频加密技术应用. 云南大学学报(自然科学版), 2017, 39(4): 539-546. doi: 10.7540/j.ynu.20150737
    [6] 陈 松景云萍刘 伟 . 可控源音频大地电磁测深法在玉蒙铁路秀山隧道中的应用效果分析. 云南大学学报(自然科学版), 2012, 34(S2): 209-214.
    [7] 姚如苹孙静潘家华王威廉 . 基于变值逻辑与深度学习模型的心音分类研究. 云南大学学报(自然科学版), 2021, 43(5): 859-867. doi: 10.7540/j.ynu.20200549
    [8] 张春平曹金石唐菁敏彭艺刘禹平 . p次方检测器协作频谱感知系统性能优化. 云南大学学报(自然科学版), 2014, 36(1): 26-31. doi: 10.7540/j.ynu.20130143
    [9] 贾春花郭敏 . 基于HHT方法的果蝇鸣声特征提取及分类. 云南大学学报(自然科学版), 2011, 33(2): 152-157 .
    [10] 孙雪华郭敏马苗 . 基于PCA和KICA双空间特征提取的玉米碰撞声信号分类. 云南大学学报(自然科学版), 2017, 39(1): 45-49. doi: 10.7540/j.ynu.20160370
    [11] 贾春花郭 敏 . 基于HHT方法的果蝇鸣声特征提取及分类. 云南大学学报(自然科学版), 0, -1978(0): 0- .
    [12] 李明悦何乐生雷晨龚友梅 . 基于注意力特征融合的SqueezeNet细粒度图像分类模型. 云南大学学报(自然科学版), 2021, 43(5): 868-876. doi: 10.7540/j.ynu.20200577
    [13] 吴志勇何军刘衍民 . 广义张量特征值的包含域. 云南大学学报(自然科学版), 2017, 39(4): 529-533. doi: 10.7540/j.ynu.20160614
    [14] 陈小华张腾飞尹丽云杨柯 . 卫星云分类产品在低纬高原强雷暴过程中的闪电特征分析. 云南大学学报(自然科学版), 2014, 36(2): 205-213. doi: 10.7540/j.ynu.20130104
    [15] 陈绪超李庆军 . 3种豆蔻属植物的异交率检测初报. 云南大学学报(自然科学版), 2008, 30(5): 531-534,540.
    [16] 吴凤云崔秀明杨野官会林 . 不同施肥处理调节土壤pH值对三七发病率及其生长的影响. 云南大学学报(自然科学版), 2017, 39(5): 908-914. doi: 10.7540/j.ynu.20160633
    [17] 张翔陈学娟杜晓聂枞宁王聪明 . 蒙顶甘露茶滋味特征及主要呈味成分贡献率分析. 云南大学学报(自然科学版), 2020, 42(4): 783-791. doi: 10.7540/j.ynu.20190404
    [18] 王小军刘光旭王炳香肖彤 . 基于气候因子的油茶含油率时空特征与种植分区研究. 云南大学学报(自然科学版), 2020, 42(6): 1202-1211. doi: 10.7540/j.ynu.20190483
    [19] 李耀堂陈刚 . 分块矩阵的2个新的特征值包含定理. 云南大学学报(自然科学版), 2013, 35(3): 275-283. doi: 10.7540/j.ynu.20120546
    [20] 李艳艳李耀堂 . 矩阵Hadamard积和Fan积的特征值界的估计. 云南大学学报(自然科学版), 2010, 32(2): 125-129 .
  • 加载中
图(7)表(2)
计量
  • 文章访问数:  2095
  • HTML全文浏览量:  2574
  • PDF下载量:  25
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-01-18
  • 录用日期:  2019-05-23
  • 网络出版日期:  2019-07-08
  • 刊出日期:  2019-09-01

基于过零率及频谱的语音音乐分类算法

    作者简介:孙慧芳(1995−),女,云南人,硕士生,主要研究方向为信号处理. E-mail:271611013@qq.com
    通讯作者: 龙华, 1670931890@qq.com
  • 昆明理工大学 信息工程与自动化学院,云南 昆明 650500

摘要: 针对语音/音乐分类过程中由于特征参数提取过多造成的维数灾难及分类准确率有待提高等问题,提出了一种基于过零率及频谱的语音/音乐分类算法. 该算法在对语音及音乐2类信号进行端点检测及分段预处理后,结合每一音频段的过零率和频谱幅值特性进行分类识别处理,最后通过计算被判别为语音或音乐的概率实现分类. 实验结果表明,此算法在音频分类中较同样最多只提2个音频特征且未用分类器算法的准确率平均提高约7.9%,较提取多个音频特征且采用分类器算法的准确率平均提高约5.7%. 证明了该算法不仅计算量小,且分类准确率也有所提高.

English Abstract

  • 语音和音乐是2类最重要的音频数据. 由于媒体数据库的巨大规模和用户每天生成的大量音频内容,在互联网上手工标注语音和音乐是不可行的,因此语音和音乐信号的自动化分类是必要的. 同时,语音和音乐的自动分类在广播、基于内容的音频检索和视频的摘要以及语音识别等众多领域都有重要的应用价值.

    当前的分类方法大多采用基于各种音频信号的不同特征值的分类模式进行分类. 例如陈功等[1]通过对音频信号短时能量建模分析,并结合短时能量方差值实现语音音乐信号的分类. 进一步地,该团队又将灰关联分析应用于语音/音乐信号的分类[2]. 吴顺妹等[3]提出了一种利用音调分布特性和频谱倾斜度对语音和音乐进行实时分类的算法. 梅铁民等[4]提出了一种综合利用低能量帧率和子带能量比的音频信号分类算法. Vlaj等[5]提出了一种新的基于窄频子带中的能量方差特征集. 以上分类算法所用特征参数少,最多的仅提取了2个特征参数,平均分类准确率最高的为文献[5]的93.8%.可见虽然以上算法所用特征参数少,计算量小,但分类准确率仍有待提高. 此外,卢坚等[6]提取了子带能量等8个音频特征,并采用了隐马尔可夫模型(Hidden Markov Model, HMM)分类器. 贾兰兰[7]改进了音频信号低能量帧率,采用了贝叶斯最大后验分类器. 杨松等[8]提取了混合信号的样本熵,采用k均值聚类进行语音和音乐信号的识别. 杨立东等[9]提取了117维特征参数,并在高斯混合模型(Gaussian Mixture Model, GMM)上测试音频信号分类性能. 胡耀文等[10]在对乐器音进行分类时,使用基于Relief算法的主成分特征提取方法,将初始的9个特征量减少到6个. 陈戈珩等[11]提取了音频信号静音比例等35维特征向量,并将HMM和支持向量机(Support Vector Machine, SVM)相结合作为分类器. Bengolea等[12]为使信号在接近零时更具有鲁棒性改进了短时平均过零率,并通过SVM对语音、音乐、环境音进行了分类. Muthumari等[13]提出了一种基于改进的细菌觅食优化算法(Modified Bacterial Foraging Optimisation Algorithm, MBFOA)的特征选择方法,并通过概率神经网络(Probabilistic Neural Network, PNN)对音频信号进行分类. Zahid[14]等提取了音频信号的过零率等5个特征参数,通过SVM和人工神经网络(Artificial Neural Network,ANN)进行分类. 田旺兰[15]运用深度置信网络进行语音/音乐识别,提取了音频信号快速傅里叶变换(Fast Fourier Transformation, FFT)系数. 以上分类方法大多提取了多个特征参数且均采用了分类器,分类精度最高为文献[12]的98.45%. 由于分类向量的维数过多,可能会造成分类所需的时间呈几何级数增长,造成所谓“维数灾难”[16]. 此外分类器的使用,导致分类过程中复杂度高,计算量大. 近两年来,由Kang等[17]提出了一种基于长短期记忆(Long short-term memory, LSTM)的鲁棒语音/音乐分类器. Birajdar等[18]提出了一种基于广义高斯分布描述符的语音/音乐分类特征提取方法,并利用极限学习机分类器将输入音频段分类为语音/音乐.

    本文的主要工作包括对音频短时平均过零率和频谱幅值进行描述,在对音频信号进行基于短时能量的端点检测后,对音频信号分段并提取每一段的音频特征,通过对每一音频段的识别,最终区分出待识别音频样本的类别. 实验结果表明,此算法提取特征参数少且未用分类器,计算量小,分类准确率高,实用性强.

    • 特征提取是信号识别中的关键环节,从许多特征中选取一组对信号分类最有效的特征作为特征向量,可以较准确地识别不同的信号[19]. 为从噪声背景环境下的音频信号中分辨出语音信号和非语音信号,并确定音频信号的起始点和终止点,语音端点检测是常用的方法. 本文选用短时能量对音频信号进行端点检测,确定出整段音频的起始帧和终止帧以降低后续音频特征提取的数据量和运算量,提高系统的稳定性.

      每帧数据的短时能量 $E$ 可用以下公式计算.

      $E = \sum\limits_{n = 1}^{{w_l}} {{y^2}\left( n \right)}, $

      式中,$y\left( n \right)$ 为音频信号一帧的幅值,${w_l}$ 为帧长, $n = 1,2, \cdots ,{w_l}$. 图1为一段时长60 s,采样频率为8 kHz,单声道的音频信号波形及其经端点检测后的信号波形. 如图1所示,经端点检测后去除了音频信号首尾能量较低的音频段.

      图  1  音频信号波形图及其端点检测后波形

      Figure 1.  Audio signal waveform and its end-point detection waveform

    • 过零率是音频信号时域分析中一种简单特征,一帧音频信号的短时过零次数可用下式计算[20]

      $Z = \frac{1}{2}\sum\limits_{n = 0}^{{w_l} - 1} {\left| {\operatorname{sgn} \left[ {y\left( n \right)} \right] - \operatorname{sgn} \left[ {y\left( {n - 1} \right)} \right]} \right|} ,$

      其中,$\operatorname{sgn} \left[ \cdot \right]$ 是符号函数.

      $\operatorname{sgn} \left[ x \right] = \left\{ {\begin{array}{*{20}{c}} 1&{x \geqslant 0} \\ { - 1}&{x < 0} \end{array}} \right.$

      一段音频内若 $y\left( n \right)y\left( {n{\rm{ - }}1} \right) < 0$,则短时过零点数累加1,短时平均过零率为 $Z' = \displaystyle\frac{Z}{{{w_l}}}$. 一般地,音乐信号的短时平均过零率比语音信号的平缓,而语音信号的短时平均过零率波动较大,这是因为在语音信号一个音节中语音由清音和浊音交替构成,而音乐不具有这种结构. 图2(a)~(c)为两段时长均为10 s,采样频率为8 kHz,单声道的语音信号和音乐信号的波形图及短时平均过零率.

      图  2  语音信号及音乐信号波形图及短时平均过零率

      Figure 2.  Speech signal and music signal waveform and zero-crossing rate

    • 有限长离散信号 $x\left( n \right)$$n = 0,1, \cdots ,$$N - 1$ 的离散傅里叶变换(Discrete Fourier Transform, DFT)为:

      $X\left( k \right) = \sum\limits_{n = 0}^{N - 1} {x\left( n \right)W_N^{nk}} ,k = 0,1, \cdots ,N - 1,{W_N} = {\ell ^{ - j\frac{{2\pi }}{N}}}.$

      语音信号的频谱较音乐信号更连续,而音乐信号的频谱较离散. 如图3图2所用音频段的频谱幅度值,因此信号频谱也可以作为区分语音信号和音乐信号的有效特征量.

      图  3  语音信号及音乐信号频谱幅值

      Figure 3.  Speech signal and music signal spectrum amplitude

    • 基于短时平均过零率和信号频谱的语音/音乐分类算法的流程图如图4所示.

      图  4  基于短时平均过零率和信号频谱的语音/音乐分类算法流程图

      Figure 4.  Flow chart of speech/music classification algorithm based on zero-crossing rate and signal spectrum

      其具体算法步骤如下:

      步骤1 基于短时能量对音频信号进行端点检测,去除首尾能量较低的音频段:首先对长度为 $N$ 的音频信号做帧长为 ${w_{\rm l}}$,帧移为 ${i_{\rm c}}$ 的分帧处理,帧数 ${f_{\rm n}} = \left( {N - {w_{\rm l}} + {i_{\rm c}}} \right)/{i_{\rm c}}$;计算每一帧的短时能量 $E$,去除音频信号首尾 $E < a,0 < a < 1$ 的音频段,最终得到端点检测后的数据,且设此时音频信号长度为 ${N_1}$.

      步骤2 分段处理:将端点检测后的音频信号分为 $L = \frac{{{N_1}}}{l}$ 段,其中 $l$ 为每段音频信号的长度,即将端点检测后的音频信号分为整数个长度为 $l$ 的音频段.

      步骤3 对每一音频段进行分帧处理,同样帧长为 ${w_{\rm l}}$,帧移为 ${i_{\rm c}}$,帧数 ${f_{{\rm n}1}} = \left( {l - {w_{\rm l}} + {i_{\rm c}}} \right)/{i_{\rm c}}$,计算每一帧的短时平均过零率,并求整段音频的短时平均过零率最大值 $Z{'_{\max }}$.

      步骤4 计算整段音频中,短时平均过零率大于 ${n_1}Z_{\max }',0 < {n_1} < 1$ 的帧数 ${a_1}$.

      步骤5  计算每段音频的 $M = {2^n}$ 点FFT值,其中 $n$ 为正整数. 并计算其模值的最大值 ${F_{\max }}$.

      步骤6 计算整段音频中,FFT模值大于 ${n_2}{F_{\max }},0 < {n_2} < 1$ 的点数 ${a_2}$.

      步骤7 根据 ${a_1}$${a_2}$ 的大小输出当前音频段的类别,即属于语音信号还是音乐信号.

      步骤8 设被判断为语音信号的段数为 $v$,被判断为音乐信号的段数为 $m$,则该音频信号被判断为语音信号的概率为 $\dfrac{v}{L}$,被判断为音乐信号的概率为 $\dfrac{m}{L}$. 若 $\dfrac{v}{L} \geqslant \dfrac{m}{L}$,则待识别的音频样本为语音信号,否则为音乐信号.

    • 本文算法通过C语言实现,实验音频数据集1来源于中国之声、普通话学习网等. 共选取了733个样本,其中360段语音信号(包括纯男声、纯女声、男女混合音),373段音乐信号(包括各种乐器音、歌唱声等). 音频信号经sox音频处理命令行处理后,每个样本的采样频率为8 kHz,精度为16 bit,单声道,时间为10 s.

      由于音频信号的短时平稳性,实验中帧长 ${w_l} = 200$,帧移 ${i_c} = 80$;端点检测短时能量阈值是动态的,可根据不同的音频信号取不同的值. 本实验中阈值 $0 < a < 0.3$;音频信号分段时,每段时长为1 s,即 $l = 8\;000$;计算每段音频信号的频谱幅值时,FFT点数 $M = {2^n} = 4\;096 < 8\;000$;本文通过观察分析高于音频信号短时平均过零率最值一定比例的帧数和高于音频信号频谱幅度最值一定比例的点数来区分语音信号和音乐信号,其中阈值的设定流程图如图5所示,即随机设定一个初始阈值,基于当前阈值对语音信号和音乐信号进行区分,若未达到目标分类准确率,则调整当前阈值,直致达到目标分类准确率为止.

      图  5  阈值设定流程图

      Figure 5.  Flow chart of threshold setting

      分段后的每一段音频,基于当前最优阈值计算短时平均过零率大于 $0.5Z_{\max }'$ 的帧数 ${a_1}$,FFT模值大于 $0.1{F_{\max }}$ 的点数 ${a_2}$. 图6是任意一段采样频率为8 kHz,精度为16 bit,单声道,时长为1 s的语音信号和音乐信号短时平均过零率和频谱幅度值波形图. 由图6分析可知,本文所选阈值可以有效地区分语音和音乐信号,即语音信号短时过零率大于其$\displaystyle\frac{1}{2}$最大值的帧数小于音乐信号,语音信号频谱幅值大于其$\displaystyle\frac{1}{10} $最大值的点数大于音乐信号.

      图  6  语音/音乐信号短时平均过零率和频谱图

      Figure 6.  Zero-crossing rate and spectrogram of speech/music signals

      设被判断为语音信号的段数为 $v$,被判断为音乐信号的段数为 $m$,实验中若 ${a_2} > 140$,则 $v = v + 1$,若同时 ${a_1} > 46$,则 $v = v - 1,m = m + 1$;若 ${a_2} \leqslant 140$,则 $m = m + 1$. 最后得出该音频信号被判断为语音信号的概率为 $\displaystyle\frac{v}{L}$,被判断为音乐信号的概率为 $\displaystyle\frac{m}{L}$. 若 $\dfrac{v}{L} \geqslant \displaystyle\frac{m}{L}$,则待识别的音频样本为语音信号,否则为音乐信号,数据集1实验结果如表1所示.

      音频特征音频类型总样本数正确样本数错误样本数正确识别率/%平均识别率/%
      短时平均过零率语音360359199.791.55
      音乐3733116283.4
      频谱幅值语音360360010079.5
      音乐37322015359.0
      短时平均过零率+频谱幅值语音360359199.799.3
      音乐373369498.9

      表 1  数据集1实验结果

      Table 1.  Experimental results of datesct 1

      此外,还采用了文献[21]的音乐数据集,包括64段采样频率为22.05 kHz,时长为30 s的音乐信号,经sox音频处理命令行转换为采样频率为8 kHz,精度为16 bit,单声道,时间长度为10 s的音频信号;来源于清华大学王东教授的语音数据集,随机选取298段采样频率为16 kHz,时长均为6-10 s的语音信号,经sox音频处理命令行转换为采样频率为8 kHz,精度为16 bit,单声道的音频数据. 以上2个数据集记为数据集2,通过本文提出算法得到表2的实验结果.

      音频数据集总样本数正确样本数错误样本数正确识别率/%平均识别率/%运行时长/s
      语音298296299.398.60.2-0.4
      音乐189185497.80.3-0.4

      表 2  数据集2实验结果

      Table 2.  Experimental results of dateset 2

      通过分析表1的实验结果数据,单一音频特征短时平均过零率在本文所选阈值下对语音/音乐的分类准确率仍然高达91.55%,然而单一音频特征频谱幅值在本文所选阈值下的分类准确率较低,本文算法将短时平均过零率和频谱幅度值相结合,通过双阈值将语音/音乐的分类准确率提高到99.3%. 表2中的实验结果表明,本文所提算法对于公共数据集仍然有较高的分类准确率且算法运行时长较短. 图7(a)中文献[1-5]使用音频数据集并不统一,文献中涉及到的分类算法所提特征参数最多为2个且未用分类器,由图7(a)分析可知本文算法较其分类准确率平均提高约7.9%. 图7(b)除本文算法外,多数为提取多个音频特征并通过分类器分类结果. 由图7(b)分析可知,本文所提算法的分类准确率较其它分类算法平均提高约5.7%. 以上结果表明,本文算法仅提取2个常见音频信号特征,特征向量 $X = [{x_1},{x_2}]$,分类准确率次之的文献[12]提取了41个特征,在优化后仍然选取了20个特征才达到98.45%的准确率,特征向量 $Y = [{y_1},{y_2}, \cdots ,{y_{20}}]$,其特征维度为本文所提算法特征维度的10倍. 由此可见,本文算法在保证分类准确率良好的情况下,大大减少了特征维度去除了特征冗余,计算量小且并未涉及到分类器,其仅对实际分类数据分析即可实现分类. 因此本文所提算法对语音/音乐的快速分类具有一定的实用性.

      图  7  分类准确率对比直方图

      Figure 7.  Classification accuracy compared with histogram

    • 本文选取短时平均过零率和信号频谱幅值2个特征参数进行语音/音乐的比较从而进行分类. 首先对音频信号进行分段,其次结合2个特征参数判断每一音频段的类别,根据判断为语音信号的段数占所有段数的比例和判断为音乐信号的段数占所有段数的比例,最终识别出待分类音频信号的种类. 实验结果表明:此算法仅对实际分类数据分析利用短时平均过零率和频谱幅度2个分量,在未用分类器的情况下,不仅计算量小,而且提高了分类准确率,所以该分类方法具有一定的可行性和实用性. 在未来的工作中,考虑用更多的音频样本测试本文所提算法对语音/音乐信号的分类准确率.

参考文献 (21)

目录

    /

    返回文章
    返回