A Deep Neural Network Approach To Speech Bandwidth Expansion
题名:一种用于语音带宽扩展的深度神经网络方法 作者:Kehuang Li;Chin-Hui Lee 2015年出来的 摘要 本文 提出了一种基于深度神经网络(DNN)的语音带宽扩展(BWE)方法。 利用对数谱功率作为输入输出特征进行所需的非线性变换,训练神经网络来实现这种高维映射函数。 在10小时的大型测试集上对该方法进行评估时,我们发现与传统的基于高斯混合模型(GMMs)的BWE相比,DNN扩展语音信号在信噪比和对数谱失真方面具有很好的客观质量度量。 在假定相位信息已知的情况下,主观听力测试对DNN扩展语音的偏爱度为69%,对GMM的偏爱度为31%。 对于实际运行中的测试,当相位信息从给定的窄带信号imaged(成像)时,首选项的比较上升到84%,而不是16%。 正确的相位恢复可以进一步提高该方法的BWE性能。 关键词:深度神经网络,语音带宽扩展,频谱映射,相位估计 1 引言 将语音带宽从窄带(4khz带宽)扩展到宽带(8khz带宽)已经研究了几十年,因为带宽在早期是一种昂贵的资源。 即使现在语音传输的带宽不再受到紧张的限制,我们在现有的公共交换电话网(PSTN)系统中仍然面临着低带宽的限制。 为了提高语音在PSTN上的收听质量,人们一直在努力人为地扩展带宽。 早期对带宽扩展(BWE)的研究多集中于估计高频带的频谱包络线,利用低频带产生的激励恢复高频频谱[1]