语音质量评估
语音质量评估,就是通过人类或自动化的方法评价语音质量。在实践中,有很多主观和客观的方法评价语音质量。主观方法就是通过人类对语音进行打分,比如MOS、CMOS和ABX Test.客观方法即是通过算法评测语音质量,在实时语音通话领域,这一问题研究较多,出现了诸如如PESQ和P.563这样的有参考和无参考的语音质量评价标准。在语音合成领域,研究的比较少,论文中常常通过展示频谱细节,计算MCD(mel cepstral distortion)等方法作为客观评价。今年也出现了MOSNet等基于深度网络的自动语音质量评估方法。 语音质量评测方法 以下简单总结常用的语音质量评测方法。 主观评价:MOS[1], CMOS, ABX Test 客观评价 有参考质量评估(intrusive method):ITU-T P.861(MNB), ITU-T P.862(PESQ)[2], ITU-T P.863(POLQA)[3], STOI[4], BSSEval[5] 无参考质量评估(non-intrusive method) 传统方法 基于信号:ITU-T P.563[6], ANIQUE+[7], NISQA[8] 基于参数:ITU-T G.107(E-Model)[9] 基于深度学习的方法:AutoMOS[10], QualityNet[11], MOSNet[12] 此外,有部分的方法