前言 语言是一种复杂的自然习得的人类运动能力。成人的特点是通过大约100块肌肉的协调运动,每秒发出14种不同的声音。说话人识别是指软件或硬件接收语音信号,识别语音信号中出现的说话人,然后识别说话人的能力。特征提取是通过将语音波形以相对最小的数据速率转换为参数表示形式进行后续处理和分析来实现的。因此,可接受的分类是从优良和优质的特征中衍生出来的。Mel频率倒谱系数(MFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、线谱频率(LSF)、离散小波变换(DWT)和感知线性预测(PLP)是本章讨论的语音特征提取技术。这些方法已经在广泛的应用中进行了测试,使它们具有很高的可靠性和可接受性。研究人员对上述讨论的技术做了一些修改,使它们更不受噪音影响,更健壮,消耗的时间更少。总之,没有一种方法优于另一种,应用范围将决定选择哪种方法。 本文主要的关键技术:mel频率倒谱系数(MFCC),线性预测系数(LPC),线性预测倒谱系数(LPCC),线谱频率(LSF),离散小波变换(DWT),感知线性预测(PLP) 1 介绍 人类通过言语来表达他们的感情、观点、观点和观念。语音生成过程包括发音、语音和流利性[1,2]。这是一种复杂的自然习得的人类运动能力,在正常成年人中,这项任务是通过脊椎和颅神经连接的大约100块肌肉协调运动,每秒发出大约14种不同的声音