自然界中的声音非常复杂,波形极其复杂(复合波),通常我们采用的是脉冲代码调制编码,即PCM编码(Pulse Code Modulation,PCM)。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。从信息论的观点来看,数据=信息+数据冗余。音频信号在时域和频域上具有相关性,也即存在数据冗余。将音频作为一个信源,音频编码的实质是减少音频中的冗余。
1.声音三要素
声音的特性可由三个要素来描述,即响度、音调和音色。
响度:人耳对声音强弱的主观感觉称为响度。响度和声波振幅有关。一般说来,声波振动幅度越大则响度也越大。
音调:人耳对声音高低的感觉称为音调。音调主要与声波的频率有关。频率越高,则音调也高。
音色:音色不太好理解,它是人们区别具有同样响度、同样音调的两个声音之所以不同的特性。音色声音的频谱结构有关。其实就是频率相通、振幅相同,但波形不同。
2.有损和无损
根据采样率和采样大小可以得知,相对自然界的信号,音频编码最多只能做到无限接近,相对自然界的信号,任何数字音频编码方案都是有损的,因为无法完全还原。在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准。
3.音频三元组
音频有三个重要的元素,采样率、采样大小(或者叫采样位深)、通道数。
计算PCM音频流的码率:码率=采样率值×采样大小值×声道数 bps,如:一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps。数据量176.4KB/s,则1分钟的音频大概是10.34MB数据,这是不可接受的,尤其是网络传输的时候,因此必须采用音频压缩技术(也叫音频编码)。
3.1采样率
采样率表示了每秒对原始信号采样的次数。
人类的听力感知范围是从20Hz到20kHz。这个频宽范围被划分成四个频宽类别:窄带、宽带、超宽带和全带。
我们常见到的音频文件采样率多为44.1KHz,假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,分别对这两段信号进行40KHz的采样,结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。显然,在相同的采样率下,记录低频的信息远比高频的详细。
3.2声道数
声道数是指支持能不同发声的音响的个数,它是衡量声卡设备的重要指标之一。
单声道:单声道是比较原始的声音复制形式,早期的声卡采用的比较普遍。
双声道:也叫立体声,两个声道,声音在录制过程中被分配到两个独立的声道,从而达到了很好的声音定位效果。
四声道环绕:四声道环绕规定了4个发音点:前左、前右,后左、后右,听众则被包围在这中间。
音轨:音轨技术能够把多种声音混合的录在一起,实现各种美妙的音效,其实我们唱的卡拉OK就是采用了音轨技术,还有多音轨技术,可以把三、四种声音或者更多的声音分别录制成单独的音轨然后一起播放出来。
3.3采样大小
采样位数可以理解为采集卡处理声音的解析度。这个数值越大,解析度就越高,录制和回放的声音就越真实,采样频率是指录音设备在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。
4.编码分类
根据编码方式的不同,音频编码技术分为三种:波形编码、参数编码和混合编码。一般来说,波形编码的话音质量高,但编码速率也很高;参数编码的编码速率很低,产生的合成语音的音质不高;混合编码使用参数编码技术和波形编码技术,编码速率和音质介于它们之间。
4.1波形编码
波形编码是指不利用生成音频信号的任何参数,直接将时间域信号变换为数字代码,使重构的语音波形尽可能地与原始语音信号的波形形状保持一致。波形编码的基本原理是在时间轴上对模拟语音信号按一定的速率抽样,然后将幅度样本分层量化,并用代码表示。 最简单的波形编码方法是PCM(Pulse Code Modulation,脉冲编码调制),它只对语音信号进行采样和量化处理。优点是编码方法简单,延迟时间短,音质高,重构的语音信号与原始语音信号几乎没有差别。不足之处是编码速率比较高(64 kbit/s),对传输通道的错误比较敏感。
4.2参数编码
参数编码是从语音波形信号中提取生成语音的参数,使用这些参数通过语音生成模型重构出语音,使重构的语音信号尽可能地保持原始语音信号的语意。也就是说,参数编码是把语音信号产生的数字模型作为基础,然后求出数字模型的模型参数,再按照这些参数还原数字模型,进而合成语音。 参数编码的编码速率较低,可以达到2.4 kbit/s,产生的语音信号是通过建立的数字模型还原出来的,因此重构的语音信号波形与原始语音信号的波形可能会存在较大的区别、失真会比较大。而且因为受到语音生成模型的限制,增加数据速率也无法提高合成语音的质量。不过,虽然参数编码的音质比较低,但是保密性很好,一直被应用在军事上。典型的参数编码方法为LPC(Linear Predictive Coding,线性预测编码)。
4.3混合编码
混合编码是指同时使用两种或两种以上的编码方法进行编码。这种编码方法克服了波形编码和参数编码的弱点,并结合了波形编码高质量和参数编码的低编码速率,能够取得比较好的效果。
5.编码格式
5.1PCM编码
PCM 脉冲编码调制是Pulse Code Modulation的缩写。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。在音频编码过程中,我们一般约定PCM编码为原始编码(可以把PCM编码理解为原始模拟信号),也是被声卡识别的数据格式。
5.2MP3编码
动态图像专家组-1或动态图像专家组-2 音频层III(MPEG-1 or MPEG-2 Audio Layer III),经常称为MP3,是当今相当流行的一种数字音频编码和有损压缩格式,它被设计来大幅降低音频数据量,它舍弃PCM音讯资料中,对人类听觉不重要的资料,从而达到了压缩成较小的档案。
5.3OGG编码
网络上出现了一种叫Ogg Vorbis的音频编码,号称MP3杀手!Ogg Vorbis可以在相对较低的数据速率下实现比MP3更好的音质!和MP3一样,OGG也支持VBR。
5.4MPC编码
MPC编码有着更小的体积更好的音质!
5.5mp3PRO编码
mp3PRO并不是一种全新的格式,完全是基于传统mp3编码技术的一种改良,本身最大的技术亮点就在于SBR(Spectral Band Replication 频段复制),这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码,与传统的编码技术不同的是,SBR更像是一种后处理技术,因此解码器的算法的优劣直接影响到音质的好坏。
5.6RA格式
RA就是RealAudio格式,种格式完全针对的就是网络上的媒体市场,支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率,在保证流畅的前提下尽可能提高音质。
5.7APE格式
APE是Monkey's Audio提供的一种无损压缩格式。
6.音量计算
音量值计算:db=20*lg(x/2^15),其中x表示样点幅度值,db表示分贝值。
声音是一种波,PCM数据是波形的描述,音量值表示波的能量,和波的振幅相关,和各点的相对差值有关。16bits的采样值表示范围是-32768~32767。把每个点依次连接起来就是声音的波形了。求音量先将数据转换成-1~1之间(因为位率是是精度表示,要转换成相对最大值的比例),进行傅立叶变换,提高速度使用快速傅立叶变换(FFT),求出当时的频谱图,就是各个频率的音量大小。求平均就是总音量。
FFT变换有实部数据和虚部数据,其能量值是(实部实部+虚部虚部)的开方,而声音的大小是分贝,20lg(能量值),所以频谱图各音量是10lg(实部实部+虚部虚部)
7.音频编码技术比较
说明:质量评价共五个等级(1、2、3、4、5),其中5.0为最高分。
PCM:Pulse Code Modulation,脉冲编码调制。
ADPCM:Adaptive Differential Pulse Code Modulation,自适应差分脉冲编码调制。
SB-ADPCM:Subband Adaptive Differential Pulse Code Modulation,子带-自适应差分脉冲编码调制。
LPC:Linear Predictive Coding,线性预测编码。
CELPC:Code Excited Linear Predictive Coding,码激励线性预测编码。
VSELPC:Vector Sum Excited Linear Predictive Coding,矢量和激励线性预测编码。
RPE-LTP:Regular Pulse Excited-Long Term Predictive,规则脉冲激励长时预测。
LD-CELP:Low Delay-Code Excited Linear Predictive,低时延码激励线性预测。
MPE:Multi-Pulse Excited,多脉冲激励。
PSTN:Public Switched Telephone Network,公共交换电话网。
ISDN:Integrated Services Digital Network,综合业务数字网。
来源:oschina
链接:https://my.oschina.net/u/4381723/blog/4603611