音频基础
基本概念
随着数码时代的来临,数字信号比模拟信号优越已成为共识。任何我们可以听见的声音经过音频线或话筒的传输都是一系列的模拟信号,模拟信号是我们可以听见的。而数字信号就是用一堆数字记号(其实只有二进制的 1 和 0)来记录声音,人耳实际上听不到数字信号。现在一般都是用数字信号存储音频,所以如何将声音的模拟信号如何转换成数字信号则是重点。
将原始音频的模拟信号使用某一采样率采样(不同素质的音频的采样率不同),直接获得的就是pcm
音频数据。pcm
是未压缩的,最原始的数字音频文件,直接用 01 比特流表示,数字信号对连续变化的模拟信号进行抽样,量化和编码产生,这最初的一步就是脉冲编码调制(pcm)。然而这种文件一般无法直接播放,所以在pcm
文件加上描述信息的头部,就形成了wav
文件。
描述wav
文件有两个主要指标,一个是采样频率(采样率),另一个是采样精度(位深)。
采样率
数字信号就是在模拟信号波形上每隔一段时间进行一次取点采样,赋予每一个点以一个数值,然后把所有的采样点连起来就可以描述模拟信号了,很明显,在一定时间内取的点越多,描述出来的波形就越精确,这个尺度就称为采样率。比如最常用的 44.1kHz 的采样率,它的意思是每秒取点 44100 个。
之所以 44.1kHz 最常用,是因为人们发现这个采样频率最合适,低于这个值就会有较明显的损失,而高于这个值人的耳朵已经很难分辨,而且增大了数字音频所占用的空间。人耳的听觉范围极限是20~20kHz
,根据采样定理(在进行模拟/数字信号的转换过程中,当采样频率 fs.max 大于信号中最高频率 fmax 的 2 倍时,即 fs.max>2fmax,采样之后的数字信号就完整地保留了原始信号中的信息,一般实际应用中保证采样频率为信号最高频率的 2.56 ~ 4 倍),人耳能听到的极限采样频率是 44.1kHz 左右,此时可以认为音频是无损的。
8kHz, 16kHz
,用于人声,语音。44.1kHz, 48kHz, 96kHz
,用于音乐,电影等。
位深
音频中,一般使用 8 比特、16 比特、20 比特或 24 比特制作音频。
声音有轻有响,影响声音响度的物理要素是振幅,作为数字信号,必须也要能精确表示声音的轻响,所以一定要对波形的振幅有一个精确的描述。位深就是这样一个单位,16 比特就是指把波形的振幅划为 2^16 即 65536 个等级,根据模拟信号的轻响把它划分到某个等级中去,就可以用数字来表示了。和采样频率一样,位深越高,越能细致地反映乐曲的轻响变化。
位深影响信号的信噪比和动态范围,也决定了文件的大小,理论上来说,位深越高,质量越好,同时其所生成的文件也越大。
8bit, 16bit
,动态范围大概是 96dB,适用于普通流行歌曲。24bit
,动态范围大概是 144dB,一般用于电影配乐,交响乐团等等大动态的音频信号。
通道数
常有单声道和立体声之分,单声道的声音只能使用一个喇叭发声(有的也处理成两个喇叭输出同一个声道的声音),立体声可以使两个喇叭都发声(一般左右声道有分工),更能感受到空间效果,当然还有更多的通道数。CD 音质一般双通道,语音音质一般单通道。
码率(比特率)
音频文件或音频流中 1 秒中的数据量,如 1.44Mbps,1 秒内的数据量就是 1.44Mbits,码率越高,音频质量越好。
未压缩音频,码率,采样率,位深,声道数的关系:码率 = 采样率x位深x声道数
。但是考虑到存储和传输开销,能压缩的信息还是尽可能压缩的,这就产生了许多压缩算法,如图像的jpeg
,视频的H.264
。当然,对应的音频也就不能使用原始的pcm
数据,这样开销太大了,所以产生了各种的音频压缩算法,如mp3, opus, speex
等,通过压缩算法产生的音频数据码率就与最初的码率无必然关联,压缩码率完全取决于压缩算法及参数的选择。
不过一般而言,压缩码率越小,压缩程度越大。
音频格式
要在计算机内播放或是处理音频文件,也就是要对声音文件进行数字/模拟信号转换。这个过程同样由采样和量化构成,人耳所能听到的声音范围是 20Hz~20kHz,因此音频的最大带宽是 20KHZ,故而采样速率需要介于 40~50KHZ 之间,而且对每个样本需要更多的量化比特数。音频数字化的标准是每个样本 16 位(16bit,即 96dB)的信噪比,采用线性脉冲编码调制 PCM,每一量化步长都具有相等的长度。在音频文件的制作中,正是采用这一标准。
CD-天籁
CD 是当今世界上音质最好的音频格式,CD 的后缀名为.cda
。
标准 CD 格式也就是 44.1K 的采样频率,速率 88K/秒,16 位量化位数,因为 CD 音轨可以说是近似无损的,因此它的声音基本上是忠于原声的。
但是不能直接的复制 CD 格式的.cda
文件到硬盘上播放,需要使用象 EAC 这样的抓音轨软件把 CD 格式的文件转换成 WAV。
WAV-无损
.WAV
格式支持 opus, speex, mpe, ogg 等多种压缩算法,支持多种音频位数、采样频率和声道,标准格式的 WAV 文件和 CD 格式一样,也是 44.1K 的采样频率,16 位量化位数,速率 88K/秒,WAV 格式的声音文件质量和 CD 相差无几,也是 PC 机上广为流行的声音文件格式,几乎所有的音频编辑软件都认识 WAV 格式。
wav
文件其实是在pcm
文件的开头出上加上一个描述采样率,编码等信息的字节信息。pcm
也称为raw
格式,音频输入最原始的格式,不能再解码。
MP3-流行
mp3
是一种压缩格式的音频数据,并且是有损压缩,具有 10:1,最高 12:1 的高压缩率,同时基本保持低音频部分不失真,但是牺牲了声音文件中 12KHz 到 16KHz 高音频这部分的质量来换取文件的尺寸,相同时间长度的音频文件,用mp3
格式来储存,一般只有wav
文件的 1/10,而音质要次于 CD 格式或 WAV 格式的声音文件。
由于其文件尺寸小,音质好,所以直到现在,这种格式还是风靡一时,作为主流音频格式的地位难以被撼动。
CD
- 采样率:44.1kHz
- 量化位数:16bit
- 声道数:2(双声道)
- 码率:44.1Kx16x2=1411.2kbps=176.4kBps
- 如果音频帧时长为 20ms,即每个音频帧大小为 176.4kBpsx0.02s=3.528kB。
语音
- 采样率:8kHz 或者 16kHz
- 量化位数:8bit 或者 16bit
- 声道数:1(单声道)
- 码率:假设是 8kHz,16bit,即 8Kx16x1=128kbps=16kBps
- 如果音频帧时长为 20ms,即每个音频帧大小为 16kBpsx0.02s=320B。
来源:CSDN
作者:hzg0226
链接:https://blog.csdn.net/hzg0226/article/details/103747258