波形、频谱和语谱
1.声音最直接的表示方式是 波形 ,英文叫 waveform ,就是你贴的左边那张图。另外两种表示方式(频谱和语谱图)下文再说。波形的横轴是时间(所以波形也叫声音的 时域 表示),纵轴的含义并不重要,可以理解成位移(声带或者耳机膜的位置)或者压强。 当横轴的分辨率不高的时候,语音的波形看起来就是像你贴的图中一样,呈现一个个的三角形。这些三角形的轮廓叫作波形的 包络 ( envelope )。包络的大小代表了声音的响度。一般来说,每一个音节会对应着一个三角形,因为一般地每个音节含有一个元音,而元音比辅音听起来响亮。但例外也是有的,比如:1) 像/s/这样的音,持续时间比较长,也会形成一个三角形;2) 爆破音(尤其是送气爆破音,如/p/)可能会在瞬时聚集大量能量,在波形的包络上就体现为一个脉冲。 下面这张图中上方的子图,是我自己读单词pass /pæs/的录音。它的横坐标已经被我拉开了一些,但其实这个波形是由两个“三角形”组成的。0.05秒处那个小突起是爆破音/p/,0.05秒到0.3秒是元音/æ/,0.3到0.58秒是辅音/s/。 如果你把横轴的分辨率调高,比如只观察0.02s秒甚至更短时间内的波形,你就可以看到波形的 精细结构 ( fine structure ),像上图的下面两个子图。波形的精细结构可能呈现两种情况:一种是有周期性的,比如左边那段波形(图中显示了两个周期多一点)