频谱分析

频谱泄漏和拖尾现象

a 夏天 提交于 2020-01-23 05:18:18
吉布斯现象 (英语:Gibbs phenomenon),由 Henry Wilbraham 于1848年最先提出 [1] ,并由 约西亚·吉布斯 于1899年证明 [2] 。在工程应用时常用有限正弦项 正弦波 叠加逼近原周期信号。所用的谐波次数N的大小决定逼近原波形的程度,N增加,逼近的精度不断改善。但是由于对于具有不连续点的周期信号会发生一种现象:当选取的 傅里叶级数 的项数N增加时,合成的波形虽然更逼近原函数,但在不连续点附近会出现一个固定高度的过冲,N越大,过冲的最大值越靠近不连续点,但其峰值并不下降,而是大约等于原函数在不连续点处跳变值的9%,且在不连续点两侧呈现衰减振荡的形式 图像 维基百科 在做信号处理时,经常涉及到“泄漏”。那泄漏是什么,是什么原因造成了泄漏呢?在这将告诉您答案。 1. 信号截断 一次FFT分析截取1帧长度的时域信号,这1帧的长度总是有限的,因为FFT分析一次只能分析有限长度的时域信号。而实际采集的时域信号总时间很长,因此,需要将采样时间很长的时域信号截断成一帧一帧长度的数据块。这个截取过程叫做 信号截断 。 假设有一段10s的时域信号,取1帧的长度 T =1s,无重叠,则该信号将被截断为10帧,如下图所示。按此规律进行FFT计算,将得到10个瞬时频谱,如果将这些瞬时频谱进行平均,那么平均次数为10次,最终的FFT分析结果为这10个瞬时频谱的平均结果。

论文翻译-语音合成:Tacotron 2

北战南征 提交于 2019-12-14 09:10:34
原论文地址:https://arxiv.org/abs/1712.05884 摘要 这篇论文描述了Tacotron 2, 一个直接从文本合成语音的神经网络架构。系统由两部分构成,一个循环seq2seq结构的特征预测网络,把字符向量映射到梅尔声谱图,后接一个WaveNet模型的修订版,把梅尔声谱图合成为时域波形。我们的模型得到了4.53的平均意见得分(MOS),而专业录制语音的MOS得分是4.58。为了验证模型设计,我们对系统的关键组件作了剥离实验研究,并且评估了使用梅尔频谱替代语言学、音长和F0特征作为WaveNet输入带来的影响。我们进一步展示了使用紧凑的声学中间表征可以显著地简化WaveNet架构。 索引词: Tacotron 2, WaveNet, text-to-speech 1. 介绍 从文本生成自然语音(语音合成,TTS)研究了几十年[1]仍然是一项有挑战的任务。这一领域的主导技术随着时代的发展不断更迭。单元挑选和拼接式合成方法,是一项把预先录制的语音波形的小片段缝合在一起的技术[2, 3],过去很多年中一直代表了最高水平。统计参数语音合成方法[4, 5, 6, 7],是直接生成语音特征的平滑轨迹,然后交由声码器来合成语音,这种方法解决了拼接合成方法中出现的边界人工痕迹的很多问题。然而由这些方法构造的系统生成的语音与人类语音相比,经常模糊不清并且不自然。 WaveNet

傅里叶分析之掐死教程

送分小仙女□ 提交于 2019-12-11 12:49:22
傅里叶分析之掐死教程(完整版)更新于2014.06.06 Heinrich 生娃学工打折腿 知乎日报收录 作 者:韩 昊 知 乎:Heinrich 微 博:@花生油工人 知乎专栏:与时间无关的故事 谨以此文献给大连海事大学的吴楠老师,柳晓鸣老师,王新年老师以及张晶泊老师。 转载的同学请保留上面这句话,谢谢。如果还能保留文章来源就更感激不尽了。 ——更新于2014.6.6,想直接看更新的同学可以直接跳到第四章———— 我保证这篇文章和你以前看过的所有文章都不同,这是12年还在果壳的时候写的,但是当时没有来得及写完就出国了……于是拖了两年,嗯,我是拖延症患者…… 这篇文章的核心思想就是: 要让读者在不看任何数学公式的情况下理解傅里叶分析。 傅里叶分析不仅仅是一个数学工具,更是一种可以彻底颠覆一个人以前世界观的思维模式。但不幸的是,傅里叶分析的公式看起来太复杂了,所以很多大一新生上来就懵圈并从此对它深恶痛绝。老实说,这么有意思的东西居然成了大学里的杀手课程,不得不归咎于编教材的人实在是太严肃了。(您把教材写得好玩一点会死吗?会死吗?)所以我一直想写一个有意思的文章来解释傅里叶分析,有可能的话高中生都能看懂的那种。所以,不管读到这里的您从事何种工作,我保证您都能看懂,并且一定将体会到通过傅里叶分析看到世界另一个样子时的快感。至于对于已经有一定基础的朋友,也希望不要看到会的地方就急忙往后翻

倒频谱原理与python实现

折月煮酒 提交于 2019-12-09 18:58:16
目录 倒频谱定义 倒频谱python案例 本教程为脑机学习者Rose原创(转载请联系作者授权)发表于公众号:脑机接口社区(微信号:Brain_Computer).QQ交流群:903290195 倒频谱定义 倒频谱可以分析复杂频谱图上的周期结构,分离和提取在密集调频信号中的周期成分,对于具有同族谐频、异族谐频和多成分边频等复杂信号的分析非常有效。倒频谱变换是频域信号的傅立叶积分变换的再变换。时域信号经过傅立叶积分变换可转换为频率函数或功率谱密度函数,如果频谱图上呈现出复杂的周期结构而难以分辨时,对功率谱密度取对数再进行一次傅立叶积分变换,可以使周期结构呈便于识别的谱线形式。第二次傅立叶变换的平方就是倒功率谱,即“对数功率谱的功率谱”。倒功率谱的开方即称幅值倒频谱,简称倒频谱。 简言之,倒频谱分析技术是将时域振动信号的功率谱对数化,然后进行逆傅里叶变化后得到的。倒频谱的水平轴为“倒频率”的伪时间,垂直轴为对应倒频率的幅值,其计算公式为: 倒频谱python案例 实现如下: from scipy.fftpack import fft, fftshift, ifft from scipy.fftpack import fftfreq import numpy as np import matplotlib.pyplot as plt import warnings warnings

深入浅出的讲解傅里叶变换(真正的通俗易懂)

点点圈 提交于 2019-12-08 03:13:56
原文出处: 韩昊 1 2 3 4 5 6 7 8 9 10 作 者:韩 昊 知 乎: Heinrich 微 博: @ 花生油工人 知乎专栏:与时间无关的故事 谨以此文献给大连海事大学的吴楠老师,柳晓鸣老师,王新年老师以及张晶泊老师。 转载的同学请保留上面这句话,谢谢。如果还能保留文章来源就更感激不尽了。 我保证这篇文章和你以前看过的所有文章都不同,这是 2012 年还在果壳的时候写的,但是当时没有来得及写完就出国了……于是拖了两年,嗯,我是拖延症患者…… 这篇文章的核心思想就是: 要让读者在不看任何数学公式的情况下理解傅里叶分析。 傅里叶分析不仅仅是一个数学工具,更是一种可以彻底颠覆一个人以前世界观的思维模式。但不幸的是,傅里叶分析的公式看起来太复杂了,所以很多大一新生上来就懵圈并从此对它深恶痛绝。老实说,这么有意思的东西居然成了大学里的杀手课程,不得不归咎于编教材的人实在是太严肃了。(您把教材写得好玩一点会死吗?会死吗?)所以我一直想写一个有意思的文章来解释傅里叶分析,有可能的话高中生都能看懂的那种。所以,不管读到这里的您从事何种工作,我保证您都能看懂,并且一定将体会到通过傅里叶分析看到世界另一个样子时的快感。至于对于已经有一定基础的朋友,也希望不要看到会的地方就急忙往后翻,仔细读一定会有新的发现。 ————以上是定场诗———— 下面进入正题: 抱歉,还是要啰嗦一句

一些常用的语音特征提取算法

試著忘記壹切 提交于 2019-12-02 02:10:48
前言   语言是一种复杂的自然习得的人类运动能力。成人的特点是通过大约100块肌肉的协调运动,每秒发出14种不同的声音。说话人识别是指软件或硬件接收语音信号,识别语音信号中出现的说话人,然后识别说话人的能力。特征提取是通过将语音波形以相对最小的数据速率转换为参数表示形式进行后续处理和分析来实现的。因此,可接受的分类是从优良和优质的特征中衍生出来的。Mel频率倒谱系数(MFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、线谱频率(LSF)、离散小波变换(DWT)和感知线性预测(PLP)是本章讨论的语音特征提取技术。这些方法已经在广泛的应用中进行了测试,使它们具有很高的可靠性和可接受性。研究人员对上述讨论的技术做了一些修改,使它们更不受噪音影响,更健壮,消耗的时间更少。总之,没有一种方法优于另一种,应用范围将决定选择哪种方法。 本文主要的关键技术:mel频率倒谱系数(MFCC),线性预测系数(LPC),线性预测倒谱系数(LPCC),线谱频率(LSF),离散小波变换(DWT),感知线性预测(PLP) 1 介绍   人类通过言语来表达他们的感情、观点、观点和观念。语音生成过程包括发音、语音和流利性[1,2]。这是一种复杂的自然习得的人类运动能力,在正常成年人中,这项任务是通过脊椎和颅神经连接的大约100块肌肉协调运动,每秒发出大约14种不同的声音

A Deep Neural Network Approach To Speech Bandwidth Expansion

孤街浪徒 提交于 2019-12-01 11:43:07
题名:一种用于语音带宽扩展的深度神经网络方法 作者:Kehuang Li;Chin-Hui Lee 2015年出来的 摘要   本文 提出了一种基于深度神经网络(DNN)的语音带宽扩展(BWE)方法。 利用对数谱功率作为输入输出特征进行所需的非线性变换,训练神经网络来实现这种高维映射函数。 在10小时的大型测试集上对该方法进行评估时,我们发现与传统的基于高斯混合模型(GMMs)的BWE相比,DNN扩展语音信号在信噪比和对数谱失真方面具有很好的客观质量度量。 在假定相位信息已知的情况下,主观听力测试对DNN扩展语音的偏爱度为69%,对GMM的偏爱度为31%。 对于实际运行中的测试,当相位信息从给定的窄带信号imaged(成像)时,首选项的比较上升到84%,而不是16%。 正确的相位恢复可以进一步提高该方法的BWE性能。 关键词:深度神经网络,语音带宽扩展,频谱映射,相位估计 1 引言    将语音带宽从窄带(4khz带宽)扩展到宽带(8khz带宽)已经研究了几十年,因为带宽在早期是一种昂贵的资源。 即使现在语音传输的带宽不再受到紧张的限制,我们在现有的公共交换电话网(PSTN)系统中仍然面临着低带宽的限制。 为了提高语音在PSTN上的收听质量,人们一直在努力人为地扩展带宽。   早期对带宽扩展(BWE)的研究多集中于估计高频带的频谱包络线,利用低频带产生的激励恢复高频频谱[1]

频域信号处理

泪湿孤枕 提交于 2019-11-30 03:20:47
代码来源于 http://bigsec.net/b52/scipydoc/frequency_process.html 观察信号的频谱   数据通过FFT转换成频域信号,对频域信号进行分析,再通过IFFT转换成时域信号。 import numpy as np import pylab as pl import matplotlib as mpl mpl.rcParams['font.sans-serif'] = ['KaiTi'] mpl.rcParams['font.serif'] = ['KaiTi'] mpl.rcParams['axes.unicode_minus']=False sampling_rate = 8000 #取样频率 fft_size = 512 #fft长度 t = np.arange(0, 1.0, 1.0/sampling_rate) #假设取样频率为fs, 取波形中的N个数据进行FFT变换。那么这N点数据包含整数个周期的波形时,FFT所计算的结果是精确的。于是能精确计算的波形的周期是: n*fs/N。 #对于8kHz取样,512点FFT来说,8000/512.0 = 15.625Hz,前面的156.25Hz和234.375Hz正好是其10倍和15倍。 #选取整数倍的数据,查看当fft后的数据在频谱中形成整数周期时的情况。 x = np.sin(2

Mel倒谱系数到底是什么

会有一股神秘感。 提交于 2019-11-28 16:32:07
Mel倒谱系数(MFCC)是啥?跟频谱包络啥关系?跟语音的频谱有什么区别? 这里我们好好讲一讲。 在任意一个自动语音识别系统中,语音识别的第一步就是提取特征。换句话说,我们需要把音频信号中具有辨识性的成分提取出来,然后把其他的乱七八糟的信息扔掉,例如背景噪声啊,情绪啊等等。搞清语音是怎么产生的,对于我们理解语音有很大帮助。人通过声道产生声音,声道的形状决定了发出怎样的声音。如果我们可以准确的知道这个形状,那么我们就可以对产生的音素进行准确的描述。声道的形状在语音短时功率谱的包络中显示出来。而MFCCs就是一种准确描述这个包络的一种特征。 换句话说,Mel倒谱系数其实是来自于频谱包络的。 好,到这里,我们提到了一个很重要的关键词:声道的形状,然后知道它很重要,还知道它可以在语音短时功率谱的包络中显示出来。哎,那什么是功率谱?什么是包络?什么是MFCCs?它为什么有效?如何得到?下面咱们慢慢道来。 一、频谱图(Spectrogram) 我们处理的是语音信号,那么如何去描述它很重要。因为不同的描述方式放映它不同的信息。那怎样的描述方式才利于我们观测,利于我们理解呢?这里我们先来了解一个叫频谱图的东西。 这个图上面是时域的音频波形,下面是频域的音频频谱,也就是频谱图。在这里, 这段语音被分为很多帧,每帧语音都对应于一个频谱(通过短时FFT计算) ,频谱表示频率与能量的关系。在实际使用中

about DCT---转载

浪子不回头ぞ 提交于 2019-11-27 23:21:20
about DCT......... MPEG采用了Ahmed(一个巨牛的数学家) 等人于70年代提出的离散余弦变换(DCT-Discrete Cosine Transform)压缩算法,降低视频信号的空间冗余度。 DCT将运动补偿误差或原画面信息块转换成代表不同频率分量的系数集,这有两个优点:其一,信号常将其能量的大部分集中于频率域的1个小范围内,这样一来,描述不重要的分量只需要很少的比特数;其二,频率域分解映射了人类视觉系统的处理过程,并允许后继的 量化过程满足其灵敏度的要求。 关于这一点在我手头的教程中有详尽的描述,让我直接引用: 视频信号的频谱线在0-6MHz范围内,而且1幅视频图像内包含的大多数为低频频谱线,只在占图像区域比例很低的图像边缘的视频信号中才含有高频的谱线。因此,在视频信号数字处理时,可根据频谱因素分配比特数:对包含信息量大的低频谱区域分配较多的比特数,对包含信息量低的高频 谱区域分配较少的比特数,而图像质量并没有可察觉的损伤,达到码率压缩的目的。然而,这一切要在低熵(Entropy)值的情况下,才能达到有效的编码。能否对一串数据进行有效的编码,取决于每个数据出现的概率。每个数据出现的概率差别大,就表明熵值低, 可以对该串数据进行高效编码。反之,出现的概率差别小,熵值高,则不能进行高效编码。视频信号的数字化是在规定的取样频率下由A/D转换器对视频电平转换而来的