特征频率

重磅!「自然语言处理(NLP)」一文带你了解TF-IDF

纵饮孤独 提交于 2020-03-17 07:59:13
来源: AINLPer 微信公众号( 每日更新… ) 编辑: ShuYini 校稿: ShuYini 时间: 2020-03-12 引言     本文主要整理TF-IDF的基本内容,能够让你很快了解TF-IDF到底是什么,为什么会存在,以及其优缺点? 1、向量化特征缺失     在将文本分词并向量化后,我们可以得到词汇表中每个词在各个文本中形成的词向量,我们将下面4个短文本做了词频统计: corpus = [ "I come to China to travel" , "This is a car polupar in China" , "I love tea and Apple " , "The work is to write some papers in science" ]     不考虑停用词,处理后得到的词向量如下: [ [ 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2 1 0 0 ] [ 0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0 ] [ 1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 ] [ 0 0 0 0 0 1 1 0 1 0 1 1 0 1 0 1 0 1 1 ] ]     如果我们直接将统计词频后的19维特征做为文本分类的输入,会发现有一些问题。比如第一个文本,我们发现"come

心电信号的特征提取、分析与处理

你。 提交于 2020-01-01 05:20:30
心电信号的特征提取、分析与处理* 数据来源:MIT-BIH数据库(可从以下数据中任选两组进行实验) 给出4组不同病例的心电信号数据,分别命名为“100-2-3”,“105-2-3”,“109-2-3”,“111-2-3”,每组数据以“.mat”形式存储。(在文章最后面附带四组数据库的压缩包) 每组数据长度N=2048,采样率fs=360Hz(硬件采集心电信号时,每秒采集360个点。注意设计FIR,IIR时可能用到该采样率。). 即2048点对应时间约为5.69s() ## 内容 (1)谱分析: 取两段心电信号数据(不同病例),对该数据进行频谱分析(幅度谱、相位谱、功率谱); (2)相关分析:分别计算两段心电信号的均值、方差、自相关函数与互相关函数;分析两段信号的相干函数曲线 对于相关函数进行循环相关函数与线性相关函数的对比; (3)数字滤波器设计: 取一段心电信号,添加白噪声。分别作出原始信号、加噪信号的图;作出原始信号、加噪信号的自相关曲线,分析估计心电信号的准周期;取一段心电信号,添加高频噪声(1k-2khz),如高频正弦信号,频率自己选择。结合(1)中得出的结论,即ECG的主要能量分布结果,设计数字滤波器(IIR或FIR),去除高频噪声。(也可直接设计数字滤波器去除基线漂移)要求:对滤波器的截止频率的设置要给出说明; (4)维纳滤波器去除工频干扰: 取一段心电信号

论文翻译-语音合成:Tacotron 2

北战南征 提交于 2019-12-14 09:10:34
原论文地址:https://arxiv.org/abs/1712.05884 摘要 这篇论文描述了Tacotron 2, 一个直接从文本合成语音的神经网络架构。系统由两部分构成,一个循环seq2seq结构的特征预测网络,把字符向量映射到梅尔声谱图,后接一个WaveNet模型的修订版,把梅尔声谱图合成为时域波形。我们的模型得到了4.53的平均意见得分(MOS),而专业录制语音的MOS得分是4.58。为了验证模型设计,我们对系统的关键组件作了剥离实验研究,并且评估了使用梅尔频谱替代语言学、音长和F0特征作为WaveNet输入带来的影响。我们进一步展示了使用紧凑的声学中间表征可以显著地简化WaveNet架构。 索引词: Tacotron 2, WaveNet, text-to-speech 1. 介绍 从文本生成自然语音(语音合成,TTS)研究了几十年[1]仍然是一项有挑战的任务。这一领域的主导技术随着时代的发展不断更迭。单元挑选和拼接式合成方法,是一项把预先录制的语音波形的小片段缝合在一起的技术[2, 3],过去很多年中一直代表了最高水平。统计参数语音合成方法[4, 5, 6, 7],是直接生成语音特征的平滑轨迹,然后交由声码器来合成语音,这种方法解决了拼接合成方法中出现的边界人工痕迹的很多问题。然而由这些方法构造的系统生成的语音与人类语音相比,经常模糊不清并且不自然。 WaveNet

一些常用的语音特征提取算法

試著忘記壹切 提交于 2019-12-02 02:10:48
前言   语言是一种复杂的自然习得的人类运动能力。成人的特点是通过大约100块肌肉的协调运动,每秒发出14种不同的声音。说话人识别是指软件或硬件接收语音信号,识别语音信号中出现的说话人,然后识别说话人的能力。特征提取是通过将语音波形以相对最小的数据速率转换为参数表示形式进行后续处理和分析来实现的。因此,可接受的分类是从优良和优质的特征中衍生出来的。Mel频率倒谱系数(MFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、线谱频率(LSF)、离散小波变换(DWT)和感知线性预测(PLP)是本章讨论的语音特征提取技术。这些方法已经在广泛的应用中进行了测试,使它们具有很高的可靠性和可接受性。研究人员对上述讨论的技术做了一些修改,使它们更不受噪音影响,更健壮,消耗的时间更少。总之,没有一种方法优于另一种,应用范围将决定选择哪种方法。 本文主要的关键技术:mel频率倒谱系数(MFCC),线性预测系数(LPC),线性预测倒谱系数(LPCC),线谱频率(LSF),离散小波变换(DWT),感知线性预测(PLP) 1 介绍   人类通过言语来表达他们的感情、观点、观点和观念。语音生成过程包括发音、语音和流利性[1,2]。这是一种复杂的自然习得的人类运动能力,在正常成年人中,这项任务是通过脊椎和颅神经连接的大约100块肌肉协调运动,每秒发出大约14种不同的声音