音频采样

机器学习原来如此有趣:如何用深度学习进行语音识别

旧巷老猫 提交于 2020-03-15 06:43:03
吴恩达教授曾经预言过,当语音识别的准确度从95%提升到99%的时候,它将成为与电脑交互的首要方式。 下面就让我们来学习与深度学习进行语音室识别吧! 机器学习并不总是一个黑盒 如果你想知道神经机器翻译是如何工作的,你应该猜到了我们可以简单地将一些声音送入神经网络,然后训练它使之生成文本: 这是使用深度学习进行语音识别的最高追求,但是很遗憾我们现在还没有完全做到这一点(至少在笔者写下这一篇文章的时候还没有–我敢打赌,再过几年我们可以做到) 一个大问题是语速不同。一个人可能会很快的说出”Hello!”,而另一个人可能非常缓慢的说”heeeelllllllllllllooooo’!’,产生了一个拥有更多数据也更长的声音文件。这两个文件都应该被识别为同一个文本–“Hello!”。而事实证明,把各种长度的音频文件自动对齐到一个固定长度的文本是很难的一件事情。 为了解决这个问题,我们必须使用一些特殊的技巧,并进行一些深度神经网络以外的特殊处理。让我们看看它是如何工作的吧! 将声音转换为比特(Bit) 显然,语音识别的第一步是–我们需要将声波输入到电脑中。 我们应该怎么将声波转换为数字呢?让我们使用我说的「hello」这个声音片段举个例子: 声波是一维的,它在每个时刻都有一个基于其高度的值。让我们把声波的一小部分放大看看: 为了将这个声波转换成数字,我们只记录声波在等距点的高度: 这被称为采样

有关声音信号的那么点知识

北城余情 提交于 2020-03-01 08:30:34
有关声音信号的那么点知识 前言 音频的属性讲解 1. Spectrogram 2. 参考来源 前言 好像<语音信号处理>这本书解释很详细,但我并没有系统上过这门课程,所以自己做一些笔记. 音频的属性讲解 音频 : 指人耳可以听到的声音频率在20HZ~20kHz之间的声波,称为音频。 采样频率/sample rate/采样率 : 指每秒钟取得声音样本的次数 。 采样率定义了 每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示. 采样频率越高,声音的质量也就越好,声音的还原也就越真实,但同时它占的资源比较多。 由于人耳的分辨率很有限,太高的频率并不能分辨出来。 22050 的采样频率是常用的, 44100已是CD音质, 超过48000或96000的采样对人耳已经没有意义。这和电影的每秒 24 帧图片的道理差不多。 如果是双声道(stereo), 采样就是双份的, 文件也差不多要大一倍. 采样位数/采样值: 它是用来衡量声音波动变化的一个参数,也可以说是声卡的分辨率。它的数值越大,分辨率也就越高,所发出声音的能力越强。 每个采样数据记录的是振幅, 采样精度取决于采样位数的大小: 1 字节(也就是8bit) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级; 2 字节(也就是16bit) 可以细到 65536 个数, 这已是 CD 标准了; 4 字节

AAC---音频重采样

北城以北 提交于 2020-03-01 02:35:49
音频处理中,有时不同的编解码器支持的音频格式不一样,原始采样的音频数据可能没法直接直接为编解码器支持,如FFMPEG编码MP3格式的音频,就要求样本采用AV_SAMPLE_FMT_S16P格式保存。 这就需要对不同的音频格式转换,需要重采样。 1 、如果PCM文件采用交叉存储方式,视频帧的概念可能没什么影响,因为数据都是LRLRLR . . . LR方式; 2 、如果采用平行存储方式,L . . . LR . . . RL . . . LR . . . R , 一帧必须按照指定的数据读取了 , 如MP3读取一帧需要读取 1152 * 2 ( 通道数 ) 个样本,然后前 1152 为左声道,后 1152 为右声道。 代码实现音频重采样 把交叉存储的双声道立体声转换成平行存储的双声道立体声 /******************************************************************************* Copyright (c) wubihe Tech. Co., Ltd. All rights reserved. -------------------------------------------------------------------------------- Date Created: 2014-10-25 Author:

Python学习笔记--语音处理初步

扶醉桌前 提交于 2020-02-26 22:28:10
python打开音频文件(IO) 语音音量大小与响度的相关计算 语音处理最基础的部分就是如何对音频文件进行处理。 声音的物理意义:声音是一种纵波,纵波是质点的振动方向与传播方向同轴的波。如敲锣时,锣的振动方向与波的传播方向就是一致的,所以声波是纵波。纵波是波动的一种(波动分为横波和纵波) 通常情况下对声音进行采样量化之后得到了声音的“时间—振幅”信息。 Python 打开wav文件的操作 wav文件 利用python打开一个wav音频文件,然后分析wav文件的数据存储格式,有了格式之后就能很方便的进行一些信号处理的操作。Wikipedia给出的wav文件的资料如下 Waveform Audio File Format ( WAVE , or more commonly known as WAV due to its filename extension - both pronounced "wave"‘)(rarely, Audio for Windows ) is a Microsoft and IBM audio file format standard for storing an audio bitstream on PCs . It is an application of the Resource Interchange File Format (RIFF)

浅谈网络语音技术

↘锁芯ラ 提交于 2020-02-17 18:27:58
浅谈网络语音技术 当我们使用像Skype、QQ这样的工具和朋友流畅地进行语音视频聊天时,我们可曾想过其背后有哪些强大的技术在支撑?本文将对网络语音通话所使用到的技术做一些简单的介绍,算是管中窥豹吧。 一.概念模型 网络语音通话通常是双向的,就模型层面来说,这个双向是对称的。为了简单起见,我们讨论一个方向的通道就可以了。一方说话,另一方则听到声音。看似简单而迅捷,但是其背后的流程却是相当复杂的。我们将其经过的各个主要环节简化成下图所示的概念模型: 这是一个最基础的模型,由五个重要的环节构成:采集、编码、传送、解码、播放。 1.语音采集 语音采集指的是从麦克风采集音频数据,即声音样本转换成数字信号。其涉及到几个重要的参数:采样频率、采样位数、声道数。 简单的来说:采样频率,就是在1秒内进行采集动作的次数;采样位数,就是每次采集动作得到的数据长度。 而一个音频帧的大小就等于:(采样频率×采样位数×声道数×时间)/8。 通常一个采样帧的时长为10ms,即每10ms的数据构成一个音频帧。假设:采样率16k、采样位数16bit、声道数1,那么一个10ms的音频帧的大小为:(16000*16*1*0.01)/8 = 320 字节。计算式中的0.01为秒,即10ms。 2.编码 假设我们将采集到的音频帧不经过编码,而直接发送,那么我们可以计算其所需要的带宽要求,仍以上例:320*100

音频PCM知识整理

萝らか妹 提交于 2020-01-22 18:31:24
简介 PCM(Pulse Code Modulation),脉冲编码调制。人耳听到的是模拟信号, PCM是把声音从模拟信号转化为数字信号的技术 。原理是用一个固定的频率对模拟信号进行采样,采样后的信号在波形上看就像一串连续的幅值不一的脉冲(脉搏似的短暂起伏的电冲击),把这些脉冲的幅值按一定精度进行量化,这些量化后的数值被连续的输出、传输、处理或记录到存储介质中,所有这些组成了数字音频的产生过程(抽样、量化、编码三个过程)。 采样频率、量化精度(采样位数)和声道数 采样频率是设备一秒钟内对模拟信号的采样次数,在主流的采集卡上分为:(8Khz的电话采样率就可以达到人的对话程度) 22.05KHz:无线电广播; 44.1KHz:音频 CD,MP3等; 48KHz:miniDV、数字电视、DVD、电影和专业音频。 人耳能够感觉到的最高频率为20kHz,要满足人耳的听觉要求,则需要每秒进行40k次采样,即40kHz。我们常见的CD采样率为44.1kHz。(也比如我对接过硬件的扬声器最高是16KHz,则手机MIC采样率就不用太高,节省传输带宽) 采样位数比如8bit(现在少见)、16bit(常用)和24bit,指的是描述数字信号所使用的位数。 声道数:声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号。 单声道 采样数据为8位的短整数(short); 双声道 采样数据为16位的整数

网络语音视频技术浅议(二)—— 实时性与流畅性如何保障?

佐手、 提交于 2020-01-16 14:02:04
我们在开发实践中常常会涉及到网络语音视频技术。诸如即时通讯、视频会议、远程医疗、远程教育、网络监控等等,这些网络多媒体应用系统都离不开网络语音视频技术。本人才疏学浅,对于网络语音视频技术也仅仅是略知皮毛,这里只想将自己了解到的一些最基础的知识分享给大家,管中窥豹,略见一斑,更重要的是抛砖引玉,希望更多的朋友们一起来探讨,同时,有讲得不正确的地方也希望大家批评指正。 一.基本流程 无论是即时通讯、视频会议,还是远程医疗、远程教育、网络监控等等系统,都需要获取到远程的语音、视频信息,在我们的直观印象中好像我们就是直接的访问到了对方的摄像头,麦克风、显示器、声卡等等设备,但是事实上这些语音视频信息要经过如下的基本流程才能呈现在我们的面前。 就拿我最近正在研究的 OMCS 语音视频框架来说,其提供了摄像头连接器、麦克风连接器、桌面连接器、电子白板连接器等API,能让我们就像访问本地设备一样访问远程设备,但是它其实是把艰难困苦留给了自己,简单清晰的API才能让我们带走。其实说白了, OMCS 所做的主要工作就是 实现了多媒体设备【麦克风、摄像头、桌面、电子白板】的采集、编码、网络传送、解码、播放(或显示)等相关的一整套流程。 附: 语音视频 示例 Demo下载 与 详细说明 虽然 OMCS 使用起来如此方便,但是我们仍然有必要了解其背后的相关原理,尤其是这些最基本的原理。 二.基本环节 1

WAVE 文件格式分析

 ̄綄美尐妖づ 提交于 2020-01-15 05:44:59
1 问题描述 打电话的对话,被拆分成了两个PCM文件。其中主叫的录音文件A.pcm,被叫的录音为B.pcm。 问题是怎么合成一个混音的对话文件AB.wav。 2 WAV文件的录音格式 常见的声音文件主要有两种,分别对应于单声道(11.025KHz 采样率、8Bit 的采样值)和双声道(44.1KHz 采样率、16Bit 的采样值)。采样率是指:声音信号在“模→数”转换过程中单位时间内采样的次数。采样值是指每一次采样周期 。WAVE 文件数据块包含以脉冲编码调制(PCM)格式表示的样本。WAVE 文件是由样本组织而成的。在单声道 WAVE 文件中,声道0代表左声道,声道1代表右声道。在多声道WAVE文件中,样本是交替出现的。 下面我们具体地分析 WAV文件的格式 endian field name Size 说明 计算方式 big ChunkID 4 文件头标识,一般就是" RIFF" 四个字母 ASCII 码表示的“RIFF”。(0x52494646) little ChunkSize 4 整个数据文件的大小,不包括上面ID和Size本身 36+SubChunk2Size,或是4 + ( 8 + SubChunk1Size ) + ( 8 + SubChunk2Size ),这是整个数据块的大小(不包括ChunkID和ChunkSize的大小) big Format 4 一般就是"

语音合成概述

喜欢而已 提交于 2020-01-13 01:29:56
一、语音合成概述 语音合成,又称文语转换(Text To Speech, TTS),是一种可以将 任意输入文本 转换成 相应语音 的技术。 传统的语音合成系统通常包括 前端 和 后端 两个模块。 前端模块 主要是对输入文本进行分析,提取后端模块 所需要的语言学信息 ,对于中文合成系统而言,前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。 后端模块 根据前端分析结果,通过一定的方法生成语音波形,后端系统一般分为基于 统计参数建模 的语音合成(或称参数合成)以及基于 单元挑选 和 波形拼接 的语音合成(或称拼接合成)。 对于后端系统中的 参数合成而言 ,该方法在训练阶段对语言声学特征、时长信息进行上下文相关建模,在合成阶段通过时长模型和声学模型预测声学特征参数,对声学特征参数做后处理,最终通过声码器恢复语音波形。该方法可以在语音库相对较小的情况下,得到较为稳定的合成效果。 缺点 在于统计建模带来的声学特征参数“过平滑”问题,以及声码器对音质的损伤。 对于后端系统中的 拼接合成而言 ,训练阶段与参数合成基本相同,在合成阶段通过模型计算代价来指导单元挑选,采用动态规划算法选出最优单元序列,再对选出的单元进行能量规整和波形拼接。拼接合成直接使用真实的语音片段,可以最大限度保留语音音质; 缺点是 需要的音库一般较大,而且无法保证领域外文本的合成效果。

数字音频接口(I2S,PCM/TDM,PDM)

倖福魔咒の 提交于 2019-12-27 16:15:33
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 概述 数字音频接口 DAI ,即Digital Audio Interfaces,顾名思义,DAI表示在板级或板间传输数字音频信号的方式。相比于模拟接口,数字音频接口抗干扰能力更强,硬件设计简单,DAI在音频电路设计中得到越来越广泛的应用。 图1 和 图2 对比传统的音频信号和数字音频信号链的区别。 在传统的音频电路( 图1 )中有麦克风、前置放大器、模/数转换器ADC、数/模转换器DAC、输出放大器,以及扬声器,它们之间使用模拟信号连接。随着技术的发展和对性能考虑,模拟电路逐渐被推到链路的两端(集成到设备内部),信号链中各集成电路间将出现更多的数字接口形式。DSP通常都是数字接口的;换能器(Transducers, i.e. Mic & Speaker)、放大器一般而言只有模拟接口,但现在也正在逐渐集成数字接口功能。 目前,集成电路设计人员正在将换能器内的ADC、DAC和调制器集成到信号链一端,这样就不必在PCB上走任何模拟音频信号,并且减少了信号链中的器件数量。 图2 给出了一个完整数字音频接口的例子。 图1. 传统的音频信号链路 图2. 数字音频信号链路 数字音频信号的传输标准,如 I2S 、 PCM (Pulse Code Modulation) 和 PDM (Pulse Density