语音芯片

到底值不值?TTS语音模块——友军计划(1)

久未见 提交于 2020-03-03 15:53:50
导言 今天是我搞定了这个TTS模块,他是一个语音合成模块 (PS:就是你给他输入文字,他就转成语音给你播报出来)。在搞定这个模块的过程,我是十分无语的。 1.这个模块不开源 2.模块的资料只有一个手册,且有错误 3.模块的效果十分不好,劣质感十足(40元,我觉得不值) 现在我来对这三点进行说明,最后会给大家说明如何使用(十分简单),大家要看如何使用,你就直接跳到最后去。 1.模块不开源 上图为正面 这个结构就很简单,一个功放IC(8002A),一个64M储存芯片,一个单片机(我不知道是什么,没给手册,上面封装也是没得,不过我感觉是32的低功耗系列芯片) 上图为背面。 背面这有一个喇叭。 整体就是着这样,他的资料就只有一个手册,(我还向客服问过了,只有一个手册而已) 他的目录也是十分简单,连个原理图都没有。。。芯片的介绍啥都没有,只告诉你如何使用。 这对于我这种,想要多DIY一下的人十分不友好,我还想着怎么吧这个应用到我的毕业设计上去。在这里,对于毕业设计或者是要学习的人,你们要记得买一个模块前,先看看他的资料,至少要有原理图,你要知道上面是什么器件! 2.手册有错误 我第一次拿到,我自己接了,发现没法用,我又看了好几次手册,网上找了一天,发现没什么问题。最后我吧他给拆了,看到板子上的丝印,我才发现他给的两个data线是反了。我吧两个先反过来就好了,就是绿线接MCU的RX

百度大脑大升级:各种算法并驾齐驱

北战南征 提交于 2020-02-03 03:22:39
导读 百度大脑大升级:语音、视觉、语言与知识 AI 算法创新并驾齐驱 7 月 3 日下午,「Baidu Create 2019」百度 AI 开发者大会百度大脑论坛如期举行。在上午主论坛中,百度首席技术官王海峰正式发布百度大脑 5.0,实现了历史上最具跨越性升级,在算法突破、计算架构升级的基础上,实现 AI 算法、计算架构和应用场景的融合创新,成为软硬一体 AI 大生产平台。 百度AI开发者大会 重磅升级后的百度大脑 5.0 打通了从基础层的深度学习技术到通用 AI 能力、应用技术方案,再到定制化模型,以及最终的部署和集成,整个人工智能产业化应用落地的全部流程,实现了 AI 技术的标准化、自动化和模块化。 一直引领行业创新的百度大脑语音技术此次亮出在语音识别、语音合成、远场语音交互芯片方面的成绩单。百度语音技术部高级总监高亮介绍,识别方面,百度提出流式多级的截断注意力模型 SMLTA,这是国际上首次实现局部注意力建模超越整句的注意力模型,也是国际上首次实现在线语音大规模使用注意力模型。SMLTA 在大幅提升识别速度的同时,也提高了识别准确率。在输入法有效产品相对准确率提升 15%,音箱有效产品相对准确率提升 20%。合成方面,针对现阶段面临风格迁移、音色模拟和情感拟人的三大挑战,百度推出语音合成技术 Meitron,可以将语音中的音色、风格、情感等要素映射到不同的子空间,在使用时

解码百度Apollo智能车联开放平台,受益的不止车企

久未见 提交于 2019-12-23 18:24:46
12月18日,百度Apollo在长沙举办首届Apollo生态大会。会上,Apollo发布了点到点城市自动驾驶开放能力、自动驾驶云、新一代智能交通解决方案、小度车载2020等15大新品及解决方案。 百度Apollo“裂变” 本次生态大会,百度宣布其智能驾驶开发平台Apollo再次升级,同时还发布了之路协同、智能车联两个全新的开放平台。至此,Apollo完成“裂变”,以三大开放平台布局推动行业智能化进程。 百度智能汽车平台Apollo于2017年推出,彼时百度对外宣布:Apollo要向汽车行业及自动驾驶领域的合作伙伴提供一个开放、完整、安全的软件平台,帮助他们结合车辆和硬件系统,快速搭建一套属于自己的完整的自动驾驶系统。 经过3年发展, Apollo目前已拥有自动驾驶路测牌照数150张、智能驾驶专利数1237件、测试里程超300万公里、23个城市展开路测、全球开发者36000名、生态合作伙伴177家、开源了56万行代码。百度车联网及AI能力已覆盖60大车企,超过400款车型。 此次Apollo在“裂变”为三大开放平台的同时,其自动驾驶开放平台也再次宣布迭代。这次,百度以六大解决方案的推出,助力该平台升级到5.5版本。在这个全新版本提供的解决方案中,Robotaxi方案解决了城市开放道路的自动驾驶难题;Minibus 2.0方案让城市BRT道路的自动行驶变得更加稳妥高效

基于表情分析的智能语音陪伴机器人

馋奶兔 提交于 2019-12-10 01:32:39
基于表情分析的智能语音陪伴机器人 第一部分 设计概述 1.1系统设计简述 1.2系统应用领域 1.3参考资料 第二部分 系统实现方案 2.1软件设计的总体方案 2.1.1软件系统框图 2.1.2软件系统概述 2.1.3优越性及创新点 2.2 各模块概述 2.2.1 RGB LED灯 2.2.2 Raspberry Pi 摄像头 2.2.3蓝牙通信模块 2.2.4语音识别模块 2.2.5人体红外检测模块 第三部分 系统硬件设计 3.1 SD卡读写 3.1.1 SD卡简介 3.1.2 SD卡通信协议 3.1.3 SPI读取SD卡数据 3.2 树莓派摄像头 3.3显示系统程序 3.3.1显示系统流程图 3.3.2显示系统概述 3.4语音处理程序 3.4.1语音处理流程图 3.4.2语音处理概述 3.4.3语音库配置教程 3.5树莓派工作介绍 3.5.1 系统结构 3.5.2 树莓派工作流程 第四部分 系统软件架构设计 4.1软件系统结构 4.2代码结构分析 4.3部分源码分析 4.3.1 主函数分析 4.3.2 SM16126驱动程序分析 4.3.3 表情识别程序分析 4.3.3.1 相关Python库介绍 4.3.3.2 识别规则 4.3.3.3 程序实现流程图 4.3.3.4 程序实现过程 4.3.4 树莓派开机自启程序 第五部分 系统调试 1.动态表情识别 2.智能语音实现情况 3

阿里云产品梳理

蓝咒 提交于 2019-12-06 12:38:09
产品首页 云计算基础 弹性计算 云服务器 云服务器 ECS 从安全型到内存型、从进阶型到入门型的云服务器 弹性裸金属服务器(神龙) 兼具虚拟机的弹性和物理机的高性能、安全物理隔离、分钟交付、云产品全兼容 块存储 可弹性扩展、高性能、高可靠的块级随机存储 轻量应用服务器 可快速搭建且易于管理的轻量级云服务器 GPU 云服务器 GPU实例、强大的计算性能、弹性按需扩展 FPGA 云服务器 FPGA实例、低时延可编程硬件加速服务 专有宿主机 安全合规,构建公共云上的专有资源池 高性能计算 HPC 超级计算集群 支持RDMA提供极致并行计算性能实例规格 弹性高性能计算 E-HPC 加速深度学习、渲染和科学计算的 GPU 物理机 容器服务 容器服务 支持微服务架构、全生命周期管理的Docker服务 容器服务 Kubernetes 版 提供高性能可伸缩的容器应用管理能力,支持企业级 Kubernetes 容器化应用的全生命周期管理 弹性容器实例 ECI 提供敏捷安全的 Serverless 容器运行服务 容器镜像服务 简化了Registry的搭建运维工作,支持多地域的镜像托管 弹性编排 弹性伸缩 自动调整弹性计算资源的管理服务 资源编排 复杂环境部署利器,提供资源批量复制、创建和配置 Serverless 函数计算 一个事件驱动的全托管计算服务,通过函数计算,无需管理服务器等基础设施

唤醒词

寵の児 提交于 2019-12-04 23:15:19
语音唤醒 定义 语音唤醒在学术上被称为keyword spotting(简称KWS),吴老师给它做了一个定义:在连续语流中实时检测出说话人特定片段。 这里要注意,检测的“实时性”是一个关键点,语音唤醒的目的就是将设备从休眠状态激活至运行状态,所以唤醒词说出之后,能立刻被检测出来,用户的体验才会更好。 那么,该怎样评价语音唤醒的效果呢?通行的指标有四个方面,即唤醒率、误唤醒、响应时间和功耗水平: ➤唤醒率 ,指用户交互的成功率,专业术语为 召回率 ,即recall。 ➤误唤醒 ,用户未进行交互而设备被唤醒的概率,一般按天计算,如最多一天一次。 ➤响应时间 ,指从用户说完唤醒词后,到设备给出反馈的时间差。 ➤功耗水平,即唤醒系统的耗电情况。很多智能设备是通过电池供电,需要满足长时续航,对功耗水平就比较在意。 语音唤醒的技术路线 经过长时间的发展,语音唤醒的技术路线大致可归纳为三代,特点如下: 第一代:基于模板匹配的KWS 训练和测试的步骤比较简单,训练就是依据注册语音或者说模板语音进行特征提取,构建模板。测试时,通过特征提取生成特征序列,计算测试的特征序列和模板序列的距离,基于此判断是否唤醒。 第二代:基于HMM-GMM的KWS 将唤醒任务转换为两类的识别任务,识别结果为keyword和non-keyword。 第三代:基于神经网络的方案 神经网络方案又可细分为几类

计算机网络学习笔记:第九章.无线网络

天涯浪子 提交于 2019-12-03 20:47:15
本文是《计算机网络》的自学课程,视频地址为: https://www.bilibili.com/video/av47486689。仅做个人学习使用,如有侵权,请联系删除 第九章:无线网络 WPAN(Wireless Personal Area Network):无线个人局域网 WLAN(Wireless LAN):无线局域网 WI-FI: 来源: https://baike.baidu.com/item/WIFI Wi-Fi是一种可以将个人电脑、手持设备(如PDA、手机)等终端以无线方式互相连接的技术。Wi-Fi是一个无线网路通信技术的品牌,由 Wi-Fi联盟 (Wi-Fi Alliance)所持有。目的是改善基于IEEE 802.11 标准的无线网路产品之间的 互通性 。现时一般人会把Wi-Fi及IEEE 802.11 混为一谈。甚至把Wi-Fi等同于无线 网际网路 。 从此我们就明白了,WIFI只是WLAN下的一种技术 WMAN(Wirless Metropolitan Area Network):无线城域网 WWAN(Wireless Wide Area Network):无线广域网.WWAN连接地理范围较大,常常是一个国家或是一个洲。 无线局域网(wlan) 使用接入点(AP,access point)和设备的无线网卡组建无线局域网,网内各个设备可以相互通信

I2S总线

匿名 (未验证) 提交于 2019-12-03 00:30:01
转自:https://blog.csdn.net/greston/article/details/8076584 引言 I2S(In te rIC Sound Bus)是飞利浦公司针对数字音频设备之间的音频数据传输而制定的一种 总线 标准,采用沿独立的 导线 传输时钟与数据信号的设计,通过分离数据和时钟信号,避免了时差诱发的失真。I2S 总线 简单有效,可以有效提升输出数据的质量,在各种嵌入式音频系统中有广泛应用。但是在嵌入式音频系统设计中,并不是所有的 MCU 都支持I2S总线格式,再加上I2S还没有统一的 接口 标准,不同的厂家生产的设备接口也是五花八门,采用软件模拟实现I2S总线可有效解决在不支持其的MCU和设备之间通过I2S总线实现数据传输时出现的问题。 本文通过在以太网数字语音广播系统中软件模拟I2S总线实现语音数据传输,给出了软件模拟实现I2S总线的方法。 1 I2S总线规范 I2S为三线总线,3个信号分别为: ① 串行时钟SCK,也叫位时钟(BCK)。即每发送1位数字音频数据,SCK上都有1个脉冲。SCK的频率=2×采样频率×采样位数。在数据传输过程中,I2S总线的 发送器 和 接收器 都可以作为系统的主机来提供系统的时钟频率。 ② 帧时钟WS,即命令(声道)选择,用于切换左右声道的数据。WS的频率等于采样频率,由系统主机提供。WS为“1”表示传输的是左声道的数据

离线语音Snowboy热词唤醒+ 树莓派语音交互实现开关灯

匿名 (未验证) 提交于 2019-12-02 23:45:01
语音识别现在有非常广泛的应用场景,如手机的语音助手,智能音响(小爱,叮咚,天猫精灵...)等. 语音识别一般包含三个阶段:热词唤醒,语音录入,识别和逻辑控制阶段. 热词唤醒就是唤醒设备,让设备解析你接下来说的话.通常设备一直在录入周围的声音,但是设备此时不会有任何反应.当通过像「Hi,Siri」这样的唤醒词被唤醒以后,设备就开始处理接下来的声音了。热词唤醒是语音识别的开始。 Snowboy 是比较流行的热词唤醒框架,目前已经被百度收购。Snowboy 对中文支持友好,相对 Pocketsphinx 配置使用较为简单,推荐使用。 snowboy官方文档地址[英文的] http://docs.kitt.ai/snowboy 树莓派原生的音频设备是不支持语音输入的(无法录音),需要在网上购买一支免驱动的 USB音频驱动 ,一般插上即可直接使用。 建议安装下 pulseaudio 软件,减少音频配置的步骤: $ sudo apt-get install pulseaudio 安装 sox 软件测试录音与播放功能: $ sudo apt-get install sox 安装完成后运行 sox -d -d 命令,对着麦克风说话,确认可以听到自己的声音。 安装其他软件依赖 : 安装 PyAudio: $ sudo apt-get install python3-pyaudio 安装 SWIG(

微软语音包的安装及使用 Microsoft Speech SDK

。_饼干妹妹 提交于 2019-12-02 14:49:43
需要简单的语音识别功能,大部分语音平台都是收费的,并且依赖网络,简单的识别有语音识别芯片LD3320,测试了一下效果不是很好,测试一下微软自带的SDK。 先下载了5.1版本,用QT,修改了好多,编译过了,链接失败。5.1版本只有32位的,没有64位的。直接放弃。更换11。跟换11的X64版本后,11版本的库对QT友好多了,可以直接编译过,链接成功。 找到网上的例子,在QT里面修改一下,CoCreateInstance执行失败,搞了好久才明白还要装一个SpeechPlatformRuntime.msi。装上runtime后,CoCreateInstance执行好了。但是还不能发声,pSpVoice->Speak返回错误,网上查了一堆都是没用的。后来想到在5.1上下了语音包但是不知道怎么用,11上会不会也有类似的语音包。官网还真有。下载安装。终于可以发声了。环境应该配置好了。后面可以搞识别了。 安装步骤: 1 安装speech sdk https://www.microsoft.com/en-us/download/details.aspx?id=27226 2 安装runtime 在speech sdk安装目录下面Microsoft SDKs\Speech\v11.0\Redist\SpeechPlatformRuntime.msi 3 安装语音包 https://download