语音识别

原创 | 人工智能的人文主义,如何让AI更有爱

随声附和 提交于 2020-12-10 19:44:31
一、数字鸿沟凸显,老年人成为“数字难民” 近日,两则关于老年人的新闻在网络刷屏,引人深思。 11月23日,一则视频在网上热传,湖北宜昌一位老人冒雨到村代收点交医保,现场工作人员却告诉她不收现金,只能使用手机支付。而不久前,为激活社保卡,一名94岁的老人被抬到银行进行人脸识别,老人膝盖弯曲,十分吃力,实在让人不忍直视。 管中窥豹,时见一斑。事实上,两位老人的处境正是万千中国老人的缩影。如今,无论是网购、外卖、打车,还是就医、理财、买菜,智能化应用都为我们提供了不少便利,却也把不少老年人拦在了智能时代之外,让他们沦为 “数字难民” 。 根据中国互联网络信息中心2018年的报告,六成中老年人不会在网上缴纳手机费;七成左右的中老年人不会网上购物、导航;四分之三左右的中老年人不会用打车软件,或缴纳水、电、煤气等生活费用;而会网上挂号、订火车票机票、订宾馆等便利服务的中老年人所占比例更是很低。已经有相关的研究机构关注到这个问题,清华大学人因与工效学研究所打算在北京地区开展教老人用智能手机的活动时介绍,由于流程的线上化,老年人的出行和医疗是目前两大最常见的痛点。 曾有媒体对老年人使用科技产品的习惯做了简单调查,能够熟练使用手机进行打车、导航、挂号、缴费的老年人凤毛麟角,“学手机”这件事大多数时候是老年人自我摸索,或互相传授经验。但事实上,并非所有的老年人都有能力靠自学来积极拥抱互联网

扩张卷积(dilated convolution)

狂风中的少年 提交于 2020-12-08 07:22:00
最早出现在DeeplLab系列中,作用: 可以在不改变特征图尺寸的同时增大感受野 ,摈弃了pool的做法(丢失信息); 我们设: kernel size = k, dilation rate = d, input size = W1, output size = W2, stride=s, padding=p; Dilation convolution(扩张卷积)的原理其实也比较简单,就是在 kernel各个像素点之间加入0值像素点 ,变向的增大核的尺寸从而增大感受野。 结构如下: 如上图所示,(a)是我们常见的卷积核,可以看成d=1的扩张卷积,核的尺寸为3,感受野为3;(b)是d=2的扩张卷积,核的尺寸上升为5=2*(3-1)+1,如果与(a)叠加使用的话感受野则为7;(c)是d=4的扩张卷积,核的尺寸上升为9=4*(k-1)+1,若与(a)(b)叠加则感受野区域为15; (1)经过dilation rate放大后,fliter大小上升为:k*(d-1)+1; (2)扩张卷积的输入和输出特征图的尺寸关系如下: ps: 在s=1,k=3时,令d = p,则输出特征图尺寸不变 ; 扩张卷积可用于图像分割、文本分析、语音识别等领域; 存在的问题 : 棋盘效应(特征图不是处处可导!) 解决方法:使用 锯齿状 的卷积核 来源: oschina 链接: https://my.oschina

人工智能之语音合成,语音识别

落爺英雄遲暮 提交于 2020-12-07 02:44:55
人工智能 此篇是人工智能应用的重点,只用现成的技术不做底层算法,也是让初级程序员快速进入人工智能行业的捷径 目前市面上主流的AI技术提供公司有很多,比如百度,阿里,腾讯,主做语音的科大讯飞,做只能问答的图灵机器人等等 这些公司投入了很大一部分财力物力人力将底层封装,提供应用接口给我们,尤其是百度,完全免费的接口 既然百度这么仗义,咱们就不要浪费掉怎么好的资源,从百度AI入手,开启人工智能之旅 开启人工智能技术的大门 : http://ai.baidu.com/ 看看我大百度的AI大法,这些技术全部都是封装好的接口,看着就爽 接下来咱们就一步一步的操作一下 首先进入控制台,注册一个百度的账号(百度账号通用) 开通一下我们百度AI开放平台的授权 然后找到已开通服务中的百度语音 就可以创建应用了,回到应用列表我们可以看到已创建的应用了 安装百度的人工智能SDK: 首先咱们要 pip install baidu-aip 安装一个百度人工智能开放平台的Python SDK实在是太方便了,这也是为什么我们选择百度人工智能的最大原因 语音合成 其中参数: 这个时候audio.mp3就出来了,可以使用播放器播放,也可使用os模块调用os.steam(文件名)播放 语音识别: 哎,每次到这里,我都默默无语泪两行,声音这个东西格式太多样化了,如果要想让百度的SDK识别咱们的音频文件

人工智能-语音合成-语音识别

拈花ヽ惹草 提交于 2020-12-06 05:26:50
图灵机器人: http://www.tuling123.com 百度开发平台: http://ai.baidu.com/ 下载 baidu-api 如果已安装pip,执行 pip install baidu-aip 即可。 ffmpeg 先下载文件,再配置到系统路径 下载完安装包,解压后,将该绝对路径 配置到系统路径。 配置成功如下: 打开电脑的录音机。 jieba中文分词 1. 2.创建应用 3.自动生成 4. 语音合成 1. 2.复制代码到一个新的py文件中。 3.右键运行,即可将文字转成语音。 代码: # 语言合成 文字 ->语音 from aip import AipSpeech """ 你的 APPID AK SK """ APP_ID = ' 11262331 ' API_KEY = ' Weu6QCLgU8oCPvULqpOSer7c ' SECRET_KEY = ' wMThGsaL8NPdNgE6z4A3Rmes1DvWNBO1 ' client = AipSpeech(APP_ID, API_KEY, SECRET_KEY) result = client.synthesis( ' 你好呀,我的贝贝 ' , ' zh ' , 1 , { ' vol ' : 5 , ' spd ' : 6 , ' pit ' : 3 , ' vol ' : 9 , ' per '

百度AI---语音识别

时光毁灭记忆、已成空白 提交于 2020-12-06 04:58:08
题记:娱乐性的玩玩百度接口。 说实话,其接口个人觉得有点烂,重试了好几个音频文件才成功。 1、重新申请AppID、SecretKey 、API Key。 链接: https://console.bce.baidu.com/ai/?fromai=1#/ai/speech/overview/index 2、百度的案例代码    /** * 语音识别 */ public static void voiceRecongnize(){ AipSpeech client = new AipSpeech(BaiduConfig.VOICE_APP_ID, BaiduConfig.VOICE_API_KEY, BaiduConfig.VOICE_SECRET_KEY);//这个要自己写哦 String path = "C:\\Users\\yangwj\\Desktop\\temp.wav" ; try { JSONObject asrRes = client.asr(path, "wav", 16000, null ); System.out.println(asrRes); // 对语音二进制数据进行识别 byte [] data = Util.readFileByBytes(path); // readFileByBytes仅为获取二进制数据示例 JSONObject asrRes2 =

一头猪的AI之旅

不打扰是莪最后的温柔 提交于 2020-12-04 23:53:05
作者 | 马迪尔 设计 | 周亦琪 编辑 | 林则煌 出品 | 人民数字FINTECH 一个偏远的乡村,农民辛勤的劳作,数百头猪圈养在猪圈中,吃了睡睡了吃,不断生长,不断繁殖,然后再一车车的送到屠宰场…… 这也许是过去的养猪业状况,但人工智能让一切皆有可能。AI可能会改变每一个人的生活,也可能会改变每一头猪的生活。2019年下旬非洲猪瘟疫情严峻的形势下,人们关注的热点转移到了 “给猪刷脸” 的智能养猪模式。对于此刻的中国老百姓来说,车厘子自不自由已经不重要, 猪肉自由才重要。 人工智能公司们奋勇争先,嗅到了这块还未享用过的红烧猪肉。他们以防控非洲猪瘟为目的,推出了“集群式智能化楼房养猪”项目、“无人猪场”、“猪脸识别”、“无人值守”、3D智能养猪应用和5G农牧应用等智能化养猪模式和平台,还研发推出了一批养猪智能化应用设备。 (图片来源睿畜科技) 天下苦猪肉久矣,“AI养猪”纷纷入场。 2018年,京东、网易、阿里等互联网巨头进军养猪业。18年末京东数科宣布成立京东农牧有限公司进入养猪业。希望与中国农大、中国农科院等机构深度合作通过智能养猪技术颠覆传统养猪行业。除了让业内震惊的“猪脸识别”技术,京东还自主研发由“神农大脑(AI)”“神农物联网设备(IoT)”“神农系统(SaaS)”组成的智能养殖解决方案,深度介入智能养殖行业,同时联合中国农业大学建设丰宁智能猪场示范点。

音频工具kaldi部署及模型制作调研学习

女生的网名这么多〃 提交于 2020-12-02 05:46:09
语音识别简介 语音识别(speech recognition)技术,也被称为自动语音识别(英语:Automatic Speech Recognition, ASR)、计算机语音识别(英语:Computer Speech Recognition)或是语音转文本识别(英语:Speech To Text, STT),其目标是以计算机自动将人类的语音内容转换为相应的文字。 按照不同纬度如下分类: 按词汇量(vocabulary)大小分类: 小词汇量:几十个词; 中等词汇量:几百个到上千个词 大词汇量:几千到几万个 按说话的方式(style)分类: 孤立词(isolated words) 连续(continously) 按声学(Acoustic)环境分类: 录音室 不同程度的噪音环境 按说话人(Speaker)分类: 说话人相关(Speaker depender) 说话音素(Phoneme):单词的发音都是由音素构成,对于英语,常用的音素集是 CMU 的 39 个音素构成的音素集。而对于汉语,一般直接用全部声母和韵母作为音素集,另外汉语识别还要考虑音调。 The CMU Pronouncing Dictionary. 声学模型 :是将声学和发音学(phonetics)的知识进行整合,以特征提取部分生成的特征作为输入,并为可变长特征序列生成声学模型分数。 语言模型 :通过从训练语料

容联CTO许志强:AI、5G让通讯更智能、更高效

大憨熊 提交于 2020-11-30 01:05:13
LiveVideoStack采访了容联云通讯CTO许志强,分享了从一线研发到团队leader的软硬性能力提升经验,解析了通讯行业音视频技术难点、踩的坑以及优化方案,并展望了AI、5G为音视频技术发展带来的革新。 文 / 许志强 整理 / LiveVideoStack LiveVideoStack:许总您好,首先非常感谢您接受采访,还请您先介绍下自己和容联云通讯。 许志强: 本人毕业于华中理工大学自控系,中山大学MBA。先后就职于广州新太科技任开发中心副总经理、高阳圣思园任云通讯项目技术负责人。目前主要负责容联整体平台设计与开发,互联网/AI等前沿技术与通讯的融合跟进。 容联是国内专业的企业通讯云服务提供商。容联以云计算方式,为企业客户提供通讯平台服务(PaaS)、通讯软件服务(SaaS)、行业新通讯解决方案和“AI+通讯”服务,助力企业精准获客,提升终端用户服务体验;变革企业内部沟通协作方式,提升企业运营效率。驱动中国企业通讯产业实现互联网化、云计算化、能力化、融合化和智能化。经过几年的快速发展、积累,容联平台已聚集了超过15万家企业客户和30万开发者用户。容联服务的客户包括但不限于国家电网、中移在线、海尔控股、中国银行、招商证券、中车集团、中国平安、腾讯、京东、百度、360、小米、今日头条、瓜子二手车、顺丰等,全面覆盖金融、运营商、汽车、电商、O2O、在线教育、互联网医疗、游戏

使用语音控制鸿蒙小车

只愿长相守 提交于 2020-11-26 17:51:48
之前我们已经有一篇文章讲了如何驱动鸿蒙小车,通过网络控制小车的运行。 基于鸿蒙系统 + Hi3861 的wifi小车,可以通过电脑、手机控制 这一篇我们来试点不一样的:使用语音控制鸿蒙小车。 附件提供可以直接烧录的鸿蒙镜像、修改后的手机java源码。 这里我们使用到的是讯飞的语音识别功能,大家可以打开这个网站,申请一个测试账户: https://www.xfyun.cn/services/lfasr?ch=bd01-b&b_scene_zt=1&renqun_youhua=648371 一般来说我们申请体验包即可,(新用户礼包需要实名认证): 领取完免费使用后,我们创建新应用。 应用名称这些自己根据需求填写 提交后,我们单击应用,查看详情 我们下载Android SDK包。 Android SDK包的使用可以查看文档。 下载完后,我们在 IatDemo.java文件的 public void onResult(RecognizerResult results, boolean isLast) 函数中添加我们控制小车的代码,如图: 我这边会提供我修改后的 IatDemo.java文件 ,大家替换即可。 编译app,然后得到安装包:speechDemo-debug.apk 。安装到手机。 安装后,我们选择“立即体验语音听写”,然后单击开始,说出关键字“前进”“后退”“向左”“向右”

自然语言处理(NLP)的一般处理流程!

不想你离开。 提交于 2020-11-23 09:02:00
1. 什么是NLP 自然语言处理 (Natural Language Processing) 是人工智能(AI)的一个子 领域 。**自然语言处理是研究在人与人交互中以及在人与计算机交互中的语言问题的一门学科。**为了建设和完善语言模型,自然语言处理建立计算框架,提出相应的方法来不断的完善设计各种实用系统,并探讨这些实用系统的评测方法。 2. NLP主要研究方向 信息抽取 :从给定文本中抽取重要的信息,比如时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。 文本生成 :机器像人一样使用自然语言进行表达和写作。依据输入的不同,文本生成技术主要包括数据到文本生成和文本到文本生成。数据到文本生成是指将包含键值对的数据转化为自然语言文本;文本到文本生成对输入文本进行转化和处理从而产生新的文本。 问答系统 :对一个自然语言表达的问题,由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。 对话系统 :系统通过一系列的对话,跟用户进行聊天、回答、完成某一项任务。涉及到用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。 文本挖掘