语音识别

大爆料-为你解读阿里云ET写春联背后的能力

[亡魂溺海] 提交于 2021-02-15 13:37:33
最近 阿里云 人工智能ET写春联的事儿占据了各大媒体和朋友圈,我只想说阿里的程序员好有范儿啊,过年都不消停;大家都在说我们已经看到的,例如ET在跟体验者互动、好多的围观群众、机械臂在刷刷的奋笔疾书…今天我就为各位说说你们没看到的, 在此,特别为看官们准备了两种解读方式,视频(火热出炉强烈推荐)和文字版; 阿里云 ET视频: 文字解读: 此次ET写春联活动中,为了针对每个体验者个性化定制春联,ET用到了三部分的能力: 智能语音交互- 语音识别功能能够将用户说的声音识别成文本,而通过自然语言理解、人机对话,使得ET不仅可以听,还能够理解用户说的话,进而给出反馈。最后,用语音合成功能,将ET反馈的文本变成人声播出来。 人脸识别- 对于体验者,人脸分析模块迅速定位人脸,并进行面部分析,从而给出对用户性别、年龄、表情的分析结果。 机器学习PAI- ET调用了机器学习PAI的文本分析相关的功能,针对前期的人脸识别结果和每位体验者的愿望进行分词、提取关键词,再通过关键词与春联数据库中的海量春联数据集比较,选择词向量距离最近的春联返回;可以找出最符合用户愿望的春联。 除了写春联,ET还可以做更多的事情哦,快来了解吧:https://et.aliyun.com/index 来源: oschina 链接: https://my.oschina.net/u/4562984/blog/4952951

AI 语音对话技术

廉价感情. 提交于 2021-02-15 05:01:06
  机器学习以及自然语言处理技术的进步,开启了人与人工智能进行语音交互的可能,人们透过对话的方式获取信息、与机器进行交互,将不再只是存在科幻情结当中。语音交互是未来的方向,而智能音箱则是语音交互落地的第一代产品。 一、语音交互流程简介 AI 对话所需要的技术模块有 4 个部分,分别为: 自动语音识别(Automatic Speech Recognition, ASR) 自然语言理解(Natural Language Understanding, NLU) 自然语言生成(Natural Language Generation, NLG) 文字转语音(Text to Speech, TTS) 以叮咚开发文档中的语音交互流程图来看Ai 对话技术的主要路径: 从上图中可以看到,用户与设备之间的交互,主要是采用语音方式处理和完成的。 二、语音交互流程设计 一次完整的语音交互流程,成功的语音对话,通常是有以下几个阶段。 1.交互流程的核心—意图 所谓意图,表示用户在使用应用时所做的动作(譬如:问一个问题或发送一条指令),这些意图代表了应用的核心功能。 如果应用成功地识别了用户意图,则需要在完成业务动作后,将结果反馈给用户;如果应用无法识别用户意图,则需要给用户友好的提示,指导用户使用。 用户:七星彩的开奖时间是什么时候? Ai:体育彩票七星彩每周二、周四和周日开奖。 2. 如何识别意图

模型训练过程中的训练集、训练开发集、开发集和测试集总结

China☆狼群 提交于 2021-02-14 07:39:59
36.什么时候你应该在不同分布上做训练和测试 当你的猫app已经上传10000张图,你已经人工标记它们有没有猫,同时你有200000张互联网上下载的图,这时你要怎么划分训练开发测试集呢? 当你训练深度学习模型时,可能必须用到那200000张图,那么训练和测试集的分布就不同,这会怎样影响你的工作呢? 当然将210000张图片随机分裂到训练开发测试集是一种方法,但我(吴恩达)不推荐这种方法,记住选择开发测试集的推荐方法是:选择你未来预期会得到的数据来作为开发测试集。 大多数学术文章假设训练开发测试集的分布相同,在机器学习的早期,数据稀缺,常常仅有一个服从同一分布的数据集,所以这一假设能够满足。 但在大数据时代,从不同分布所收集来的数据,我们也希望能利用上,因为它能提供大量信息。 对于猫检测这个问题,我们会将猫app上传的5000张图放入开发测试集,训练集大小为205000。 第二个场景,假设你在做一个语音识别系统为一个导航app来转录得地址,你有20000个用户说的街道地址,500000个语音片段用户说其他的内容,这时你可能用10000个地址样本作为开发测试集,其他用作训练集。 我们继续假设你的开发测试集具有相同分布,但是必须明白,训练和开发/测试集分布不同,会带来一些特殊的挑战。 Ps:有些学术研究是训练测试分布不同,但理论和实践中有很大的不同,如果你的训练测试不同分布

智能音箱的巨人之战:拼体验、拼场景、拼诚意

筅森魡賤 提交于 2021-02-12 12:09:41
智能音箱的市场需求远未爆发,价格也绝非是竞争的唯一手段,隐藏在价格混战背后的,恰恰是智能音箱市场的竞争升维,价格门槛、产品创新、场景生态等都是竞逐的筹码。 文| Alter 天猫精灵CC刚刚宣布699元的定价,小度在家1S就给出了299元的“狂欢价”。 经历了初代智能音箱的价格混战,一向在这个领域扮演“价格屠夫”的百度,似乎有意将有屏智能音箱的价格引向新纪元。 可如果仅仅从价格的角度审视智能音箱的第二波战事,未免会有失偏颇。智能音箱的市场需求远未爆发,价格也绝非是竞争的唯一手段,隐藏在价格混战背后的,恰恰是智能音箱市场的竞争升维,价格门槛、产品创新、场景生态等都是竞逐的筹码。 01 拼诚意,MBA“三分天下” 与其说是价格混战,倒不如说智能音箱的价格正走向合理。 早在2017年的时候,“智能音箱”的概念就屡被提及,彼时中国有超过2000多家智能音箱厂商,但大多数扮演了“组装厂”的角色,向上游购买语音系统和解决方案,然后贴上自家Logo发货给经销商。 当年的出货量在150万上下,定价却动辄几千元。乐于尝鲜的用户花高价购买了所谓的智能音箱,用户体验偏偏又让人大为头疼,语音识别准确率低,语音交互的场景很局限,音质难以匹敌专业性产品。所谓的智能音箱,不过是收智商税的工具罢了。 到了2018年,百度、阿里、小米、腾讯等巨头相继入场,相比于智能音箱本身的利润

从机器学习谈起

天大地大妈咪最大 提交于 2021-02-12 07:02:19
点击上方 “ 程序员江湖 ”, 选择“置顶或者星标” 你关注的就是我关心的! 转自:博客园,作者:计算机的潜意识 链接:www.cnblogs.com/subconscious/p/4107357.html 从机器学习谈起 在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢? 我并不直接回答这个问题前。相反,我想请大家看两张图,下图是图一: 这幅图上上的三人是当今机器学习界的执牛耳者。中间的是Geoffrey Hinton, 加拿大多伦多大学的教授,如今被聘为“Google大脑”的负责人。右边的是Yann LeCun, 纽约大学教授,如今是Facebook人工智能实验室的主任。而左边的大家都很熟悉,Andrew Ng,中文名吴恩达,斯坦福大学副教授,如今也是“百度大脑”的负责人与百度首席科学家。这三位都是目前业界炙手可热的大牛,被互联网界大鳄求贤若渴的聘请,足见他们的重要性。而他们的研究方向,则全部都是机器学习的子类--深度学习。 下图是图二: 这幅图上描述的是什么?Windows Phone上的语音助手Cortana,名字来源于《光环》中士官长的助手。相比其他竞争对手,微软很迟才推出这个服务

贴上AI的激光电视,到底是传统厂商的护城河,还是新势力的诺曼底

末鹿安然 提交于 2021-02-10 05:19:15
作者|胡杨 来源|智能相对论(aixdlun) 就在大家围着AI讲故事的瞬间,电视行业也没闲着,而且还加上了“激光”。 5月15日极米科技在发布无屏电视H2、H2 Slim之外,还重点推出了激光电视皓·LUNE,并把价格拉到了万元级:10999元。随后,5月17日,海信发布L5和L7系列4K激光电视,其中海信80吋L5 4K激光电视的价格也到了2万元以下。 初步统计,目前推出激光电视产品的品牌不下二十家,可分为4大类: 1 、传统彩电品牌, 如海信、长虹,作为行业中的“扛旗者”,他们熟悉彩电业,并拥有市场口碑和渠道资源。 2 、互联网概念新势力, 如极米、小米、艾洛维等,他们具有互联网思维,要么基于成本定价,比如小米,希望快速打开销路;要么提出“品价比”,如极米,希望通过提供既优质又亲民的价格,来满足消费升级的需求。 3 、传统投影品牌, 如索尼、明基等,他们深耕“投影”圈,具有垄断资源,是激光显示市场多元化发展的主力军。 4 、本土投影品牌, 如光峰、美乐等。 如今,激光电视正从“专属精密仪器”逐步变身为“普通家用消费品”,成为点燃电视行业的一束明光,但这场四国大战谁会输谁能赢? 一 猝不及防,大家磨刀霍霍向“激光电视” 回答这个问题之前,我们不妨先问问为什么激光电视能火。 尽管激光电视进入市场才三四年,但市场发展超乎想象,这除了消费升级热潮外

探索语言交互技术在政务数字化的应用

孤人 提交于 2021-02-04 16:14:34
摘要: 在智慧城市的建设中,政府也希望能够使用新技术来提供更好的服务。 最近去公积金中心办理逐月还贷的业务,由于害怕排队时间较长,还没到上班时间就早早排队去了。正当我等待得百无聊赖之时,坐旁边的一位小兄弟对着手机说:转1000块钱给我妈。我看他用手机人脸识别了一把,看样子是转账成功了,开心地继续刷手机。作为一名业内人士,对这位孝顺的小兄弟,我心生感(kui)慨(jiu)之余,立马想到,如果我能对着手机说:帮我办下公积金还贷业务,然后能很快办完,我就可以不用在这等而是去加班奋斗了。很可惜,我的愿望暂时不能实现。 好的消息是,随着目前智慧城市建设的推进,政府也希望能够借助数字化手段,提高政府治理能力,方便市民办理各项业务。这其中,采用语音作为交互方式的新兴应用也逐步出现。事实上,在一些发达国家,也能看到这类应用。比如在推行数字政府的新加坡,可以通过像LifeSG[[1]]这类应用用语音来获取政务服务。在2019年4月份,英国数字政府部门上线语音查询政府公开信息的服务,用户在家可以通过Google Home或者Amazon Alexa智能音箱直接查询 http:// GOV.UK 网站上超过12,000项政府信息,市民可通过语音完成的任务范围逐渐扩大,从“国家最低工资标准”到“我如何申请一个新的护照”等等,并且陆续上线更多的查询服务,比如办理结婚手续的详细过程等[[2]]。

达沃斯议程对话会:张亚勤解读人工智能发展 3R 原则

旧时模样 提交于 2021-02-02 10:57:13
在国内外新冠疫情持续的特殊形势下,2021年世界经济论坛“达沃斯议程”对话会于1月25日至29日以线上形式举行。此次论坛上,全球70多个国家和地区的1500多位政商界和社会组织领导人围绕“把握关键之年,重建各方信任”这一主题,就如何应对新冠疫情下全球面临的经济、环境、社会、技术等挑战,寻求合作抗疫和推动经济复苏的方案等展开了探讨。 作为人工智能世界级科学家和企业家、达沃斯论坛的常客和重要委员,清华大学智能产业研究院(Institute for AI Industry Research,AIR)张亚勤院长亦受邀出席了此次达沃斯议程对话会,并发表了演讲。 近年来,人工智能一直是计算机领域的热门研究方向,也是达沃斯论坛的焦点议题。 早在2016年,张亚勤博士就曾在达沃斯论坛对人工智能相关议题提出了诸多见解。当时,他指出,人工智能将成为第四次工业革命的技术基石,另一方面,它的发展速度比许多人想象得都要快,但要实现技术的可靠和可控性,需要全世界共同思考解决。同时,当前人们更多是投资弱人工智能,即对人类智能的放大,而不是取代人的智能等。 迄今,包括机器学习、语音识别、图像识别、大数据挖掘、自然语言处理等AI技术已在交通、教育、医疗、金融等众多领域得到了广泛应用,成为各个领域转型升级的核心动力。以此次新冠肺炎疫情为例,随着“无接触”等需求的兴起,人脸识别等人工智能技术大放异彩

我们为什么需要条件随机场CRF?

和自甴很熟 提交于 2021-01-30 09:56:21
点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作 者: Prateek Joshi 编译: ronghuaiyang 导读 昨天给大家介绍了CRF的基本概念,今天我们聊一聊为什么需要这么个东西。 这是一个分为两部分的讨论。在这篇博文中,我们将讨论条件随机场的需求。在下一篇文章中,我们将讨论它们到底是什么以及如何使用它们。在计算机视觉、生物信息学、计算语言学和语音识别等诸多领域,都出现了为一组观测序列分配标签的任务。例如,考虑自然语言处理任务,即在句子中使用相应的词性标记标记单词。在这个任务中,每个单词都有一个标记,表示其适当的词性,从而产生带标注的文本。再举一个例子,考虑根据所观察到的行为给一个视频贴上一个人的心理状态标签的任务。你必须分析用户的面部表情,确定用户是否高兴、生气、悲伤等等。我们经常希望预测大量相互依赖的变量以及其他观察到的变量。如何实现这些任务?我们应该使用什么模型? 为什么要用条件随机场? 在许多应用中,我们希望能够预测相互依赖的多个变量。例如,一个运动队的表现取决于该队每个队员的健康状况。每个成员的健康可能会受到团队旅行计划的影响。比赛的结果可能会影响全队的士气。反过来,士气可能会影响健康。正如你所看到的,有多个变量错综复杂地相互依赖。条件随机场(CRFs)对这些问题的建模非常有用。与此类似的应用有很多,比如对图像的区域进行分类

智能家居语音控制及人脸识别报告设计(树莓派)

走远了吗. 提交于 2021-01-15 12:58:02
智能家居语音控制及人脸识别 目录 摘要................................................................................................................................. 3 1 设计背景...................................................................................................................... 4 2 项目分析...................................................................................................................... 4 2.1 硬件模块............................................................................................................ 4 2.1.1 硬件清单..................................................................