语音识别

依图的人工智能求索路

匆匆过客 提交于 2020-11-22 09:48:27
作者 | 中国软件网 陈杨 校对 | 中国软件网 赵满满 2012年,人工智能对大众而言还是个陌生的专业词汇,在企业、组织几乎未得到应用。 早早便学习用数据理解刻画世界的加州大学洛杉矶分校(UCLA)统计学博士朱珑毅然辞去纽约大学(NYU)Courant数学研究研究员的职位,拉上高中同学,时任阿里云技术总监的林晨曦,一起回国创业。 朱珑说:“虽然深度学习在当时还没有被产业广泛采用,但我有一种感觉,以深度学习为代表的人工智能距离产业化非常近了。” 8年后的天,在AlphaGo的带动下,人工智能一词早已走进大街小巷。文字识别、语音识别、人脸识别等基于人工智能技术的应用被广泛采用。 朱珑所创办的人工智能公司,在八九年的时间里早已成为AI独角兽,估值超过百亿。由于在计算机视觉的突出表现,这家AI创企也被评为“AI四小龙”之一,并在9年时间里获得9轮融资,近期于科创板上市一事更是引得业界关注。 这家AI创企,便是依图科技。 图片来自依图 01 从算法起家 令人意想不到的是,在计算机视觉领域获得这么大的成功,或许并不是朱珑主动选择的,更像是机缘巧合。 “我们一开始就做业务拓展,都去跑客户。业务各个方向都想过:车、人脸、文字,再近一点就是人身上的东西,比如拍一拍找衣服,跟人贴得近的,逻辑上很容易成立。这些方向我们在脑子里都尝试了。” 更没想到的是,依图收获的第一个客户是苏州市公安局

重磅报告 | 《中国企业2020:人工智能应用实践与趋势》

好久不见. 提交于 2020-11-21 10:09:27
文章导读 AI设计师“鹿班”每秒可设计海报8000张,赋能30万商家备战“双十一”;光伏电池生产商天合光能运用人工智能算法将A品率提升7%,创造利润数千万;AI帮助优酷分析舆情选出爆款影视剧IP,打造了10天播放量超过60亿的《微微一笑很倾城》…… 如今,人工智能已经在零售、制造、传媒、金融等领域发挥着日益重要的作用。在即将到来的2020年,企业将如何更好地拥抱人工智能? 8月29日,2019世界人工智能大会上,阿里云研究中心发布《中国企业2020:人工智能应用实践与趋势》白皮书。白皮书分析了当前中国企业应用AI技术的成熟度、阶段性演进的路径,总结出人工智能为企业创造价值的七大模式,为企业在2020年的AI应用提供了落地指南。 AI为企业创造价值的七大模式 会上,阿里巴巴集团副总裁刘松表示,AI将影响企业的服务方式,影响他们与客户连接的方式,影响政府管理城市的方式。阿里云已大规模应用了AI赋能各行各业,实践经验将在2020年更广泛地复制推广到更多的产业与合作伙伴。 接下来的一年,AI将如何为产业赋能?白皮书中梳理了“AI为企业创造价值的七大模式”: 1、提升简单重复性工作的效率,做好人类不愿意做的事情。在一些无创意需求的重复劳动场景中,人工智能技术可以提升效率。比如,在现代化工厂中工业机器人和机械臂的应用,结合拥有更高“智力水平”的AI,能够为企业带来更高的生产效率和生产质量。

百度收购YY,其实挺值得

删除回忆录丶 提交于 2020-11-17 22:18:27
传闻飞了一阵子后,百度收购YY直播的靴子终于落地。 根据多方消息验证,百度将以36亿美元的价格将YY移动应用、YY.com网站、YY客户端等业务纳入囊中,与传闻中“30—40亿美元的价格”的基本相符,并将于2021年上半年正式完成交割。 如同十几天前就曾引发的讨论,YY母公司欢聚时代的净利润已经连续多个季度下滑,YY和陌陌代表的泛娱乐直播赛道,也在直播带货崛起后被认为出现了退潮的迹象,百度似乎没有必要以30多亿美元的筹码押注YY。 然而这里想要给出的观点却是:就百度深耕直播赛道的战略意图而言,选择在这个时间点收购YY直播,其实是一笔划算的买卖。 01 YY值多少钱 至于YY直播合理的估值应该是多少,首先应该找到正确的“参照物”。 第一个估值体系无疑是欢聚集团本身。 当前欢聚集团的市值在77亿美元左右,减去持有的虎牙股权和1.5亿美元的现金流,YY为主的中国业务和BIGO为主的海外业务估值约为50亿美金。按照欢聚集团Q3财报披露的数据,YY直播的月活用户为4130万,海外用户的月活为5070万;第三季度的整体营收为62.86亿元,仅BIGO的营收就达到33.95亿元。 做一个加减法计算的话,YY直播在欢聚集团的月活和营收占比均不足50%,如果不考虑欢聚市值被低估的因素,36亿美元的价格似乎有些偏高。 第二个估值体系可以参考正寻求IPO的快手。 目前快手已经向港交所递交了招股申请

AI性能最高提升20倍 阿里云新一代GPU云服务器亮相 搭载NVIDIA A100

南楼画角 提交于 2020-11-17 14:11:26
近日,阿里云异构计算宣布上线gn7 GPU系列云服务器,即日起开放售卖。gn7系列实例是阿里云新一代GPU计算实例,主要面向AI训练和高性能计算应用。该产品基于NVIDIA A100 Tensor Core GPU打造,云服务器中的8块A100 GPU以NVIDIA NVSwitch实现了GPU之间的NVLink直接通信。 结合最新支持的Tensor Core加速能力,阿里云gn7云服务器最高可让AI最佳性能提升20倍,高性能计算速度提升2.5倍,单卡最高支持19.5TFlops(FP64)、156TFlops (TF32)、312 TFlops(FP16 混合精度)的运算。对于大模型训练的场景,阿里云自研的神龙AI加速引擎AIACC可以通过优化多GPU训练通信效率,进一步提升多GPU和多机并行训练的加速比,为AI研发过程节省更多的时间和成本。 第一批上线的产品为效率最高的阿里云神龙裸金属实例ebmgn7, 用户可直接获得一台完整的配置有Intel 2代Xeon Scalable 52核CPU、768G系统内存和由 NVSwitch互联的8颗A100 的GPU服务器主机。 随着人工智能的不断发展,深度学习的训练模型越来越庞大和复杂,训练模型需要的算力也在快速增长。针对AI训练和高性能计算的算力需求,NVIDIA于今年5月推出了 A100 GPU。NVIDIA A100

动态规划算法

半腔热情 提交于 2020-11-15 11:46:32
贪心算法:逐步建立一个解决方案,具体地优化一些局部准则。 分治:将一个问题分解成独立的子问题,求解每个子问题,并将子问题的解组合起来形成原问题的解。 动态规划:把一个问题分解成一系列相互重叠的子问题,并为越来越大的子问题建立解决方案。 一、weighted interval scheduling 加权区间调度 问题描述:每个job有开始时间、结束时间和权重,找job不overlap的最大权重。 解法1:最早结束时间优先。(若权重都一样,用贪心法是正确的,但在本题不对)。 以完成时间升序标记jobs。记p(j)=i,表示j>i,在选择job j后,可选的最大下标为i。 记OPT(j)表示由作业1,2,3…j组成的请求的最优解。 若OPT选择j,wight包括vj,包括之前的OPT:1,2,…p(j); 若OPT不选择j,一定包括OPT:1,2…j-1 解法2:暴力法 //伪代码 输入:n , s [ n ] , f [ n ] , v [ n ] 排序:根据f [ n ] 计算:p [ n ] int computeOpt ( int j ) { if ( j == 0 ) return 0 ; else return max ( v [ j ] + computeOpt ( p [ j ] ) , computeOpt ( j - 1 ) ) ; } 分析:分层递归调用

基于百度AI平台的语音识别功能开发-SDK调用

陌路散爱 提交于 2020-11-14 08:09:10
一.前期工作 1.拥有一个百度智能云账号 2.创建一个语音应用,创建成功后会显示有一个应用 3.在应用列表里查看自己的应用 强调: 这里的AppID、API Key、Secret Key 很重要 百度除了语音识别等其余的api调用也离不开这三个重要的参数。 二、调用百度语音SDK,基于python3 操作流程: 1.下包 我使用的是pip install baidu-aip 2.新建AipSpeech from aip import AipSpeech """ 你的 APPID AK SK """ APP_ID = '你的 App ID' API_KEY = '你的 Api Key' SECRET_KEY = '你的 Secret Key' client = AipSpeech ( APP_ID , API_KEY , SECRET_KEY ) 3.配置AipSpeech(一般不需要) 4.请求说明 以识别本地语音文件为例,假设本地有个语音文件是audio.pcm: # 读取文件 def get_file_content ( filePath ) : with open ( filePath , 'rb' ) as fp : return fp . read ( ) # 识别本地文件 client . asr ( get_file_content ( 'audio.pcm' ) ,

音频分类技术

天涯浪子 提交于 2020-11-12 03:22:57
音频分类前置知识 音频 音频常常被表示为波形图,其中横轴为时间,纵轴为幅值。音频多种多样,分类中一般分为语音、音乐、噪音、静音和环境音等。 采样频率 每秒从模拟信号中采集的样本个数,基本单位为 Hz 。信号的采样频率一般遵循奈奎斯特采样定理,即采样频率必须大于被采样信号最高频率的两倍。一般而言: 8000Hz 为电话信号使用的采样率; 11025Hz 通话音质更高,可分辨出通话人; 16000Hz 可覆盖几乎所有的乐器和人声频率,也是大多数成年人能够听到的声音频率; 22050Hz 为无线电广播长采用的频率; 32000Hz 为 VCD 等多媒体数据文件所使用的采样率; 44100Hz 为CD音频使用的采样率; 192000Hz 为蓝光音轨和高清晰度DVD音轨的采样率。 采样位数 每一个采样点所使用的二进制位数,即计算机对声音信号的解析度。通常使用的采样位数有8位,16位和24位。 音频的构成要素 声学三要素:声音的音调、音色和响度。 音调:也称音高,对应音频信号的频率。音频信号的音调越高月能够给人以明亮和尖锐的感觉,音调越低越是给人厚重和低沉的感觉。 音色:也称音品,对应音频信号的相位。主要由音频信号波形的包络和信号谐波的频谱,包含不同包络和不同谐波的音频信号的内容也不同。音频信号频谱的基频所产生的能量最大的音称为基音,相应的各次谐波所发出的声音一般被称为泛音

手把手教你薅羊毛,1 元体验业内领先AI技术!

£可爱£侵袭症+ 提交于 2020-11-11 19:50:43
双十一的套路早已看透,为何你还甘心成为“尾款人”在商家的层层套路中痛并快乐着。不要急~百度大脑 AI 产品双十一年终狂欢活动钜惠开启! 无需尾款,没有套路,只有硬核低价。 百度大脑人脸识别技术系列产品 1.7 折限时抢购,实名认证首单一元购,适用于金融核验、线上实名认证、考勤通行管理、安全防控等场景。 百度大脑语音识别技术采用领先国际的流式端到端语音语言一体化建模方法识别,提供高度拟人的语音合成服务。应用场景丰富,覆盖泛阅读娱乐、教育培训、交通物流、智能硬件领域,让语音大有所为。 百度大脑语言与知识技术凝聚百度在自然语言处理、知识图谱领域的十年技术累积和产业实践。广泛应用于新闻媒体、泛互联网、舆情口碑分析、交通物流等领域。 仅需 1 元就可体验业内领先的 AI 技术。 百度大脑 EasyDL 零门槛 AI 开放平台,提供一站式 AI 服务、高精度训练效果、多种灵活部署方式,不仅赋能工业制造领域,在生产安全、零售快消、智能硬件等领域也有广泛应用,目前已超过 70 万企业用户利用 EasyDL 平台落地 AI 应用。 百度大脑文字识别技术提供多种场景下精准的图像文字识别技术服务,超高识别准确率可以让您的应用看图识字,而且提供 50+ 产品全线免费体验~ ‍ 百度大脑内容审核技术一站式解决文章内容、用户评论审核问题,为企业内容安全保驾护航,应用场景丰富,覆盖视频直播、社区社交、教育培训

10个常见的软件架构模式

∥☆過路亽.° 提交于 2020-11-08 13:29:03
想知道如何设计大型企业级的系统吗?在开始主要的代码开发之前,我们必须选择一种合适的体系架构,它将为我们提供所需的功能和质量属性。因此,在将它们应用到我们的设计之前,应该先了解不同的体系结构。 - 什么是架构模式 - 根据维基百科, 架构模式是在给定上下文中解决软件架构中常见问题的通用、可重用的解决方案。架构模式类似于软件设计模式,但范围更广。 在本文中,我会简单介绍下列10种常见的架构模式,及其用途、优势和劣势。 - 分层模式 - 该模式可用于构建可分解为子任务组的程序,其中每个都处于特定的抽象级别。每一次都向更高层提供服务。 一般信息系统中最常见的4层划分如下: Presentation layer 表示层(也就是UI层) Application layer 应用层(也就是服务层) Business logic layer 业务逻辑层(也就是领域层) Data access layer 数据访问层(也就是数据持久层) 应用 一般桌面应用程序 电子商务Web应用程序 - 客户端-服务器模式 - 该模式由两部分组成:一个服务端和多个客户端,服务器向多个客户端提供服务。客户端向服务器发起请求,服务器向这些客户端提供相关服务,之后,服务器继续侦听客户端的请求。 应用 在线应用程序,如电子邮件、文件共享和银行业务等 - 主从模式 - 该模式也分为两块:主模块和从模块

10个常见的软件架构模式

拈花ヽ惹草 提交于 2020-11-08 12:59:41
Python实战社群 Java实战社群 长按识别下方二维码, 按需求添加 扫码关注添加客服 进Python社群▲ 扫码关注添加客服 进Java社群 ▲ 来源丨Java技术驿站 https://mp.weixin.qq.com/s/6R4QP-gAimHzi-I8js8B6A 想知道如何设计大型企业级的系统吗?在开始主要的代码开发之前,我们必须选择一种合适的体系架构,它将为我们提供所需的功能和质量属性。因此,在将它们应用到我们的设计之前,应该先了解不同的体系结构。 - 什么是架构模式 - 根据维基百科, 架构模式是在给定上下文中解决软件架构中常见问题的通用、可重用的解决方案。架构模式类似于软件设计模式,但范围更广。 在本文中,我会简单介绍下列10种常见的架构模式,及其用途、优势和劣势。 - 分层模式 - 该模式可用于构建可分解为子任务组的程序,其中每个都处于特定的抽象级别。每一次都向更高层提供服务。 一般信息系统中最常见的4层划分如下: Presentation layer 表示层(也就是UI层) Application layer 应用层(也就是服务层) Business logic layer 业务逻辑层(也就是领域层) Data access layer 数据访问层(也就是数据持久层) 应用 一般桌面应用程序 电子商务Web应用程序 - 客户端-服务器模式 -