语音识别

沃德天,Python竟然还能做实时翻译

痞子三分冷 提交于 2020-10-22 10:36:58
文章目录 有了它,实现实时翻译还远吗? 一、还有3秒到达战场 二、效果展示 四、调用API接口的准备工作 五、开发过程详细介绍 (一)准备工作 (二)开发 1、界面部分 2、音频录制部分的开发 (2)record()方法的开发 (3)stop_and_recognise()方法的开发 3、实时语音识别部分的开发 五、总结 有了它,实现实时翻译还远吗? 欢迎关注我, 一块来履行我之前的承诺 , 连更一个月之内 ,把几篇写完。 序号 预计完成时间 开发dome名字以及功能&发布文章内容 是否已写完 文章链接 1 9月3 文本翻译,单文本翻译,批量翻译demo。 已完成 CSDN: 点我直达 微信公众号: 点我直达 2 9月11 OCR-demo,完成批量上传识别;在一个demo中可选择不同类型的OCR识别《包含手写体/印刷体/身份证/表格/整题/名片),然后调用平台能力,具体实现步骤等。 已完成 CSDN: 点我直达 微信公众号: 3 10月27 语音识别demo,demo中上传—段视频,并截取视频中短语音识别-demo的一段音频进行短语音识别 CSDN: 点我直达 微信公众号: 4 9月17 智能语音评测-demo CSDN: 微信公众号: 5 9月24 作文批改-demo CSDN: 微信公众号: 6 9月30 语音合成-demo CSDN: 微信公众号: 7 10月15 单题拍搜

数据存储(1):从数据存储看人类文明-数据存储器发展历程

可紊 提交于 2020-10-22 04:31:27
传统文本存储 泥版/钟鼎/甲骨/莎草纸/羊皮纸等文字存储 传统的考古学家和历史学家认为,楔形文字起源于美索不达米亚特殊的渔猎生活方式。这是较为通行的看法,西方的各种百科全书大都持这一观点。约在公元前3400年左右,楔形文字雏形产生,多为图像。到公元前 500 年左右, 这种文字甚至成了西亚大部分地区通用的商业交往媒介。楔形文字一直被使用到公元元年前后,使用情景如同现今的拉丁文。 有了文字后,人类有又了记录过往数据的能力。但是,都是靠手工存储。 这些历史,这里不做过多种赘述 造纸与活字印刷术 造纸术与应刷术是中国四大发明之一。 公元105年(西汉),蔡伦改进了造纸术,随后就是对造纸术的改进过程,唐朝利用竹子为原料制成的竹纸,标志着造纸技术取得了重大的突破。随后就是西方一些列的改进了。 公元1041年-1048年(北宋),毕昇发明的泥活字。标志着活字印刷术的诞生。随后也是漫长的改进,传入欧洲400以后, 1440年到1445年之间,德国人约翰内斯·古腾堡的铅活字,凸版印刷技术——维克多·雨果称印刷术为世界上最大的发明。 在中世纪初期,书是财富的象征。如果谁家有一个图书室。那实在是太富有了,因为在当时书是人们用手工辛辛苦苦抄写出来的。僧侣和抄写员经常被雇来做这项工作,当然费用相当可观。印刷机的出现改变了这一切,并在文艺复兴时期加快了知识和文化的传播。 穿孔卡带纸存储 最早期的存储媒介—

从核心算法到工程实践,谷歌声纹识别负责人带你学习声纹技术

纵饮孤独 提交于 2020-10-20 09:32:47
说起「指纹」,大家都不会感到陌生。凭着每个人的指纹都不一样的特性,指纹识别技术获得了广泛的利用。 和指纹相比,「声纹」的概念略显陌生。严格来讲,虽然声音并不具备真正意义上的纹理,但每个人的发音器官包括声带、声管等在大小和形状上会有所差异,同时由于性别、年龄和地域的影响,使得我们每个人都有着不一样的声音。 广义上讲,所有可以区分每个人不同声音的特征,都可以称为「声纹」。由于这些特征的存在,声纹和指纹一样,衍生出各种实用的技术。 声纹技术中最为核心的一项便是声纹识别技术。和指纹识别、人脸识别一样,声纹识别也是生物特征识别技术的一种,该技术利用算法和神经网络模型,让机器能够从音频信号中识别出不同人说话的声音。除了声纹识别之外,声纹技术也被广泛用于声纹分割聚类, 以及构建更为强大的语音识别、语音合成以及人声分离系统。 近年来,谷歌在声纹技术上的研究颇多。最近,谷歌声纹识别与语言识别团队负责人王泉老师为国内读者度身打造了一本声纹技术宝典——《声纹技术:从核心算法到工程实践》。 这本书系统性地介绍了声纹识别、声纹分割聚类及声纹在语音识别、语音合成、人声分离等领域中的应用。书中内容全面且紧随时代前沿,不仅涵盖了早至20世纪60年代的经典方法,还以大量篇幅着重介绍了深度学习时代的最新技术。这本书注重理论与实践的结合,除了配备大量实践案例与习题,还有专门章节介绍声纹技术在实际工程部署方面的诸多课题。

融合自训练和自监督方法,让文本丝般顺滑!|EMNLP 2020

一个人想着一个人 提交于 2020-10-17 16:58:57
     原创作者:王少磊   文本顺滑(Disfluency Detection)的目的是删除自动语音识别(ASR)结果中的不顺滑的词,从而得到更自然和通顺的句子。   目前大部分在文本顺滑(Disfluency Detection)任务上的工作都严重依赖人工标注数据。   本文介绍一篇被EMNLP 2020录取的工作,在本工作中,作者首次尝试用无监督的方法来解决文本顺滑问题。   作者通过结合自训练(self-training)和自监督(self-supervised)两种方法,在不采用任何有标注训练数据的情况下,取得了跟目前最好的有监督方法接近的效果。   论文名称:   《Combining Self-Training and Self-Supervised Learningfor Unsupervised Disfluency Detection》      论文作者:王少磊,王重元,车万翔,刘挺   论文链接:http://ir.hit.edu.cn/~slwang/emnlp2020.pdf   以下是论文一作王少磊对本文的亲自解读。   1   任务简介及动机   自动语音识别(ASR)得到的文本中,往往含有大量的不流畅现象。这些不流畅现象会对后面的自然语言理解系统(如句法分析,机器翻译等)造成严重的干扰,因为这些系统往往是在比较流畅的文本上训练的。  

TensorFlow 中最大的 30 个机器学习数据集

你离开我真会死。 提交于 2020-10-17 06:44:10
作者: Limarc Ambalina 编译:ronghuaiyang 原文链接: TensorFlow中最大的30个机器学习数据集 ​ mp.weixin.qq.com 导读 包括图像,视频,音频,文本,非常的全。 largest tensorflow datasets for machine learning 由谷歌Brain的研究人员创建的TensorFlow是机器学习和数据科学领域最大的开源数据库之一。它是一个端到端的平台,适用于初学者和有经验的数据科学家。TensorFlow库包括工具、预训练模型、机器学习指南,以及开放数据集的语料库。为了帮助你找到所需的训练数据,本文将简要介绍一些用于机器学习的最大的TensorFlow数据集。我们已经将下面的列表分为图像、视频、音频和文本数据集。 图像数据集 1、CelebA: 最大的公开的人脸图像数据集之一,名人脸属性数据集(CelebA)包含超过20万名名人的图像。 celebrity face images dataset 每幅图像包含5个面部特征点和40个二值属性标注。 2、Downsampled Imagenet:该数据集用于密度估计和生成建模任务。它包含130多万幅物体、场景、车辆、人物等图像。这些图像有两种分辨率:32 x 32和64 x 64。 3、Lsun – Lsun是一个大型图像数据集,用于帮助训练模型理解场景

私家珍藏APP,不能不下载的录音转文字助手!

守給你的承諾、 提交于 2020-10-16 12:58:20
手机下载APP时不知道什么软件实用,今天就来帮助大家,为大家推荐私家珍藏APP,不能不下载的录音转文字助手!此款APP能够帮助你完成录音转换成文字,还可以实现实时转写功能,成为你工作的好伙伴,今天我们就来学习用这款软件来做语音翻译,看看到底该如何操作,想要学的朋友赶紧看过来,说不定哪天你也会用到哟! 下载软件:录音转文字助手 如何实现语音翻译的具体步骤如下: 在我们的手机上下载安装录音转文字助手,方法非常简单,在手机应用里搜索该软件,打开点击下载安装到手机上。现在市面上的两种手机系统都支持,所以大家不用担心。 2、安装好以后打开该软件,软件下方有几个主要功能页面,语音识别,文件库,工具和个人中心。我们点击工具选项,进入到热门推荐功能页面,看到第一个功能语音翻译。 3、点击打开语音翻译,跳转到新的界面,界面中默认是中文翻译成英文,我们可以根据自己的选择来调整,点击中文旁边的倒三角,跳转出多种语言选择,我们可以根据自己的需求来选择,比如说我们要实现德语翻译成中文。 4、我们点击倒三角选择德语,这里的显示就会从中文显示成德语,接着选择英文后面的倒三角,我们下拉到最后,点击中文,这时候我们就可以看到翻译的语言就英语变成了中文,最终设置完成后就是德语翻译成中文。 5、点击下方的德语图标,可以直接开始录音,翻译框中就会出现你刚才说的语言翻译,翻译速度非常快,使用起来很方便快捷。

Soft-Masked BERT:文本纠错与BERT的最新结合

孤街浪徒 提交于 2020-10-14 19:54:00
文本纠错 ,是自然语言处理领域检测一段文字是否存在错别字、以及将错别字纠正过来的技术,一般用于文本预处理阶段,同时能显著缓解智能客服等场景下语音识别(ASR)不准确的问题。 本文将通过以下几个章节简要介绍文本纠错相关知识。 1. 文本纠错示例与难点 2. 文本纠错常用技术 3. 如何将 BERT 应用于文本纠错 4. 文本纠错最优模型 : Soft - Masked BERT ( 2020 - ACL ) 5. 立马上手的纠错工具推荐 一.文本纠错示例与难点 生活中常见的文本错误可以分为(1)字形相似引起的错误(2)拼音相似引起的错误 两大类;如:“咳数”->“咳嗽”;“哈蜜”->“哈密”。错别字往往来自于如下的“相似字典”。 相似发音中文字典 相似字形中文字典 其他错误还包括方言、口语化、重复输入导致的错误,在ASR中较为常见。 现有的NLP技术已经能解决多数文本拼写错误。剩余的 纠错难点 主要在于,部分文本拼写错误需要 常识背景(world-knowledge) 才能识别。例如: Wrong : "我想去埃及金子塔旅游。" Right : "我想去埃及金字塔旅游。" 将其中的“金子塔”纠正为“金字塔”需要一定的背景知识。 同时,一些错误需要模型像人一样具备 一定的推理和分析能力 才能识破。例如: Wrong : "他的求胜欲很强,为了越狱在挖洞。" Right :

从2020昇腾计算产业峰会,看产业生态如何加速AI普惠

旧街凉风 提交于 2020-10-14 00:36:09
文 | 曾响铃 来源 | 科技向令说(xiangling0815) 最近,以“昇腾万里,让智能无所不及”为主题的首届昇腾计算产业峰会在上海举办,业内专家、行业先锋、生态伙伴约500多人见证两年后昇腾AI计算产业的全面落地进程。 这个峰会,距离2018年华为Ascend(昇腾)系列产品面世,整整两年时间。 两年间,华为持续投入AI战略,推动昇腾计算产业生态快速发展。 随着此次峰会上《昇腾计算产业发展白皮书》、《昇腾万里伙伴计划》的发布,昇腾计算产业的全面繁荣已经在行业共识基础上按下了启动键。而在业内引发广泛关注的这次峰会,也在AI加速落地的时代勾勒出昇腾通过产业生态的强化推动“AI普惠”的图景——这正是华为两年前发布AI战略和全栈全场景AI解决方案时的重要目标。 市场数据显示,虽然AI在某些特定领域特定场景下准确率已经超过人类,但其全行业渗透率仅有4%,在中国市场,只有10%的B2C应用涉及AI。这些数字,距离AI走向普罗大众,让每个人、每个家庭、每个组织都能享受到人工智能的价值,还有很大的距离。 这个距离,恰恰是昇腾计算产业的价值空间。 一、全栈技术体系,让昇腾计算产业生态拥有全面且灵活的技术支撑 这次昇腾峰会主要动作都聚焦在生态构建上,在谈这些生态动作之前,有必要对昇腾当下已有的技术底子做一个全面剖析。 总体来看,在昇腾生态的主要推动者华为营造下

从2020昇腾计算产业峰会,看产业生态如何加速AI普惠

独自空忆成欢 提交于 2020-10-12 16:30:30
文 | 曾响铃 来源 | 科技向令说(xiangling0815) 最近,以“昇腾万里,让智能无所不及”为主题的首届昇腾计算产业峰会在上海举办,业内专家、行业先锋、生态伙伴约500多人见证两年后昇腾AI计算产业的全面落地进程。 这个峰会,距离2018年华为Ascend(昇腾)系列产品面世,整整两年时间。 两年间,华为持续投入AI战略,推动昇腾计算产业生态快速发展。 随着此次峰会上《昇腾计算产业发展白皮书》、《昇腾万里伙伴计划》的发布,昇腾计算产业的全面繁荣已经在行业共识基础上按下了启动键。而在业内引发广泛关注的这次峰会,也在AI加速落地的时代勾勒出昇腾通过产业生态的强化推动“AI普惠”的图景——这正是华为两年前发布AI战略和全栈全场景AI解决方案时的重要目标。 市场数据显示,虽然AI在某些特定领域特定场景下准确率已经超过人类,但其全行业渗透率仅有4%,在中国市场,只有10%的B2C应用涉及AI。这些数字,距离AI走向普罗大众,让每个人、每个家庭、每个组织都能享受到人工智能的价值,还有很大的距离。 这个距离,恰恰是昇腾计算产业的价值空间。 一、全栈技术体系,让昇腾计算产业生态拥有全面且灵活的技术支撑 这次昇腾峰会主要动作都聚焦在生态构建上,在谈这些生态动作之前,有必要对昇腾当下已有的技术底子做一个全面剖析。 总体来看,在昇腾生态的主要推动者华为营造下

写给小白的云计算入门科普

寵の児 提交于 2020-10-07 07:49:19
作者 | 小枣君 来源 | 鲜枣课堂 2006年8月9日,当时的谷歌首席执行官埃里克·施密特(Eric Schmidt)在搜索引擎大会(SES San Jose 2006)上,首次提出了“云计算”(Cloud Computing)的概念。 而就在大会的5个月之前,2006年3月,电商起家的美国亚马逊公司正式推出了自家的弹性计算云(Elastic Compute Cloud,EC2)服务。 这两个标志性事件的发生,正式宣告了云计算时代的到来,也意味着互联网的发展进入了一个新的阶段。 时至今日,十四年过去了,云计算经历了质疑,也经历了狂热,逐渐被人们所接受,进入了稳步发展的阶段。 然而,作为一个高大上的名词,众人皆知的概念,至今为止,我们仍然难以对云计算给出一个准确的、通俗易懂的定义。 专业机构给出的定义,永远让人云里雾里—— 一种计算方式,能够通过Internet技术将可扩展的和弹性的IT能力作为服务交付给外部用户。(Gartner公司) 一种标准化的IT性能(服务,软件或者基础设施),以按使用付费和自助服务方式,通过Internet技术进行交付。(ForresterResearch公司) 云计算是一种模型,可以随时随地,便捷地,按需地从可配置计算资源共享池中获取所需的资源,资源可以快速供给和释放,使管理的工作量和服务提供者的介入降低至最少。(美国国家标准和技术研究院) 究其原因