语音识别开放平台调研以及主要技术

我与影子孤独终老i 提交于 2020-02-15 22:28:50
  语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 
  目前的语音开放平台有:百度DuerOS开放平台,阿里AliGenie语音开放平台,腾讯云小微语音开放平台,科大讯飞,思必驰的DUI,云知声等等,目前我们公司采用的是科大讯飞和阿里的语音开发平台。

  AIUI 是科大讯飞2015年推出的一套以语音为核心的人机交互解决方案,意在使人机交互中的计算机能够快速具备能听会说,能理解会思考的能力。搭载了 AIUI 的智能硬件可以轻松实现查询天气、播放音视频资源、设置闹钟以及控制智能家居等能力。AIUI 的语义理解不仅提供了基本的问答,还提供了一套开发任务型对话的解决方案,开发者可以通过在平台编写自定义技能,实现自身业务的语义理解。实现诸如商场导购、自助点菜、智能客服等功能。

  相信大家在生活中也使用过这里所说的 AIUI,就是你手机上的语音助手,你可以跟他聊天,可以用语音对话的方式,去查询今天的天气,去导航,去听新闻等等。而这一切实现的方式都是你用语言去直接询问他。不用手动去查询,这在生活上大大的提高了我们的便利。

  科大讯飞是一个已经成熟的产品了,很多技能是可以在后台自定义的,相比阿里会好很多。但是由于我们应用的调用次数已经到达了上线,导致要收费,所以我们选择了阿里的开放平台。真的有好多好多的坑。

  接下来我们开看下语音识别的主要几个技术 ASR/NLU/VAD。

  ASR 是自动语音识别技术(Automatic Speech Recognition)是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素:1. 识别词汇表的大小和语音的复杂性;2. 语音信号的质量;3. 单个说话人还是多说话人;4. 硬件。

  NLU 是自然语言理解 (Natural Language Understanding),简称NLU。 在自然语言理解之前还包含一个自然语言处理这个步骤,自然语言处理,是 (Natural Language Processing),简称 NLP。

  概括来说,NLP,除了NLU(图中红框部分),还包含理解之前的处理阶段、和理解之后的应用阶段。也就是说,NLU是NLP的子集——他们不是并集、更不是等价的概念。这里,是很多AI从业人员都容易混淆的,大家可以先记住这个概念关系:NLU是NLP的子集。

  VAD,也就是语音端点检测技术,是Voice Activity Detection的缩写。这个技术的主要任务是从带有噪声的语音中准确的定位出语音的开始和结束点,因为语音中含有很长的静音,也就是把静音和实际语音分离开来,因为是语音数据的原始处理,所以VAD是语音信号处理过程的关键技术之一。它的好坏,直接影响成败,由于技术本身的特殊性,所以在涉及语音信号处理的领域,端点检测技术的应用非常广泛。语音识别系统在识别或者声学模型训练阶段所遇到的第一个技术就是端点检测,把静音和噪声作为干扰信号从原始数据中去除,并且端点检测对于语音识别系统的性能至关重要。一个语音识别的产品这三个是技术是非常重要的。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!