摘要:波士顿动力的机器狗,想要么?快来跟我一起动手制作吧。
波士顿动力的机器狗了解吗?
一个会后空翻、会开门、会爬楼梯的AI。
最近,我们实验室就来了一批mini版的机器狗,虽然不会各种高难度杂技动作,但在我们各种捣鼓下,现在特别“能说会道”。
目标:一只具备语音交互的机器狗
当前,采用API访问云端实现诸如语音识别、语音合成模块功能,逐渐可以简化或者取代一些复杂的本地资源部署,快速实现相应的功能。
但对于一些语音交互科研机器人,语音服务经常面临本地部署设备数目少、部署成本高、维护麻烦等问题。寻求低成本、部署方便、语音合成迅速的语音交互服务模块,成为设计语音交互机器人的关键瓶颈。
这次,我们对机器狗科研Demo样机搭载语音识别ASR、自然语言处理NLP、语音合成TTS服务,从而实现准确快速的语音识别、多音色富有情感的语音合成、语音运动控制、智能提醒等功能。
针对上述要求,我们选用了华为云的语音识别ASR、语音合成TTS以及自然语言处理NLP产品。具体实验改造过程其实很简单,分为三步:
- 在本地设备部署语音唤醒服务,设备语音唤醒后,将录音片段通过华为云的语音识别接口传至华为云进行语音识别处理。
- 将华为云返回的语音识别文字信息在本地进行自然语言处理,或运用华为云的自然语言处理模块进行自然语言处理得到相应的语义、控制指令信息。
- 将需要语音合成的文字通过华为云的语音合成接口传至华为云,得到相应的音频信息。
图:业务架构图/方案截图:
诞生!一只可对话的机器狗
最终,通过华为云的语音识别相关产品,这只机器狗既能听懂人话,还能和大家交流,具体可以实现以下几个场景的语音交互。
控制指令识别:通过语音识别服务,在本地通过正则匹配,数据库对比等操作,得到语音信息中的控制指令信息,用于机器人的语音控制。
对话语音的语音转写:运用语音识别服务,获取语音信息中相应的文字信息,用于自然语言处理模块的文本输入,或者对话机器人API的输入。
自然语言处理:通过华为云的自然语言处理服务,得到相应的回复语言,用于智能对话、智能提醒等功能。
语音合成功能:运用华为云的语音合成服务实现对答文本的语音合成服务。
虽然身形没有波士顿动力的机器狗灵巧,但是在语音对话方面,这只机器狗或许要略胜一筹。
体验下来,华为云的语音识别类产品还是相当不错的。
首先它简化了语音交互模块的配置,学生可以轻松通过API调用的方式实现语音识别、语音合成等服务,简单便捷。
其次,提升了语音交互的质量。得益于华为云低延时高速的特性,在线服务可以与本地服务媲美,语音识别准确率很高,同时语音合成提供了多种语音交互音色供开发者使用。遗憾的是,当前对长语音的识别速度需要进一步优化,而且语音合成可以考虑中英语音的合成,提升中英语音合成的情感度,衔接的自然度。
现在,华为云的语音识别产品正在优惠中,1元就能体验语音语义服务,一分钱不花也可以享受一天的智能对话机器人,算下来,至少能省几大百,喜欢DIY机器人的赶紧上车。
来源:oschina
链接:https://my.oschina.net/u/4526289/blog/4517409