我的工程实践是基于大数据问答训练的中文自然语言理解系统设计。本系统为聊天机器人,回答的问题基于医学知识问答的特定领域。
1. Collect application domain information
– focus on the functional requirements
– also consider other requirements and documents
本项目的服务场景为:
1. 在电脑上直接打开客户端进行咨询。
2. 在电脑或者手机上登录网页咨询。
3. 医院现场咨询
用户群体主要包括电脑客户端用户、手机或电脑的网页端用户以及医院终端用户。
用户想通过对自己身体不适状况的描述得到一个确切的答案,所以日常所用的搜索引擎会得到各种各样的结果,用户很难从中选取哪个是自己真正需要的。所以本系统使用深度学习模型,可以给用户一个确切的答案。
语音交互系统的重要性:很大一部分用户是老年人,有视力障碍或者不识字的情况,语音交互就可以很好的满足他们的需求。
2. Brainstorming
– listing important application domain concepts
– listing their properties/attributes
– listing their relationships to each other
Domain Concepts | Properties/Attributes | Relationships |
语音识别系统 | 语音转文字 | |
问题回答系统 | 问题为输入,对该问题的答案为输出 | 输入为语音识别系统的输出 |
语音播报系统 | 文字转语音 | 输入为问题回答系统的输出 |
3. Classifying the domain concepts
– classes
– attributes / attribute values
– relationships
(1) 语音识别系统:
属性:音频文件、语音识别后字符串
方法:麦克风调用接口()、科大讯飞语音识别接口()
(2) 问题回答系统:
属性:语音识别后字符串、模型数据、输出字符串
方法:分词()、去重()、去停用词()、转词向量()、模型预测()
(3) 语音播报系统:
属性:输出字符串、输出音频文件
方法:语音合成接口()、扬声器调用接口()
4. Document result using UML class diagram
UML图如下所示: