我的工程实践项目是实现一个多轮对话机器人。其中该机器人可在封闭领域应用,随项目进度而言,也可以考虑做开放领域的机器人
业务描述:“封闭领域”指的是对话机器人在与用户对话的过程中,仅围绕特定主题展开,相对于开放领域而言实现难度会小一些。
“开放领域”指对话机器人可以在开放的语境中进行对话,不限主题。
在自然语言处理领域,这是一项生成式任务。
Collect application domain information:
工程实践题目为生成式聊天机器人,目标为基于现在的深度学习模型构建生成式模型。
目前在市场上,该类产品的应用极其有限,最成功的案例是微软团队的小冰,但即使是该团队在相关方向上的研究也没能让小冰达到接近人类交流的基本水准。
该工程实践希望在语料库内容相对开放的程度上尽可能使模型关联上下文产生良好回复。
Brainstorming:
该系统的核心组成包括语料库,预处理模型,网络模型,网络训练及对话生成部分。
这几部分是顺序链接的关系。
最终的成品仅包含对话生成部分或视部署的服务端而定,也将包括模型。
Classifying the domain concepts into:
最主要的类是网络模型,其中包含各种序列模型的模块(RNN,LSTM,GRU,TRANSFORMER...)
其余类可能包括:训练批的获取类,预测结果评估类等
其中,视模型具体指标可能需要重新进行预训练参数的fine-tune
Document result using UML class diagram: