1:收集应用领域信息
博主的工程实践题目为生成式的开放域聊天机器人,其目标是基于深度学习及相关延伸技术来尽可能达成可以创造性生成具有上下文联系的随机回复。目前在市场上的应用极其有限,最成功的实例是微软小冰团队的研究成果,但事实上即使是该团队在相关方向上的研究也很难达到接近人类交流的基本水准。所以博主所研究的开放域,只是希望在语料库内容相对开放的程度上尽可能尝试实现具有上下文关联的对话生成。
2: 头脑风暴
该系统的核心组成包括语料库(数据)预处理,模型构建,网络训练及对话生成部分。这几部分之间是顺序链接关系,且最终的成品仅包含对话生成部分或也包含模型部分。
3:分类
最重要的类为训练模型,可能是基础的Seq2seq,transformer,Elmo等等基础模型及其变体,其他部分也可以根据需要建立为类也可以以函数模块的形式存在。
4:UML类图