问答系统历史:基于模板的问答专家系统----->基于信息检索的问答----->基于社区的问答----->基于知识库的问答(受益于维基百科等)
问答形式分类:一问一答,交互式问答,阅读理解。
现有的成果: Wolfram Alpha;答题机器人:日本的‘多达一’高考答题机器人、863:基于大数据的类人智能关键技术与系统;
评测数据集:1.QALD,知识库问答测评。QALD的测评指标:准确率、召回率和F值
2.WebQuestions(5810个问题)
3.FREE917
基于深度学习的问答方法:基于分布式表示(DL)的知识库问答;LSTM、attentionModel、memory network。
问句与答案计算相似度
传统的问答方法:符号表示;基于关键词、逻辑表达式、文本蕴含推理。
问句短语:
wh—短语:who 、when、where、what、which、why、how
wh+名词(形容词,副词):which shool ,how long
问答质量评估原则:相关度、正确度、精炼度、完备度、简单度、合理度
答案评估:正确、错误,不完全
问答系统基本组件:数据预处理,问题分析,数据匹配,查询创建,排序,结果生成与返回
答案的处理:抽取、组合、摘要、推理
基于知识图谱的问答的基本需求:支持自然语言问句查询,支持多种问题方式,准确率覆盖率高,维护代价低、查询速度快、面对大数据可扩展性好。
技术挑战:如何将问题映射到答案
基于模板的问答:TBSL架构
step1:模板生成:
步骤:获取自然语言问题的POStag信息---->基于POStag信息,语法规则表示问句---->利用domian-dependent词汇和domian-independent词汇来辅助分析问题------>最后将语义转化为一个SPARAQL模板
step2:模板匹配与实例化,实体识别与属性检测:
有了SPARAQL模板后,就要将自然语言问句与知识库的本体概念建立映射关系,对于resources和classes:实体识别常用方法:用Wordnet定义知识库中标签的同义词;计算字符串相似度(trigram,levenshtein和子串的相似度);对于property labels还要和存储在BAO模式库中的自然语言表示做比较;最高排位的实体将作为填充查询槽位的候选答案。
待续中。。。。。
来源:CSDN
作者:Ai_践行者
链接:https://blog.csdn.net/qq_41424519/article/details/82496575