NLP2
本文内容为 贪心学院 NLP课程的个人总结。 大纲: 拼写错误纠正 词汇过滤 文本表示 文本相似度计算 拼写错误纠正(小案例) 拼写错误纠正 :spell correction。根据用户的错误输入产生理应正确的输出。譬如天起(输入) --> 天气(输出),theris --> theirs,机器学系 --> 机器学习等。 方法 :根据用户输入计算编辑距离。 编辑距离 编辑距离 :edit distance。编辑距离的计算是指通过插入(insert)、删除(delete)和替换(操作让词2变为词1。每个操作的成本为1。 例子 : 输入 目标 成本 therr there 1 [替换r为e] their 1 [替换r为i] thesis 3 [替换r,r为s,i,插入一个s] 编辑距离的编程实现 :计算编辑距离的编程是动态规划问题。 LeetCode:计算最小编辑距离 如何确定编辑距离最小的词? 方法1: 把词典中的所有词都循环一遍,计算与输入的编辑距离,输出编辑距离最小的词。但是时间复杂度较高,O(V),其中V是词库所有词汇的数量。 方法2 :根据用户的输入,生成编辑距离为1和2的字符串,通过 过滤 的方式来选择输出。这里过滤的意思是指计算出现 每个 编辑距离为1和2字符串的概率,选择概率最大的一个来作为输出。 如何生成编辑距离为1或者2的字符串? 编辑距离为1:通过增、删