结巴分词原理介绍
转自一个很不错的博客,结合自己的理解,记录一下。作者:zhbzz2007 出处: http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢! https://www.cnblogs.com/zhbzz2007/p/6076246.html?utm_source=itdadao&utm_medium=referral 结巴分词的原理,结合一个面试题:有一个词典,词典里面有每个词对应的权重,有一句话,用这个词典进行分词,要求分完之后的每个词都必须在这个词典中出现过,目标是让这句话的权重最大。 涉及算法: 基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),采用动态规划查找最大概率路径,找出基于词频的最大切分组合; 对于未登录词,采用了基于汉字成词能力的 HMM模型,采用Viterbi算法进行计算; 基于Viterbi算法的词性标注; 分别基于tfidf和textrank模型抽取关键词; 基于前缀词典及动态规划实现分词 http://www.cnblogs.com/zhbzz2007/p/6084196.html jieba分词主要是基于统计词典,构造一个前缀词典;然后利用前缀词典对输入句子进行切分,得到所有的切分可能,根据切分位置,构造一个有向无环图;通过动态规划算法,计算得到最大概率路径