基于词典

中文分词算法 之 基于词典的逆向最小匹配算法

限于喜欢 提交于 2019-12-10 07:03:43
在之前的博文中介绍了 基于词典的逆向最大匹配算法 , 比如我们切分句子: 中华人民共和国万岁万岁万万岁,使用逆向最大匹配算法的切分结果为:[中华人民共和国, 万岁, 万岁, 万万岁],可以看到,切分出来的词是很长的,粒度很粗,如果我们想要切分出很细粒度的词,该怎么办呢? 本文介绍 逆向最小匹配算法 ,该算法和 逆向最大匹配算法 相得益彰,一个强调细粒度,一个强调粗粒度。 使用 逆向最小匹配算法 ,必须 注意 的一点是: 词典中不能有单字词,词的长度至少为2! 我们看 逆向最小匹配算法 和 逆向最大匹配算法 的代码比较: 切分效果如下: 切分句子: 中华人民共和国万岁万岁万万岁 逆向最大匹配: [中华人民共和国, 万岁, 万岁, 万万岁] 逆向最小匹配: [中华, 人民, 共和国, 万岁, 万岁, 万, 万岁] 切分句子: 杨尚川是APDPlat应用级产品开发平台的作者 逆向最大匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品开发, 平台, 的, 作者] 逆向最小匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品, 开发, 平台, 的, 作者] 切分句子: 美国加州大学的科学家发现 逆向最大匹配: [美国加州大学, 的, 科学家, 发现] 逆向最小匹配: [美国, 加州, 大学, 的, 科, 学家, 发现] 代码托管于GITHUB 参考资料: 1、

中文分词算法 之 基于词典的逆向最大匹配算法

☆樱花仙子☆ 提交于 2019-12-10 06:52:22
在之前的博文中介绍了 基于词典的正向最大匹配算法 ,用了不到50行代码就实现了,然后分析了 词典查找算法 的时空复杂性,最后使用 前缀树 来实现词典查找算法,并做了3次优化。 下面我们看看 基于词典的逆向最大匹配算法 的实现,实验表明,对于汉语来说,逆向最大匹配算法比(正向)最大匹配算法更有效, 如下代码所示: public static List<String> segReverse(String text){ Stack<String> result = new Stack<>(); while(text.length()>0){ int len=MAX_LENGTH; if(text.length()<len){ len=text.length(); } //取指定的最大长度的文本去词典里面匹配 String tryWord = text.substring(text.length() - len); while(!DIC.contains(tryWord)){ //如果长度为一且在词典中未找到匹配,则按长度为一切分 if(tryWord.length()==1){ break; } //如果匹配不到,则长度减一继续匹配 tryWord=tryWord.substring(1); } result.push(tryWord); //从待分词文本中去除已经分词的文本 text

中文分词算法 之 基于词典的正向最小匹配算法

倖福魔咒の 提交于 2019-12-10 06:52:00
在之前的博文中介绍了 基于词典的正向最大匹配算法 , 比如我们切分句子: 中华人民共和国万岁万岁万万岁,使用正向最大匹配算法的切分结果为:[中华人民共和国, 万岁, 万岁, 万万岁],可以看到,切分出来的词是很长的,粒度很粗,如果我们想要切分出很细粒度的词,该怎么办呢? 本文介绍 正向最小匹配算法 ,该算法和 正向最大匹配算法 相得益彰,一个强调细粒度,一个强调粗粒度。 使用 正向最小匹配算法 ,必须 注意 的一点是: 词典中不能有单字词,词的长度至少为2! 我们看 正向最小匹配算法 和 正向最大匹配算法 的代码比较: 切分效果如下: 切分句子: 中华人民共和国万岁万岁万万岁 正向最大匹配: [中华人民共和国, 万岁, 万岁, 万万岁] 正向最小匹配: [中华, 人民, 共和, 国, 万岁, 万岁, 万万, 岁] 切分句子: 杨尚川是APDPlat应用级产品开发平台的作者 正向最大匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品开发, 平台, 的, 作者] 正向最小匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品, 开发, 平台, 的, 作者] 切分句子: 美国加州大学的科学家发现 正向最大匹配: [美国加州大学, 的, 科学家, 发现] 正向最小匹配: [美国, 加州, 大学, 的, 科学, 家, 发现] 代码托管于GITHUB 参考资料: 1、

中文分词算法 之 基于词典的正向最大匹配算法

ぃ、小莉子 提交于 2019-12-10 06:29:15
基于词典的正向最大匹配算法 ( 最长词优先匹配 ) ,算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。 算法流程图如下: Java实现代码如下: /** * 基于词典的正向最大匹配算法 * @author 杨尚川 */ public class WordSeg { private static final List<String> DIC = new ArrayList<>(); private static final int MAX_LENGTH; static{ try { System.out.println("开始初始化词典"); int max=1; int count=0; List<String> lines = Files.readAllLines(Paths.get("D:/dic.txt"), Charset.forName("utf-8")); for(String line : lines){ DIC.add(line); count++; if(line.length()>max){ max=line.length(); } } MAX_LENGTH = max; System.out.println("完成初始化词典,词数目:"+count); System.out.println("最大分词长度:"+MAX_LENGTH); }