中文分词算法 之 基于词典的正向最小匹配算法
在之前的博文中介绍了 基于词典的正向最大匹配算法 , 比如我们切分句子: 中华人民共和国万岁万岁万万岁,使用正向最大匹配算法的切分结果为:[中华人民共和国, 万岁, 万岁, 万万岁],可以看到,切分出来的词是很长的,粒度很粗,如果我们想要切分出很细粒度的词,该怎么办呢? 本文介绍 正向最小匹配算法 ,该算法和 正向最大匹配算法 相得益彰,一个强调细粒度,一个强调粗粒度。 使用 正向最小匹配算法 ,必须 注意 的一点是: 词典中不能有单字词,词的长度至少为2! 我们看 正向最小匹配算法 和 正向最大匹配算法 的代码比较: 切分效果如下: 切分句子: 中华人民共和国万岁万岁万万岁 正向最大匹配: [中华人民共和国, 万岁, 万岁, 万万岁] 正向最小匹配: [中华, 人民, 共和, 国, 万岁, 万岁, 万万, 岁] 切分句子: 杨尚川是APDPlat应用级产品开发平台的作者 正向最大匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品开发, 平台, 的, 作者] 正向最小匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品, 开发, 平台, 的, 作者] 切分句子: 美国加州大学的科学家发现 正向最大匹配: [美国加州大学, 的, 科学家, 发现] 正向最小匹配: [美国, 加州, 大学, 的, 科学, 家, 发现] 代码托管于GITHUB 参考资料: 1、