word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估
word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。 word分词器分词效果评估 主要评估下面7种分词算法: 正向最大匹配算法:MaximumMatching 逆向最大匹配算法:ReverseMaximumMatching 正向最小匹配算法:MinimumMatching 逆向最小匹配算法:ReverseMinimumMatching 双向最大匹配算法:BidirectionalMaximumMatching 双向最小匹配算法:BidirectionalMinimumMatching 双向最大最小匹配算法:BidirectionalMaximumMinimumMatching 所有的双向算法都使用 ngram 来消歧,分词效果评估分别评估 bigram 和 trigram 。 评估采用的测试文本有253 3709行,共2837 4490个字符, 标准文本和测试文本 一行行对应,标准文本中的词以空格分隔,评估标准为严格一致,评估核心代码如下: /** * 分词效果评估 * @param resultText 实际分词结果文件路径 * @param standardText