开源中文分词

word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

有些话、适合烂在心里 提交于 2019-12-07 21:12:07
word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。 word分词器分词效果评估 主要评估下面7种分词算法: 正向最大匹配算法:MaximumMatching 逆向最大匹配算法:ReverseMaximumMatching 正向最小匹配算法:MinimumMatching 逆向最小匹配算法:ReverseMinimumMatching 双向最大匹配算法:BidirectionalMaximumMatching 双向最小匹配算法:BidirectionalMinimumMatching 双向最大最小匹配算法:BidirectionalMaximumMinimumMatching 所有的双向算法都使用 ngram 来消歧,分词效果评估分别评估 bigram 和 trigram 。 评估采用的测试文本有253 3709行,共2837 4490个字符, 标准文本和测试文本 一行行对应,标准文本中的词以空格分隔,评估标准为严格一致,评估核心代码如下: /** * 分词效果评估 * @param resultText 实际分词结果文件路径 * @param standardText

Java中文分词组件

前提是你 提交于 2019-11-27 09:42:43
Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词性标注、同义标注、反义标注、拼音标注等功能。同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。注意:word1.3需要JDK1.8 API在线文档: word 1.0 API word 1.1 API word 1.2 API 编译好的jar包下载(包含依赖): word 1.0 word 1.1 word 1.2 Maven依赖: 在pom.xml中指定dependency,可用版本有1.0、1.1、1.2: <dependencies> <dependency> <groupId>org.apdplat</groupId> <artifactId>word</artifactId> <version>1.2</version> </dependency> </dependencies> 分词使用方法: 1、快速体验