2.sphinx的中文分词
Coreseek
官网地址:http://www.coreseek.cn/
使用最多的sphinx中文全文检索,它提供了为Sphinx设计的中文分词包LibMMSeg。这个项目用的词库格式与普通词库的格式不一样, 还需要转换一下格式才能转换成词库文件. 这个项目里提供了一个叫mmseg的可执行文件做词库生成, 做繁体的定制是要收费的。
sfc(sphinx-for-chinese)
google code:http://code.google.com/p/sphinx-for-chinese/
这个项目是在每个Sphinx的发行版中, 在sphinxutils.cpp中加入了一个新参数 chinese-dictionary, 在sphinx.cpp 中加入mmseg实现的分词算法, 除此外没有其他改动, 比较接近原始的sphinx程序. 它的词典是用mkdict.exe生成的, 词典就是规则的 word fq 格式, 直接用convertz转换简体至繁体, 也可以顺利生成词典. 有一个小小的缺憾是似乎不能设置复合分词, 例如”官方声明”会被作为单个词索引, 这样搜索”声明”时不会出现. 复合分词的冗余会带来磁盘消耗, 但是实际使用中还是需要有复合分词的支持。
SCWS
官网:http://www.ftphp.com/scws/
Xunsearch项目的一部分
来源:https://www.cnblogs.com/raymondjoy/archive/2012/07/30/2614643.html