全文索引Sphinx和sphinx的中文分词(二)

China☆狼群 提交于 2020-01-27 07:57:03

2.sphinx的中文分词

Coreseek

官网地址:http://www.coreseek.cn/

使用最多的sphinx中文全文检索,它提供了为Sphinx设计的中文分词包LibMMSeg。这个项目用的词库格式与普通词库的格式不一样, 还需要转换一下格式才能转换成词库文件. 这个项目里提供了一个叫mmseg的可执行文件做词库生成,  做繁体的定制是要收费的。

sfc(sphinx-for-chinese)

google code:http://code.google.com/p/sphinx-for-chinese/

 

 

这个项目是在每个Sphinx的发行版中, 在sphinxutils.cpp中加入了一个新参数 chinese-dictionary, 在sphinx.cpp 中加入mmseg实现的分词算法, 除此外没有其他改动, 比较接近原始的sphinx程序. 它的词典是用mkdict.exe生成的, 词典就是规则的 word fq 格式, 直接用convertz转换简体至繁体, 也可以顺利生成词典. 有一个小小的缺憾是似乎不能设置复合分词, 例如”官方声明”会被作为单个词索引, 这样搜索”声明”时不会出现. 复合分词的冗余会带来磁盘消耗, 但是实际使用中还是需要有复合分词的支持。

SCWS

官网:http://www.ftphp.com/scws/

Xunsearch项目的一部分

 

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!