[参考Coreseek 全文检索服务器 2.0 (Sphinx 0.9.8)参考手册,详情见http://www.coreseek.cn/docs/sphinx_doc_zhcn_0.9.pdf]
1.1 什么是Sphinx
Sphinx 是 SQL Phrase Index 的缩写,但不幸的和 CMU 的 Sphinx 项目重名。Coreseek 全文检索服务器 2.0 是在 Sphinx 基础上开发的全文检索软件,按照 GPLv2 协议发行
1.2 特称:
(1)高速的建立索引(在当代 CPU 上,峰值性能可达到 10 MB/秒);
(2)高性能的搜索(在 2 – 4GB 的文本数据上,平均每次检索响应时间小于 0.1 秒);
(3)可处理海量数据(目前已知可以处理超过 100 GB 的文本数据, 在单一 CPU 的系统上可处理 100 M 文档);
(4)提供了优秀的相关度算法,基于短语相似度和统计(BM25)的复合 Ranking 方法;
(5)支持分布式搜索;
(6)provides document exceprts generation;
(7)可作为 MySQL 的存储引擎提供搜索服务;
(8)支持布尔、短语、词语相似度等多种检索模式;
(9)文档支持多个全文检索字段(最大不超过 32 个);
(10)文档支持多个额外的属性信息(例如:分组信息,时间戳等);
(11)停止词查询;
(12)支持单一字节编码和 UTF-8 编码;
(13)原生的 MySQL 支持(同时支持 MyISAM 和 InnoDB );
(14)原生的 PostgreSQL 支持.
1.3 如何获得 Sphinx
Sphinx 可以从官方网站 http://www.sphinxsearch.com/ 下载,支持中文分词的 Sphinx 可以从http://www.coreseek.com/ 下载。
目前,Sphinx 的发布包包括如下软件:
(1)indexer: 用于创建全文索引;
(2)search: 一个简单的命令行(CLI) 的测试程序,用于测试全文索引;
(3)searchd: 一个守护进程,其他软件可以通过这个守护进程进行全文检索;
(4)sphinxapi: 一系列 searchd 的客户端 API 库,用于流行的 Web 脚本开发语言(PHP,Python,Perl,Ruby)。
来源:oschina
链接:https://my.oschina.net/u/815299/blog/109568