目前的中文检索查询方案
基于数据库的模糊匹配(运行时字符串查找,查询速度比较慢)
专有的全文检索引擎(sphinx, lucene等)
我曾经遇到一个项目,数据量在百万级别,不需要高级的全文检索方式(没有复杂的匹配需求,没有复杂的过滤条件),只是需要根据关键词检索数据,当时采用的 mysql 全文检索插件的方式来满足的项目需求。
Mysql 的中文全文检索插件开发
Mysql 的 MyISAM 引擎支持第三方的全文检索插件,可以用第三方插件替换默认的全文检索插件。
在全文检索插件中提供中文分词算法,告诉MyISAM如何分词,并创建索引。
查询的时候通过插件分词,查询索引快速定位数据记录。
插件开发的具体方法
主要通过代码注释描述插件的开发方法,创建文件 tft.c,代码如下
#include <stdlib.h>
#include <ctype.h>
// mysql 插件必须包含的头文件
#include <mysql/plugin.h>
// 这是我自己写的一个分词库,没有什么优化,可以替换为其他开源的实现。
#include <st_darts.h>
#include <st_utils.h>
#if !defined(__attribute__) && (defined(__cplusplus) \
|| !defined(__GNUC__) || __GNUC__ == 2 && __GNUC_MINOR__ < 8)
#define __attribute__(A)
#endif
// 进行插件内部状态统计的变量
static long number_of_calls= 0; /* 统计调用的次数 */
/* tft 接口: 插件的初始化,卸载函数:
- tft_plugin_init()
- tft_plugin_deinit()
解析接口:
- tft_parse()
- tft_init()
- tft_deinit()
*/
// 我开发的分词库依赖的词库
static char* g_s_dictFile="/home/dev/work/ppr/tft/dict_chs.dic";
// 分词库的 handler
static st_darts* g_s_pDarts = NULL;
/* 插件被加载时的初始化函数
返回值
0 成功
1 失败
*/
static int tft_plugin_init(void *arg __attribute__((unused))){
// 分词器的初始化代码
g_s_pDarts = stDartsLoad(g_s_dictFile);
stLog("load tft plugin succ.");
return(0);
}
/* 插件被卸载时的资源释放函数
返回值
0 成功
1 失败
*/
static int tft_plugin_deinit(void *arg __attribute__((unused))){
// 卸载分词器
stDartsFree(g_s_pDarts);
stLog("free tft plugin succ.");
return(0);
}
/* 查询开始时运行的代码,目前不需要特殊处理 */
static int tft_init(MYSQL_FTPARSER_PARAM *param __attribute__((unused))){
return(0);
}
/* 查询结束时运行的代码,目前不需要特殊处理 */
static int tft_deinit(MYSQL_FTPARSER_PARAM *param __attribute__((unused))){
return(0);
}
/* 返回一个提取的词给 server
参数:
param 插件的解析环境
word 词
len 词长度
描述:
如果传递了 boolean 模式,则为这个词填充 boolean 元数据。
创建索引的时候调用这个函数添加索引词,查询的时候调用这个函数添加查询词
*/
static void add_word(MYSQL_FTPARSER_PARAM *param, char *word, size_t len){
// boolean 查询模式
MYSQL_FTPARSER_BOOLEAN_INFO bool_info=
{ FT_TOKEN_WORD, 0, 0, 0, 0, ' ', 0 };
if (param->mode == MYSQL_FTPARSER_FULL_BOOLEAN_INFO){
bool_info.yesno = 1;
}
// 传递词给 mysql,用来创建索引,或者查询。
param->mysql_add_word(param, word, len, &bool_info);
}
/* 英文分词简单处理,用空格分隔
param 插件环境
描述: 解析英文的文档或者查询词,传递给 mysql 的索引引擎,用来创建索引,或者进行查询。
*/
static int tft_parse_en(MYSQL_FTPARSER_PARAM *param){
char *end, *start, *docend= param->doc + param->length;
number_of_calls++;
for (end= start= param->doc;; end++)
{
if (end == docend)
{
if (end > start)
add_word(param, start, end - start);
break;
}
else if (isspace(*end))
{
if (end > start)
add_word(param, start, end - start);
start= end + 1;
}
}
return 0;
}
/* 分词函数,对文档或者查询词进行分词。如果是全英文文档,则调用英文分词。*/
#define c_uWordsCount 1024
static int tft_parse(MYSQL_FTPARSER_PARAM *param){
if (NULL == param->doc || 0 == param->length){
return 0;
}
// 统计调用次数
number_of_calls++;
st_timer stTimerType = ST_TIMER_MICRO_SEC;
char* start = param->doc;
char* docend = param->doc + param->length;
// 初始化分词 handler
struct st_wordInfo wordInfo[c_uWordsCount] = { { 0, 0, 0 } };
st_darts_state dState;
stDartsStateInit(g_s_pDarts, &dState, start, docend);
uint32_t uWordsCount = 0;
long long queryBeginTime = stTimer(stTimerType);
// 循环获取中文分词
while(uWordsCount < c_uWordsCount
&& stDartsNextWord(g_s_pDarts, &dState, &wordInfo[uWordsCount])){
++uWordsCount;
}
long long queryEndTime = stTimer(stTimerType);
stLog("result=%u, cost time=%lldus", uWordsCount, queryEndTime - queryBeginTime);
// 检测是否是英文
if(uWordsCount == 0){
tft_parse_en(param);
}
// 传递分词给 mysql ,用来创建索引,或者执行查询
for (int i = 0; i < uWordsCount; ++i){
add_word(param, wordInfo[i].pWord, wordInfo[i].wordLen);
}
return(0);
}
/* 插件的接口声明*/
static struct st_mysql_ftparser tft_descriptor={
MYSQL_FTPARSER_INTERFACE_VERSION, /* interface version */
tft_parse, /* 解析函数 */
tft_init, /* 初始函数 */
tft_deinit /* 清理函数 */
};
/* 插件的状态变量声明*/
static struct st_mysql_show_var tft_status[]={
{"static", (char *)"just a static text", SHOW_CHAR},
{"called", (char *)&number_of_calls, SHOW_LONG},
{0,0,0}
};
/* 插件定义*/
mysql_declare_plugin(tft){
MYSQL_FTPARSER_PLUGIN, /* 类型 */
&tft_descriptor, /* 接口声明 */
"tft", /* 插件名称 */
"t Corp", /* 作者 */
"t Full-Text Parser", /* 描述 */
PLUGIN_LICENSE_GPL,
tft_plugin_init, /* 加载函数 */
tft_plugin_deinit,/* 卸载函数 */
0x0100, /* 版本 */
tft_status, /* 状态变量 */
NULL,
NULL,
0,
}
mysql_declare_plugin_end;
开发要点
选择一个高效的分词库
了解mysql插件的几个内部数据结构
struct st_mysql_ftparser_param 结构是环境参数, 包含了需要解析数据的具体信息,需要了解内容,但一般不需要修改。
typedef struct st_mysql_ftparser_param{
int (*mysql_parse)(struct st_mysql_ftparser_param *,
char *doc, int doc_len);
int (*mysql_add_word)(struct st_mysql_ftparser_param *,
char *word, int word_len,
MYSQL_FTPARSER_BOOLEAN_INFO *boolean_info);
void *ftparser_state;
void *mysql_ftparam;
struct charset_info_st *cs;
char *doc; // 传入的需要分词的字符串
int length; // 字符串的长度
int flags;
enum enum_ftparser_mode mode;
} MYSQL_FTPARSER_PARAM;
安装全文检索插件
# 安装插件
mysql> INSTALL PLUGIN tft SONAME 'mypluglib.so';
# 卸载插件
mysql> UNINSTALL PLUGIN tft
# 查看当前已经安装的插件
mysql> show plugins;
# 查看插件变量状态
mysql> SHOW STATUS LIKE 'tft%';
+----------------------+--------------------+
| Variable_name | Value |
+----------------------+--------------------+
| tft_static | just a static text |
| tft_called | 0 |
+----------------------+--------------------+
使用插件
# 创建表
mysql> CREATE TABLE t (c VARCHAR(255),
-> FULLTEXT (c) WITH PARSER tft
-> ) ENGINE=MyISAM;
Query OK, 0 rows affected (0.01 sec)
# 插入数据
mysql> INSERT INTO t VALUES
-> ('这是一个简单测试'),
-> ('上海 广州 北京'),
-> ('泰山 黄山 嵩山');
Query OK, 3 rows affected (0.02 sec)Records: 3 Duplicates: 0 Warnings: 0
# 查询
mysql> SELECT MATCH(c) AGAINST('上海') FROM t;
原文链接:zg手册 之 Mysql 开发(1)-- 中文全文检索插件开发
来源:oschina
链接:https://my.oschina.net/u/1579041/blog/271685