zhparser

使用PostgreSQL进行中文全文检索

巧了我就是萌 提交于 2020-04-20 10:02:24
前言 PostgreSQL 被称为是“最高级的开源数据库”,它的数据类型非常丰富,用它来解决一些比较偏门的需求非常适合。 前些天将 POI 点关键词查询的功能迁到了 PgSQL,总算对前文 空间索引 - 各数据库空间索引使用报告 有了一个交代。 由于 PgSQL 国内的资料较少,迁移过程踩了不少坑,这里总结记录一下,帮助后来的同学能顺利使用 PgSQL。而且目前在灰度测试刚布了一台机器,后续可能还要添加机器,整理一下流程总是好的。 文章经常被人爬,而且还不注明原地址,我在这里的更新和纠错没法同步,这里注明一下原文地址:http://www.cnblogs.com/zhenbianshu/p/7795247.html 开始 安装 首先是安装 PgSQL,这里我使用的是 PgSQL 9.6,PgSQL 10 也刚发布了,有兴趣的可以尝下鲜。 PgSQL 的安装可以说非常复杂了,除了要安装 Server 和 Client 外,还需要安装 devel 包。为了实现空间索引功能,我们还要安装最重要的 PostGIS 插件,此插件需要很多依赖,自己手动安装非常复杂而且很可能出错。 推荐自动化方式安装,Yum 一定要配合 epel 这样的 Yum 源,保障能将依赖一网打尽。当然最好的还是使用 docker 来运行,找个镜像就行了。 插件 由于 PgSQL 的很多功能都由插件实现

启用zhparser插件时一直报Permission denied

▼魔方 西西 提交于 2020-04-20 07:26:26
如下 postgres=# CREATE EXTENSION zhparser; ERROR: could not open file "/usr/pgsql-9.6/share/tsearch_data/qc_dict_postgres.txt" for writing: Permission denied CONTEXT: SQL statement "copy (select word, tf, idf, attr from zhparser.zhprs_custom_word) to '/usr/pgsql-9.6/share/tsearch_data/qc_dict_postgres.txt' encoding 'utf8'" PL/pgSQL function sync_zhprs_custom_word() line 11 at EXECUTE 解决办法 : 把权限改成postgres的用户即可 chown -R postgres:postgres /usr/pgsql-9.6/share/tsearch_data/ 再执行 CREATE EXTENSION zhparser; 成功 灵感来自于 https://blog.csdn.net/qadzhangc/article/details/88074521 来源: oschina 链接: https://my

postgres安装中文分词插件

匆匆过客 提交于 2020-02-27 02:55:38
一 安装SCWS 1. 下载 scws [root@node181 hongcq]# wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 2. 解压并安装 [root@node181 hongcq]# tar -xvf scws-1.2.3.tar.bz2 [root@node181 hongcq]# cd scws-1.2.3/ [root@node181 scws-1.2.3]# ./configure [root@node181 scws-1.2.3]# make install 3. 查看 scws 安装目录 [root@node181 scws-1.2.2]# ls /usr/local/include/scws/ charset.h crc32.h darray.h pool.h rule.h scws.h version.h xdb.h xdict.h xtree.h 二 安装 zhparser 1. 下载zhparser源码 [root@node181 hongcq]# git clone https://github.com/amutu/zhparser.git 2. 升级pg [root@node181 zhparser]# yum install postgresql95-devel 3.

一个程序员购买保险之路-1(适用于所有人)

匆匆过客 提交于 2019-12-23 23:48:50
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 程序员可以额外做的 下载搜狗医疗、保险、疾病相关的词库(<https: pinyin.sogou.com dict />) 通过抓取主流产品的条款,用 Elasticsearch 或 PostgreSQL zhparser 进行分词、分类型、分段落存储 通过自身身体病症情况,提取出自己病状与之相关的各个产品之间的差异数据,通过对比分析了解其对自身的优劣 如果可以拿到本地区医院疾病趋势,还可以结合本地人情况做特定分析等等 有兴趣的童鞋也可以按这个思路做成一个产品出来,这个思路特别适合做 DNA 检测的公司 下个礼拜再出续集,说:寿险、医疗、意外 额外信息 上周有人私信问我:Bilibili 上 Sculptor Boot 视频的背景乐叫啥,今天这篇文章的配乐就是答案:I love monday,i love everyday. 如果你认同我,认同这个程序员的思考方式,请点赞,也可以关注下我们的编程类最新作品 Sculptor Boot:项目思维化的《代码生成器》体系 TKey 以材料最全、示例最多为目标的单点登录系统(SSO) CDK8S 研发风格 全文总结 最新的互联网保险新规正在征求中,第三方平台销售保险可能会被限制,所以未来保险市场可能还会有变化。 作者以开发者、非保险相关专业角度书写本篇。以下大部分知识