apache madlib

【转】PostgreSQL 文本数据分析实践之

吃可爱长大的小学妹 提交于 2020-10-14 05:38:45
背景 在日常的生活中,我们可能会经常需要一些像相近、相仿、距离接近、性格接近等等类似这样的需求,对数据进行筛选。 这些需求PostgreSQL居然都支持,是不是很变态。 变态的例子 这些场景都支持索引排序和检索,否则怎么叫变态呢。 按长相相似度排序 比如最近的王宝强和马蓉的事件,估计很多人会拿宋喆的照片进行相似度的搜索,八卦八卦。 说起图像搜索,我前几天才写了一篇这样的文章,是关于在PG数据库中使用图像搜索插件的文章。 《弱水三千,只取一瓢,当图像搜索遇见PostgreSQL(Haar wavelet)》 https://yq.aliyun.com/articles/58246 按喜好重合度排序 比如收集了人群的各种喜好的数据,按喜好进行聚类,或者按喜好的重叠度进行排序,找出目标人群。 按年龄相近程度排序 这个相对简单,比如输入23岁,按接近23岁的输出即可。 例子 https://www.postgresql.org/docs/9.5/static/btree-gist.html 输出与100最接近的10条数据。 postgres= # create extension btree_gist; CREATE EXTENSION postgres =# create table test12( id int ); CREATE TABLE postgres =# insert