Elasticsearch定义
-
elastic(弹性、灵活)+search(搜索)
-
Elasticsearch 是一个支持分布式、高扩展、高实时的高效搜索与数据分析引擎。
- 支持分布式实时文件存储。
- 支持将字段值都编入索引,使其可以被搜索。
- 实时分析的分布式搜索引擎。
-
可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。
-
Elasticsearch 的实现原理主要分为以下几个步骤
-
用户将数据提交到Elasticsearch 数据库中。
-
es通过分词控制器去将对应的语句分词。(这里如需更高级的策略优化,后期可以替换分词器)。
-
将其权重和分词结果一并存入数据库。
-
当用户搜索数据时候,根据权重将结果排名,打分(相关度)。
-
将返回结果呈现给用户。
-
- 有关概念
-
cluster:代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。es的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看es集群,在逻辑上是个整体,你与任何一个节点的通信和与整个es集群通信是等价的。
shards:代表索引分片,es可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定,并且索引创建后不能更改。
replicas:代表索引副本,es可以设置多个索引的副本,副本的作用一是提高系统的容错性,当某个节点某个分片损坏或丢失时可以从副本中恢复。二是提高es的查询效率,es会自动对搜索请求进行负载均衡。
recovery:代表数据恢复或叫数据重新分布,es在有节点加入或退出时会根据机器的负载对索引分片进行重新分配,挂掉的节点重新启动时也会进行数据恢复。
river:代表es的一个数据源,也是其它存储方式(如:数据库)同步数据到es的一个方法。它是以插件方式存在的一个es服务,通过读取river中的数据并把它索引到es中,官方的river有couchDB的,RabbitMQ的,Twitter的,Wikipedia的。
gateway:代表es索引快照的存储方式,es默认是先把索引存放到内存中,当内存满了时再持久化到本地硬盘。gateway对索引快照进行存储,当这个es集群关闭再重新启动时就会从gateway中读取索引备份数据。es支持多种类型的gateway,有本地文件系统(默认),分布式文件系统,Hadoop的HDFS和amazon的s3云存储服务。
discovery.zen:代表es的自动发现节点机制,es是一个基于p2p的系统,它先通过广播寻找存在的节点,再通过多播协议来进行节点之间的通信,同时也支持点对点的交互。
Transport:代表es内部节点或集群与客户端的交互方式,默认内部是使用tcp协议进行交互,同时它支持http协议(json格式)、thrift、servlet、memcached、zeroMQ等的传输协议(通过插件方式集成)。
-
-
ES重点算法
-
倒排索引
-
例如插入几条数据
- _id可自定义,如果没有定义,会自动生成_id。同时,es内置还会生成一个id。
-
灵魂拷问:_id可以作为id使用吗?
{
_id:
"10001"
,
school_name:
"佳木斯第一中学“,
grade:”一年级“,
class:”二班“,
student_name:”张三“,
}
{
_id:"
10002
",
school_name:"
佳木斯第二中学“,
grade:”一年级“,
class:”二班“,
student_name:”李四“,
}
{
_id:
"10003"
,
school_name:"佳木斯第一中学“,
grade:”一年级“,
class:”三班“,
student_name:”王五“,
}
-
那么理想倒排索引为:
school_name
{
"佳木斯第一中学"
:[1,3],
"佳木斯第二中学"
:[2]
}
grade
{
"一年级"
:[1,2,3]
}
class
{
"二班"
:[1,2],
"三班"
:[3]
}
student_name
{
"张三"
:[1],
"李四"
:[2],
"王五"
:[3]
}
- 对层级对象如何建立索引?
-
{
"gb"
: {
"tweet"
: {
"properties"
: {
"tweet"
: {
"type"
:
"string"
},
"user"
: {
"type"
:
"object"
,
"properties"
: {
"id"
: {
"type"
:
"string"
},
"gender"
: {
"type"
:
"string"
},
"age"
: {
"type"
:
"long"
},
"name"
: {
"type"
:
"object"
,
"properties"
: {
"full"
: {
"type"
:
"string"
},
"first"
: {
"type"
:
"string"
},
"last"
: {
"type"
:
"string"
}
}
}
}
}
}
}
}
}
映射为:
{
"tweet"
: [elasticsearch, flexible, very],
"user.id"
: [
@johnsmith
],
"user.gender"
: [male],
"user.age"
: [
26
],
"user.name.full"
: [john, smith],
"user.name.first"
: [john],
"user.name.last"
: [smith]
}
-
-
JSON 格式的文档被处理成如下的扁平式键值对的结构。
-
数组嵌套文档的风险
{
"title"
:
"Nest eggs"
,
"body"
:
"Making your money work..."
,
"tags"
: [
"cash"
,
"shares"
],
"comments"
: [
{
"name"
:
"John Smith"
,
"comment"
:
"Great article"
,
"age"
:
28
,
"stars"
:
4
,
"date"
:
"2014-09-01"
},
{
"name"
:
"Alice White"
,
"comment"
:
"More like this please"
,
"age"
:
31
,
"stars"
:
5
,
"date"
:
"2014-10-22"
}
]
}
如下查询会被搜索出:
GET /_search
{
"query"
: {
"bool"
: {
"must"
: [
{
"match"
: {
"name"
:
"Alice"
}},
{
"match"
: {
"age"
:
28
}}
]
}
}
}
解决方案:嵌套对象
-
-
字典树
- Elasticsearch为了能快速找到某个term,将所有的term排个序,生成Term Index,二分法查找term,logN的查找效率。
- 字典树介绍
- 不需要存下所有的term,而仅仅是他们的一些前缀与Term Dictionary的block之间的映射关系,再结合FST(Finite State Transducers)的压缩技术,可以使term index缓存到内存中。从term index查到对应的term dictionary的block位置之后,再去磁盘上找term,大大减少了磁盘随机读的次数。
-
Posting List增量压缩
-
Posting list就是一个int的数组,存储了所有符合某个term的文档id。
- [1,2,3,5,10]==>[1,1,1,2,5]
- 通过增量,将原来的大数变成小数仅存储增量值,再通过Roaring bitmaps压缩
- 可以高效联合索引:利用跳表(Skip list)的数据结构快速做“与”运算,或者利用bitset按位“与”
-
-
相关度加权
-
控制相关度(主要应用于多关键词搜索)
- 当匹配到一组文档后,需要根据相关度排序这些文档,不是所有的文档都包含所有词,有些词比其他的词更重要。一个文档的相关度评分部分取决于每个查询词在文档中的权重。
- 检索词频率
- 检索词在该字段出现的频率?出现频率越高,相关性也越高。 字段中出现过 5 次要比只出现过 1 次的相关性高。如:检索词 honeymoon 在这个文档的 tweet 字段中的出现次数。
- 反向文档频率
- 每个检索词在索引中出现的频率?频率越高,相关性越低。检索词出现在多数文档中会比出现在少数文档中的权重更低。如:检索词 honeymoon 在索引上所有文档的 tweet 字段中出现的次数。
- 字段长度准则
- 字段的长度是多少?长度越长,相关性越低。 检索词出现在一个短的 title 要比同样的词出现在一个长的 content 字段权重更大。如:在这个文档中, tweet 字段内容的长度 -- 内容越长,值越小。
-
来源:oschina
链接:https://my.oschina.net/u/4300166/blog/4572363