Elasticsearch整理笔记(一)

别来无恙 提交于 2020-09-28 00:11:46

Elasticsearch定义

  • elastic(弹性、灵活)+search(搜索)

  • Elasticsearch 是一个支持分布式、高扩展、高实时的高效搜索与数据分析引擎。

    • 支持分布式实时文件存储。
    • 支持将字段值都编入索引,使其可以被搜索。
    • 实时分析的分布式搜索引擎。
    • 可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。

  • Elasticsearch 的实现原理主要分为以下几个步骤

    • 用户将数据提交到Elasticsearch 数据库中。

    • es通过分词控制器去将对应的语句分词。(这里如需更高级的策略优化,后期可以替换分词器)。

    • 将其权重和分词结果一并存入数据库。

    • 当用户搜索数据时候,根据权重将结果排名,打分(相关度)。

    • 将返回结果呈现给用户。

  • 有关概念
    • cluster:代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。es的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看es集群,在逻辑上是个整体,你与任何一个节点的通信和与整个es集群通信是等价的。
      shards:代表索引分片,es可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定,并且索引创建后不能更改。
      replicas:代表索引副本,es可以设置多个索引的副本,副本的作用一是提高系统的容错性,当某个节点某个分片损坏或丢失时可以从副本中恢复。二是提高es的查询效率,es会自动对搜索请求进行负载均衡。
      recovery:代表数据恢复或叫数据重新分布,es在有节点加入或退出时会根据机器的负载对索引分片进行重新分配,挂掉的节点重新启动时也会进行数据恢复。
      river:代表es的一个数据源,也是其它存储方式(如:数据库)同步数据到es的一个方法。它是以插件方式存在的一个es服务,通过读取river中的数据并把它索引到es中,官方的river有couchDB的,RabbitMQ的,Twitter的,Wikipedia的。
      gateway:代表es索引快照的存储方式,es默认是先把索引存放到内存中,当内存满了时再持久化到本地硬盘。gateway对索引快照进行存储,当这个es集群关闭再重新启动时就会从gateway中读取索引备份数据。es支持多种类型的gateway,有本地文件系统(默认),分布式文件系统,Hadoop的HDFS和amazon的s3云存储服务。
      discovery.zen:代表es的自动发现节点机制,es是一个基于p2p的系统,它先通过广播寻找存在的节点,再通过多播协议来进行节点之间的通信,同时也支持点对点的交互。
      Transport:代表es内部节点或集群与客户端的交互方式,默认内部是使用tcp协议进行交互,同时它支持http协议(json格式)、thrift、servlet、memcached、zeroMQ等的传输协议(通过插件方式集成)。






  • ES重点算法

  • 倒排索引

    • 例如插入几条数据

      • _id可自定义,如果没有定义,会自动生成_id。同时,es内置还会生成一个id。
      • 灵魂拷问:_id可以作为id使用吗?

        {  

            _id:"10001",       

            school_name:"佳木斯第一中学“,

            grade:”一年级“,

            class:”二班“,

            student_name:”张三“,

        }

        {  

            _id:"10002",       

            school_name:"佳木斯第二中学“,

            grade:”一年级“,

            class:”二班“,

            student_name:”李四“,

        }

        {  

            _id:"10003",       

            school_name:"佳木斯第一中学“,

            grade:”一年级“,

            class:”三班“,

            student_name:”王五“,

        }

      • 那么理想倒排索引为:

        school_name

        {              

            "佳木斯第一中学":[1,3],

            "佳木斯第二中学":[2]

        }

        grade

        {

            "一年级":[1,2,3]

        }

        class

        {

            "二班":[1,2],

            "三班":[3]

        }

        student_name

        {

            "张三":[1],

            "李四":[2],

            "王五":[3]

        }

      • 对层级对象如何建立索引?
        • 多层级对象文档

          {

            "gb": {

              "tweet": {

                "properties": {

                  "tweet":            { "type""string" },

                  "user": {

                    "type":             "object",

                    "properties": {

                      "id":           { "type""string" },

                      "gender":       { "type""string" },

                      "age":          { "type""long"   },

                      "name":   {

                        "type":         "object",

                        "properties": {

                          "full":     { "type""string" },

                          "first":    { "type""string" },

                          "last":     { "type""string" }

                        }

                      }

                    }

                  }

                }

              }

            }

          }

          映射为:

          {

              "tweet":            [elasticsearch, flexible, very],

              "user.id":          [@johnsmith],

              "user.gender":      [male],

              "user.age":         [26],

              "user.name.full":   [john, smith],

              "user.name.first":  [john],

              "user.name.last":   [smith]

          }

      • JSON 格式的文档被处理成如下的扁平式键值对的结构。

      • 数组嵌套文档的风险 

        {

          "title""Nest eggs",

          "body":  "Making your money work...",

          "tags":  [ "cash""shares" ],

          "comments": [

            {

              "name":    "John Smith",

              "comment""Great article",

              "age":     28,

              "stars":   4,

              "date":    "2014-09-01"

            },

            {

              "name":    "Alice White",

              "comment""More like this please",

              "age":     31,

              "stars":   5,

              "date":    "2014-10-22"

            }

          ]

        }

        如下查询会被搜索出:

        GET /_search

        {

          "query": {

            "bool": {

              "must": [

                "match": { "name""Alice" }},

                "match": { "age":  28      }}

              ]

            }

          }

        }

        解决方案:嵌套对象

  • 字典树

    • Elasticsearch为了能快速找到某个term,将所有的term排个序,生成Term Index,二分法查找term,logN的查找效率。
    • 字典树介绍
    • 不需要存下所有的term,而仅仅是他们的一些前缀与Term Dictionary的block之间的映射关系,再结合FST(Finite State Transducers)的压缩技术,可以使term index缓存到内存中。从term index查到对应的term dictionary的block位置之后,再去磁盘上找term,大大减少了磁盘随机读的次数。
  • Posting List增量压缩

    • Posting list就是一个int的数组,存储了所有符合某个term的文档id。

    • [1,2,3,5,10]==>[1,1,1,2,5]
      • 通过增量,将原来的大数变成小数仅存储增量值,再通过Roaring bitmaps压缩
      • 可以高效联合索引:利用跳表(Skip list)的数据结构快速做“与”运算,或者利用bitset按位“与”
  • 相关度加权

    • 控制相关度(主要应用于多关键词搜索)

    • 当匹配到一组文档后,需要根据相关度排序这些文档,不是所有的文档都包含所有词,有些词比其他的词更重要。一个文档的相关度评分部分取决于每个查询词在文档中的权重。
    • 检索词频率
      • 检索词在该字段出现的频率?出现频率越高,相关性也越高。 字段中出现过 5 次要比只出现过 1 次的相关性高。如:检索词 honeymoon 在这个文档的 tweet 字段中的出现次数。
    • 反向文档频率
      • 每个检索词在索引中出现的频率?频率越高,相关性越低。检索词出现在多数文档中会比出现在少数文档中的权重更低。如:检索词 honeymoon 在索引上所有文档的 tweet 字段中出现的次数。
    • 字段长度准则
      • 字段的长度是多少?长度越长,相关性越低。 检索词出现在一个短的 title 要比同样的词出现在一个长的 content 字段权重更大。如:在这个文档中, tweet 字段内容的长度 -- 内容越长,值越小。
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!