replica | 易学教程

图解Elasticsearch的核心概念

阅读更多关于图解Elasticsearch的核心概念

本文讲解大纲，分8个核心概念讲解说明： NRT Cluster Node Document&Field Index Type Shard Replica Near Realtime（NRT）近实时 Elasticsearch的核心优势就是（Near Real Time NRT）近乎实时，我们称之为近实时。 NRT有两个意思，下面举例说明下：从写入索引数据到数据可以被搜索到有一个小延迟（大概1秒）；举个例子：电商平台新上架一个新商品，1秒后用户就可搜索到这个商品信息，这就是近实时。基于Elasticsearch执行搜索和分析可以达到秒级查询也举个例子说明，比如我现在想查询我在淘宝，最近一年都买过几件商品，总共花了多少钱，最贵的商品多少钱，哪个月买到东西最多，什么类型的商品买的最多这样的信息，如果淘宝说，你要等待10分钟才能出结果，你是不是很崩溃，这个延迟的时间就不是近实时，如果淘宝可以秒级别返回给你，就是近实时了。下面画一个图，解释下三个基本概念的 Cluster：集群包含多个节点，每个节点属于哪个集群是通过一个配置（集群名称，默认是elasticsearch）来决定的，对于中小型应用来说，刚开始一个集群就一个节点很正常。集群的目的为了提供高可用和海量数据的存储以及更快的跨节点查询能力。 Node：节点集群中的一个节点，节点也有一个名称（默认是随机分配的）

图解Elasticsearch的核心概念

阅读更多关于图解Elasticsearch的核心概念

Apache SolrCloud介绍及安装

阅读更多关于 Apache SolrCloud介绍及安装

SolrCloud介绍在我们应用还很渺小的时候，一台Solr服务器能完全胜任这份工作，随着我们应用慢慢长大，访问也越来越多，一台Solr服务器的弊病也逐渐显现如查询变慢了，机器宕机就无法继续提供服务，于是乎我们引入了Solr集群，通过前端负载均衡和索引Replication来分担一台机器的压力，这样既能提高查询速度，也能避免单机故障问题而且是可伸缩的解决方案，一切看起来很OK，问题也暂时解决了，但是好景不长，随着应用的发展，数据也在与日俱增，需要索引的数据也越来越多，索引文件变得越来越庞大，Replication索引变得越来越低效高成本，每个Solr实例都保存全量大索引数据的方式显然又成了系统性能和可伸缩性的瓶颈，如果能将大索引文件切分，分布在集群中不同机器中且查询的准确性和可用性又不会受到影响该是件多么美好的事情啊，于是SolrCloud出现了... SolrCloud是基于ZooKeeper和Solr的分布式解决方案，为Solr添加分布式功能，用于建立高可用，高伸缩，自动容错，分布式索引，分布式查询的Solr服务器集群；SolrCloud并非一个新的软件发布包，而是Solr4.0版本新增组件用于跟ZooKeeper配合提供分布式功能，部署时只是修改启动配置； SolrCloud安装 SolrCloud是一个分布式解决方案，安装之前需要我们评估自己应用的数据规模

简单Kibana命令(一)

阅读更多关于简单Kibana命令(一)

1 查看健康状态 GET _cat/health?v epoch timestamp cluster status node.total node.data shards 1531290005 14:20:05 elasticsearch green 1 1 2 pri relo init unassign pending_tasks 2 0 0 0 0 max_task_wait_time active_shards_percent - 100.0% status：green、yellow、red green：每个索引的primary shard和replica shard都是active的 yellow：每个索引的primary shard都是active的，但部分的replica shard不是active的 red：不是所有的索引都是primary shard都是active状态的。 2 检查分片信息查看索引的shard信息。 GET _cat/shards?v health status index uuid pri rep docs.count docs.deleted store.size pri.store.size yellow open test_index yu5HjAt0RS-qSFtrCj-emQ 5 1 0 0 1.1kb 1.1kb 3 设置磁盘限制

Add Secondary replica set in the same machine?

阅读更多关于 Add Secondary replica set in the same machine?

可以将文章内容翻译成中文,广告屏蔽插件可能会导致该功能失效(如失效，请关闭广告屏蔽插件后再试): 问题: I'm new at mongodb so this replication is kinda confusing for me. I follow the tutorial here . I have set up 2 mongod instance in my machine: localhost:27018 localhost:27019 with this command: mongod --dbpath /home/db2 --port 27019 --replSet "rs1" mongod --dbpath /data/db1 --port 27018 --replSet "rs1" When I try to connect and set up replication using this set of command mongo --port 27019 rs1:PRIMARY> rs.add("localhost:27018") It always says: { "ok" : 0, "errmsg" : "Either all host names in a replica set configuration must be localhost

import librosa in google cloud ml

阅读更多关于 import librosa in google cloud ml

可以将文章内容翻译成中文,广告屏蔽插件可能会导致该功能失效(如失效，请关闭广告屏蔽插件后再试): 问题: I am running Google cloud ML and when I try to import librosa I get the error: ImportError: No module named _tkinter, please install the python-tk package I do have the have a setup.py File, an empty __init__.py file My full output from Google Cloud is the following: INFO 2017-02-10 12:45:53 -0800 unknown_task Validating job requirements... INFO 2017-02-10 12:45:53 -0800 unknown_task Job creation request has been successfully validated. INFO 2017-02-10 12:45:53 -0800 unknown_task Job urbanSond_guyknaan_20170210_124543 is queued. INFO 2017-02

kafka概念

阅读更多关于 kafka概念

来源：《Apache Kafka 实战》胡夕 kafka: 消息引擎 + 流式处理平台kafka streams = 流式处理框架 kafka核心架构： -生产者发送消息给kafka服务器。 -消费者从kafka服务器读取消息。 -kafka服务器依托ZooKeeper集群进行服务的协调管理。 kafka的消息是用二进制方式-字节数组ByteBuffer保存，且是结构化的消息。 kafka自己设计了一套二进制的消息传输协议。最常见的两种消息引擎范型：消息队列模型和发布/订阅模型，kafka同时支持这两种消息引擎模型。 borker-kafka服务器 producer-生产者 consumer-消费者 partition-分区 replica-副本 topic-主题 publisher-发布者 subscriber-订阅者消息消息：由消息头部、key和value组成。消息头部：包括CRC32校验码、版本号、属性（一位-压缩类型）、时间戳、键长度和消息体长度等信息。 -key:消息键，对消息做partition时使用，即决定消息被保存在某topic下的哪个partition。 -value：消息体，保存实际的消息数据。 -timestamp：消息发送时间戳，用于流式处理及其他依赖时间的处理语义。如果不指定则取当前时间。 topic主题、partition分区

kafka基本原理及leader，replica，isr介绍

阅读更多关于 kafka基本原理及leader，replica，isr介绍

1、基本概念需要了解producer,consumer,groupId,broker,topic,partition,segment的概念，如下图。 2、版本名 kafka_2.10-0.8.2.jar，2.10是指Scala版本，0.8.2是指kafka版本。 3、核心功能 Producer API允许程序发布数据流到一个到多个Kafka topic。 Consumer API允许程序订阅一个到多个topic，并且进行消费。 Streams API允许程序作为一个数据流处理，将一个或多个topic中输入的数据进行消费，并生产数据流到一个或多个topics中。 Connector API，可以通过Connector管理Kafka和另一个系统之间的数据复制，比如去捕获关系型数据库中的任意改变到一个表中。 4、topic介绍 topic（不同的业务数据，分流到不同的topic进行处理） kafka对与zookeeper是强依赖的，是以zookeeper作为基础的，即使不做集群，也需要zk的支持。以下是kafka中必须要填写的配置文件，id为在zk中注册的brokerid，后者为要注册到的zookeeper的host和port。 broker.id=0 zookeeper.connect=localhost:2181 zk说白了，就是一个节点服务系统，至于用这个节点做什么，做单活

es 容错机制

阅读更多关于 es 容错机制

1、图解Elasticsearch容错机制：master选举，replica容错，数据恢复（1）9 shard，3 node （2）master node宕机，自动master选举，red （3）replica容错：新master将replica提升为primary shard，yellow （4）重启宕机node，master copy replica到该node，使用原有的shard并同步宕机后的修改，green 来源： https://www.cnblogs.com/siye1989/p/11559421.html

es 横向扩容过程，如何超出扩容极限，以及如何提升容错性

阅读更多关于 es 横向扩容过程，如何超出扩容极限，以及如何提升容错性

1、图解（1）primary&replica自动负载均衡，6个shard，3 primary，3 replica （2）每个node有更少的shard，IO/CPU/Memory资源给每个shard分配更多，每个shard性能更好（3）扩容的极限，6个shard（3 primary，3 replica），最多扩容到6台机器，每个shard可以占用单台服务器的所有资源，性能最好（4）超出扩容极限，动态修改replica数量，9个shard（3primary，6 replica），扩容到9台机器，比3台机器时，拥有3倍的读吞吐量（5）3台机器下，9个shard（3 primary，6 replica），资源更少，但是容错性更好，最多容纳2台机器宕机，6个shard只能容纳0台机器宕机（6）这里的这些知识点，你综合起来看，就是说，一方面告诉你扩容的原理，怎么扩容，怎么提升系统整体吞吐量；另一方面要考虑到系统的容错性，怎么保证提高容错性，让尽可能多的服务器宕机，保证数据不丢失来源： https://www.cnblogs.com/siye1989/p/11559287.html

订阅 replica