kafka命令

kafka学习之路(一)docker安装kafka

北城余情 提交于 2020-01-13 18:14:48
kafka依赖于zookeeper,所以安装kafka需要对应的安装zookeeper 这里采用wurstmeister/kafka和wurstmeister/zookeeper这两个镜像。 (1)下拉镜像: docker pull wurstmeister/zookeeper docker pull wurstmeister/kafka (2)基本的启动命令 启动zookeeper容器 docker run -d --name zookeeper -p 2181:2181 -t wurstmeister/zookeeper 启动kafka容器 docker run -d --name kafka --publish 9092:9092 --link zookeeper --env KAFKA_ZOOKEEPER_CONNECT=zookeeper:2181 --env KAFKA_ADVERTISED_HOST_NAME=192.168.0.129 --env KAFKA_ADVERTISED_PORT=9092 --volume /etc/localtime:/etc/localtime wurstmeister/kafka:latest 192.168.0.129 改为宿主机器的IP地址,如果不这么设置,可能会导致在别的机器上访问不到kafka。 (3) 验证 运行

kafka修改topic副本数

烈酒焚心 提交于 2020-01-13 12:05:25
工作案例: 大数据开发用系统脚本自动在kafka建topic,检查后才发现副本数只有1个,存在数据丢失的风险。需要立刻把副本数改为3个。 开始干活,首先想到的是下面的命令: ${BIN_PATH}/kafka-topics.sh --zookeeper ${ZOOKEEPER_ADDR} --topic $1 --partitions $2 --alter ${BIN_PATH}/kafka-topics.sh --zookeeper ${ZOOKEEPER_ADDR} --topic $1 --replication-factor $2 --alter 运行时修改partition成功,修改副本数失败,错误如下: :2181 --topic test --replication-factor 2 --alter Option "[replication-factor]" can't be used with option "[alter]" 马上度娘,有很多方法都是用json文件的方式修改,试验了下都不成功,直接去官网查权威 https://kafka.apache.org/21/documentation.html#basic_ops_increase_replication_factor 思路没错,原来是网上的json文件写不对。解决方法: 1/ 建一个测试topic

window环境搭建zookeeper,kafka集群

柔情痞子 提交于 2020-01-12 11:24:50
为了演示集群的效果,这里准备一台虚拟机(window 7),在虚拟机中搭建了单IP多节点的zookeeper集群(多IP节点的也是同理的),并且在本机(win 7)和虚拟机中都安装了kafka。 前期准备说明: 1.三台zookeeper服务器,本机安装一个作为server1,虚拟机安装两个(单IP) 2.三台kafka服务器,本机安装一个作为server1,虚拟机安装两个。 备注 :当然你可以直接在虚拟机上安装三个服务器分别为server1、server2、server3 。 虚拟机和本机网络环境 1.将虚拟机的网络模式调整为桥接模式,将虚拟机的防火墙功能关闭; 2.将主机的防火墙也关闭。 3.互相ping,测试是否能正常连接.。 下载kafka 从Kafka官网 http://kafka.apache.org/downloads 下载Kafka安装包。(要下载Binary downloads这个类型,不要下载源文件,方便使用) 下载zookeeper 从zookeeper官网 http://zookeeper.apache.org/releases.html 下载zookeeper安装包。 下载JDK 从官网 http://www.java.com/download/ 下载(建议下载Oracle官方发布的Java),,配置环境变量。 zookeeper集群环境搭建 本机配置

flink消费kafka的数据

风格不统一 提交于 2020-01-10 17:03:02
一、启动Kafka集群和flink集群 环境变量配置(注:kafka 3台都需要设置,flink仅master设置就好) [root@master ~]# vim /etc/profile 配置完执行命令: [root@master ~]# source /etc/profile 2.创建执行文件,添加启动服务 [root@master ~] # vim start_kafka.sh 添加(注: 3 台都需要设置): zookeeper-server-start.sh -daemon $KAFKA_HOME/config/zookeeper.properties & kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties & [root@master ~] # vim start_flink .sh 添加(仅 master 创建即可): start-cluster .sh 3.分别启动kafka集群 由于kafka集群依赖于zookeeper集群,所以kafka提供了通过kafka去启动zookeeper集群的功能 [root@master ~]# ./start_kafka.sh 4.master启动flink集群 [root@master ~]# ./start_flink.sh 5.验证

kafka完全删除topic

[亡魂溺海] 提交于 2020-01-08 11:57:48
第一步:查看 kafka/config/server.properties 文件 delete.topic.enable=true #这一项必须为true 再查看 #这一项如果为false,就可以直接进行下面的操作 #如果为true,则必须将生产者停了,再进行下面的操作 auto.create.topics.enable = false 第二步: 进入到kafka的安装目录下 #查看topic是否存在 ./bin/kafka-topics.sh --list --zookeeper 【zookeeper server:port】|grep 【topic名称】 #删除topic ./bin/kafka-topics --delete --zookeeper 【zookeeper server:port】 --topic 【topic name】 #再次查看topic ./bin/kafka-topics.sh --list --zookeeper 【zookeeper server:port】|grep 【topic名称】 此时会看到 topic-marked for deletion 的情况 第三步: 进入到zookeeper的安装目录: $ cd bin/ #启动zzookeeper的客户端 $ ./zkCli.sh (1) 找到topic所在的目录:ls /brokers

kafka 消息队列

允我心安 提交于 2020-01-01 17:22:54
kafka是使用Java和Scala编写的一个快速可扩展的高吞吐量的分布式消息队列系统。 kafka将数据持久化存储到磁盘上,自带分区和副本机制,因而具有较好的持久化保证。 但是kafka的消息消费没有确认机制,可能因为consumer崩溃导致消息没有完成处理。因此不建议将kafka用于一致性较高的业务场景,kafka经常被用做日志收集和数据仓库之间的缓存。 比如将网站的浏览日志缓存到kafka,然后从kafka中取出批量写入ElasticSearch, Hive或者HBase等数据仓库中。这样做可以极大的减轻离线分析系统的负载。 架构简介 kafka架构中有下列角色参与: broker: kafka 集群中的服务器实例称为broker producer: 向broker发送消息的客户端 consumer: 向从borker中读取消息的客户端 zookeeper: 存储集群状态的注册中心,不处理具体消息。在负载均衡和集群扩展等功能中有重要作用。 接下来介绍kafka的逻辑模型: message: 消息是kafka通信的基本单元 topic: topic 在逻辑结构上类似于队列, 每条消息都属于一个 topic。 consumer group: 每个group中可以包含若干 consumer 实例,每个topic可以被多个consumer group 订阅。 消费者组拥有唯一的

【Kafka】Kafka集群搭建

纵然是瞬间 提交于 2020-01-01 14:28:14
一、准备工作 服务器:最好是多台,大于等于2 已经搭建好的zookeeper集群 下载软件kafka_2.11-0.10.0.1.tgz 二、创建目录 #创建目录 cd /opt/ mkdir kafka #创建项目目录 cd kafka mkdir kafkalogs #创建kafka消息目录,主要存放kafka消息 #解压软件 tar -zxvf kafka_2.11-0.10.0.1.tgz 三、修改配置文件 进入到config目录 cd /opt/kafka/kafka_2.11-0.10.0.1/config/ 主要关注: server.properties 这个文件即可,我们可以发现在目录下: 有很多文件,这里可以发现有Zookeeper文件,我们可以根据Kafka内带的zk集群来启动,但是建议使用独立的zk集群。 connect-console-sink.properties log4j.properties connect-console-source.properties producer.properties connect-distributed.properties server.properties connect-file-sink.properties server1.properties connect-file-source.properties

Kafka安装和常用操作命令

余生长醉 提交于 2019-12-27 11:01:22
Kafka安装: 下载kafka_2.10-0.8.2.1 1.关闭防火墙 2.修改配置文件 server.properties broker.id=1 log.dirs= /usr/kafka_2.10-0.8.2.1/data //最后不要写log zookeeper.connect=master:2181,slave01:2181,slave02:2181 delete.topic.enable = true //删除话题的时候需要设置其为true num.partitions=3//建议默认3个分区,如果AIP里面你的分区数大于系统规定的则抛出异常 //分发给其他两台服务器,每台机器的broker.id必须唯一 3.配置环境变量 常用操作命令: //启动。指定启动的配置文件, 输出到run_data目录, 2>&1所有正确错误的都输出, &后台运行 kafka-server-start.sh $KAFKA_HOME/config/server.properties >>$KAFKA_HOME/run_data 2>&1 & //创建话题 指定zookeeper集群中任意一个主机都可以 kafka-topics.sh --create --zookeeper master:2181 --replication-factor 3 --partitions 1 --topic

Kafka简介

落爺英雄遲暮 提交于 2019-12-27 01:44:58
发 布 & 订阅 处 理 存 储 数据流,如消息传递系统 高效并实时 数据流安全地在分布式集群中复制存储 kafka是用于构建实时数据管道和流应用程序。具有横向扩展,容错,wicked fast(变态快)等优点,并已在成千上万家公司运行。 简单说明什么是kafka Apache kafka是消息中间件的一种,我发现很多人不知道消息中间件是什么,在开始学习之前,我这边就先简单的解释一下什么是消息中间件,只是粗略的讲解,目前kafka已经可以做 更多 的事情。 举个例子,生产者消费者,生产者生产鸡蛋,消费者消费鸡蛋,生产者生产一个鸡蛋,消费者就消费一个鸡蛋,假设消费者消费鸡蛋的时候噎住了(系统宕机了),生产者还在生产鸡蛋,那新生产的鸡蛋就丢失了。再比如生产者很强劲(大交易量的情况),生产者1秒钟生产100个鸡蛋,消费者1秒钟只能吃50个鸡蛋,那要不了一会,消费者就吃不消了(消息堵塞,最终导致系统超时),消费者拒绝再吃了,”鸡蛋“又丢失了,这个时候我们放个篮子在它们中间,生产出来的鸡蛋都放到篮子里,消费者去篮子里拿鸡蛋,这样鸡蛋就不会丢失了,都在篮子里,而这个篮子就是”kafka“。 鸡蛋其实就是“数据流”,系统之间的交互都是通过“数据流”来传输的(就是tcp、https什么的),也称为报文,也叫“消息”。 消息队列满了,其实就是篮子满了,”鸡蛋“ 放不下了,那赶紧多放几个篮子

Kafka 之 入门

情到浓时终转凉″ 提交于 2019-12-26 23:16:37
摘要: 最近研究采集层,对Kafka做了一个研究。分为入门,中级,高级步步进阶。本篇主要介绍基本概念,适用场景。 一、 入门 1. 简介 Kafka is a distributed, partitioned, replicated commit log service 。它提供了类似于JMS 的特性,但是在设计实现上完全不同,此外它并不是JMS 规范的实现。kafka 对消息保存时根据Topic 进行归类,发送消息者成为Producer, 消息接受者成为Consumer, 此外kafka 集群有多个kafka 实例组成,每个实例(server) 成为broker 。无论是kafka 集群,还是producer 和consumer 都依赖于zookeeper 来保证系统可用性集群保存一些meta 信息。 下面这张图描述更准确。 主要特性: 1 )消息持久化 要从大数据中获取真正的价值,那么不能丢失任何信息。Apache Kafka 设计上是时间复杂度O(1) 的磁盘结构,它提供了常量时间的性能,即使是存储海量的信息(TB 级)。 2 )高吞吐 记住大数据,Kafka 的设计是工作在标准硬件之上,支持每秒数百万的消息。 3 )分布式 Kafka 明确支持在Kafka 服务器上的消息分区,以及在消费机器集群上的分发消费,维护每个分区的排序语义。 4 )多客户端支持 Kafka