kafka集群搭建

kafka压测之producer

≯℡__Kan透↙ 提交于 2020-04-05 15:50:12
背景 前不久自建了大数据平台,由于时间问题,排期紧张,未能对平台进行压测。现在平台搭建完成,计划对平台组件逐一进行一次压测。 欢迎指正,不喜勿喷! 压测目标 测试Kafka集群写入消息和消费消息的能力,根据测试结果评估当前Kafka集群模式的负载能力。 测试包括对Kafka写入消息和消费消息进行压力测试,根据不同量级的消息处理结果 测试方法 在服务器上使用kafka自带的测试脚本,模拟不同量级消息写入及读取请求,查看Kafka处理不同数量级的消息数时的处理能力,包括每秒生成消息数、吞吐量、消息延迟时间。 环境概况 系统环境 系统 版本 其他 centos 7.6 8C 32G kafka 版本2.11-2.4.0 5台 测试环境 测试数据量:1亿条。 topic batch-size ack message-size(bytes) compression-codec partition replication throughput test_producer 10000 1 512 none 4 3 30000 test_producer 20000 1 512 none 4 3 30000 test_producer 40000 1 512 none 4 3 30000 test_producer 60000 1 512 none 4 3 30000 test_producer

从ELK到EFK

冷暖自知 提交于 2020-03-05 12:49:02
背景 作为中国最大的在线教育站点,目前沪江日志服务的用户包含沪江网校,交易,金融,CCtalk(直播平台) 等多个部门的多个产品的日志搜索分析业务,每日产生的各类日志有好十几种,每天处理约10亿条(1TB)日志,热数据保留最近7天数据,冷数据永久保存。 为什么做日志系统 首先,什么是日志? 日志就是程序产生的,遵循一定格式(通常包含时间戳)的文本数据 通常日志由服务器生成,输出到不同的文件中,一般会有系统日志、 应用日志、安全日志。这些日志分散地存储在不同的机器上。 通常当系统发生故障时,工程师需要登录到各个服务器上,使用 grep / sed / awk 等 Linux 脚本工具去日志里查找故障原因。在没有日志系统的情况下,首先需要定位处理请求的服务器,如果这台服务器部署了多个实例,则需要去每个应用实例的日志目录下去找日志文件。每个应用实例还会设置日志滚动策略(如:每天生成一个文件),还有日志压缩归档策略等。 这样一系列流程下来,对于我们排查故障以及及时找到故障原因,造成了比较大的麻烦。因此,如果我们能把这些日志集中管理,并提供集中检索功能,不仅可以提高诊断的效率,同时对系统情况有个全面的理解,避免事后救火的被动。 我认为,日志数据在以下几方面具有非常重要的作用: 数据查找:通过检索日志信息,定位相应的 bug ,找出解决方案 服务诊断:通过对日志信息进行统计、分析

kafka集群搭建

一世执手 提交于 2020-02-20 08:45:33
首先搭建zookeeper集群: 拷贝zoo_sample.cfg为zoo.cfg(启动时会默认调用这个文件) zoo.cfg # The number of milliseconds of each tick tickTime=2000 # The number of ticks that the initial # synchronization phase can take initLimit=10 # The number of ticks that can pass between # sending a request and getting an acknowledgement syncLimit=5 # the directory where the snapshot is stored. # do not use /tmp for storage, /tmp here is just # example sakes. dataDir=/var/zoodata # the port at which the clients will connect clientPort=2181 # the maximum number of client connections. # increase this if you need to handle more clients

mac 搭建虚拟机安装spark,hive,zookeeper,scala,kafka等大数据集群搭建

拜拜、爱过 提交于 2020-01-13 18:22:48
=============================================================大数据相关资料============================================================ 课程环境 Virtual Box 4.1安装 1、使用课程提供的Virtual Box安装包,一步一步安装即可。Oracle_VM_VirtualBox_Extension_Pack-4.1.40-101594.vbox-extpack。 2、之所以选用Virtual Box是因为它比VMWare更加稳定。使用VMWare运行hadoop集群或者spark集群时,有时会出现休眠后重启时,某些进程莫名挂掉的问题。而Virtual Box没有这种情况。 3、之所以选择Virtual Box 4.1版本,是因为更高的版本就不兼容win7了。 CentOS 6.5安装 1、使用课程提供的CentOS 6.5镜像即可,CentOS-6.5-i386-minimal.iso。 2、创建虚拟机:打开Virtual Box,点击“新建”按钮,点击“下一步”,输入虚拟机名称为spark1,选择操作系统为Linux,选择版本为Red Hat,分配1024MB内存,后面的选项全部用默认,在Virtual Disk File location and

大数据学习路线是怎么样的?

与世无争的帅哥 提交于 2019-12-09 16:39:54
1.Linux基础和分布式集群技术 学完此阶段可掌握的核心能力: 熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构; 学完此阶段可解决的现实问题: 搭建负载均衡、高可靠的服务器集群,可以增大网站的并发访问量,保证服务不间断地对外服务; 学完此阶段可拥有的市场价值: 具备初级程序员必要具备的Linux服务器运维能力。 1.内容介绍: 在大数据领域,使用最多的操作系统就是Linux系列,并且几乎都是分布式集群。该课程为大数据的基础课程,主要介绍Linux操作系统、Linux常用命令、Linux常用软件安装、Linux网络、防火墙、Shell编程等。 2.案例:搭建互联网高并发、高可靠的服务架构。 2.离线计算系统课程阶段 1. 离线计算系统课程阶段 hadoop核心技术框架 学完此阶段可掌握的核心能力: 1、通过对大数据技术产生的背景和行业应用案例了解hadoop的作用;2、掌握hadoop底层分布式文件系统HDFS的原理、操作和应用开发;3、掌握MAPREDUCE分布式运算系统的工作原理和分布式分析应用开发;4、掌握HIVE数据仓库工具的工作原理及应用开发。 学完此阶段可解决的现实问题: 1、熟练搭建海量数据离线计算平台;2、根据具体业务场景设计、实现海量数据存储方案;3

《浅入浅出》-RocketMQ

风流意气都作罢 提交于 2019-12-06 07:49:21
你知道的越多,你不知道的越多 点赞再看,养成习惯 本文 GitHub https://github.com/JavaFamily 已收录,有一线大厂面试点脑图、个人联系方式和技术交流群,欢迎Star和指教 前言 消息队列 在互联网技术存储方面使用如此广泛,几乎所有的后端技术面试官都要在 消息队列 的使用和原理方面对小伙伴们进行360°的刁难。 作为一个在互联网公司面一次拿一次Offer的面霸,打败了无数竞争对手,每次都只能看到无数落寞的身影失望的离开,略感愧疚( 请允许我使用一下夸张的修辞手法 )。 于是在一个寂寞难耐的夜晚,我痛定思痛,决定开始写 《吊打面试官》 系列,希望能帮助各位读者以后面试势如破竹,对面试官进行360°的反击,吊打问你的面试官,让一同面试的同僚瞠目结舌,疯狂收割大厂Offer! 捞一下 消息队列系列前面两章分别讲了 消息队列 的基础知识,还有比较常见的问题和常见分布式事务解决方案,那么在实际开发过程中,我们使用频率比较高的消息队列中间件有哪些呢? 帅丙我工作以来接触的消息队列中间件有 RocketMQ 、 Kafka 、 自研 ,是的因为我主要接触的都是电商公司,相对而言业务体量还有场景来说都是他们比较适合,再加上杭州阿里系公司偏多,身边同事或者公司老大基本都是阿里出来创业的,那在使用技术栈的时候 阿里系的开源框架 也就成了首选。

kafka集群搭建

允我心安 提交于 2019-11-30 07:58:01
# kafka集群,伪集群 cd /usr/local/src wget http://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.3.0/kafka_2.12-2.3.0.tgz tar -zxv -f kafka_2.12-2.3.0.tgz -C /usr/local/ cd /usr/local/kafka_2.12-2.3.0/config mkdir -p /kafkadata/{kafka-1,kafka-2,kafka-3} cp server.properties server-1.properties vim server-1.properties broker.id=1 delete.topic.enable=true listeners=PLAINTEXT://:9092 advertised.listeners=PLAINTEXT://localhost:9092 log.dirs=/kafkadata/kafka-1 zookeeper.connect=localhost:2181,localhost:2182,localhost:2183 cp server-1.properties server-2.properties vim server-2.properties broker.id=2 delete

kafka集群搭建 - ZooKeeper

空扰寡人 提交于 2019-11-28 19:19:53
一、什么是ZooKeeper? ZooKeeper(动物园管理员),顾名思义,是用来管理Hadoop(大象)、Hive(蜜蜂)、Pig(小猪)的管理员,同时Apache HBase、Apache Solr、LinkedIn Sensei等众多项目中都采用了ZooKeeper。 ZooKeeper是一个集中式服务,用于维护配置信息、命名、提供分布式同步和提供组服务。所有这些类型的服务都以某种形式被分布式应用进程使用。每次它们被实现时,都有大量的工作用于修复不可避免的bug和竞选条件。由于实现这类服务的困难,应用进程最初通常跳过它们,这使得它们在存在更改时变得脆弱,并且难以管理。即使正确完成,这些服务的不同实现也会在部署应用进程时导致管理复杂性。 二、Zookeeper集群 Kafka使用Zookeeper来存储集群元数据以及消费者元数据。Zookeeper集群被称为群组。Zookeeper使用的是一致性协议,所以建议每个群组里应该包含奇数个节点(比如3个、5个等),因为只有当群组里的大多数节点(也就是法定人数)处于可用状态,Zookeeper才能处理外部的请求。也就是说,如果3个节点的集群,允许1个节点失效。如果5个节点的集群,允许2个节点失效。 三、Docker方式配置ZooKeeper myid文档:标识要写到快照目录下面myid文档里 采用Docker镜像

大数据分布式集群搭建大全

試著忘記壹切 提交于 2019-11-28 17:52:23
系统准备 Centos6.5 Windows10 相关软件包下载: 链接:https://pan.baidu.com/s/1EOLUphwZgzwSX01HsDJM0g 提取码:1tsf 说明 特别说明: 教程用的主机名分别为master,slave1,slave2 所以发现有出现主机名为 ” spark1”的主机名 等同于 “master”如果如果看见配置文件为spark1,一定要修改成master ;有些图片是后面添加的才出现主机名不一致但并不影响理解. 没有特别说明操作都是在 master 机器操作 关闭防火墙 关闭Linux和Windows的防火墙(防止机器之间应为防火墙拦截而不能连通) Windows: window系统: 控制面板 -> 系统和安全 ->Windows Defender 防火墙 -> 启用或关闭Windows Defender 防火墙 -> 关闭Windows Defender 防火墙 //一般只关闭”专用网络设置”的防火墙就行 Linux: 停止防火墙: service iptables stop 启动防火墙: service iptables start 重启防火墙: service iptables restart 永久关闭防火墙: chkconfig iptables off 永久开启防火墙: chkconfig iptables no

spark集群搭建

倖福魔咒の 提交于 2019-11-28 16:20:25
Standalone集群构建 基础环境准备 物理资源:CentOSA/B/C-6.10 64bit 内存2GB 主机名 IP CentOSA 192.168.221.136 CentOSB 192.168.221.137 CentOSC 192.168.221.138 [外链图片转存失败(img-l9lPb4wS-1566826494200)(assets/1566785920711.png)] 节点与主机映射关系 主机 节点服务 CentOSA NameNode、ZKFC、Zookeeper、journalnode、DataNode、master、worker、broker CentOSB NameNode、ZKFC、zookeeper、journalnode、DataNode、master、worker、broker CentOSC zookeeper、journalnode、DataNode、master、worker、broker 主机与Ip的映射关系 [ root@CentOSX ~ ] # vi /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6