kafka集群搭建

kafka压测之producer

阅读更多关于 kafka压测之producer

背景前不久自建了大数据平台，由于时间问题，排期紧张，未能对平台进行压测。现在平台搭建完成，计划对平台组件逐一进行一次压测。欢迎指正，不喜勿喷！压测目标测试Kafka集群写入消息和消费消息的能力，根据测试结果评估当前Kafka集群模式的负载能力。测试包括对Kafka写入消息和消费消息进行压力测试，根据不同量级的消息处理结果测试方法在服务器上使用kafka自带的测试脚本，模拟不同量级消息写入及读取请求，查看Kafka处理不同数量级的消息数时的处理能力，包括每秒生成消息数、吞吐量、消息延迟时间。环境概况系统环境系统版本其他 centos 7.6 8C 32G kafka 版本2.11-2.4.0 5台测试环境测试数据量：1亿条。 topic batch-size ack message-size(bytes) compression-codec partition replication throughput test_producer 10000 1 512 none 4 3 30000 test_producer 20000 1 512 none 4 3 30000 test_producer 40000 1 512 none 4 3 30000 test_producer 60000 1 512 none 4 3 30000 test_producer

从ELK到EFK

阅读更多关于从ELK到EFK

背景作为中国最大的在线教育站点，目前沪江日志服务的用户包含沪江网校，交易，金融，CCtalk（直播平台）等多个部门的多个产品的日志搜索分析业务，每日产生的各类日志有好十几种，每天处理约10亿条（1TB）日志，热数据保留最近7天数据，冷数据永久保存。为什么做日志系统首先，什么是日志？日志就是程序产生的，遵循一定格式（通常包含时间戳）的文本数据通常日志由服务器生成，输出到不同的文件中，一般会有系统日志、应用日志、安全日志。这些日志分散地存储在不同的机器上。通常当系统发生故障时，工程师需要登录到各个服务器上，使用 grep / sed / awk 等 Linux 脚本工具去日志里查找故障原因。在没有日志系统的情况下，首先需要定位处理请求的服务器，如果这台服务器部署了多个实例，则需要去每个应用实例的日志目录下去找日志文件。每个应用实例还会设置日志滚动策略（如：每天生成一个文件），还有日志压缩归档策略等。这样一系列流程下来，对于我们排查故障以及及时找到故障原因，造成了比较大的麻烦。因此，如果我们能把这些日志集中管理，并提供集中检索功能，不仅可以提高诊断的效率，同时对系统情况有个全面的理解，避免事后救火的被动。我认为，日志数据在以下几方面具有非常重要的作用：数据查找：通过检索日志信息，定位相应的 bug ，找出解决方案服务诊断：通过对日志信息进行统计、分析

阅读更多关于 kafka集群搭建

首先搭建zookeeper集群: 拷贝zoo_sample.cfg为zoo.cfg(启动时会默认调用这个文件) zoo.cfg # The number of milliseconds of each tick tickTime=2000 # The number of ticks that the initial # synchronization phase can take initLimit=10 # The number of ticks that can pass between # sending a request and getting an acknowledgement syncLimit=5 # the directory where the snapshot is stored. # do not use /tmp for storage, /tmp here is just # example sakes. dataDir=/var/zoodata # the port at which the clients will connect clientPort=2181 # the maximum number of client connections. # increase this if you need to handle more clients

mac 搭建虚拟机安装spark,hive,zookeeper,scala,kafka等大数据集群搭建

阅读更多关于 mac 搭建虚拟机安装spark,hive,zookeeper,scala,kafka等大数据集群搭建

=============================================================大数据相关资料============================================================ 课程环境 Virtual Box 4.1安装 1、使用课程提供的Virtual Box安装包，一步一步安装即可。Oracle_VM_VirtualBox_Extension_Pack-4.1.40-101594.vbox-extpack。 2、之所以选用Virtual Box是因为它比VMWare更加稳定。使用VMWare运行hadoop集群或者spark集群时，有时会出现休眠后重启时，某些进程莫名挂掉的问题。而Virtual Box没有这种情况。 3、之所以选择Virtual Box 4.1版本，是因为更高的版本就不兼容win7了。 CentOS 6.5安装 1、使用课程提供的CentOS 6.5镜像即可，CentOS-6.5-i386-minimal.iso。 2、创建虚拟机：打开Virtual Box，点击“新建”按钮，点击“下一步”，输入虚拟机名称为spark1，选择操作系统为Linux，选择版本为Red Hat，分配1024MB内存，后面的选项全部用默认，在Virtual Disk File location and

大数据学习路线是怎么样的？

阅读更多关于大数据学习路线是怎么样的？

1.Linux基础和分布式集群技术学完此阶段可掌握的核心能力：熟练使用Linux，熟练安装Linux上的软件，了解熟悉负载均衡、高可靠等集群相关概念，搭建互联网高并发、高可靠的服务架构；学完此阶段可解决的现实问题：搭建负载均衡、高可靠的服务器集群，可以增大网站的并发访问量，保证服务不间断地对外服务；学完此阶段可拥有的市场价值：具备初级程序员必要具备的Linux服务器运维能力。 1.内容介绍：在大数据领域，使用最多的操作系统就是Linux系列，并且几乎都是分布式集群。该课程为大数据的基础课程，主要介绍Linux操作系统、Linux常用命令、Linux常用软件安装、Linux网络、防火墙、Shell编程等。 2.案例：搭建互联网高并发、高可靠的服务架构。 2.离线计算系统课程阶段 1. 离线计算系统课程阶段 hadoop核心技术框架学完此阶段可掌握的核心能力： 1、通过对大数据技术产生的背景和行业应用案例了解hadoop的作用；2、掌握hadoop底层分布式文件系统HDFS的原理、操作和应用开发；3、掌握MAPREDUCE分布式运算系统的工作原理和分布式分析应用开发；4、掌握HIVE数据仓库工具的工作原理及应用开发。学完此阶段可解决的现实问题： 1、熟练搭建海量数据离线计算平台；2、根据具体业务场景设计、实现海量数据存储方案；3

《浅入浅出》-RocketMQ

阅读更多关于《浅入浅出》-RocketMQ

你知道的越多，你不知道的越多点赞再看，养成习惯本文 GitHub https://github.com/JavaFamily 已收录，有一线大厂面试点脑图、个人联系方式和技术交流群，欢迎Star和指教前言消息队列在互联网技术存储方面使用如此广泛，几乎所有的后端技术面试官都要在消息队列的使用和原理方面对小伙伴们进行360°的刁难。作为一个在互联网公司面一次拿一次Offer的面霸，打败了无数竞争对手，每次都只能看到无数落寞的身影失望的离开，略感愧疚（请允许我使用一下夸张的修辞手法）。于是在一个寂寞难耐的夜晚，我痛定思痛，决定开始写《吊打面试官》系列，希望能帮助各位读者以后面试势如破竹，对面试官进行360°的反击，吊打问你的面试官，让一同面试的同僚瞠目结舌，疯狂收割大厂Offer！捞一下消息队列系列前面两章分别讲了消息队列的基础知识，还有比较常见的问题和常见分布式事务解决方案，那么在实际开发过程中,我们使用频率比较高的消息队列中间件有哪些呢？帅丙我工作以来接触的消息队列中间件有 RocketMQ 、 Kafka 、自研，是的因为我主要接触的都是电商公司，相对而言业务体量还有场景来说都是他们比较适合，再加上杭州阿里系公司偏多，身边同事或者公司老大基本都是阿里出来创业的，那在使用技术栈的时候阿里系的开源框架也就成了首选。

kafka集群搭建

阅读更多关于 kafka集群搭建

# kafka集群，伪集群 cd /usr/local/src wget http://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.3.0/kafka_2.12-2.3.0.tgz tar -zxv -f kafka_2.12-2.3.0.tgz -C /usr/local/ cd /usr/local/kafka_2.12-2.3.0/config mkdir -p /kafkadata/{kafka-1,kafka-2,kafka-3} cp server.properties server-1.properties vim server-1.properties broker.id=1 delete.topic.enable=true listeners=PLAINTEXT://:9092 advertised.listeners=PLAINTEXT://localhost:9092 log.dirs=/kafkadata/kafka-1 zookeeper.connect=localhost:2181,localhost:2182,localhost:2183 cp server-1.properties server-2.properties vim server-2.properties broker.id=2 delete

kafka集群搭建 - ZooKeeper

阅读更多关于 kafka集群搭建 - ZooKeeper

一、什么是ZooKeeper？ ZooKeeper（动物园管理员），顾名思义，是用来管理Hadoop（大象）、Hive（蜜蜂）、Pig（小猪）的管理员，同时Apache HBase、Apache Solr、LinkedIn Sensei等众多项目中都采用了ZooKeeper。 ZooKeeper是一个集中式服务，用于维护配置信息、命名、提供分布式同步和提供组服务。所有这些类型的服务都以某种形式被分布式应用进程使用。每次它们被实现时，都有大量的工作用于修复不可避免的bug和竞选条件。由于实现这类服务的困难，应用进程最初通常跳过它们，这使得它们在存在更改时变得脆弱，并且难以管理。即使正确完成，这些服务的不同实现也会在部署应用进程时导致管理复杂性。二、Zookeeper集群 Kafka使用Zookeeper来存储集群元数据以及消费者元数据。Zookeeper集群被称为群组。Zookeeper使用的是一致性协议，所以建议每个群组里应该包含奇数个节点（比如3个、5个等），因为只有当群组里的大多数节点（也就是法定人数）处于可用状态，Zookeeper才能处理外部的请求。也就是说，如果3个节点的集群，允许1个节点失效。如果5个节点的集群，允许2个节点失效。三、Docker方式配置ZooKeeper myid文档：标识要写到快照目录下面myid文档里采用Docker镜像

大数据分布式集群搭建大全

阅读更多关于大数据分布式集群搭建大全

系统准备 Centos6.5 Windows10 相关软件包下载：链接：https://pan.baidu.com/s/1EOLUphwZgzwSX01HsDJM0g 提取码：1tsf 说明特别说明: 教程用的主机名分别为master,slave1,slave2 所以发现有出现主机名为 ” spark1”的主机名等同于 “master”如果如果看见配置文件为spark1,一定要修改成master ;有些图片是后面添加的才出现主机名不一致但并不影响理解. 没有特别说明操作都是在 master 机器操作关闭防火墙关闭Linux和Windows的防火墙（防止机器之间应为防火墙拦截而不能连通） Windows： window系统: 控制面板 -> 系统和安全 ->Windows Defender 防火墙 -> 启用或关闭Windows Defender 防火墙 -> 关闭Windows Defender 防火墙 //一般只关闭”专用网络设置”的防火墙就行 Linux：停止防火墙: service iptables stop 启动防火墙: service iptables start 重启防火墙: service iptables restart 永久关闭防火墙: chkconfig iptables off 永久开启防火墙: chkconfig iptables no

spark集群搭建

阅读更多关于 spark集群搭建

Standalone集群构建基础环境准备物理资源：CentOSA/B/C-6.10 64bit 内存2GB 主机名 IP CentOSA 192.168.221.136 CentOSB 192.168.221.137 CentOSC 192.168.221.138 [外链图片转存失败(img-l9lPb4wS-1566826494200)(assets/1566785920711.png)] 节点与主机映射关系主机节点服务 CentOSA NameNode、ZKFC、Zookeeper、journalnode、DataNode、master、worker、broker CentOSB NameNode、ZKFC、zookeeper、journalnode、DataNode、master、worker、broker CentOSC zookeeper、journalnode、DataNode、master、worker、broker 主机与Ip的映射关系 [ root@CentOSX ~ ] # vi /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6

订阅 kafka集群搭建