MHA 官方网址
Manager : https://github.com/yoshinorim/mha4mysql-manager
Node : https://github.com/yoshinorim/mha4mysql-node
MHA 工作原理
主库宕机处理过程 1. 监控节点 (通过配置文件获取所有节点信息) 系统,网络,SSH连接性 主从状态,重点是主库 2. 选主 (1) 如果判断从库(position或者GTID),数据有差异,最接近于 Master 的 slave,成为备选主 (2) 如果判断从库(position或者GTID),数据一致,按照配置文件顺序,选主. (3) 如果设定有权重(candidate_master=1),按照权重强制指定备选主. 1. 默认情况下如果一个 slave 落后 master 100M的 relay logs 的话,即使有权重,也会失效. 2. 如果 check_repl_delay=0 的话,即使落后很多日志,也强制选择其为备选主 3. 数据补偿 (1) 当SSH能连接,从库对比主库 GTID 或者 position 号,立即将二进制日志保存至各个从节点并且应用( save_binary_logs ) (2) 当SSH不能连接, 对比从库之间的relaylog的差异( apply_diff_relay_logs ) 4. Failover 将故障节点踢出集群 将备选主进行身份切换,对外提供服务 其余从库和新主库确认新的主从关系 5. 应用透明(VIP) 6. 故障切换通知(send_reprt) 7. 二次数据补偿(binlog_server) 注意:从库需要开启 binlog 日志
MHA 主库宕机接管规则
1. 所有从节点日志都是一致的,默认会以配置文件的顺序去选择一个新主。 2. 从节点日志不一致,自动选择最接近于主库的从库 3. 如果对于某节点设定了权重(candidate_master=1),权重节点会优先选择。 但是此节点日志量落后主库100M日志的话,也不会被选择。可以配合check_repl_delay=0,关闭日志量的检查,强制选择候选节点。
# Manager 工具包主要包括以下几个工具: masterha_manger 启动MHA masterha_check_ssh 检查MHA的SSH配置状况 masterha_check_repl 检查MySQL复制状况 masterha_master_monitor 检测master是否宕机 masterha_check_status 检测当前MHA运行状态 masterha_master_switch 控制故障转移(自动或者手动) masterha_conf_host 添加或删除配置的server信息 # Node 工具包主要包括以下几个工具: 这些工具通常由MHA Manager的脚本触发,无需人为操作 save_binary_logs 保存和复制master的二进制日志 apply_diff_relay_logs 识别差异的中继日志事件并将其差异的事件应用于其他的 purge_relay_logs 清除中继日志(不会阻塞SQL线程)
MHA环境搭建
系统环境: CentOS 7.4 64bit 最小安装版本 MySQL软件版本: mysql-community-client-5.7.28-1.el7.x86_64.rpm mysql-community-libs-compat-5.7.28-1.el7.x86_64.rpm mysql-community-common-5.7.28-1.el7.x86_64.rpm mysql-community-server-5.7.28-1.el7.x86_64.rpm mysql-community-libs-5.7.28-1.el7.x86_64.rpm MHA软件: mha4mysql-node-0.58-0.el7.centos.noarch.rpm mha4mysql-manager-0.58-0.el7.centos.noarch.rpm
名称 | IP地址 | 角色 |
---|---|---|
db1 | 192.168.31.205 | 主库,HMA node |
db2 | 192.168.31.206 | 从库,HMA node |
db3 | 192.168.31.207 | 从库,HMA master,node |
如果是编译安装的 MySQL 需要建立命令的软连接,我这里使用的是官方的 rpm 包安装,不需要更改。
ln -s /usr/local/mysql/bin/mysqlbinlog /usr/bin/mysqlbinlog ln -s /usr/local/mysql/bin/mysql /usr/bin/mysql
# db1: ssh-keygen -t rsa cd /root/.ssh/ mv id_rsa.pub authorized_keys scp -r /root/.ssh root@192.168.31.206:/root scp -r /root/.ssh root@192.168.31.207:/root ssh 192.168.31.205 date ssh 192.168.31.206 date ssh 192.168.31.207 date # db2: ssh 192.168.31.205 date ssh 192.168.31.206 date ssh 192.168.31.207 date # db3: ssh 192.168.31.205 date ssh 192.168.31.206 date ssh 192.168.31.207 date
所有节点都需要安装 HMA node 软件
yum install perl-DBD-MySQL -y rpm -ivh /iba/software/mha4mysql-node-0.58-0.el7.centos.noarch.rpm
db3 安装 HMA manager 软件
yum install -y epel-release yum install -y perl-Config-Tiny perl-Log-Dispatch perl-Parallel-ForkManager perl-Time-HiRes rpm -ivh /iba/software/mha4mysql-manager-0.58-0.el7.centos.noarch.rpm
在db1主库中创建MHA专用监控用户
grant all privileges on *.* to mha@'192.168.31.%' identified by 'Mha_123456'; flush privileges;
MHA manager 配置文件(db3)
创建配置文件目录
mkdir -p /etc/mha
创建日志目录
mkdir -p /var/log/mha/app1
编辑mha配置文件
vi /etc/mha/app1.cnf [server default] manager_log=/var/log/mha/app1/manager manager_workdir=/var/log/mha/app1 master_binlog_dir=/var/lib/mysql user=mha password=Mha_123456 ping_interval=2 repl_user=rep repl_password=Rep_123456 ssh_user=root [server1] hostname=192.168.31.205 port=3306 [server2] hostname=192.168.31.206 port=3306 [server3] hostname=192.168.31.207 port=3306
MHA manager 额外参数介绍
# 设置监控主库,发送ping包的时间间隔,尝试三次没有回应的时候自动进行failover ping_interval=1 # 设置为候选master,如果设置该参数以后,发生主从切换以后将会将此从库提升为主库,即使这个主库不是集群中事件最新的slave candidate_master=1 # 默认情况下如果一个slave落后master 100M的relay logs的话,MHA将不会选择该slave作为一个新的master,因为对于这个slave的恢复需要花费很长时间,通过设置check_repl_delay=0, # MHA触发切换在选择一个新的master的时候将会忽略复制延时,这个参数对于设置了candidate_master=1的主机非常有用,因为这个候选主在切换的过程中一定是新的master check_repl_delay=0
验证SSH通信(db3)
masterha_check_ssh --conf=/etc/mha/app1.cnf
验证 MySQL 主从状态(db3)
masterha_check_repl --conf=/etc/mha/app1.cnf
启动 MHA manager (db3):
nohup masterha_manager --conf=/etc/mha/app1.cnf --remove_dead_master_conf --ignore_last_failover < /dev/null> /var/log/mha/app1/manager.log 2>&1 &
检查 MHA 工作状态(db3):
masterha_check_status --conf=/etc/mha/app1.cnf
模拟主库故障
停止主库(db1):
systemctl stop mysqld
观察 MHA manager 日志(db3)
# 末尾必须显示successfully,才算正常切换成功。 tail -f /var/log/mha/app1/manager
修复原主库(db1)
# 启动 mysqld systemctl start mysqld # 登录数据库 mysql -uroot -pKlvchen_123 # 启动 slave change master to master_host='192.168.31.206' ,master_user='rep',master_password='Rep_123456',master_auto_position=1; start slave;
MHA 修复配置文件及启动(db3)
vi /etc/mha/app1.cnf # 加回去 [server1] hostname=192.168.31.205 port=3306 # 启动 MHA manager nohup masterha_manager --conf=/etc/mha/app1.cnf --remove_dead_master_conf --ignore_last_failover < /dev/null> /var/log/mha/app1/manager.log 2>&1 &
检查(db3)
masterha_check_status --conf=/etc/mha/app1.cnf