1)实例之间的心跳机制
2)当实例离开或者加入集群时完成数据库集群的重新配置
3)解决数据库层面出现的脑裂
1,网络心跳
数据库层面的网络心跳是通过LMON进程实现的,每个实例的LMON进程会定期通过数据库的私网与所有远程实例进行通信,以确认其他实例的状态,如果,某一个实例一段时间之内不能够响应其他节点发送的网络心跳信息,那么数据库集群就需要进行重新配置,用户能够看到的最直观的信息就是ora-29740错误。
2,磁盘心跳
数据库层面的磁盘心跳和GI层面的磁盘心跳实现的功能基本相同,但是,由于数据库层面并没有VF存在,所以,实现方式会有所不同,对应RAC数据库,LMON进程会将网络心跳中包含的远程节点的状态信息发送给CKPT进程,CKPT进程默认每3s向数据库的控制文件写入本地实例能够访问的其他实例信息,从而完成数据库实例的磁盘心跳。如果数据库实例的磁盘心跳出现了问题,用户能够看到的最直观的信息就是ora-494错误。
3,本地心跳
LMHB进程会定期监控LMON,LMS,LMD,LCK0等于cache fusion相关的重要后台进程,如果LMHB进程发送某一个重要的后台进程在一段时间之内没有更新自己的状态信息,就会进行分析,如果有必要通过重启本地节点的方式来解决问题
重新配置的阶段
阶段1:重新配置主节点向所有其他节点发送重新配置消息,之后冻结每个实例的名称服务和锁相关信息。
阶段2:决定新的实例状态位图(在这个阶段,重新配置主节点会持有RR锁决定新的实例状态位图),如果重新配置是由于实例离开导致的,进行实例恢复,之后,更新数据库集群的incarnation。
阶段3:如果重新配置的原因是实例离开数据库集群,则删除离开数据库集群的实例的名称服务中的数据。
阶段4:重新发布数据库集群的名称服务信息,并恢复之前被冻结的锁相关的操作。
阶段5:之前冻结的资源被解冻,并通知GCS和GES开始进行内存融合相关的重新配置。
重新配置的类型
类型1:由于数据库启动或关闭导致的重新配置
类型2:由于某一个实例丢失网络心跳导致的重新配置
类型3:由于某一个实例丢失磁盘心跳导致的重新配置
类型4:由于某一个内存融合相关的重要后台进程丢失本地心跳导致的重新配置
类型2-4的重新配置的结果是有问题的实例被重新启动
数据库层面的脑裂
1)两个实例之间的私有网络出现问题,在一段时间之后(默认300s),两个实例都发现无法和对方进行通信。
2)每个实例都尝试获得RR锁,获得了RR锁的实例访问控制文件中的实例状态,并决定新的集群实例列表,获得了RR锁的实例会存活,另外一个实例被驱逐。
数据库层面的脑裂和GI层面的含义是一致的,但是处理方式存在差别:GI层面的脑裂是基于节点编号,而数据库层面的脑裂需要竞争RR锁。
原文:http://blog.51cto.com/13598811/2139853