现象:
从今年4月以来一共装了5套Oracle11g R2.0.3.0的rac。4月份两套,6月份两套,7月份1套,8月份1套,这几套分布在三个不同的机房,本质上上讲也是三个不同的客户。每次装完后都需要重启一下机器,看看一些相关的配置是不是都能按照设置的要求起起来。但是每次都发现,grid,oracle等相关的服务都能起好,vip资源也能起好,在主机上ifconfig也能看到vip,scan ip都能bond到public ip上,在两台机器之间均能ping 通vip,scan ip,甚至在相同的网段也能ping 通vip,scan ip,但是就是在其他网段不能ping通 vip,scan ip,但是能ping 通public ip。甚是奇怪,但是过若干长时间,有的是半小时,有的是两小时。这样当所有应用通过vip,scan ip连接数据库时(事实上就应该用vip,scan ip连接数据库),一旦出现机器重启,或者vip 资源重启,那么在vip,scan ip不能ping通前,所有应用是不能访问数据库的,这样就会对业务产生重大影响。
分析:
4月份安装的两套在同一个机房,那时候一直认为这应该是机房的网络配置的问题,也找来了网络工程师要跟踪,网络工程师抓取了大量的log回去分析。我这边也在从oracle的角度分析,那时一直在怀疑是vip的子网掩码的问题,不过又想来,在安装11g的rac时根本没有像10g时需要通过vipca来设置vip的子网掩码的地方。
时间一过就是两个月,到了6月份,我又安装了2套11g r2.0.3.0的rac,其中一套和4月份安装的那两套的rac在同一个机房,另外一套却在另一个异地的机房。但是安装完,重启完后也是一样的现象。此时我在怀疑网络设置的同时,还在怀疑是vip的子网掩码的问题。
时间又过了一个月,我又在另一个机房里安装了一套相同版本的rac,也是这样的问题,真是让人纳闷啊。这难道是这个新版本的bug吗?
8月份又在4月份的那两套rac的机房里安装了相同的版本的rac,还是出现这个问题。
而我去年在这几个机房里都安装过11g r2.0.2.0,都不曾出现这个问题。
此时我逐步怀疑起这时这个新版本的bug,今天总算发现了这个bug,甚是高兴:
Bug 13440962 Different subnet failed to connect to vip after restart vip
This note gives a brief overview of bug 13440962.
The content was last updated on: 01-FEB-2012
Clickherefor details of each of the sections below.
It is believed to be aregressionindefaultbehaviour thus:
Regression introduced in 11.2.0.3
Fixed: This issue is fixed in
Symptoms: Related To:
- (None Specified)
This is a regression fix for problem introduced by patch 11069846. The change in this patch (patch 13440962) fixes a problem with 4 extra bytes in the GARP message and removes an extra unicast GARP packet to the router. Rediscovery Notes: After upgrading to 11.2.0.3, after vip failover, the ip address is not pingable from a different subnet on Linux. (This problem is seen only on Linux)WorkaroundAfter vip failover, run command /sbin/arping -U -c 3 -I to update the ARP table of router.
Please note:The above is a summary description only. Actual symptoms can vary. Matching to any symptoms here does not confirm that you are encountering this problem. For questions about this bug please consult Oracle Support.
ReferencesBug:13440962(This link will only work for PUBLISHED bugs)
Note:245840.1Information on the sections in this article