这几天经历了有史以来最痛苦的Oracle 10gR2 RAC的安装体验。
操作系统是HP-UX IA64,原本是两台已经安装过Oracle10gR2 CRS+RAC的系统,在安装完之后做了安全控制,取消了很多服务,然后机器从北京搬到上海,存储换了(意味着OCR和Voting Disk没有了),主机名称换了,网卡ID换了,IP地址换了(意味着重新构建OCR Disk很麻烦),在这样的一台机器上要重新安装RAC。
多次的失败之后,要求HP工程师重新安装了操作系统,从上周五白天一直到今天晚上才完全搞定,在今天晚上22:00才最后发现原来一切一切不可思议的问题都是源自于一个小小的环节,以往几天甚至对CRS在HP-UX上的稳定性都产生了极大的怀疑。
现象是,css/crs/evm这些后台进程用ps看全部都是正常的,但是crs_stat命令始终报无法连接CRS Daemon;重新启动机器之后有时候一个节点正常了,但是另外一个节点不正常,再次重启,不正常的节点可能又正常了;好不容易两个节点都正常了,数据库软件也安装完毕了,数据库也创建了,最后再重启一下两台机器,CRS又不正常了。。。几乎抓狂!
最后,焦点聚集到网卡的全双工和半双工设置上,网络集成商在屡次确认网络配置确实没有问题之后,在客户的强烈要求下,最后又再次检查了一下交换机,发现交换机上有两个端口设置成了半双工+自适应,而主机上的网卡全部都是全双工+非自适应,而这两个端口恰恰是连接某台数据库服务器上的Public网卡。就是这个网络设置上全双工和半双工的不匹配,让CRS发生了各种古怪的现象。
一切问题都在把交换机端口也设置为全双工+非自适应之后荡然无存。
这篇文章的意思是:CRS不是想象中那么不稳定,如果在安装过程中或者安装完毕有奇怪的现象,那么第一个要找的不是CRS软件本身,而是操作系统以及网络设置。
congs.
原来是这个问题,不要轻易怀疑clusterware,虽然还不是那么完美,赫赫
你的crsd and evmd的问题解决了么,老兄?
所谓的crsd和evmd的问题都是这个引起的,就是后台进程都启动了,但是crsd始终认为cssd没有到fatal mode,因此不去注册。具体机制我还不清楚,但是网络不匹配一定是原因。
作为一个问题的解决者,处理问题的步骤十分重要,99%的问题出现的原因都是1%看上去不起眼的错误! 本着先硬件后软件,先操作系统后应用程序的方法查找问题,不乏是一个好的流程。chanel的此篇可以作为经典案例了!
真是灾难。谁遇到这种网络都会抓狂。因为好像谁也不会先去检查是否全双工。
@fengshanjian
全双工半双工倒是事先就有规定,其实最可气的事情是因为之前就已经屡次确认了是否已经全部调整为全双工,得到的答案是,是的没问题。。。
我在oracle 10g rac with asm 安装在sun上加了不知道多少个通宵。vip就是不停的飘啊飘。。最后oracle工程师根据我的系统出了一个patch .
oracle 10g rac 在ibm上装是最耗费脑细胞的。。。恨不得自己撞墙了。
断断续续昨天我才把ibm上的Rac的所有测试做通。唯一感觉是,对网卡及ip地址要求太高了。
看到搂主的blog。突然觉得特别有感受。进来踏一脚。
奇怪。 即使没有NETWORK, CRSD 也应在各机上正常运行啊。
没有和有了但是不正确还是不一样的。