数据机房最怕的是什么?除了火灾、水灾之外,最怕的应该是停电,一般的跳电,机房有UPS,不会受影响,可是遇到停电,年久不维护的UPS电池,早就拉垮了,就算有通讯卡监测电池状态,服务器还没来得及关机,就被迫非法关机了。

一旦服务器被迫非法关机,供电恢复的时候,还能不能起来就看运气了,站在嘈杂的机房里,那种纠结、紧张、彷徨的心情,真的是难以用语言文字来表达。

硬盘停电后好像坏(机房停电必作妖)(1)

这不,今天又来一个:戴尔R710服务器,连接不上磁盘柜了,IT慌得很,关键还在报电源故障,没停电的时候,电源正常工作,idrac也没有报任何故障,就停一下电,电源还报故障了。

硬盘停电后好像坏(机房停电必作妖)(2)

一把年纪的服务器了,也没配置双电源,报错就报错吧,起码还能开机,已经不错了,电源先订货,没那么快到,还是得解决磁盘柜的连接问题。

服务器关机,磁盘柜关机,切断电源,打开服务器机盖,拔HBA卡,清理主板插槽,橡皮用力擦HBA卡金手指,清理灰尘,插回服务器,磁盘柜开机,服务器开机,风声大作中,焦急而忐忑地等待着。

好不容易连上磁盘柜了,发现有硬盘显示:“Predictive Fail”,意思是失效预警,直白点来讲,就是有硬盘要坏了,得更换。

硬盘在正常的读/写过程中会发生错误,错误多了就称为“坏块”。每个硬盘都有坏块的阈值,一旦达到此阈值,控制器会将硬盘的状态更改为“Predictive Fail”。虽然硬盘暂时还能工作,但是随时出故障的概率很高,强烈建议更换。

当然,更换硬盘是有讲究的,不是拔出旧硬盘,插入新硬盘那么简单的,在更换之前必须将其从 RAID 卷中安全移除。

启动MDSM。如果您有多个PowerVault阵列,请选择对应的阵列。如果硬盘正常工作,则状态显示为“Optimal”;如果硬盘有预测性故障,则状态将更改为"Need attention"

鼠标右击有问题的硬盘,并选择 Advanced,然后选择 Fail;

硬盘停电后好像坏(机房停电必作妖)(3)

系统会弹出一个提示框,要求您确认操作,输入“Yes”进行确认即可。

如果当前有备用磁盘,请保持复选框“Copy contents of physical disk before failing”处于选中状态,即将发生故障的磁盘上的数据会被复制到备用磁盘,并在复制完成后下线该磁盘,此过程需要一段时间,根据数据量大小决定时间长短。

如果没有备用磁盘,或者磁盘柜满插状态,无法增加备用磁盘,那么请取消选中“Copy contents of physical disk before failing”复选框,当该磁盘状态被置为“Failed”,并标记红色叉号时,就可以更换磁盘了。

类似操作,务必谨慎,切勿盲目动手,毕竟硬件有价,数据无价,其实更重要的是,平时多注意备份,那就不至于措手不及了,小心驶得万年船,老话不会错的。

,