故障描述:
检测恢复:
经检测故障服务器是戴尔MD1200,由12块2TB SAS硬盘组建的RAID5磁盘阵列,故障发生前一天,维护人员发现6号磁盘槽位指示灯变为黄色警告,于是将该磁盘从槽位里取出并更换新的硬盘,服务器自动进行REBUILD过程。第二天,维护人员来检查服务器情况,发现REBUILD并没有完成,此时服务器内数据仍为可见状态,出于数据的重要性,维护人员决定先对数据进行备份操作。意外也随之发生了,在备份出来大概100G左右的时候,5号槽位显示灯突然也变为黄色警告,数据拷贝停止,物理卷丢失。
盘首数据恢复公司工程师立即做出了数据恢复方案部署。首先,对所有硬盘进行硬件故障排查,重点检测亮黄灯的5号和6号两块硬盘的损坏情况,并且把这两块硬盘的完整镜像做出来,然后针对相应得故障进行修复,最后进行数据的分析重组工作。
工程师将12块硬盘从戴尔MD1200服务器槽位中取出并编号,用专业设备逐一进行检测。检测结果为6号磁盘磁头损坏,5号磁盘有大量坏扇区。根据之前维护人员描述以及检测结果基本上可以判断出该服务器发生故障的原因。当6号磁盘磁头损坏后立即掉线,从RAID组中离线,磁盘指示灯变为黄灯。维护人员更换6号盘以后,服务器要通过剩余磁盘数据计算出6号盘原始数据并写入新盘,但是5号盘当中有大量坏扇区,计算过程无法顺利进行导致REBUILD失败,同时5号盘大量坏扇区导致的I/0通道读取错误,最终两块盘的离线状态促使服务器彻底崩溃。
因为用户的数据量比较大,而且硬盘也有物理故障,考虑到恢复时间和效率的因素,盘首数据恢复公司与该电视台签订了工单及保密协议,将服务器放在我公司进行数据的恢复。因为6号磁盘与5号磁盘先后掉线,从数据的一致性与完整性来看,优先对5号故障盘进行处理,通过克隆工具将5号磁盘的数据克隆到一块新的数据盘当中。镜像完成后,将11块磁盘接入到SAS扩展柜当中识别到每一块单盘,然后对每块磁盘的底层数据进行分析,找出RAID组合的数据结构,进行数据的重组及数据的提取工作。
温馨提示:
1.RAID出现异常时绝对不要轻易进行Rebuild以及 同步等操作,否则可能造成数据错乱,部分文件无法打开
2.千万不要初始化。初始化是磁盘阵列全部清零,相当于硬盘的低级格式化
3.谨慎重配磁盘阵列信息。部分服务器对重配阵列信息后要自动初始化,数据损失无可挽回
4.在对故障磁盘阵列进行任何操作前,请致电18913587620由权威专家为您解答。
评论