【服务器数据恢复】断电导致服务器无法进入系统的数据恢复案例

电子说

1.3w人已加入

描述

服务器数据恢复环境:
某品牌ProLiant DL系列服务器,
6块SAS硬盘组成RAID5磁盘阵列,
WINDOWS SERVER操作系统,
存储了企业的内部文件。

服务器故障&分析:
服务器在发生故障前有过几次意外断电,每次断电重启后没有出现异常。直到最后一次断电重启没有成功,RAID报错,提示无法找到存储设备。进入RAID管理模块,执行任何操作就死机。管理员多次重启服务器后还是无法成功进入操作系统。
通常服务器出现这类故障,有很大的可能性是因为意外断电导致RAID模块损坏(RAID管理信息丢失或RAID模块硬件损坏)。RAID阵列创建完成后,管理模块信息就会固定下来不会再发生变化。但是raid阵列的模块信息毕竟不是只读的,也是可以修改的,而意外断电就可能导致模块信息被篡改或者丢失,多次断电甚至可能导致RAID卡元器件损坏,服务器失去对多块物理硬盘进行RAID管理的中间层模块。根据本案例服务器的故障表现,北亚企安数据恢复工程师初步判断故障原因就是RAID卡硬件损坏,如果是这种情况,通过常规方法无法获取6块磁盘中的数据。

服务器数据恢复过程:
1、经过物理故障检测发现故障服务器内的所有硬盘均可以正常读取,无物理故障。
2、编号后将故障服务器内的所有硬盘以只读方式进行镜像备份,镜像完成后将所有硬盘按照编号还原到故障服务器中。后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始数据造成二次破坏。
3、基于镜像文件,北亚企安数据恢复工程师分析故障服务器中raid5磁盘阵列结构,确定raid阵列的硬盘顺序、数据块大小、阵列校验方式等raid相关信息。
4、利用获取到的raid阵列信息虚拟重构raid阵列并进行逻辑校验,确保重构RAID各项参数正确无误后验证重要数据。
5、经过数据恢复工程师验证后没有发现异常,让管理员亲自验证无问题后将数据迁移到提前准备好的环境中,本次数据恢复工作完成。

服务器数据安全Tips:
1、尽量保证机房供电稳定,重要设备配备UPS,以减少供电异常影响服务器及存储的正常工作。
2、应定期对老旧设备进行安全检查,评估老旧设备的运行状态,评估是否需要对老旧设备进行硬件升级或者系统升级。
3、提前制定突发事件应急处理方案,以降低异常断电带来的损失。

审核编辑 黄宇

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分