电子说
服务器数据恢复环境:
某品牌ProLiant DL系列服务器,
6块SAS硬盘组成RAID5磁盘阵列,
WINDOWS SERVER操作系统,
存储了企业的内部文件。
服务器故障&分析:
服务器在发生故障前有过几次意外断电,每次断电重启后没有出现异常。直到最后一次断电重启没有成功,RAID报错,提示无法找到存储设备。进入RAID管理模块,执行任何操作就死机。管理员多次重启服务器后还是无法成功进入操作系统。
通常服务器出现这类故障,有很大的可能性是因为意外断电导致RAID模块损坏(RAID管理信息丢失或RAID模块硬件损坏)。RAID阵列创建完成后,管理模块信息就会固定下来不会再发生变化。但是raid阵列的模块信息毕竟不是只读的,也是可以修改的,而意外断电就可能导致模块信息被篡改或者丢失,多次断电甚至可能导致RAID卡元器件损坏,服务器失去对多块物理硬盘进行RAID管理的中间层模块。根据本案例服务器的故障表现,北亚企安数据恢复工程师初步判断故障原因就是RAID卡硬件损坏,如果是这种情况,通过常规方法无法获取6块磁盘中的数据。
服务器数据恢复过程:
1、经过物理故障检测发现故障服务器内的所有硬盘均可以正常读取,无物理故障。
2、编号后将故障服务器内的所有硬盘以只读方式进行镜像备份,镜像完成后将所有硬盘按照编号还原到故障服务器中。后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始数据造成二次破坏。
3、基于镜像文件,北亚企安数据恢复工程师分析故障服务器中raid5磁盘阵列结构,确定raid阵列的硬盘顺序、数据块大小、阵列校验方式等raid相关信息。
4、利用获取到的raid阵列信息虚拟重构raid阵列并进行逻辑校验,确保重构RAID各项参数正确无误后验证重要数据。
5、经过数据恢复工程师验证后没有发现异常,让管理员亲自验证无问题后将数据迁移到提前准备好的环境中,本次数据恢复工作完成。
服务器数据安全Tips:
1、尽量保证机房供电稳定,重要设备配备UPS,以减少供电异常影响服务器及存储的正常工作。
2、应定期对老旧设备进行安全检查,评估老旧设备的运行状态,评估是否需要对老旧设备进行硬件升级或者系统升级。
3、提前制定突发事件应急处理方案,以降低异常断电带来的损失。
审核编辑 黄宇
全部0条评论
快来发表一下你的评论吧 !