服务器数据恢复—磁盘不稳定被踢导致raid5阵列崩溃的数据恢复案例

电子说

1.2w人已加入

描述

服务器存储数据恢复环境:
某品牌MSA2000服务器存储中有一组由8块SAS硬盘组建的raid5磁盘阵列,其中包含一块热备盘。分配了6个LUN,均分配给HP-Unix小机使用。磁盘分区由LVM进行管理,存放的数据主要为Oracle数据库及OA服务端。

服务器存储故障:
服务器存储raid5阵列中有两块硬盘先后离线,服务器瘫痪,无法正常访问lun。

服务器存储数据恢复过程:
1、将所有磁盘编号标记后取出故障服务器存储,硬件工程师分别对服务器中所有磁盘进行物理故障检测和坏道检测,均无异常。
将所有磁盘以只读方式镜像成文件,镜像完成后将所有磁盘按照编号还原到故障存储中。后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
备份完成的部分数据:

RAID5北亚企安数据恢复——raid5数据恢复



2、MSA2000存储中一旦某些磁盘读写性能不稳定,该存储中的raid控制器会将这些磁盘识别为坏盘并踢出RAID。一旦RAID中掉线的盘数到达到采用的RAID级别所允许掉盘的极限,RAID不可用,服务器瘫痪。
3、存储中的LUN都是基于RAID的,要想恢复数据就需要先将原始RAID重组出来。分析Oracle数据库页在每个磁盘中分布的情况,并根据数据分布的情况获取RAID条带大小,盘序、数据走向等重组RAID所需要的信息。
4、根据分析出来的RAID信息重组原始RAID。重组完成后分析LUN在RAID中的分配情况,以及LUN分配的数据块MAP。由于有6个LUN,因此只需要将每一个LUN的数据块分布MAP提取出来。北亚企安数据恢复工程师根据这些信息编写相应的程序,解析所有LUN的数据MAP,然后根据数据MAP导出所有LUN的数据。
导出的部分数据:

RAID5北亚企安数据恢复——raid5数据恢复



5、分析所有LUN,发现所有LUN中均包含LVM逻辑卷信息。尝试解析每个LUN中的LVM信息,发现其中一共有三套LVM:第一个LVM中划分了一个LV,存放OA服务器端的数据;第二个LVM中划分了一个LV,存放临时备份数据;剩下的4个LUN组成一个LVM,划分了一个LV,存放Oracle数据库文件。北亚企安数据恢复工程师编写LVM解释程序,尝试解释每套LVM中的LV卷,但是在解释过程中出错。
6、开发工程师debug程序出错的位置,分析程序报错原因,由文件系统工程师对恢复出来的LUN做检测,检测LVM信息是否会因为存储瘫痪而导致LMV逻辑卷的信息损坏。经过检测发现LVM信息确实被破坏。北亚企安数据恢复工程师尝试人工修复损坏的区域,并同步修改程序重新解析LVM逻辑卷。
7、搭建HP-Unix环境,将解释出来的LV卷映射到HP-Unix。尝试Mount文件系统,结果Mount文件系统出错。尝试使用“fsck –F vxfs” 命令修复vxfs文件系统,修复完成还是不能挂载。怀疑vxfs文件系统元数据被破坏。
8、仔细分析解析出来的LV,根据VXFS文件系统的底层结构校验此文件系统的完整性。分析发现VXFS文件系统确实存在问题,存储瘫痪的同时此文件系统正在执行IO操作,因此部分文件系统元文件损坏。人工修复这些损坏的元文件,直到能够正常解析VXFS文件系统。再次将修复好的LV卷挂载到HP-Unix小机上,尝试Mount文件系统,这回文件系统没有报错,成功挂载。
9、在HP-Unix机器上mount文件系统后,将所有用户数据备份至指定空间。
部分文件目录:

RAID5北亚企安数据恢复——raid5数据恢复



10、使用Oracle数据库文件检测工具“dbv”检测每个数据库文件是否完整,没有发现错误。使用北亚企安自主研发的Oracle数据库检测工具进行检测,发现有部分数据库文件和日志文件校验不一致。由数据库工程师修复此类文件并校验,直到所有文件均通过校验。
11、将恢复出来的Oracle数据库附加到原始生产环境的HP-Unix服务器中,尝试启动Oracle数据库,Oracle数据库启动成功。

RAID5北亚企安数据恢复——raid5数据恢复



12、启动Oracle数据库和OA服务端,通过OA客户端对最新的数据记录以及历史数据记录进行验证,并且安排不同部门人员进行远程验证。经过仔细验证,确认数据完整有效。本次数据恢复工作完成。

审核编辑 黄宇

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分