raid5故障导致SAP应用崩溃的数据恢复案例

电子说

1.3w人已加入

描述

服务器数据恢复环境:

IBM某型号服务器中6块硬盘搭建的raid5磁盘阵列,其中1块盘作为热备盘使用。

上层部署的是SAP应用+Oracle数据库。

服务器故障&检测:

服务器中RAID5磁盘阵列中的1块盘出现故障离线,热备盘激活替换离线硬盘,在进行数据同步的过程中又有一块硬盘故障离线,RAID5磁盘阵列瘫痪,上层LUN不可用,服务器崩溃。

IBM服务器中的LUN是基于RAID组的。分析故障raid5中的所有硬盘,发现其中一块盘的数据同其它盘有明显不同,初步判断这块盘就是HotSpare盘。分析其他盘以及Oracle数据库页在每个磁盘中的分布情况,获取到该RAID5的条带大小、磁盘顺序及数据走向等RAID相关信息。利用获取到的raid相关信息虚拟重构RAID5,然后分析LUN在RAID5中的分配情况以及LUN分配的数据块MAP。只需要将LUN的数据块分布MAP提取出来,针对这些信息编写相应的程序,解析LUN的数据MAP,然后根据数据MAP导出LUN的数据即可恢复数据。

服务器数据恢复过程:

一、恢复Oracle数据库数据。

1、将包含Oracle数据库数据的LUN进行JFS2文件系统解析,人工修复文件系统的不完整部分。

2、利用北亚企安自主开发的JFS2文件系统解析工具解析修复完成的LUN,然后恢复文件系统中所有的Oracle数据库文件。

3、检测Oracle数据库文件的完整性。针对检测有坏块的数据库文件,通过扫描所有硬盘找到所有Oracle碎片,组合扫描到的数据页,人工将有坏块的数据库文件修复完整。

4、恢复完所有Oracle数据库之后,发现SAP应用还是无法正常使用。经过分析发现SAP应用的一些重要数据也是存放在损坏的存储中,如果没有这些重要的数据,即使在Oracle数据库完整的情况下SAP应用也无法正常使用。

二、恢复SAP应用数据。

1、对恢复出来的所有LUN都进行文件系统解析,将包含SAP应用数据的LUN进行文件系统的一致性检测。人工修复文件系统不完整部分,直至恢复出所有SAP及SAP Test的数据。

2、检测恢复出来的SAP应用数据,对损坏的SAP应用数据进行修复,直至所有SAP数据都完整,只有这样才能保证SAP应用能够正常使用。

3、SAP数据修复完成后,结合之前恢复出来的Oracle数据库,即可启动SAP应用了。

三、启动并修复Oracle数据库及SAP应用

1、启动数据库并修复。

把恢复的Oracle数据库文件还原到已搭建好的环境中,并尝试启动Oracle数据库。在启动过程中由于数据库一些临时文件的校验不一致导致数据库启动失败。联系Oracle数据库工程师对数据库进行修复,修复完成后Oracle数据库启动成功,经过反复验证确认数据库中的所有用户及所有表均完整,然后尝试启动SAP。

2、启动SAP并修复。

将恢复出来的SAP数据还原到已搭建好的环境中并启动SAP,SAP启动正常,但SAP中的用户权限及使用异常,SAP表现为没有序列号。北亚企安数据恢复工程师初步判断是因为SAP的注册文件没有恢复出来。重新检测恢复过程,排查可能疏忽的地方,结果发现确实因为文件系统损坏导致某些文件没有恢复出来。重新修复文件系统并恢复这些数据,然后启动并检查SAP,结果一切正常。

3、在用户方工程师配合下启动服务器内的Oracle数据库和SAP,通过SAP客户端反复验证SAP中所有的数据,没有发现任何问题,恢复出来的数据完整可用。本次数据恢复任务完成。

审核编辑:汤梓红

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分