国庆7日游——长治融媒体中心“得拓24盘存储柜”宕机恢复记
一直对这个“融媒体”的概念比较模糊,国庆前接到一个求助,说是长治某电视台的视频存储服务器宕机,不能访问。驱车赶往现场赫然挂着“XXX融媒体中心”,后跟工作人员沟通才得知现在各个单位都在改革,以前比较分散的媒体方式进行整合后叫“融媒体”。
在来说说此次的主角:得拓设备,24盘主柜+16盘从柜。16盘从柜是最近新上的,一组RAID5并无异样,主柜由24块3T硬盘组成一个RAID5后划分为多个LUN。并24*365使用多年,最近频繁掉线,最终掉线2盘后宕机。
故障描述:
后管理后台日志看到
1、 8月25日 8号盘离线,RAID为降级模式,热备盘未生效一直处于降级模式。
2、 9月9日21号盘离线,raid组损坏,半小时后21号盘自动上线,触发2号热备盘进行同步,在同步过程中21号盘再次离线,raid组损坏。
根据以上信息判断为21号盘内存在有坏扇区,导致热备盘同步失败,并且21号盘被系统踢掉。
数据恢复分析
RAID5仅支持1块盘离线,从日志中发现,首先8号盘离线后热备并未启动,后21号盘再次离线导致raid损坏。
数据恢复方案
1、为了保护原环境,避免故障扩大,将该存储硬盘脱离原机前做好标记以及盘序号并对每一块物理硬盘做好备份。通过备份软件对每块底层逐扇区备份,确保数据完整性。
2、通过逆向还原进行Raid重构(如此法不通过还有备用方案)
从图可以看到重构RAID成功,并能正常读取到LUN空间
3.按文件方式迁移到另一存储,完成恢复工作。50多T数据,耗时4天。
数据恢复结果
经客户验证,数据可以正常使用,本次数据恢复成功。
小贴士
故障发生后,应在关机状态下插拔硬盘,同时对硬盘原位置进行标注。在硬盘离开存储后不要再对存储加电,确保所有操作尽可能回溯。