Skip to main content

SDDA无法启动故障

最近在儿童医院处理了一起SDDA 无法启动的情况,和大家分享讨论下

image.png

故障现象:
OC启动失败,从 log 里看出是 sdda 的状态不正常导致 darc 的功能异常

image.png

故障分析及解决:
1、 从上述的报错看出是 sdda 的 RAID 状态出错,从以往的经验来看,做 sudo gre raid c 是可以解决问题的,所以第一步做了 sdda 的 RAID 。
2、 做 sdda 的 RAID 成功无报错,且做 sudo gre raid q 检查了 8 个硬盘状态也是正常的,除去个别盘的读取速度有少许的不同。 重启OC,依然无法启动。
3、 考虑是不是某个 sdda 的 disk 功能异常导致的看似做 RAID 成功,但实际有问题存在,尝试将 8 个 disk 的位置重新装配,同时调换重新插拔了DARC 到 SDDA 的 SCSI cable ,重新做 RAID 依然成功,但 OC 还是无法正常启动。
4、 用 NOHOSTSHUTDOWN 命令强制启动 OC 查看 log ,报错信息可以看出 OC 无法确认 sdda 的 RAID 状态 。

image.png

5、 查看 darc 的 error log ,未发现有明显的报错信息。
6、 单接显示器查看 darc 的启动过程,发现下列异常, darc 一直报错 no space left on device ,考虑到是不是存有 RAID 状态的文件无法保存到 darc里。

image.png

7、 rsh 到 darc 里查看较大的文件,首先想到的是 log 文件夹,发现/var/log 里的几个 messages 文件都比较大,用 rm rf 命令进行了删除继续看darc 的根目录下有几个 core 。 xxxxxxx 文件较大,通过查 PSDB知道 core 文件也是垃圾文件,可以删除。
8、 重新做了 sdda 的 RAID ,重启 OC ,故障解决。

维修总结:
这次维修感觉问题并不是很复杂,在做sdda 的 raid 成功, sdda 的硬盘又未检出明显异常的情况下, oc 依然无法启动 sdda ,这时可能考虑 DRAC 功能异常。或者SDDA 盒子有问题,又或者 OC 软件有问题。总之采取的步骤可能是重新装 DARC 的软件看是否解决故障 ,或者订 SDDA 盒子。但经过反复查看DARC的启动过程和sdda 的报错信息,问题逐步明朗,考虑到是 darc 硬盘空间不足。找出了根本原因,省去了 LFC 的时间,也省去了订备件的成本。
上述是我的一些想法,不妥的地方希望大家帮忙指正,谢谢!