如果DataDomain存储系统可以正常开机登录的情况下,可以使用DD OS的命令行进行很多的故障排查和诊断,如system status和enclosure show all等。同时系统也定期自动进行这方面的检查,如果发现问题,及时发出Autosupport告警信息。 但如果DD OS系统彻底不能启动的时候,或者被人拔了盘和卡等的情况下,该如何进行系统的故障诊断呢?本文就是介绍在DD OS系统不能正常启动情况下的故障诊断方法,也叫做offline diagnostics。 那么什么时候使用offline的故障诊断方法?主要是下面几种情况下,需要使用offline的故障诊断: 下面我们看看可以对DataDomain存储系统的那些部件进行离线检查: FRU 测试名称 System inventory System Controller Boot Disk HDD Quick Test System Controller Disks (all) HDD Comprehensive Test Fibre Channel HBA Card, Cable Gateway Diagnostic Memory (DIMMs) Memory Diagnostics Motherboard CPU Test CPU MCE Test CPU SSE Test Motherboard PCIe Topology Test SAS HU Diagnostics Test SATA HU Diagnostics Test Ethernet Network Interface Card (NIC) Network Internal Loopback Test Network External Loopback Test NVRAM Card NVRAM Card Test Serial Attached SCSI (SAS) Daughter and HBA Expansion Cards SAS Diagnostics Test VTL HBA Card, Cable VTL Diagnostic Battery Backup Unit BBU Diagnostic 要运行离线故障诊断,必须满足下面两个条件:
下面我们以第一种方式为例来做个简单介绍。
连接console到DD系统,如果控制器已经不能启动,直接通过按电源按钮或者插拔电源的方式来重新reboot,如果DD系统还正常启动,登录到系统后,运行system reboot, DD系统重新启动。
Reboot过程中,让系统进入GRUB菜单,如下图所示:
选择offline Diagnostics (Serial Console),系统进入离线故障账单子菜单,如下图所示:
可以选择对系统进行全部功能诊断,也可以仅仅选择对所关心的部件进行离线故障诊断。如果对整个系统进行自动故障诊断,所花费的时间会比较长,一般会有3-4个小时,取决于系统配置。下面我们仅仅选择对Fibre Channel、磁盘和SAS接口进行离线诊断,如下图所示:
选择Run selected Diagnostics, 系统会显示一个汇总窗口以及需要花多少时间的汇总。系统在完成诊断后,会给出一个问题汇总和建议,如下图:
本案例中,VTL的FC HBA卡有问题,需要进行进一步的诊断分析。其他类似这里不在详细叙述。