IBM N6210 (NetApp FAS3240)故障诊断与处理
突然接到一个客户的紧急求助,说IBM N6210存储故障,业务运行明显变慢,具体原因未知......客户能提供的信息就这些,问设备在什么地方?是否可以到现场或者远程登录。答曰,设备在一个三级地市,且无法远程。而问其他一些问题,客户对N6210也不是很熟悉。
下面对故障诊断过程做一个分享。
1. 认识N6210
IBM的N6210就是OEM的NetApp FAS3240,除外观做了一些修改以外,其他没有任何的改变,所有备件均通用,操作系统Data ONTAP也没有做任何的修改。系统出现故障,在控制器的面板的指示灯会有显示,下面对FAS3240的物理外观做个介绍。
上图是FAS3240的控制器外观图,可以看到在控制器的前面板有电源和控制器的指示灯。右边的绿色LED灯为控制器的指示灯,如果绿色闪烁,代表控制器online。
FAS3240有如下三种基本配置,根据系统命名后缀也可以做个基本判断:
CB – Controller (A) – Base configuration,单控制器架构,FAS3210支持此种架构。
CC – Controller-controller configuration,双控制器架构,FAS2系列均支持此种架构
CI – Controller (A) – IOXM Configuration (B),单控制器和扩展模块,FAS3240和FAS3270支持此种架构
再来认识一下控制器的详细后视图,
在控制器上有一个LED灯,该指示灯是用来指示NVMEM的状体,如果控制器发生切换或者控制器故障,而该指示灯每隔两秒闪烁一次,说明NVMEM中有dirty cache,需要专家介入处理了,系统丢数的可能性非常大。
2. 远程诊断分析过程
由于客户对系统不熟悉,而且不能远程,也不能到现场,只能通过面板指示灯来做初步判断。让客户通过微信(SymmToken)把故障设备的指示灯发过来后,很快判断出B控制器有问题,是否被成功接管需要进一步的分析。而客户提供的前端主机端口没有任何信号的问题就是这个问题,由于B控制器已经shutdown,所以没有信号是正常状态。从客户提到的应用性能变慢,而没有业务完全不可用的情况,可以初步判断出是A控制器成功接管了B控制器,业务目前在A控制器上运行,而至于为什么B控制器出现故障,需要进一步的log做分析判断。在指导客户收集了Autosupport后,进一步分析,最后定位到了NVMEM和NVMEM的电池故障,可以先更换NVMEN的电池,如果B控还不能正常启动,可以考虑进一步更换NVMEM。对于NVMEM和NVMEM battery的更换需要特别注意是否有dirty cache,避免造成数据丢失。
依据分析,已搞清楚客户问题,并提供了详细的更换备件号和Action plan,并启动备件订购流程,配件更换后,问题顺利解决。