IBM BRD报错问题详解
问题描述
接到客户报修,一台IBM X3850X5服务器宕机后无法开机,诊断面板上BRD指示灯亮起,设备电源可以正常加电,但按下开机按钮后无法启动,液晶面板在01、FR间循环显示。
通过用客户管理电脑连接IMM管理端口查看日志,有如下报错信息:
1、I 7/6/2016:6:24:35 N 0x4000000e00000000 Remote Login Successful. Login ID: USERID from Web at IP address 192.168.70.1
2、E 7/2/2016:2:6:35 C 0x800706081410ffff Sensor "I/O Board VRD" has transitioned to nonrecoverable
3、I 7/2/2016:2:6:29 N 0x806f00091381ffff "Host Power" has been turned off
4、E 7/2/2016:2:6:26 C 0x80070608140bffff Sensor "CPU 2 VRD" has transitioned to nonrecoverable
处理步骤
1、现场确认和初步检查:通过设备维护手册查询,报错内容“Sensor "CPU 2 VRD" has transitioned to nonrecoverable”为CPU板故障,报错内容“Sensor "I/O Board VRD" has transitioned to nonrecoverable”为PCI板故障。
2、更换CPU板:
关闭服务器和外围设备,断开电源线和所有外部电缆连接。
卸下顶盖、顶盖支架、电源、内存卡、ServeRAID适配器、中间风扇、内存卡仓和微处理器。
断开前部风扇、可扩展指示灯、操作员信息面板和CD/DVD电源的电缆连接。
拧松服务器后部的指旋螺钉,将组合件轻轻向服务器前部滑动,取出组合件。
更换成新的CPU板,按相反步骤进行安装后加电开机测试。
3、解决RAID卡问题:更换新CPU板后主机可以正常开机,但在启动过程中会有如下报错并无法进入操作系统:“there are offline or missing virtual drives with preserved cache. please check the cables and ensure that all drives are prESENT.”。
按照提示进行RAID卡管理界面,选择Discard cache选项丢弃,然后退出管理界面,设备正常进入操作系统。
4、解决FPGA微码版本不匹配问题:
通过看到VPD信息发现FPGA微码版本高于IMM和UEFI微码版本。
与客户沟通将所有微码升级到最新版本。
到官网下载最新的微码版本;
IMM:ibm_fw_imm_yuooh2b1.51_linux_3264
FPGA: ibm_fw_fpga_g0ud92b5.02_linux_3264
UEFI:ibm_fw_uefi_g0e185a1.85_linux_3264
重启服务器,按F1到UEFI界面下,打开浏览器连接IMM管理台,默认IP地址:192.168.70.125,用户名/密码:USERID/PASSW0RD(0为数量0)。
首先升级IMM模块微码,点击Firmware Update菜单中的浏览,选择下载好的IMM微码包,点击update进行升级,升级过程大概1015分钟。
升级完成后点击Restart IMM菜单重启IMM模块,整体升级过程中千万不要重启服务器。
重新连接IMM后,按照以上方法分别顺序升级FGPA和UEFI微码。
都升级完成后,关闭服务器电源并拔掉电源线。
等待510分钟,连接电源线并启动到BIOS界面,查看Vital Product Data (VPD)中微码版本是否更新(在IMM也可以查看),同时检查CPU、内存状态是否都正常。
确认状态都正常后,退出BIOS并进行操作系统,同时LOG报警灯亮的问题也已解决,故障处理完成。
对于服务器无法开机的问题,首先判断电源是否正常,同时结合服务器诊断面板和IMM管理台,综合判断可以快速定位故障,在处理过程中,需要特别注意微码版本的一致性,避免因版本不一致导致的进一步问题,通过上述步骤,可以有效解决IBM X3850X5服务器的BRD报错问题。
常见问题FAQs
1、问:为什么更换CPU板后仍然无法启动?
答:可能是因为RAID卡cache中有脏数据未能正常写入磁盘,需要在RAID卡管理界面选择Discard cache选项丢弃,然后退出管理界面,设备即可正常进入操作系统。
2、问:如何确认微码版本是否一致?
答:可以通过登录IMM管理台查看VPD信息,确认FPGA、IMM和UEFI微码版本是否一致,如果不一致,需要将所有微码升级到最新版本。
表格:故障处理步骤归纳
| 步骤 | 描述 |
| :: | :|
| 1 | 现场确认和初步检查,结合IMM日志分析故障原因 | |
| 2 | 更换CPU板,详细步骤包括拆卸和安装 | |
| 3 | 解决RAID卡问题,选择Discard cache选项丢弃脏数据 | |
| 4 | 解决FPGA微码版本不匹配问题,依次升级IMM、FPGA和UEFI微码 | |
| 5 | 确认所有微码版本更新后,重新启动服务器并进行最终检查 | |
通过上述步骤,可以系统地解决IBM X3850X5服务器的BRD报错问题,确保设备恢复正常运行。