HCRM博客

IBM BRD 报错,如何快速定位和解决常见问题?

IBM BRD报错问题详解

问题描述

接到客户报修,一台IBM X3850X5服务器宕机后无法开机,诊断面板上BRD指示灯亮起,设备电源可以正常加电,但按下开机按钮后无法启动,液晶面板在01、FR间循环显示。

IBM BRD 报错,如何快速定位和解决常见问题?-图1
(图片来源网络,侵权删除)

通过用客户管理电脑连接IMM管理端口查看日志,有如下报错信息:

1、I 7/6/2016:6:24:35 N 0x4000000e00000000 Remote Login Successful. Login ID: USERID from Web at IP address 192.168.70.1

2、E 7/2/2016:2:6:35 C 0x800706081410ffff Sensor "I/O Board VRD" has transitioned to nonrecoverable

3、I 7/2/2016:2:6:29 N 0x806f00091381ffff "Host Power" has been turned off

4、E 7/2/2016:2:6:26 C 0x80070608140bffff Sensor "CPU 2 VRD" has transitioned to nonrecoverable

处理步骤

1、现场确认和初步检查:通过设备维护手册查询,报错内容“Sensor "CPU 2 VRD" has transitioned to nonrecoverable”为CPU板故障,报错内容“Sensor "I/O Board VRD" has transitioned to nonrecoverable”为PCI板故障。

IBM BRD 报错,如何快速定位和解决常见问题?-图2
(图片来源网络,侵权删除)

2、更换CPU板

关闭服务器和外围设备,断开电源线和所有外部电缆连接。

卸下顶盖、顶盖支架、电源、内存卡、ServeRAID适配器、中间风扇、内存卡仓和微处理器。

断开前部风扇、可扩展指示灯、操作员信息面板和CD/DVD电源的电缆连接。

拧松服务器后部的指旋螺钉,将组合件轻轻向服务器前部滑动,取出组合件。

更换成新的CPU板,按相反步骤进行安装后加电开机测试。

IBM BRD 报错,如何快速定位和解决常见问题?-图3
(图片来源网络,侵权删除)

3、解决RAID卡问题:更换新CPU板后主机可以正常开机,但在启动过程中会有如下报错并无法进入操作系统:“there are offline or missing virtual drives with preserved cache. please check the cables and ensure that all drives are prESENT.”。

按照提示进行RAID卡管理界面,选择Discard cache选项丢弃,然后退出管理界面,设备正常进入操作系统。

4、解决FPGA微码版本不匹配问题

通过看到VPD信息发现FPGA微码版本高于IMM和UEFI微码版本。

与客户沟通将所有微码升级到最新版本。

到官网下载最新的微码版本;

IMM:ibm_fw_imm_yuooh2b1.51_linux_3264

FPGA: ibm_fw_fpga_g0ud92b5.02_linux_3264

UEFI:ibm_fw_uefi_g0e185a1.85_linux_3264

重启服务器,按F1到UEFI界面下,打开浏览器连接IMM管理台,默认IP地址:192.168.70.125,用户名/密码:USERID/PASSW0RD(0为数量0)。

首先升级IMM模块微码,点击Firmware Update菜单中的浏览,选择下载好的IMM微码包,点击update进行升级,升级过程大概1015分钟。

升级完成后点击Restart IMM菜单重启IMM模块,整体升级过程中千万不要重启服务器。

重新连接IMM后,按照以上方法分别顺序升级FGPA和UEFI微码。

都升级完成后,关闭服务器电源并拔掉电源线。

等待510分钟,连接电源线并启动到BIOS界面,查看Vital Product Data (VPD)中微码版本是否更新(在IMM也可以查看),同时检查CPU、内存状态是否都正常。

确认状态都正常后,退出BIOS并进行操作系统,同时LOG报警灯亮的问题也已解决,故障处理完成。

对于服务器无法开机的问题,首先判断电源是否正常,同时结合服务器诊断面板和IMM管理台,综合判断可以快速定位故障,在处理过程中,需要特别注意微码版本的一致性,避免因版本不一致导致的进一步问题,通过上述步骤,可以有效解决IBM X3850X5服务器的BRD报错问题。

常见问题FAQs

1、问:为什么更换CPU板后仍然无法启动?

答:可能是因为RAID卡cache中有脏数据未能正常写入磁盘,需要在RAID卡管理界面选择Discard cache选项丢弃,然后退出管理界面,设备即可正常进入操作系统。

2、问:如何确认微码版本是否一致?

答:可以通过登录IMM管理台查看VPD信息,确认FPGA、IMM和UEFI微码版本是否一致,如果不一致,需要将所有微码升级到最新版本。

表格:故障处理步骤归纳

| 步骤 | 描述 |

| :: | :|

| 1 | 现场确认和初步检查,结合IMM日志分析故障原因 | |

| 2 | 更换CPU板,详细步骤包括拆卸和安装 | |

| 3 | 解决RAID卡问题,选择Discard cache选项丢弃脏数据 | |

| 4 | 解决FPGA微码版本不匹配问题,依次升级IMM、FPGA和UEFI微码 | |

| 5 | 确认所有微码版本更新后,重新启动服务器并进行最终检查 | |

通过上述步骤,可以系统地解决IBM X3850X5服务器的BRD报错问题,确保设备恢复正常运行。

分享:
扫描分享到社交APP
上一篇
下一篇