如何快速诊断与解决Slurm集群常见错误？-HCRM博客

Slurm报错分析与解决方案

Slurm是一个广泛使用的高性能计算工作负载管理器，它能够高效地分配计算资源并管理作业队列，在使用过程中，用户可能会遇到各种报错信息，这些信息通常涉及资源分配、权限问题、脚本错误等，本文将详细解析常见的Slurm报错原因，并提供相应的解决方案。

（图片来源网络，侵权删除）

一、常见Slurm报错及解决方案

1、作业未运行或排队等待：当作业被提交后却没有立即运行，可能是由于系统内其他用户正在使用大量资源，导致可用资源不足，此时可以通过squeue命令查看作业状态和节点列表（NODELIST(REASON)）来获取更多信息，如果排队在你前面的任务需要较大计算资源，调度器可能会为其保留部分资源。

2、无效的分区名称：报错显示“Invalid partition name specified”，通常是因为指定的分区不存在或没有权限使用该分区，解决方法是检查并更改作业脚本中的分区设置，确保其存在且有相应权限。

3、QoS限制：如果报错显示“QOSMaxWallDurationPerJobLimit”或“Requested node configuration is not available”，则可能是由于所申请的资源超过了当前服务质量（QoS）的限制，需要修改作业脚本中的资源配置参数，例如减少节点数或核心数，或者缩短运行时间。

4、内存不足：即使申请的内存远大于实际需求，仍可能报错“内存不足”，这是因为节点的内存是以核心数划分的，例如每个核心4G内存，那么一个节点总共有128G内存，解决办法是在作业脚本中指定每个任务的CPU数量（如#SBATCH cpuspertask=1）。

5、账户问题：如果报错“Account Not Allowed”，则可能是账户余额不足或被管理员封锁，需要联系管理员解决此问题。

6、节点配置不匹配：报错“batch job submission failed: Requested node configuration is not available”时，需要检查申请的节点配置是否与实际匹配，如果分区中每个节点只有32个核心，但申请了超过32个核心，则会报此错误，仔细检查并调整作业脚本中的资源配置。