slurm调度系统

曙光智算计算服务平台使用slurm作业调度系统,该调度系统是目前主流的作业管理系统之一。常用调度命令如下:

命令 含义 简单示例
sbatch 批量提交作业命令,后面跟脚本文件 sbatch xxx.sh
squeue 查看目前提交作业的信息 squeue(可显示作业号、作业状态等)
salloc 抢占计算资源命令 salloc -p kshctest -N 1 -n 32
scontrol 查看正在计算作业信息 scontrol show job jobid
scancel 取消作业 scancel jobid
sacct 查看历史作业 sacct -j jobid -X -o elapsed,state,nodelist

在E-Shell界面中通过命令行计算作业的方式有三种:

(1) 将计算过程写成作业脚本,通过sbatch命令将任务提交到计算节点执行,提交命令为sbatch jobfile(jobfile为作业脚本名,支持用户自定义);

(2) 通过srun命令提交交互式作业;

(3) 通过salloc命令实时获取计算资源,再ssh连接到计算节点进行计算。

注意:

使用srun和salloc方式时需要保持E-Shell页面常开启,否则此终端对应的作业将出现结束。若您有长时间或者后台计算需求,请使用第一种sbatch方式提交任务。

此外,请不要在登录节点上不通过作业调度管理系统直接运行作业(编译等日常操作除外),以免影响其余用户的正常使用;

results matching ""

    No results matching ""