slurm调度系统
曙光智算计算服务平台使用slurm作业调度系统,该调度系统是目前主流的作业管理系统之一。常用调度命令如下:
命令 | 含义 | 简单示例 |
---|---|---|
sbatch | 批量提交作业命令,后面跟脚本文件 | sbatch xxx.sh |
squeue | 查看目前提交作业的信息 | squeue(可显示作业号、作业状态等) |
salloc | 抢占计算资源命令 | salloc -p kshctest -N 1 -n 32 |
scontrol | 查看正在计算作业信息 | scontrol show job jobid |
scancel | 取消作业 | scancel jobid |
sacct | 查看历史作业 | sacct -j jobid -X -o elapsed,state,nodelist |
在E-Shell界面中通过命令行计算作业的方式有三种:
(1) 将计算过程写成作业脚本,通过sbatch命令将任务提交到计算节点执行,提交命令为sbatch jobfile(jobfile为作业脚本名,支持用户自定义);
(2) 通过srun命令提交交互式作业;
(3) 通过salloc命令实时获取计算资源,再ssh连接到计算节点进行计算。
注意:
使用srun和salloc方式时需要保持E-Shell页面常开启,否则此终端对应的作业将出现结束。若您有长时间或者后台计算需求,请使用第一种sbatch方式提交任务。
此外,请不要在登录节点上不通过作业调度管理系统直接运行作业(编译等日常操作除外),以免影响其余用户的正常使用;