脚本提交运行
GPU作业提交模板:以深度学习minist训练为例,GPU作业提交模板
注意:使用脚本提交作业时,需确保脚本设置调度卡参数#SBATCH --gres=dcu:1和核心数#SBATCH --ntasks-per-node=8(卡数跟核数比例为1:8,具体数量可根据需要设置),否则作业会报错。
#!/bin/bash
#指定作业提交的队列
#SBATCH -p test
#指定作业申请的节点数
#SBATCH -N 1
#指定每个节点运行进程数。
#SBATCH --ntasks-per-node=8
#指定任务需要的处理器数目
#SBATCH --cpus-per-task=1
#指定每个节点使用通用资源的名称及数量
#SBATCH --gres=dcu:1
#作业名称,使用squeue看到的作业名
#SBATCH -J ceshi
#指定作业标准结果输出文件名称
#SBATCH -o %x.o%j
#指定作业标准错误输出文件名称
#SBATCH -e %x.e%j
#添加环境变量
#export MIOPEN_DEBUG_CONV_IMPLICIT_GEMM=0
#切换rocm运行环境
module switch compiler/rocm/4.0.1
#加载本地环境
module load apps/PyTorch/1.7.mmcv/pytorch-1.7-mmcv1.3.8-rocm-4.0.1
#运行程序
python3 main.py