1.1 常见运营相关问题
1.1.1 用户组
- 为什么主账号添加用户进入用户组显示“服务不可用,请稍后再试”?
答:清除浏览器缓存,重新登陆或者换个浏览器试下。 - 组用户的资源限制策略,是组内所有用户共享组的限制,还是每个子账号有独立的计算限制,比如最大作业数、节点数等?
答:是组内所有用户共享组的限制。 - 为什么用户组成员在资源那块没有配置扩容的选项?
答:只有用户组管理员才可调整存储配额,子账号需要联系团队管理员处理。 - 组管理员可以限制子账号使用的中心吗?比如主账号有两个计算中心资源,而子账号只能使用其中一个计算中心资源?
答:可以的,只要子账号不开通就可以。 - 只有用户组管理员才能给自己账号下面的计算用户分配配额吗?
答:是的。
1.1.2 资源模块问题
- 开通资源后,为什么收不到短信或邮件?
答:在个人中心中确认是否已验证手机号,在设置中确认是否已设置接收短信通知,检查垃圾短信。 - 为什么主页显示有可访问队列,但是无法申请计算资源?
答:无法申请计算资源,先确认队列状态是否正常,其次确认用户组核数与作业数达到上限。如果可以申请资源,但排队,确认是否有空闲资源。 - 一个用户有多个中心资源,portal需要重复申请吗?
答:不需要重复申请。
1.1.3 资源变更
- 用户计算资源切换到正式队列后,现在没有测试队列的权限了,变更之前提交在测试队列的作业会正常跑完吗?
答:会正常跑完,可在命令行用squeue -a查看。 - 存储能帮忙调大吗?
答:可以后台申请调整存储空间,AC首页右上角“我的资源>存储资源>配置变更”。
1.1.4 账号停用
- 账号停用后不可以交作业可以理解,为什么命令行也不能使用?
答:账号已经停用,如果登陆使用还是会增加登陆节点负载,如果需要下载数据,可以通过e-file。 - 为什么试用期还没到账号就显示停用了?
答:需要查看账号是否欠费。 - 试用账号停用后之前部署的软件环境与数据还会保留吗?
答:存储还在,环境也在,删除账户后才会删除环境,数据可以通过e-file下载。(如果停用建议尽快将数据拷贝,停用后,系统有权删除账号。) - 账号停用之后,之前提交的作业还会继续运行吗?
答:停用之前提交的作业会运行,作业结束后扣费,可以通过作业界面查看,并通过e-file下载数据。
1.1.5 账号权限问题
- 为什么账号作业权限是3200核,现在用了640核就显示超出限制?
答:一般情况不会,检查用户组是否有其他子账号在跑作业,确定是否权限为3200核。 - 为什么账号状态显示正常,但是没有可访问队列?
答:可能是队列已到期,可联系值班工程师帮忙确认。 - 用户主页显示可用资源正常,但是提交作业显示sbatch: error: Batch job submission failed: Operation not permitted。
答:确定账号是否已经停用。
1.1.6 计费问题
- 为什么还没有使用任何资源,存储费已经扣费了?
答:存储是按照配额扣费,不是按照实际使用量扣费。独占和存储都是按照自然月扣费,会在月首统一扣费。 - 为什么一个作业有两个账单?
答:一个作业结束后,在扣费时上一个订单费用不够了就会从下一个订单扣费,所以会跨订单号。 - 为什么同一个作业的单价是不一样的?
答:一个作业结束后,在扣费时上一个订单(测试订单)费用不够了就会从下一个订单(正式充值订单)扣费,所以会跨订单号。(测试订单和正式充值订单单价不一致)。
1.1.7 调度系统
- 平台的调度是什么调度系统?slurm是什么?
答:集群采用slurm调度系统,了解slurm请参考如下链接https://ac.sugon.com/doc/1.0.6/30000/general-handbook/User-Guide/slurm.html - 队列有空闲节点,但任务在排队?
答:可以命令行执行squeue查看排队情况,当NODELIST(REASON)列显示状态为resource或者priority时,代表正常排队中,有资源释放排队任务会自动运行。 - 文件不小心误删了怎么办?
答:由于集群采用共享存储,文件删除无法找回,请谨慎执行rm命令。 - 作业显示节点异常nodefile怎么办?
答:如果是脚本提交,可以在脚本中加入#SBATCH -x 节点名 排除异常节点再重新提交,如果是其他方式提交,您可以直接重新提交。温馨提示:节点异常的情况后台会进行统一赔付。 - 如何独占节点?
答:脚本添加#SBATCH --exclusive是独占节点的意思,独占节点会按照满核收费。 - 计算账号名是什么?
答:点击首页的命令行 [E-Shell],选择区域后,左下角@之前的字母就是计算账户名。 - 计算节点无法联网下载?
答:目前计算节点是不支持上网功能的,可以告知值班工程师具体需求,工程师评估后会帮忙申请开通代理,配置后进行上网。 - 如何查看可使用的队列?
答:(1)点击首页,选择要查询的区域,就可以看到可访问队列; (2)在登录节点中执行whichpartition命令进行查看。
1.2 AC平台
- 登录E-shell后一直卡在登录界面或者E-shell使用起来比较卡顿怎么处理?
答:(1)清除下浏览器缓存,更换浏览器重新登陆; (2)更换网络测试,排除下本地网络连接问题; (3)上述方法都测试后依然卡顿,请在专属用户群寻求值班工程师帮助。 - 快传客户端在运行,点击上传文件一直提示未检测到快传客户端,该怎么操作?
答:退出快传客户端重新打开。 - 使用快传上传一个 70G 的包,一到 30GB 就提示重新上传,但没有具体报错,就开始从0上传,是什么原因?
答:可能受网络波动的影响,右键点击电脑桌面任务栏快传图标,在快传高级设置里面优先使用TCP要更稳定一些。 - 如何下载客户端?
答:下载客户端请参考以下链接:https://ac.sugon.com/doc/1.0.6/30000/general-handbook/platform/AC-client.html - 如何修改密码?
答:重置/修改密码请参考下以下链接:https://ac.sugon.com/doc/1.0.6/30000/general-handbook/account-manage/account.html - 上传/下载速度太慢?
答:如果是使用网页进行下载,请换成快传客户端进行上传下载。 - 如何上传/下载文件?
答:打开首页-数据管理-文件管理(E-File),点击上传即可上传文件,选择需要下载的文件,点击下载既可下载文件,若有多个中心需在左上角选择使用中心以后再上传下载。 - 如何进行scp传输?
答:在linux终端界面,可以使用scp传输文件,具体步骤如下:(1)AC进入eshell,点击右上角的小钥匙,下载秘钥例如 xh11.xxx_rsa.txt,记录域名和端口(例如xh1eshell.hpccube.com和65073)。(2)把密钥上传到需要下载或上传文件的linux服务器上,给密钥文件赋权600 chmod 600 密钥文件名字,再执行scp -P 65073 -i xh1eshell.hpccube.com_1124170957_rsa.txt -r 要上传目录 用户名@xh1eshell.hpccube.com:/public/home/用户名/目录(若下载对换目录路径即可)。
1.3 作业相关问题及排查
1.3.1 作业排队
查看排队作业:squeue
[slurmtest@login02 ~]$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
8977234 test TF_Datas slurmtest PD 1 (AssocGrpCpuLimit)
8977235 test TF_Datas slurmtest PD 1 (Resource)
Reason为AssocGrpCpuLimit的作业:
原因:AssocGrpCpuLimit的提示信息表示该作业的使用核心数超过了该用户的限额
解决方案:请取消该作业(scancel 作业ID)并尝试减少作业脚本中占用核心数后重新提交
Reason为Resource的可用如下步骤排查:
1.sinfo | grep
2.scontrol show job 8977235 查看作业中申请的节点数,核心数,内存数等信息
3.确认队列中剩余的节点数,核心数,内存数是否大于作业中申请的数量:
如果还有可用资源,但是小于作业中申请的数量,则需要继续登录该作业
如果剩余的资源大于作业中申请的,但是作业还是不运行,则需要联系管理员查看
1.3.2 提交作业报错
1、报错一:
error: Unable to allocate resources: Invalid account or account/partition combination specified
解决方案:该报错是因为没有使用正确的可访问队列,需要在“概览”中的可访问队列查看您可用的队列名,或者直接在命令行执行whichpartition查询可用队列修改脚本中-p后面的队列名
#SBATCH -p <PARTITION>
2、报错二:
sbatch: error: QOSMinGRES
sbatch: error: Batch job submission failed: Job violates accounting/QOS policy (job submit limit, user's size and/or time limits)
原因:加速卡队列不能提交纯CPU任务
解决方案:更换CPU队列提交纯CPU任务
3、报错三:
sbatch: error: Batch job submission failed: Requested node configuration is not available
原因:没有在DCU队列申请加速卡
####错误示范
#!/bin/bash
#SBATCH -N 1
#SBATCH -n 32
#SBATCH --gres=dcu:4 ##申请四张加速卡
#SBATCH -p wzhctest ##CPU队列
解决方案:更换DCU队列申请加速卡
####正确示范
#!/bin/bash
#SBATCH -N 1
#SBATCH -n 32
#SBATCH --gres=dcu:4 ##申请四张加速卡
#SBATCH -p wzhdtest ##DCU队列
4、报错四:
sbatch: error: CPU count per node can not be satisfied
sbatch: error: Batch job submission failed: Requested node configuration is not available
原因:任务脚本中节点配置不正确,单节点使用的核数(ntasks-per-node*cpus-per-task)超过了单节点最大核数(可通过AC首页>可访问队列>详情查看)
####错误示范
#!/bin/bash
#SBATCH -N 1
#SBATCH --ntasks-per-node=64 ##单节点进程数
#SBATCH --cpus-per-task=2 ##单进程使用的核数
#SBATCH -p wzhctest
####正确示范
#!/bin/bash
#SBATCH -N 1
#SBATCH --ntasks-per-node=32 ##单节点进程数
#SBATCH --cpus-per-task=2 ##单进程使用的核数
#SBATCH -p wzhctest
5、报错五:
sbatch: error: AssocGrpCpuLimit
sbatch: error: Batch job submission failed: Job violates accounting/QOS policy (job submit limit, user's size and/or time limits)
原因:申请的总核数(包括当前在运行的任务)达到了账号最大可用核数限制
解决方案:减少申请核数并重新提交任务。例如:当前帐号可用资源为64核8卡,单节点配置为32核4卡,则任务最多可以申请2个节点,申请3个节点时会因可用核数受限而无法成功提交任务
####错误示范
#!/bin/bash
#SBATCH -N 3 ##节点数为3,任务申请总核数=N*ntasks-per-node=96核
#SBATCH --ntasks-per-node=32 ##单节点核数
#SBATCH --gres=dcu:4 ##单节点使用的加速卡数
#SBATCH -p wzhdtest
####正确示范
#!/bin/bash
#SBATCH -N 2 ##节点数为2,任务申请总核数=N*ntasks-per-node=64核
#SBATCH --ntasks-per-node=32 ##单节点核数
#SBATCH --gres=dcu:4 ##单节点使用的加速卡数
#SBATCH -p wzhdtest