SlurmCommand
PBS vs SLURM
查看仍在运行作业7454119的详细信息
1 | scontrol show job 7454119 |
sacct查询已经结束作业的相关信息
1 | format=jobid,jobname,partition,nodelist,alloccpus,state,end,start,submit |
1 | [sca3190@ln121%bscc-a5 ~]$ sacct -D -T -X -u sca3190 -S 2021-11-10T00:00:00 -E 2021-11-30T00:00:00 --format "JobID,User,JobName,Partition,QOS,Elapsed,Start,NodeList,State,ExitCode,workdir%70" |
OpenMP申请
1个task 64核
1 | #SBATCH --nodes=1 |
问题
IPCC比赛耗时特别多
建议sbatch 加入-t, --time=minutes time limit
#SBATCH -t 5:00
第二年参加IPCC发现去年的一个程序跑了很久。
导出excel 获得jobID 1050223
1 | $ sacct -D -T -X -u sca3190 -S 2021-11-10T00:00:00 -E 2021-11-30T00:00:00 --format "JobID,JobName,State,workdir%70" |
NODE_FAIL - Job terminated due to failure of one or more allocated nodes.
查看提交脚本,没有什么问题。
1 | #!/bin/bash |
查看Log文件
1 | sca3190@ln121%bscc-a5 src]$ cat slurmlog/job_1050223_rank0_fa0208_0.out |
猜测原因是: 卡在编译了。
以后最好不要在sbatch脚本里编译
需要进一步的研究学习
暂无
遇到的问题
暂无