集群中有四台主机,master(无GPU),node01,node02,node03(GPU主机),直接运行python main.py
程序将在CPU中运行。
如下步骤可以运行你的程序:
在你的文件目录下新建一个 lsf.sh
文件,正文写入:
#!/bin/sh
#BSUB -q normal
#BSUB -o %J.out
#BSUB -e %J.err
#BSUB -n 1
#BSUB -J JOBNAME
#BSUB -R span[ptile=1]
#BSUB -m "node03"
#BSUB -gpu num=1
python main.py
其中 python main.py
是你运行程序的命令,然后:
source activate 你的conda环境
开启环境,用
bsub <lsf.sh
向集群提交运算任务。
即可运行程序,终端会给你一个任务序号,输出文件就是序号.out
和序号.err
。
** 其他命令:**
bjobs -W
查看你的任务运行状况
bhosts -gpu
查看集群GPU使用情况。