我有一个由 6 个计算节点和 1 个主节点组成的集群,用于学术研究目的。我正在尝试测试我的集群并确保它们可以完成提交的各种批处理作业。我想使用 sbcast 命令将文件从主节点复制到计算节点,然后最终执行该复制的文件。
我正在运行 sbatch test_job,这是我的 bash 脚本:
#!/bin/bash
#SBATCH --job-name=totaltestjob
#SBATCH --output=newoutput.out
#SBATCH --error=error1.txt
#SBATCH --exclusive
#SBATCH --nodes=1
sbcast pscript.py ~
python3 pscript.py
但是提交作业后,我的计算节点上的 error1.txt 文件显示为:
sbcast: error: Can't open 'data.txt': No such file or directory.
我尝试给予 pscript.py 文件 777 权限。我尝试了源参数和目标参数的多个路径,例如 home/user/pscript.py。似乎没有什么可以消除上面的错误消息。集群已启动,节点正在相互通信,并且我已成功提交 sbatch 脚本,而无需使用 sbcast 命令。接受任何建议。 谢谢您的宝贵时间。
即使在目的地,我也会尝试文件名,例如
sbcast pscript.py ~/pscript.py
希望有帮助