Spaces:
Runtime error
Runtime error
| #多机多卡训练 | |
| #--nnodes=1:3 表示 使用一到三台机器 弹性分配资源 | |
| #--nnodes=<最小节点数>:<最大节点数> | |
| #--nproc_per_node=每台机器上可用的GPU数 | |
| #--rdzv_endpoint=主节点(最先启动的)ip:端口号 | |
| #其他不需要变 | |
| #注意: 此版本的分布式训练是基于数据并行的,多机多卡相当于开更大的batchsize,此时epoch迭代速度会增加, | |
| #但由于 该版本的代码中 保存模型是按照global step来计算的,所以会出现的效果就是 : 保存模型的时间不会有明显加速, | |
| #但每次保存模型时epoch都比之前迭代了更多次,也就是 “更少的步数,实现更好的效果” | |
| #************************* | |
| # torchrun \ | |
| # --nnodes=1:3\ | |
| # --nproc_per_node=2\ | |
| # --rdzv_id=1\ | |
| # --rdzv_backend=c10d\ | |
| # --rdzv_endpoint="inspur1:8880"\ | |
| # train_ms.py | |
| #**************************** | |
| #多卡训练 | |
| #nproc_per_node = 机器上可用的GPU数 | |
| #************************* | |
| torchrun \ | |
| --nnodes=1\ | |
| --nproc_per_node=2\ | |
| train_ms.py | |
| #************************* | |