Python用来分布式运行pytorch的方法

python3 -m torch.distributed.launch —nproc_per_node=8 --nnodes=2 --node_rank=0 --master_addr=“10.141.105.110" train_sentence_piece_dist.py


这个就是分布式运行pytorch的方法,可以尝试一下。速度比dataparallel要快很多。


但是 也有一个问题,就是在pytorch 1.0的时候,这种方法容易oom。所以需要特别注意。

留下您的评论

回复列表:

    god发表于 Jan. 22, 2019, 11:20 a.m.

单个机器的运行方法是:

python3 -m torch.distributed.launch —nproc_per_node=4  train.py

By王炳宁 on Jan. 2, 2019 | 类别 Python

关于本站