python3 -m torch.distributed.launch —nproc_per_node=8 --nnodes=2 --node_rank=0 --master_addr=“10.141.105.110" train_sentence_piece_dist.py
这个就是分布式运行pytorch的方法,可以尝试一下。速度比dataparallel要快很多。
但是 也有一个问题,就是在pytorch 1.0的时候,这种方法容易oom。所以需要特别注意。
python3 -m torch.distributed.launch —nproc_per_node=8 --nnodes=2 --node_rank=0 --master_addr=“10.141.105.110" train_sentence_piece_dist.py
这个就是分布式运行pytorch的方法,可以尝试一下。速度比dataparallel要快很多。
但是 也有一个问题,就是在pytorch 1.0的时候,这种方法容易oom。所以需要特别注意。
回复列表:
god发表于 Jan. 22, 2019, 11:20 a.m.
单个机器的运行方法是:
python3 -m torch.distributed.launch —nproc_per_node=4 train.py