1
0
写了 38632 字,被 80 人关注,获得了 143 个喜欢
众所周知,大模型的训练需要大量的显存资源,单卡很容易就爆了,于是就有了单机多卡、多机多卡的训练方案。本文主要是介绍如何使用deepspeed框架做多机多卡的分布式训练。 由于...