简介 || 什么是 DDP || 单节点多 GPU 训练 || 容错机制 || 多节点训练 || minGPT 训练
PyTorch 中的分布式数据并行 - 视频教程
请跟随以下视频或在 YouTube 上观看。
本系列视频教程将带您了解如何通过 DDP 在 PyTorch 中进行分布式训练。
该系列从一个简单的非分布式训练任务开始,到最后在集群中的多台机器上部署训练任务。在此过程中,您还将学习如何使用 torchrun 进行容错分布式训练。
本教程假设您对 PyTorch 中的模型训练有基本的了解。
运行代码
运行本教程代码需要多块 CUDA GPU。通常,这可以在具有多块 GPU 的云实例上完成(本教程使用的是配备 4 块 GPU 的 Amazon EC2 P3 实例)。
教程代码托管在这个 GitHub 仓库 中。克隆该仓库并跟随教程进行学习!
教程章节
-
简介 (本页)
-
什么是 DDP? 简要介绍 DDP 的底层工作原理
-
单机多 GPU 训练 在单台机器上使用多个 GPU 训练模型
-
容错分布式训练 使用 torchrun 使您的分布式训练任务更健壮
-
多节点训练 在多台机器上使用多个 GPU 训练模型
-
使用 DDP 训练 GPT 模型 使用 DDP 训练 minGPT 模型的“实际”示例