PyTorch 入门指南
学习 PyTorch
图像和视频
音频
后端
强化学习
在生产环境中部署 PyTorch 模型
Profiling PyTorch
代码变换与FX
前端API
扩展 PyTorch
模型优化
并行和分布式训练
边缘端的 ExecuTorch
推荐系统
多模态

简介 || 什么是 DDP || 单节点多 GPU 训练 || 容错机制 || 多节点训练 || minGPT 训练

PyTorch 中的分布式数据并行 - 视频教程

作者:Suraj Subramanian

请跟随以下视频或在 YouTube 上观看。

本系列视频教程将带您了解如何通过 DDP 在 PyTorch 中进行分布式训练。

该系列从一个简单的非分布式训练任务开始,到最后在集群中的多台机器上部署训练任务。在此过程中,您还将学习如何使用 torchrun 进行容错分布式训练。

本教程假设您对 PyTorch 中的模型训练有基本的了解。

运行代码

运行本教程代码需要多块 CUDA GPU。通常,这可以在具有多块 GPU 的云实例上完成(本教程使用的是配备 4 块 GPU 的 Amazon EC2 P3 实例)。

教程代码托管在这个 GitHub 仓库 中。克隆该仓库并跟随教程进行学习!

教程章节

  1. 简介 (本页)

  2. 什么是 DDP? 简要介绍 DDP 的底层工作原理

  3. 单机多 GPU 训练 在单台机器上使用多个 GPU 训练模型

  4. 容错分布式训练 使用 torchrun 使您的分布式训练任务更健壮

  5. 多节点训练 在多台机器上使用多个 GPU 训练模型

  6. 使用 DDP 训练 GPT 模型 使用 DDP 训练 minGPT 模型的“实际”示例

本页目录