分布式流水线并行化简介 - pytorch tutorials中文文档

PyTorch 入门指南

学习基础知识

快速入门

张量

数据集与数据加载器

变换操作

构建神经网络

自动微分与 torch.autograd

优化模型参数

保存和加载模型

PyTorch 自定义操作符

学习 PyTorch

PyTorch 深度学习实战：60 分钟快速入门教程

通过示例学习 PyTorch

torch.nn 究竟是什么？

从零开始的自然语言处理

使用 TensorBoard 可视化模型、数据和训练过程。

关于在 PyTorch 中使用非阻塞和 pin_memory() 的良好实践指南

图像和视频

TorchVision 目标检测微调教程

计算机视觉中的迁移学习教程

对抗样本生成

DCGAN教程

空间变换网络教程

优化视觉变压器模型以进行部署

使用 PyTorch 和 TIAToolbox 进行全-slide 图像分类

音频

音频输入输出

音频重采样

音频数据增强

音频特征提取

音频特征增强

音频数据集

基于 Wav2Vec2 的语音识别技术

基于Tacotron2的文本转语音系统

使用 Wav2Vec2 进行强制对齐

后端

ONNX 入门

强化学习

强化学习（DQN）教程

强化学习（PPO）与 TorchRL 教程

训练一个玩马里奥的游戏代理，使用强化学习方法。

Pendulum：用TorchRL编写环境和转换

在生产环境中部署 PyTorch 模型

ONNX 入门

通过 Flask 框架使用 REST API 在 Python 中部署 PyTorch

TorchScript简介

在 C++ 中加载 TorchScript 模型

（可选）将 PyTorch 模型导出为 ONNX，并使用 ONNX Runtime 进行运行。

在 Raspberry Pi 4 上实现实时推理（30 帧/秒！）

Profiling PyTorch

_profiling您的PyTorch模块_

Holistic Trace 分析介绍

使用整体痕迹分析的痕迹差异追踪或者更自然一些：基于整体痕迹分析的痕迹差异追踪

代码变换与FX

（测试版）在FX中构建卷积和批量归一化的融合器

（测试版）使用FX 构建简单的CPU性能剖析工具

前端API

(beta) PyTorch 中的 Channels Last 内存格式

前向模式自动微分（ Beta 版）

雅可比矩阵、海森矩阵、HVP、VHP 等：组合函数变换

模型集成

per-样本梯度

使用 PyTorch 的 C++ 前端

TorchScript中的动态并行计算

C++ 前端的自动微分

扩展 PyTorch

PyTorch 自定义操作符

Python 自定义运算符

自定义 C++ 和 CUDA 操作符

双反向传播与自定义函数

使用自定义函数将卷积和批量归一化融合在一起

自定义 C++ 和 CUDA 扩展

使用自定义 C++ 操作符扩展 TorchScript

使用自定义 C++ 类扩展 TorchScript

在 C++ 中注册一个调度操作符

在 C++ 中扩展调度器以支持新的后端

通过PrivateUse1简化新后端集成

模型优化

_profiling您的PyTorch模块_

使用 TensorBoard 的 PyTorch 分析器

使用 Ray Tune 进行超参数调优

优化视觉变压器模型以进行部署

参数化教程

剪枝教程

（测试版）LSTM 单词语言模型的动态量化

（测试版）BERT的动态量化

（测试版）计算机视觉中的量化迁移学习教程

（测试版）PyTorch 中的静态量化（带 Eager 模式）

从基础知识出发，掌握 PyTorch 在英特尔 CPU 上的性能

从基础知识出发，掌握 PyTorch 在英特尔 CPU 上的性能（第二部分）

入门 - 使用 nvFuser 加速您的脚本

使用 Ax 进行多目标神经架构搜索

torch.compile 介绍

编译的自动微分：为 torch.compile 捕获更大范围的反向图

Inductor CPU 后端调试与性能分析

（测试版）使用缩放点积注意力（SDPA）实现高性能变压器

知识蒸馏教程

并行和分布式训练

分布式和并行训练教程

PyTorch 分布式概述

PyTorch 分布式数据并行 - 视频教程

单机模型并行的最佳实践

分布式数据并行入门

使用 PyTorch 编写分布式应用程序

开始使用全 shards 数据并行 (FSDP)

使用全数据并行（FSDP）进行高级模型训练

Libuv TCPStore 后端简介

使用张量并行（TP）进行大规模变压器模型训练

分布式管道并行简介

使用 C++ 扩展自定义进程组后端

分布式RPC框架入门

使用分布式远程过程调用框架实现参数服务器

使用异步执行来实现批处理 RPC 处理

结合分布式数据并行和分布式远程过程调用框架

使用 Join 上下文管理器进行输入不均匀的分布式训练

边缘端的 ExecuTorch

导出到 ExecuTorch 教程

在 C++ 中运行 ExecuTorch 模型教程

使用 ExecuTorch 开发者工具进行模型性能分析

构建 ExecuTorch iOS 演示应用

构建一个 ExecuTorch Android 演示应用

将模型降级为委托

推荐系统

TorchRec 入门

探索 TorchRec 分片功能

多模态

TorchMultimodal教程：微调FLAVA

分布式管道并行化简介 作者: Howard Huang 本教程使用了一个基于 GPT 风格的 Transformer 模型，通过 torch.distributed.pipelining API 来演示如何实现分布式管道并行。 你将学到什么 如何使用 torch.distributed.pipelining API 如何将流水线并行应用于 Transformer 模型 如何在一组微批次上利用不同的调度策略 前提条件 熟悉 PyTorch 中的基础分布式训练 设置 使用 torch.distributed.pipelining，我们将对模型的执行进行分区，并在微批次上调度计算。我们将使用一个简化版的 transformer 解码器模型。该模型架构用于教学目的，包含多个 transformer 解码器层，以便演示如何将模型分割成不同的块。首先，让我们定义模型： importtorch importtorch.nnasnn fromdataclassesimport dataclass @dataclass classModelArgs: dim: int = 512 n_layers: int = 8 n_heads: int = 8 vocab_size: int = 10000 classTransformer(nn.Module): def__init__(self, model_args: ModelArgs): super().__init__() self.tok_embeddings = nn.Embedding(model_args.vocab_size, model_args.dim) # Using a ModuleDict lets us delete layers witout affecting names, # ensuring checkpoints will correctly save and load. self.layers = torch.nn.ModuleDict() for layer_id in range(model_args.n_layers): self.layers[str(layer_id)] = nn.TransformerDecoderLayer(model_args.dim, model_args.n_heads) self.norm = nn.LayerNorm(model_args.dim) self.output = nn.Linear(model_args.dim, model_args.vocab_size) defforward(self, tokens: torch.Tensor): # Handling layers being 'None' at runtime enables easy pipeline splitting h = self.tok_embeddings(tokens) if self.tok_embeddings else tokens for layer in self.layers.values(): h = layer(h, h) h = self.norm(h) if self.norm else h output = self.output(h).clone() if self.output else h return output 然后，我们需要在脚本中导入必要的库并初始化分布式训练过程。在本例中，我们定义了一些全局变量以便稍后在脚本中使用： importos importtorch.distributedasdist fromtorch.distributed.pipeliningimport pipeline, SplitPoint, PipelineStage, ScheduleGPipe global rank, device, pp_group, stage_index, num_stages definit_distributed(): global rank, device, pp_group, stage_index, num_stages rank = int(os.environ["LOCAL_RANK"]) world_size = int(os.environ["WORLD_SIZE"]) device = torch.device(f"cuda:{rank}") if torch.cuda.is_available() else torch.device("cpu") dist.init_process_group() # This group can be a sub-group in the N-D parallel case pp_group = dist.new_group() stage_index = rank num_stages = world_size rank、world_size 和 init_process_group() 代码对您来说应该很熟悉，因为它们在所有分布式程序中都很常用。与流水线并行相关的全局变量包括 pp_group，它是用于发送/接收通信的进程组；stage_index，在这个例子中，每个阶段只有一个 rank，因此索引等同于 rank；以及 num_stages，它等同于 world_size。 num_stages 用于设置流水线并行调度中使用的阶段数。例如，对于 num_stages=4，一个微批次需要经过 4 次前向和 4 次反向传播才能完成。stage_index 对于框架来说至关重要，因为它决定了如何在各个阶段之间进行通信。例如，对于第一个阶段（stage_index=0），它将使用来自数据加载器的数据，并且不需要从任何前一个节点接收数据来执行其计算。 步骤 1：划分 Transformer 模型 有两种不同的模型分区方式： 第一种是手动模式，我们可以通过删除模型的部分属性来手动创建两个模型实例。在这个例子中，对于两个阶段（2个等级），模型被一分为二。 defmanual_model_split(model) -> PipelineStage: if stage_index == 0: # prepare the first stage model for i in range(4, 8): del model.layers[str(i)] model.norm = None model.output = None elif stage_index == 1: # prepare the second stage model for i in range(4): del model.layers[str(i)] model.tok_embeddings = None stage = PipelineStage( model, stage_index, num_stages, device, ) return stage 如我们所见，第一阶段不包含层归一化或输出层，仅包含前四个 Transformer 块。第二阶段不包含输入嵌入层，但包含输出层和最后四个 Transformer 块。该函数随后返回当前 rank 的 PipelineStage。 第二种方法是基于 tracer 的模式，它会根据 split_spec 参数自动拆分模型。通过使用 pipeline 规范，我们可以指示 torch.distributed.pipelining 在何处拆分模型。在以下代码块中，我们在第四个 Transformer 解码器层之前进行拆分，与上述手动拆分方式一致。同样地，在拆分完成后，我们可以通过调用 build_stage 来获取一个 PipelineStage。 第二步：定义主执行逻辑 在主函数中，我们将创建一个特定的管道调度计划，各个阶段应遵循该计划。torch.distributed.pipelining 支持多种调度计划，包括单阶段单进程的调度计划 GPipe 和 1F1B，以及多阶段单进程的调度计划，如 Interleaved1F1B 和 LoopedBFS。 if __name__ == "__main__": init_distributed() num_microbatches = 4 model_args = ModelArgs() model = Transformer(model_args) # Dummy data x = torch.ones(32, 500, dtype=torch.long) y = torch.randint(0, model_args.vocab_size, (32, 500), dtype=torch.long) example_input_microbatch = x.chunk(num_microbatches)[0] # Option 1: Manual model splitting stage = manual_model_split(model) # Option 2: Tracer model splitting # stage = tracer_model_split(model, example_input_microbatch) model.to(device) x = x.to(device) y = y.to(device) deftokenwise_loss_fn(outputs, targets): loss_fn = nn.CrossEntropyLoss() outputs = outputs.reshape(-1, model_args.vocab_size) targets = targets.reshape(-1) return loss_fn(outputs, targets) schedule = ScheduleGPipe(stage, n_microbatches=num_microbatches, loss_fn=tokenwise_loss_fn) if rank == 0: schedule.step(x) elif rank == 1: losses = [] output = schedule.step(target=y, losses=losses) print(f"losses: {losses}") dist.destroy_process_group() 在上面的示例中，我们使用手动方法来拆分模型，但可以取消注释代码以尝试基于追踪器的模型拆分功能。在我们的调度器中，我们需要传入微批次数和用于评估目标的损失函数。 .step() 函数会处理整个小批量，并根据之前传入的 n_microbatches 自动将其拆分为多个微批次。然后，这些微批次会根据调度类进行操作。在上面的示例中，我们使用的是 GPipe，它遵循简单的前向传播然后反向传播的调度。从 rank 1 返回的输出将与模型在单个 GPU 上运行并使用整个批次时的输出相同。同样地，我们可以传入一个 losses 容器来存储每个微批次对应的损失。 步骤 3: 启动分布式进程 最后，我们准备运行脚本。我们将使用 torchrun 创建一个单主机、双进程的任务。我们的脚本已经编写好了，rank 0 执行管道阶段 0 所需的逻辑，而 rank 1 则执行管道阶段 1 的逻辑。 torchrun --nnodes 1 --nproc_per_node 2 pipelining_tutorial.py 总结 在本教程中，我们学习了如何使用 PyTorch 的 torch.distributed.pipelining API 实现分布式流水线并行。我们探讨了如何设置环境、定义一个 Transformer 模型，并对其进行分区以进行分布式训练。我们讨论了两种模型分区方法：手动分区和基于追踪器的分区，并演示了如何在不同阶段调度微批次的计算。最后，我们介绍了如何执行流水线调度以及如何使用 torchrun 启动分布式进程。 附加资源 我们已成功将 torch.distributed.pipelining 集成到 torchtitan 仓库中。TorchTitan 是一个简洁、最小化的代码库，用于使用原生 PyTorch 进行大规模 LLM 训练。如需了解生产环境中管道并行性及其与其他分布式技术组合的使用，请参阅 TorchTitan 的 3D 并行性端到端示例。

本页目录