通过 PrivateUse1 促进新后端的集成 - pytorch tutorials中文文档

PyTorch 入门指南

学习基础知识

快速入门

张量

数据集与数据加载器

变换操作

构建神经网络

自动微分与 torch.autograd

优化模型参数

保存和加载模型

PyTorch 自定义操作符

学习 PyTorch

PyTorch 深度学习实战：60 分钟快速入门教程

通过示例学习 PyTorch

torch.nn 究竟是什么？

从零开始的自然语言处理

使用 TensorBoard 可视化模型、数据和训练过程。

关于在 PyTorch 中使用非阻塞和 pin_memory() 的良好实践指南

图像和视频

TorchVision 目标检测微调教程

计算机视觉中的迁移学习教程

对抗样本生成

DCGAN教程

空间变换网络教程

优化视觉变压器模型以进行部署

使用 PyTorch 和 TIAToolbox 进行全-slide 图像分类

音频

音频输入输出

音频重采样

音频数据增强

音频特征提取

音频特征增强

音频数据集

基于 Wav2Vec2 的语音识别技术

基于Tacotron2的文本转语音系统

使用 Wav2Vec2 进行强制对齐

后端

ONNX 入门

强化学习

强化学习（DQN）教程

强化学习（PPO）与 TorchRL 教程

训练一个玩马里奥的游戏代理，使用强化学习方法。

Pendulum：用TorchRL编写环境和转换

在生产环境中部署 PyTorch 模型

ONNX 入门

通过 Flask 框架使用 REST API 在 Python 中部署 PyTorch

TorchScript简介

在 C++ 中加载 TorchScript 模型

（可选）将 PyTorch 模型导出为 ONNX，并使用 ONNX Runtime 进行运行。

在 Raspberry Pi 4 上实现实时推理（30 帧/秒！）

Profiling PyTorch

_profiling您的PyTorch模块_

Holistic Trace 分析介绍

使用整体痕迹分析的痕迹差异追踪或者更自然一些：基于整体痕迹分析的痕迹差异追踪

代码变换与FX

（测试版）在FX中构建卷积和批量归一化的融合器

（测试版）使用FX 构建简单的CPU性能剖析工具

前端API

(beta) PyTorch 中的 Channels Last 内存格式

前向模式自动微分（ Beta 版）

雅可比矩阵、海森矩阵、HVP、VHP 等：组合函数变换

模型集成

per-样本梯度

使用 PyTorch 的 C++ 前端

TorchScript中的动态并行计算

C++ 前端的自动微分

扩展 PyTorch

PyTorch 自定义操作符

Python 自定义运算符

自定义 C++ 和 CUDA 操作符

双反向传播与自定义函数

使用自定义函数将卷积和批量归一化融合在一起

自定义 C++ 和 CUDA 扩展

使用自定义 C++ 操作符扩展 TorchScript

使用自定义 C++ 类扩展 TorchScript

在 C++ 中注册一个调度操作符

在 C++ 中扩展调度器以支持新的后端

通过PrivateUse1简化新后端集成

模型优化

_profiling您的PyTorch模块_

使用 TensorBoard 的 PyTorch 分析器

使用 Ray Tune 进行超参数调优

优化视觉变压器模型以进行部署

参数化教程

剪枝教程

（测试版）LSTM 单词语言模型的动态量化

（测试版）BERT的动态量化

（测试版）计算机视觉中的量化迁移学习教程

（测试版）PyTorch 中的静态量化（带 Eager 模式）

从基础知识出发，掌握 PyTorch 在英特尔 CPU 上的性能

从基础知识出发，掌握 PyTorch 在英特尔 CPU 上的性能（第二部分）

入门 - 使用 nvFuser 加速您的脚本

使用 Ax 进行多目标神经架构搜索

torch.compile 介绍

编译的自动微分：为 torch.compile 捕获更大范围的反向图

Inductor CPU 后端调试与性能分析

（测试版）使用缩放点积注意力（SDPA）实现高性能变压器

知识蒸馏教程

并行和分布式训练

分布式和并行训练教程

PyTorch 分布式概述

PyTorch 分布式数据并行 - 视频教程

单机模型并行的最佳实践

分布式数据并行入门

使用 PyTorch 编写分布式应用程序

开始使用全 shards 数据并行 (FSDP)

使用全数据并行（FSDP）进行高级模型训练

Libuv TCPStore 后端简介

使用张量并行（TP）进行大规模变压器模型训练

分布式管道并行简介

使用 C++ 扩展自定义进程组后端

分布式RPC框架入门

使用分布式远程过程调用框架实现参数服务器

使用异步执行来实现批处理 RPC 处理

结合分布式数据并行和分布式远程过程调用框架

使用 Join 上下文管理器进行输入不均匀的分布式训练

边缘端的 ExecuTorch

导出到 ExecuTorch 教程

在 C++ 中运行 ExecuTorch 模型教程

使用 ExecuTorch 开发者工具进行模型性能分析

构建 ExecuTorch iOS 演示应用

构建一个 ExecuTorch Android 演示应用

将模型降级为委托

推荐系统

TorchRec 入门

探索 TorchRec 分片功能

多模态

TorchMultimodal教程：微调FLAVA

通过 PrivateUse1 简化新后端的集成 在本教程中，我们将逐步介绍如何通过 PrivateUse1 集成一个位于 pytorch/pytorch 仓库外部的新后端。请注意，本教程假设您已经具备 PyTorch 的基础知识，并且是 PyTorch 的高级用户。 本教程仅涉及与PrivateUse1机制相关的部分，该机制有助于集成新设备，其他部分将不予介绍。同时，本教程涉及的所有模块并非都是必需的，您可以根据实际需求选择对您有帮助的模块。 什么是 PrivateUse1？ 在 PyTorch 2.0 之前，PyTorch 提供了三个保留的调度键（及其对应的 Autograd 键）用于原型化树外后端扩展，这三个调度键如下： PrivateUse1/AutogradPrivateUse1 PrivateUse2/AutogradPrivateUse2 PrivateUse3/AutogradPrivateUse3 在原型验证通过后，您可以为新的后端（如 CUDA、XLA、MPS 等）申请私钥。 然而，随着 PyTorch 的快速发展，越来越多的硬件厂商试图将其后端集成到 PyTorch 中，这可能会导致以下问题： 每个新的后端集成都需要大量的文件修改 目前 Dispatch Keys 的数量存在硬性限制（DispatchKeySet 64 位限制） 此外，通过 PrivateUse1 键将新后端集成到 PyTorch 中也存在问题，因为无法同时集成多个后端。幸运的是，这些树外后端很少会同时使用。 鉴于上述原因，社区开始建议通过 PrivateUse1 将新的后端集成到 PyTorch 中。 然而，之前的 PrivateUse1 机制并不能完全满足新后端的集成需求，因为它在某些模块中缺乏相关的支持，例如 Storage、AMP、Distributed 等。 随着 PyTorch 2.1.0 的发布，针对 PrivateUse1 在新后端集成方面进行了一系列优化和增强，现在能够快速高效地支持新设备的集成。 如何通过 PrivateUse1 集成新后端 在本节中，我们将讨论通过 PrivateUse1 将新后端集成到 PyTorch 中的细节，主要包括以下几个部分： 为新后端注册内核。 为新后端注册生成器。 为新后端注册设备防护。 为新后端元数据注册序列化和反序列化函数。 其他模块。 为新后端注册内核 新的后端可能有一些高性能的算子实现，可以通过在C++中注册一个分派算子中描述的TORCH_LIBRARY_IMPL API注册到调度器中。这涉及以下几种情况： 将所有新后端支持的算子注册到调度器中，同时注册回退机制，以便当新后端不支持某些算子时，这些算子可以回退到 CPU 上执行，以确保功能的可用性。 at::Tensorwrapper_Custom_Tensor_add(constat::Tensor&self,constat::Tensor&other,constat::Scalar&alpha){ // Implementation of add kernel in new backend ... } TORCH_LIBRARY_IMPL(aten,PrivateUse1,m){ ... m.impl("add.Tensor",TORCH_FN(wrapper_Custom_Tensor_add)); ... } voidcustom_cpu_fallback(constc10::OperatorHandle&op,torch::jit::Stack*stack){ // Add some hints about new devices that do not support and need to fall back to cpu at::native::cpu_fallback(op,stack); } TORCH_LIBRARY_IMPL(_,PrivateUse1,m){ m.fallback(torch::CppFunction::makeFromBoxedFunction<&custom_cpu_fallback>()); } 如果需要新后端覆盖 PyTorch Autograd 层，可以通过 AutogradPrivateUse1 将 torch::autograd::Function 的内核注册到调度器，调度器和自动求导系统将自动调用这些运算符的前向和反向实现。 classCumtomSeluFunction:publictorch::autograd::Function<CumtomSeluFunction>{ // Implementation of selu kernel in new backend } at::Tensorwrapper_AutogradCumstom__selu(constat::Tensor&self){ returnCumtomSeluFunction::apply(self); } TORCH_LIBRARY_IMPL(aten,AutogradPrivateUse1,m){ ... m.impl("selu",TORCH_FN(wrapper_AutogradCustom__selu)); ... } 注册希望支持自动混合精度（AMP）和回退机制的内核到调度器，通过AutocastPrivateUse1，自动转换系统将在需要时自动调用这些内核。 TORCH_LIBRARY_IMPL(aten,AutocastPrivateUse1,m){ ... KERNEL_PRIVATEUSEONE(<operator>,<policy>) ... } TORCH_LIBRARY_IMPL(_,AutocastPrivateUse1,m){ m.fallback(torch::CppFunction::makeFallthrough()); } 需要补充的是，如果您想在一个新的后端中支持AMP，您需要通过torch._register_device_module("backend_name", BackendModule)注册一个新的BackendModule，并且BackendModule需要包含以下API： get_amp_supported_dtype() -> List[torch.dtype] 获取新后端在 AMP 中支持的数据类型，可能会多支持一种 dtype。 is_autocast_enabled() -> bool 检查新后端是否启用了 AMP。 get_autocast_dtype() -> torch.dtype 获取新后端在 AMP 中支持的数据类型，该数据类型由 set_autocast_dtype 设置或使用默认的 dtype，默认的 dtype 是 torch.float16。 set_autocast_enabled(bool) -> None 在新后端上启用或禁用 AMP。 set_autocast_dtype(dtype) -> None 设置新后端在 AMP 中支持的数据类型，该数据类型必须包含在 get_amp_supported_dtype 获取的 dtypes 中。 为新后端注册生成器 需要支持与新设备对应的生成器。目前，PrivateUse1 可以动态注册自定义生成器，主要分为以下几个步骤。 继承 GeneratorImpl 类以实现与新后端对应的生成器类，并实现各种通用方法。 定义一个带有单个参数 device index 的新后端 builder。 调用 REGISTER_GENERATOR_PRIVATEUSE1 宏完成动态注册。 structCustomGeneratorImpl:publicc10::GeneratorImpl{ // Implementation of generator in new backend } at::Generatormake_custom_generator(c10::DeviceIndexdevice_index){ returnat::make_generator<CustomGeneratorImpl>(device_index); } REGISTER_GENERATOR_PRIVATEUSE1(make_cumstom_generator) 为新后端注册设备保护 PyTorch 通过 DeviceGuard 提供了与设备、流和事件切换相关的功能。此函数同样适用于 PrivateUse1 键。 继承 DeviceGuardImplInterface 类来实现与新后端对应的各种通用方法。 调用 C10_REGISTER_GUARD_IMPL 宏来完成动态注册。 structCustomGuardImplfinal:publicc10::impl::DeviceGuardImplInterface{ // Implementation of guard in new backend } C10_REGISTER_GUARD_IMPL(PrivateUse1,CustomGuardImpl); 为新后端元数据注册序列化和反序列化函数 PyTorch 目前能够动态注册序列化/反序列化函数，以支持在 TensorImpl.ExtraMeta 类中名为 backend_meta_ 的新后端附加元数据的序列化和反序列化。您可以参考以下步骤： 继承 BackendMeta 类以实现与新后端对应的 CustomBackendMetadata，并在该类中自定义新后端的各种字段。 实现新后端的序列化和反序列化函数，函数签名为 void(const at::Tensor&, std::unordered_map<std::string, bool>&)。 调用 TensorBackendMetaRegistry 宏完成动态注册。 structCustomBackendMetadata:publicc10::BackendMeta{ // Implementation of backend metadata in new backend } voidfor_serialization(constat::Tensor&t,std::unordered_map<std::string,bool>&m){ // Implementation of serialization } voidfor_deserialization(constat::Tensor&t,std::unordered_map<std::string,bool>&m){ // Implementation of deserialization } TensorBackendMetaRegistry(c10::DeviceType::PrivateUse1,&for_serialization,&for_deserialization); 其他模块 除了上述部分外，还有一些其他模块可以通过 PrivateUse1 进行扩展，例如 分布式集体通信、基准测试计时器 等，这些模块将在未来逐步添加。关于 PrivateUse1 集成的一个例子是 Ascend NPU。 如何通过 Privateuse1 提升用户体验 通过 PrivateUse1 集成新设备的主要目标是满足基本功能需求，接下来要做的是提升可用性，这主要涉及以下几个方面。 将新的后端模块注册到 Pytorch。 将 PrivateUse1 重命名为新后端的自定义名称。 生成与新后端相关的方法和属性。 向 PyTorch 注册新的后端模块 PyTorch 中的一些 CUDA 相关接口可以通过以下形式调用：torch.cuda.xxx。因此，为了适应用户习惯，通过 PrivateUse1 机制实现的新后端也应提供类似的接口。 例如，使用 Ascend NPU： torch._register_device_module('npu', torch_npu.npu) 在执行上述操作后，用户可以通过 torch.npu.xxx 调用 Ascend NPU 的一些专属 API。 将 PrivateUse1 重命名为新后端的自定义名称 PrivateUse1 键是集成到 PyTorch 中的新后端的内部机制。对于用户而言，与 PrivateUse1 相比，与新后端紧密相关的自定义名称会更加友好。 以 Ascend NPU 为例，第一种用法对用户来说会更加友好。 torch.rand((2,2),device='npu:0') torch.rand((2,2),device='privateuse1:0') 现在，PyTorch 为名为 PrivateUse1 的后端提供了一个新的 C++/Python API，使用起来非常简单。 torch.rename_privateuse1_backend("npu") c10::register_privateuse1_backend("npu") 生成与新后端相关的方法和属性 将 PrivateUse1 重命名为自定义名称后，自动在 Tensor、nn、Storage 模块中生成与新后端名称相关的属性和方法。 以下是以 Ascend NPU 为例的示例： torch.rename_privateuse1_backend("npu") unsupported_dtype = [torch.quint8] torch.utils.generate_methods_for_privateuse1_backend(for_tensor=True, for_module=True, for_storage=True, unsupported_dtype=unsupported_dtype) 然后，您可以使用以下方法和属性： torch.Tensor.npu() torch.Tensor.is_npu torch.Storage.npu() torch.Storage.is_npu ... 未来工作 PrivateUse1 机制的改进仍在进行中，因此新模块的 PrivateUse1 集成方法将逐步添加。以下是我们正在积极处理的几项内容： 添加 分布式集体通信 的集成方法。 添加 基准计时器 的集成方法。 结论 本教程指导您通过 PrivateUse1 将新后端集成到 PyTorch 的过程，包括但不限于操作符注册、生成器注册、设备保护注册等。同时，还介绍了一些提升用户体验的方法。

本页目录