Raspberry Pi 4 上的实时推理（30 fps！） - pytorch tutorials中文文档 - 文档多

•

pytorch tutorials中文文档

PyTorch 入门指南

学习基础知识

快速入门

张量

数据集与数据加载器

变换操作

构建神经网络

自动微分与 torch.autograd

优化模型参数

保存和加载模型

PyTorch 自定义操作符

学习 PyTorch

PyTorch 深度学习实战：60 分钟快速入门教程

通过示例学习 PyTorch

torch.nn 究竟是什么？

从零开始的自然语言处理

使用 TensorBoard 可视化模型、数据和训练过程。

关于在 PyTorch 中使用非阻塞和 pin_memory() 的良好实践指南

图像和视频

TorchVision 目标检测微调教程

计算机视觉中的迁移学习教程

对抗样本生成

DCGAN教程

空间变换网络教程

优化视觉变压器模型以进行部署

使用 PyTorch 和 TIAToolbox 进行全-slide 图像分类

音频

音频输入输出

音频重采样

音频数据增强

音频特征提取

音频特征增强

音频数据集

基于 Wav2Vec2 的语音识别技术

基于Tacotron2的文本转语音系统

使用 Wav2Vec2 进行强制对齐

后端

ONNX 入门

强化学习

强化学习（DQN）教程

强化学习（PPO）与 TorchRL 教程

训练一个玩马里奥的游戏代理，使用强化学习方法。

Pendulum：用TorchRL编写环境和转换

在生产环境中部署 PyTorch 模型

ONNX 入门

通过 Flask 框架使用 REST API 在 Python 中部署 PyTorch

TorchScript简介

在 C++ 中加载 TorchScript 模型

（可选）将 PyTorch 模型导出为 ONNX，并使用 ONNX Runtime 进行运行。

在 Raspberry Pi 4 上实现实时推理（30 帧/秒！）

Profiling PyTorch

_profiling您的PyTorch模块_

Holistic Trace 分析介绍

使用整体痕迹分析的痕迹差异追踪或者更自然一些：基于整体痕迹分析的痕迹差异追踪

代码变换与FX

（测试版）在FX中构建卷积和批量归一化的融合器

（测试版）使用FX 构建简单的CPU性能剖析工具

前端API

(beta) PyTorch 中的 Channels Last 内存格式

前向模式自动微分（ Beta 版）

雅可比矩阵、海森矩阵、HVP、VHP 等：组合函数变换

模型集成

per-样本梯度

使用 PyTorch 的 C++ 前端

TorchScript中的动态并行计算

C++ 前端的自动微分

扩展 PyTorch

PyTorch 自定义操作符

Python 自定义运算符

自定义 C++ 和 CUDA 操作符

双反向传播与自定义函数

使用自定义函数将卷积和批量归一化融合在一起

自定义 C++ 和 CUDA 扩展

使用自定义 C++ 操作符扩展 TorchScript

使用自定义 C++ 类扩展 TorchScript

在 C++ 中注册一个调度操作符

在 C++ 中扩展调度器以支持新的后端

通过PrivateUse1简化新后端集成

模型优化

_profiling您的PyTorch模块_

使用 TensorBoard 的 PyTorch 分析器

使用 Ray Tune 进行超参数调优

优化视觉变压器模型以进行部署

参数化教程

剪枝教程

（测试版）LSTM 单词语言模型的动态量化

（测试版）BERT的动态量化

（测试版）计算机视觉中的量化迁移学习教程

（测试版）PyTorch 中的静态量化（带 Eager 模式）

从基础知识出发，掌握 PyTorch 在英特尔 CPU 上的性能

从基础知识出发，掌握 PyTorch 在英特尔 CPU 上的性能（第二部分）

入门 - 使用 nvFuser 加速您的脚本

使用 Ax 进行多目标神经架构搜索

torch.compile 介绍

编译的自动微分：为 torch.compile 捕获更大范围的反向图

Inductor CPU 后端调试与性能分析

（测试版）使用缩放点积注意力（SDPA）实现高性能变压器

知识蒸馏教程

并行和分布式训练

分布式和并行训练教程

PyTorch 分布式概述

PyTorch 分布式数据并行 - 视频教程

单机模型并行的最佳实践

分布式数据并行入门

使用 PyTorch 编写分布式应用程序

开始使用全 shards 数据并行 (FSDP)

使用全数据并行（FSDP）进行高级模型训练

Libuv TCPStore 后端简介

使用张量并行（TP）进行大规模变压器模型训练

分布式管道并行简介

使用 C++ 扩展自定义进程组后端

分布式RPC框架入门

使用分布式远程过程调用框架实现参数服务器

使用异步执行来实现批处理 RPC 处理

结合分布式数据并行和分布式远程过程调用框架

使用 Join 上下文管理器进行输入不均匀的分布式训练

边缘端的 ExecuTorch

导出到 ExecuTorch 教程

在 C++ 中运行 ExecuTorch 模型教程

使用 ExecuTorch 开发者工具进行模型性能分析

构建 ExecuTorch iOS 演示应用

构建一个 ExecuTorch Android 演示应用

将模型降级为委托

推荐系统

TorchRec 入门

探索 TorchRec 分片功能

多模态

TorchMultimodal教程：微调FLAVA

在 Raspberry Pi 4 上实现实时推理（30 帧/秒！） 作者: Tristan Rice PyTorch 原生支持 Raspberry Pi 4。本教程将指导您如何为 Raspberry Pi 4 设置 PyTorch，并在 CPU 上实时（30 fps+）运行 MobileNet v2 分类模型。 所有测试均在 Raspberry Pi 4 Model B 4GB 上进行，但同样适用于 2GB 版本，以及在 3B 上运行时性能会有所降低。 前提条件 要完成本教程，您需要准备一台 Raspberry Pi 4、一个兼容的摄像头以及所有其他标准配件。 Raspberry Pi 4 Model B 2GB+ Raspberry Pi Camera Module 散热片和风扇（可选但推荐） 5V 3A USB-C 电源适配器 SD 卡（至少 8GB） SD 卡读卡器 Raspberry Pi 4 配置 PyTorch 仅提供适用于 Arm 64 位（aarch64）的 pip 包，因此您需要在 Raspberry Pi 上安装 64 位版本的操作系统。 您可以从 https://downloads.raspberrypi.org/raspios_arm64/images/ 下载最新的 arm64 Raspberry Pi OS，并通过 rpi-imager 进行安装。 32 位 Raspberry Pi OS 将无法运行。 安装过程至少需要几分钟，具体时间取决于您的网络速度和 SD 卡速度。完成后，界面应如下所示： 接下来，将 SD 卡插入 Raspberry Pi，连接摄像头并启动设备。 设备启动并完成初始设置后，您需要编辑 /boot/config.txt 文件以启用摄像头。 # This enables the extended features such as the camera. start_x=1 # This needs to be at least 128M for the camera processing, if it's bigger you can just leave it as is. gpu_mem=128 # You need to commment/remove the existing camera_auto_detect line since this causes issues with OpenCV/V4L2 capture. #camera_auto_detect=1 然后重启。在重启后，video4linux2 设备 /dev/video0 应该已经存在。 安装 PyTorch 和 OpenCV PyTorch 以及其他所有我们需要的库都有 ARM 64 位/aarch64 版本，因此您可以直接通过 pip 安装它们，并且它们可以像在任何其他 Linux 系统上一样正常工作。 $pipinstalltorchtorchvisiontorchaudio $pipinstallopencv-python $pipinstallnumpy--upgrade 我们现在可以检查是否所有内容都已正确安装： $python-c"import torch; print(torch.__version__)" 视频捕获 对于视频捕获，我们将使用 OpenCV 来流式传输视频帧，而不是更常见的 picamera。picamera 在 64 位 Raspberry Pi OS 上不可用，并且它比 OpenCV 慢得多。OpenCV 直接访问 /dev/video0 设备来获取帧。 我们使用的模型（MobileNetV2）接受的图像大小为 224x224，因此我们可以直接从 OpenCV 以 36fps 的帧率请求图像。我们的目标是让模型以 30fps 运行，但我们请求的帧率略高于此，以确保始终有足够的帧。 importcv2 fromPILimport Image cap = cv2.VideoCapture(0) cap.set(cv2.CAP_PROP_FRAME_WIDTH, 224) cap.set(cv2.CAP_PROP_FRAME_HEIGHT, 224) cap.set(cv2.CAP_PROP_FPS, 36) OpenCV 返回的是 BGR 格式的 numpy 数组，因此我们需要读取并进行一些调整，以将其转换为预期的 RGB 格式。 ret, image = cap.read() # convert opencv output from BGR to RGB image = image[:, :, [2, 1, 0]] 读取和处理这些数据大约需要 3.5 毫秒。 图像预处理 我们需要将这些帧转换为模型所期望的格式。这与在任何机器上使用标准的 torchvision 变换进行处理是相同的。 fromtorchvisionimport transforms preprocess = transforms.Compose([ # convert the frame to a CHW torch tensor for training transforms.ToTensor(), # normalize the colors to the range that mobilenet_v2/3 expect transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]), ]) input_tensor = preprocess(image) # The model can handle multiple images simultaneously so we need to add an # empty dimension for the batch. # [3, 224, 224] -> [1, 3, 224, 224] input_batch = input_tensor.unsqueeze(0) 模型选择 您可以从多种模型中进行选择，这些模型具有不同的性能特性。并非所有模型都提供qnnpack预训练变体，因此出于测试目的，您应该选择一个提供了该变体的模型。但如果您训练并量化自己的模型，可以使用其中任何一个模型。 在本教程中，我们使用mobilenet_v2，因为它具有良好的性能和准确性。 Raspberry Pi 4 基准测试结果： 模型 FPS 总时间（毫秒/帧） 模型时间 (毫秒/帧) qnnpack 预训练模型 mobilenet_v2 33.7 29.7 26.4 True mobilenet_v3_large 29.3 34.1 30.7 True resnet18 9.2 109.0 100.3 False resnet50 4.3 233.9 225.2 False resnext101_32x8d 1.1 892.5 885.3 False inception_v3 4.9 204.1 195.5 False googlenet 7.4 135.3 132.0 False shufflenet_v2_x0_5 46.7 21.4 18.2 False shufflenet_v2_x1_0 24.4 41.0 37.7 False shufflenet_v2_x1_5 16.8 59.6 56.3 False shufflenet_v2_x2_0 11.6 86.3 82.7 False MobileNetV2: 量化与即时编译 为了获得最佳性能，我们需要一个经过量化和融合的模型。量化意味着模型使用 int8 进行计算，这比标准的 float32 数学运算性能更高。融合意味着连续的运算尽可能被合并成一个更高效的版本。通常在推理过程中，像激活函数（ReLU）这样的操作可以合并到前一层（如 Conv2d）中。 aarch64 版本的 PyTorch 需要使用 qnnpack 引擎。 importtorch torch.backends.quantized.engine = 'qnnpack' 在本例中，我们将使用由 torchvision 提供的预量化和融合版本的 MobileNetV2。 fromtorchvisionimport models net = models.quantization.mobilenet_v2(pretrained=True, quantize=True) 然后我们希望将模型进行 JIT 编译，以减少 Python 的开销并融合任何操作。使用 JIT 后，帧率从大约 20fps 提升到了大约 30fps。 net = torch.jit.script(net) 整合所有部分 现在我们可以将所有部分整合在一起并运行它： importtime importtorch importnumpyasnp fromtorchvisionimport models, transforms importcv2 fromPILimport Image torch.backends.quantized.engine = 'qnnpack' cap = cv2.VideoCapture(0, cv2.CAP_V4L2) cap.set(cv2.CAP_PROP_FRAME_WIDTH, 224) cap.set(cv2.CAP_PROP_FRAME_HEIGHT, 224) cap.set(cv2.CAP_PROP_FPS, 36) preprocess = transforms.Compose([ transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]), ]) net = models.quantization.mobilenet_v2(pretrained=True, quantize=True) # jit model to take it from ~20fps to ~30fps net = torch.jit.script(net) started = time.time() last_logged = time.time() frame_count = 0 with torch.no_grad(): while True: # read frame ret, image = cap.read() if not ret: raise RuntimeError("failed to read frame") # convert opencv output from BGR to RGB image = image[:, :, [2, 1, 0]] permuted = image # preprocess input_tensor = preprocess(image) # create a mini-batch as expected by the model input_batch = input_tensor.unsqueeze(0) # run model output = net(input_batch) # do something with output ... # log model performance frame_count += 1 now = time.time() if now - last_logged > 1: print(f"{frame_count/(now-last_logged)} fps") last_logged = now frame_count = 0 运行结果显示我们大约维持在 ~30 fps。 这是在使用 Raspberry Pi OS 的所有默认设置的情况下。如果您禁用了默认启用的 UI 和其他后台服务，性能会更高效且更稳定。 如果我们查看 htop，会发现 CPU 利用率接近 100%。 为了验证它是否端到端正常工作，我们可以计算类别的概率，并使用 ImageNet 类别标签来打印检测结果。 top = list(enumerate(output[0].softmax(dim=0))) top.sort(key=lambda x: x[1], reverse=True) for idx, val in top[:10]: print(f"{val.item()*100:.2f}% {classes[idx]}") mobilenet_v3_large 实时运行： 检测橙子： 检测杯子： 故障排除：性能问题 默认情况下，PyTorch 会使用所有可用的核心。如果您在 Raspberry Pi 上运行了后台任务，可能会导致与模型推理的资源竞争，从而引发延迟峰值。为了缓解这个问题，您可以减少线程数量，这将会以轻微的性能损失为代价来降低峰值延迟。 torch.set_num_threads(2) 对于 shufflenet_v2_x1_5，使用 2 线程 而不是 4 线程 会将最佳情况下的延迟从 60 毫秒 增加到 72 毫秒，但消除了 128 毫秒 的延迟峰值。 下一步 您可以创建自己的模型或微调现有的模型。如果您在torchvision.models.quantized中的某个模型上进行微调，大部分融合和量化的工作已经为您完成，因此您可以直接在Raspberry Pi上部署并获得良好的性能。 了解更多： 量化 了解更多关于如何量化和融合模型的信息。 迁移学习教程 了解如何使用迁移学习在现有模型的基础上针对您的数据集进行微调。

本页目录