构建一个 ExecuTorch Android 演示应用 - pytorch tutorials中文文档

PyTorch 入门指南

学习基础知识

快速入门

张量

数据集与数据加载器

变换操作

构建神经网络

自动微分与 torch.autograd

优化模型参数

保存和加载模型

PyTorch 自定义操作符

学习 PyTorch

PyTorch 深度学习实战：60 分钟快速入门教程

通过示例学习 PyTorch

torch.nn 究竟是什么？

从零开始的自然语言处理

使用 TensorBoard 可视化模型、数据和训练过程。

关于在 PyTorch 中使用非阻塞和 pin_memory() 的良好实践指南

图像和视频

TorchVision 目标检测微调教程

计算机视觉中的迁移学习教程

对抗样本生成

DCGAN教程

空间变换网络教程

优化视觉变压器模型以进行部署

使用 PyTorch 和 TIAToolbox 进行全-slide 图像分类

音频

音频输入输出

音频重采样

音频数据增强

音频特征提取

音频特征增强

音频数据集

基于 Wav2Vec2 的语音识别技术

基于Tacotron2的文本转语音系统

使用 Wav2Vec2 进行强制对齐

后端

ONNX 入门

强化学习

强化学习（DQN）教程

强化学习（PPO）与 TorchRL 教程

训练一个玩马里奥的游戏代理，使用强化学习方法。

Pendulum：用TorchRL编写环境和转换

在生产环境中部署 PyTorch 模型

ONNX 入门

通过 Flask 框架使用 REST API 在 Python 中部署 PyTorch

TorchScript简介

在 C++ 中加载 TorchScript 模型

（可选）将 PyTorch 模型导出为 ONNX，并使用 ONNX Runtime 进行运行。

在 Raspberry Pi 4 上实现实时推理（30 帧/秒！）

Profiling PyTorch

_profiling您的PyTorch模块_

Holistic Trace 分析介绍

使用整体痕迹分析的痕迹差异追踪或者更自然一些：基于整体痕迹分析的痕迹差异追踪

代码变换与FX

（测试版）在FX中构建卷积和批量归一化的融合器

（测试版）使用FX 构建简单的CPU性能剖析工具

前端API

(beta) PyTorch 中的 Channels Last 内存格式

前向模式自动微分（ Beta 版）

雅可比矩阵、海森矩阵、HVP、VHP 等：组合函数变换

模型集成

per-样本梯度

使用 PyTorch 的 C++ 前端

TorchScript中的动态并行计算

C++ 前端的自动微分

扩展 PyTorch

PyTorch 自定义操作符

Python 自定义运算符

自定义 C++ 和 CUDA 操作符

双反向传播与自定义函数

使用自定义函数将卷积和批量归一化融合在一起

自定义 C++ 和 CUDA 扩展

使用自定义 C++ 操作符扩展 TorchScript

使用自定义 C++ 类扩展 TorchScript

在 C++ 中注册一个调度操作符

在 C++ 中扩展调度器以支持新的后端

通过PrivateUse1简化新后端集成

模型优化

_profiling您的PyTorch模块_

使用 TensorBoard 的 PyTorch 分析器

使用 Ray Tune 进行超参数调优

优化视觉变压器模型以进行部署

参数化教程

剪枝教程

（测试版）LSTM 单词语言模型的动态量化

（测试版）BERT的动态量化

（测试版）计算机视觉中的量化迁移学习教程

（测试版）PyTorch 中的静态量化（带 Eager 模式）

从基础知识出发，掌握 PyTorch 在英特尔 CPU 上的性能

从基础知识出发，掌握 PyTorch 在英特尔 CPU 上的性能（第二部分）

入门 - 使用 nvFuser 加速您的脚本

使用 Ax 进行多目标神经架构搜索

torch.compile 介绍

编译的自动微分：为 torch.compile 捕获更大范围的反向图

Inductor CPU 后端调试与性能分析

（测试版）使用缩放点积注意力（SDPA）实现高性能变压器

知识蒸馏教程

并行和分布式训练

分布式和并行训练教程

PyTorch 分布式概述

PyTorch 分布式数据并行 - 视频教程

单机模型并行的最佳实践

分布式数据并行入门

使用 PyTorch 编写分布式应用程序

开始使用全 shards 数据并行 (FSDP)

使用全数据并行（FSDP）进行高级模型训练

Libuv TCPStore 后端简介

使用张量并行（TP）进行大规模变压器模型训练

分布式管道并行简介

使用 C++ 扩展自定义进程组后端

分布式RPC框架入门

使用分布式远程过程调用框架实现参数服务器

使用异步执行来实现批处理 RPC 处理

结合分布式数据并行和分布式远程过程调用框架

使用 Join 上下文管理器进行输入不均匀的分布式训练

边缘端的 ExecuTorch

导出到 ExecuTorch 教程

在 C++ 中运行 ExecuTorch 模型教程

使用 ExecuTorch 开发者工具进行模型性能分析

构建 ExecuTorch iOS 演示应用

构建一个 ExecuTorch Android 演示应用

将模型降级为委托

推荐系统

TorchRec 入门

探索 TorchRec 分片功能

多模态

TorchMultimodal教程：微调FLAVA

构建 ExecuTorch Android 示例应用 这是从 PyTorch Android 演示应用 分叉而来的。 本指南解释了如何使用演示应用为 Android 设置 ExecuTorch。该应用采用 DeepLab v3 模型进行图像分割任务。模型通过 XNNPACK FP32 后端 导出到 ExecuTorch。 你将学到什么 如何为 Android arm64-v8a 设置构建目标 如何使用 JNI 包装器为 Android 构建所需的 ExecuTorch 运行时 如何使用所需的 JNI 库和模型文件构建应用程序 先决条件 参考 设置 ExecuTorch 来配置仓库和开发环境。 下载并安装 Android Studio 和 SDK。 支持的主机操作系统：CentOS, macOS Ventura (M1/x86_64)。有关 Qualcomm HTP 的特定要求，请参见下文。 仅限 Qualcomm HTP1： 要在 Qualcomm 的 AI Engine Direct 上构建和运行，请按照 使用 Qualcomm AI Engine Direct 后端构建和运行 ExecuTorch 了解硬件和软件的先决条件。本教程使用的版本是 2.19，使用的芯片是 SM8450。 此演示应用程序和教程仅针对 arm64-v8a ABI 进行过验证。 构建 预先编译 (Ahead-Of-Time) 我们为 Android 演示应用中的 ExecuTorch 运行时生成模型文件。 XNNPACK 委托 要将 DeepLab v3 委托给 XNNPACK 后端，请按照以下步骤导出模型： python3-mexamples.xnnpack.aot_compiler--model_name="dl3"--delegate mkdir-pexamples/demo-apps/android/ExecuTorchDemo/app/src/main/assets/ cpdl3_xnnpack_fp32.pteexamples/demo-apps/android/ExecuTorchDemo/app/src/main/assets/ 有关降低到 XNNPACK 的详细教程，请参阅 XNNPACK 后端。 Qualcomm Hexagon NPU 要将模型委托给 Qualcomm Hexagon NPU，请按照此处的教程操作。 生成模型后，将模型复制到 assets 目录。 python-mexamples.qualcomm.scripts.deeplab_v3-bbuild-android-mSM8450-s<adb_connected_device_serial> cpdeeplab_v3/dlv3_qnn.pteexamples/demo-apps/android/ExecuTorchDemo/app/src/main/assets/ 运行时 我们构建了运行模型所需的 ExecuTorch 运行时库。 XNNPACK 使用 XNNPACK 后端构建库的 CMake 目标： exportANDROID_NDK=<path-to-android-ndk> exportANDROID_ABI=arm64-v8a # Run the following lines from the `executorch/` folder ./install_requirements.sh--clean mkdircmake-android-out # Build the core executorch library cmake.-DCMAKE_INSTALL_PREFIX=cmake-android-out\ *DCMAKE_TOOLCHAIN_FILE="${ANDROID_NDK}/build/cmake/android.toolchain.cmake"\ *DANDROID_ABI="${ANDROID_ABI}"\ *DEXECUTORCH_BUILD_XNNPACK=ON\ *DEXECUTORCH_BUILD_EXTENSION_DATA_LOADER=ON\ *DEXECUTORCH_BUILD_EXTENSION_MODULE=ON\ *DEXECUTORCH_BUILD_EXTENSION_RUNNER_UTIL=ON\ *DEXECUTORCH_BUILD_EXTENSION_TENSOR=ON\ *Bcmake-android-out cmake--buildcmake-android-out-j16--targetinstall 当我们设置 EXECUTORCH_BUILD_XNNPACK=ON 时，我们将构建目标 xnnpack_backend，该目标随后通过 CMake 链接到 libexecutorch_jni 中。 构建 Android 扩展： # Build the android extension cmakeextension/android\ *DCMAKE_TOOLCHAIN_FILE="${ANDROID_NDK}"/build/cmake/android.toolchain.cmake\ *DANDROID_ABI="${ANDROID_ABI}"\ *DCMAKE_INSTALL_PREFIX=cmake-android-out\ *Bcmake-android-out/extension/android cmake--buildcmake-android-out/extension/android-j16 libexecutorch_jni.so 封装了来自 xnnpack_backend 的所需 XNNPACK 后端运行时库，并使用 fbjni 添加了一个额外的 JNI 层。随后，这将暴露给 Java 应用程序。 Qualcomm Hexagon NPU 使用 Qualcomm Hexagon NPU (HTP) 后端（包含 XNNPACK）构建库的 CMake 目标： exportANDROID_NDK=<path-to-android-ndk> exportANDROID_ABI=arm64-v8a exportQNN_SDK_ROOT=<path-to-qnn-sdk> ./install_requirements.sh--clean mkdircmake-android-out cmake.-DCMAKE_INSTALL_PREFIX=cmake-android-out\ *DCMAKE_TOOLCHAIN_FILE="${ANDROID_NDK}/build/cmake/android.toolchain.cmake"\ *DANDROID_ABI="${ANDROID_ABI}"\ *DEXECUTORCH_BUILD_XNNPACK=ON\ *DEXECUTORCH_BUILD_QNN=ON\ *DQNN_SDK_ROOT="${QNN_SDK_ROOT}"\ *DEXECUTORCH_BUILD_EXTENSION_DATA_LOADER=ON\ *DEXECUTORCH_BUILD_EXTENSION_MODULE=ON\ *DEXECUTORCH_BUILD_EXTENSION_RUNNER_UTIL=ON\ *DEXECUTORCH_BUILD_EXTENSION_TENSOR=ON\ *Bcmake-android-out cmake--buildcmake-android-out-j16--targetinstall 与 XNNPACK 库类似，通过此设置，我们编译了 libexecutorch_jni.so，但它还增加了一个静态库 qnn_executorch_backend，该库封装了 Qualcomm HTP 运行时库并注册了 Qualcomm HTP 后端。随后，这一功能会被暴露给 Java 应用程序。 当我们启用 CMake 选项 EXECUTORCH_BUILD_QNN 时，qnn_executorch_backend 会被构建。它将包含来自 backends/qualcomm 的 CMakeLists.txt，其中我们使用 add_library(qnn_executorch_backend STATIC)。 构建 Android 扩展： cmakeextension/android\ *DCMAKE_TOOLCHAIN_FILE="${ANDROID_NDK}"/build/cmake/android.toolchain.cmake\ *DANDROID_ABI="${ANDROID_ABI}"\ *DCMAKE_INSTALL_PREFIX=cmake-android-out\ *Bcmake-android-out/extension/android cmake--buildcmake-android-out/extension/android-j16 通过演示应用在设备上部署 通过 XNNPACK 部署模型的步骤 mkdir-pexamples/demo-apps/android/ExecuTorchDemo/app/src/main/jniLibs/arm64-v8a cpcmake-android-out/extension/android/libexecutorch_jni.so\ examples/demo-apps/android/ExecuTorchDemo/app/src/main/jniLibs/arm64-v8a/libexecutorch.so 这使得 Android 应用程序能够将带有 XNNPACK 后端的 ExecuTorch 运行时作为 JNI 库加载。随后，Java 代码中的 NativePeer.java 将加载这个共享库。 通过 Qualcomm AI Engine Direct 部署模型的步骤 mkdir-p../examples/demo-apps/android/ExecuTorchDemo/app/src/main/jniLibs/arm64-v8a 我们需要向应用程序推送一些额外的 Qualcomm HTP 后端库。请参考 Qualcomm 文档。 cp${QNN_SDK_ROOT}/lib/aarch64-android/libQnnHtp.so${QNN_SDK_ROOT}/lib/hexagon-v69/unsigned/libQnnHtpV69Skel.so${QNN_SDK_ROOT}/lib/aarch64-android/libQnnHtpV69Stub.so${QNN_SDK_ROOT}/lib/aarch64-android/libQnnSystem.so\ examples/demo-apps/android/ExecuTorchDemo/app/src/main/jniLibs/arm64-v8a 复制核心库： cpcmake-android-out/extension/android/libexecutorch_jni.so\ examples/demo-apps/android/ExecuTorchDemo/app/src/main/jniLibs/arm64-v8a/libexecutorch.so cpcmake-android-out/lib/libqnn_executorch_backend.so\ examples/demo-apps/android/ExecuTorchDemo/app/src/main/jniLibs/arm64-v8a/libqnn_executorch_backend.so 运行应用程序 使用 Android Studio 打开项目 examples/demo-apps/android/ExecuTorchDemo。 运行 应用程序 (^R)。 在手机或模拟器上，您可以尝试运行模型： 关键点 通过本教程，我们学习了如何构建带有 XNNPACK（或 Qualcomm HTP）后端的 ExecuTorch 运行时库，并将其暴露到 JNI 层，以构建运行分割模型的 Android 应用程序。 问题反馈 如果您在按照本教程操作时遇到任何错误或问题，请在 Github 上提交错误/问题。 1 本节仅适用于应用程序中需要 Qualcomm HTP Backend 的情况。同样适用于标题为 Qualcomm Hexagon NPU 的部分。

本页目录