在 Linux 和 macOS 上构建 - pytorch tutorials中文文档 - 文档多

•

pytorch tutorials中文文档

Torch audio 文档

索引

支持的功能

功能分类

TorchAudio 徽标

参考文献

安装

安装预编译的二进制文件

从源码构建

在 Linux 和 macOS 上构建

在 Windows 上构建

在 Jetson 上构建

启用 GPU 视频解码器/编码器

API 教程

音频输入/输出

StreamReader 基本用法

StreamReader 高级用法

StreamWriter 基本用法

StreamWriter 高级用法

使用 NVDEC 加速视频解码

使用 NVENC 加速视频编码

AudioEffector 使用指南

音频重采样

音频数据增强

音频特征提取

音频特征增强

CTC 强制对齐 API 教程

振荡器和ADSR包络

加法合成

滤波器设计教程

减法合成

音频数据集

管道教程

使用 Wav2Vec2 进行语音识别

使用 CTC 解码器进行语音识别推理

使用 CUDA CTC 解码器进行 ASR 推理

使用 Emformer RNN-T 进行在线语音识别

使用 Emformer RNN-T 进行设备端语音识别

设备端基于 Emformer RNN-T 的音频-视觉语音识别

使用 Wav2Vec2 进行强制对齐

多语言数据的强制对齐

使用 Tacotron2 实现文本转语音

基于 MVDR 波束形成的语音增强

使用 Hybrid Demucs 进行音乐源分离

Torchaudio-Squim: TorchAudio 中的非侵入式语音评估

训练实用技巧

Conformer RNN-T 语音识别

Emformer RNN-T 语音识别

Conv-TasNet 源分离

HuBERT 预训练与微调（ASR）

实时音视频自动语音识别

Python API 参考文档

torchaudio

torchaudio.io

torchaudio.functional

torchaudio.transforms

torchaudio.datasets

torchaudio.models

torchaudio.models.decoder

torchaudio.pipelines

torchaudio.sox_effects

torchaudio.compliance.kaldi

torchaudio.kaldi_io

torchaudio.utils

torio

torio.io

torio.utils

Python 原型 API 参考

torchaudio.prototype

torchaudio.prototype.datasets

torchaudio.prototype.functional

torchaudio.prototype.models

torchaudio.prototype.pipelines

torchaudio.prototype.transforms

C++ 原型 API 参考

libtorio

torio::io::StreamingMediaDecoder

torio::io::StreamingMediaEncoder

PyTorch 库

PyTorch

torchaudio

torchtext

torchvision

TorchElastic

TorchServe

在 XLA 设备上使用 PyTorch

在 Linux 和 macOS 上构建 1. 安装 Conda 并激活 conda 环境 请按照 https://docs.conda.io/en/latest/miniconda.html 上的说明进行操作 2. 安装 PyTorch 请从 https://pytorch.org/get-started/locally/ 选择您要安装的 PyTorch 版本。 在这里，我们安装的是 nightly 版本。 conda install pytorch -c pytorch-nightly 3. 安装构建工具 conda install cmake ninja 4. 克隆 torchaudio 仓库 git clone https://github.com/pytorch/audio cd audio 5. 构建 python setup.py develop 由于构建过程的复杂性，TorchAudio 仅支持原地构建。要使用 pip，请使用 --no-use-pep517 选项。 pip install -v -e . --no-use-pep517 [可选] 使用自定义构建的 FFmpeg 构建 TorchAudio 默认情况下，torchaudio 尝试构建支持多个 FFmpeg 版本的 FFmpeg 扩展。此过程使用为特定 CPU 架构（如 x86_64 和 aarch64（arm64））预编译的 FFmpeg 库。 如果您的 CPU 不在这些架构中，构建过程可能会失败。为了解决这个问题，可以禁用 FFmpeg 集成（通过设置环境变量 USE_FFMPEG=0）或切换到单一版本的 FFmpeg 扩展。 要构建单一版本的 FFmpeg 扩展，用户必须提供 FFmpeg 二进制文件，并确保它们在构建环境中可用。为此，请安装 FFmpeg 并设置 FFMPEG_ROOT 环境变量以指定 FFmpeg 的位置。 conda install -c conda-forge ffmpeg FFMPEG_ROOT=${CONDA_PREFIX} python setup.py develop

本页目录