Torch audio 文档
索引
安装
API 教程
音频数据集
管道教程
训练实用技巧
Conformer RNN-T 语音识别
Emformer RNN-T 语音识别
Conv-TasNet 源分离
HuBERT 预训练与微调(ASR)
实时音视频自动语音识别
Python API 参考文档
Python 原型 API 参考
C++ 原型 API 参考
PyTorch 库
PyTorch
torchaudio
torchtext
torchvision
TorchElastic
TorchServe
在 XLA 设备上使用 PyTorch

从源码构建

TorchAudio 集成了 PyTorch 用于数值计算,并集成了第三方库用于多媒体输入输出。它需要以下工具来从源码构建。

大多数工具都可以在 Conda 中找到,因此我们建议使用 conda。

自定义构建

TorchAudio 与第三方库的集成可以通过环境变量来启用或禁用。

通过传递 1 可以启用,传递 0 可以禁用。

  • BUILD_SOX: 启用/禁用基于 libsox 的 I/O 功能。

  • BUILD_KALDI: 启用/禁用基于 Kaldi 的特征提取功能。

  • BUILD_RNNT: 启用/禁用自定义 RNN-T 损失函数。

  • USE_FFMPEG: 启用/禁用基于 FFmpeg 库的 I/O 功能。

  • USE_ROCM: 启用/禁用 AMD ROCm 支持。

  • USE_CUDA: 启用/禁用 CUDA 支持。

有关最新配置及其默认值,请查看源代码。 https://github.com/pytorch/audio/blob/main/tools/setup_helpers/extension.py

本页目录