从源码构建
TorchAudio 集成了 PyTorch 用于数值计算,并集成了第三方库用于多媒体输入输出。它需要以下工具来从源码构建。
-
PyTorch
-
支持 C++ 17 的 C++ 编译器
-
CUDA toolkit 和 cuDNN(如果构建 CUDA 扩展)
大多数工具都可以在 Conda 中找到,因此我们建议使用 conda。
自定义构建
TorchAudio 与第三方库的集成可以通过环境变量来启用或禁用。
通过传递 1
可以启用,传递 0
可以禁用。
-
BUILD_SOX
: 启用/禁用基于 libsox 的 I/O 功能。 -
BUILD_KALDI
: 启用/禁用基于 Kaldi 的特征提取功能。 -
BUILD_RNNT
: 启用/禁用自定义 RNN-T 损失函数。 -
USE_FFMPEG
: 启用/禁用基于 FFmpeg 库的 I/O 功能。 -
USE_ROCM
: 启用/禁用 AMD ROCm 支持。 -
USE_CUDA
: 启用/禁用 CUDA 支持。
有关最新配置及其默认值,请查看源代码。 https://github.com/pytorch/audio/blob/main/tools/setup_helpers/extension.py