Torch audio 文档
索引
安装
API 教程
音频数据集
管道教程
训练实用技巧
Conformer RNN-T 语音识别
Emformer RNN-T 语音识别
Conv-TasNet 源分离
HuBERT 预训练与微调(ASR)
实时音视频自动语音识别
Python API 参考文档
Python 原型 API 参考
C++ 原型 API 参考
PyTorch 库
PyTorch
torchaudio
torchtext
torchvision
TorchElastic
TorchServe
在 XLA 设备上使用 PyTorch

torchaudio.prototype.pipelines

pipelines 子包包含用于加载预训练权重模型及相关工具的 API。

RNN-T 流式/非流式语音识别

预训练模型

EMFORMER_RNNT_BASE_MUSTC 基于预训练 Emformer-RNNT 的 ASR 管道,能够执行流式和非流式推理。
EMFORMER_RNNT_BASE_TEDLIUM3 预训练的基于 Emformer-RNNT 的自动语音识别(ASR)管道,能够执行流式和非流式推理。

HiFiGAN 声码器

接口

HiFiGANVocoderBundle 定义了能够将梅尔频谱图转换为波形的 HiFiGAN 声码器管道。

HiFiGANVocoderBundle 数据类,用于捆绑使用预训练模型的相关信息HiFiGANVocoder.

预训练模型

HIFIGAN_VOCODER_V3_LJSPEECH HiFiGAN 声码器流水线,训练于LJ Speech 数据集[Ito 和 Johnson, 2017]

VGGish

接口

VGGishBundle VGGish [Hersheyet al., 2017推理管道已移植自torchvggishtensorflow-models.
VGGishBundle.VGGish VGGish 模型的实现 [Hersheyet al., 2017]
VGGishBundle.VGGishInputProcessor 将原始波形转换为批量的示例,用作 VGGish 的输入。

预训练模型

VGGISH 预训练的 VGGish [Hersheyet al., 2017从…移植的推理管道torchvggish以及tensorflow-models.
本页目录