torchaudio.prototype.pipelines
pipelines 子包包含用于加载预训练权重模型及相关工具的 API。
RNN-T 流式/非流式语音识别
预训练模型
EMFORMER_RNNT_BASE_MUSTC |
基于预训练 Emformer-RNNT 的 ASR 管道,能够执行流式和非流式推理。 |
EMFORMER_RNNT_BASE_TEDLIUM3 |
预训练的基于 Emformer-RNNT 的自动语音识别(ASR)管道,能够执行流式和非流式推理。 |
HiFiGAN 声码器
接口
HiFiGANVocoderBundle
定义了能够将梅尔频谱图转换为波形的 HiFiGAN 声码器管道。
HiFiGANVocoderBundle |
数据类,用于捆绑使用预训练模型的相关信息HiFiGANVocoder . |
预训练模型
HIFIGAN_VOCODER_V3_LJSPEECH |
HiFiGAN 声码器流水线,训练于LJ Speech 数据集[Ito 和 Johnson, 2017] |
VGGish
接口
VGGishBundle |
VGGish [Hersheyet al., 2017推理管道已移植自torchvggish和tensorflow-models. |
VGGishBundle.VGGish |
VGGish 模型的实现 [Hersheyet al., 2017] |
VGGishBundle.VGGishInputProcessor |
将原始波形转换为批量的示例,用作 VGGish 的输入。 |
预训练模型
VGGISH |
预训练的 VGGish [Hersheyet al., 2017从…移植的推理管道torchvggish以及tensorflow-models. |