Torch audio 文档
索引
安装
API 教程
音频数据集
管道教程
训练实用技巧
Conformer RNN-T 语音识别
Emformer RNN-T 语音识别
Conv-TasNet 源分离
HuBERT 预训练与微调(ASR)
实时音视频自动语音识别
Python API 参考文档
Python 原型 API 参考
C++ 原型 API 参考
PyTorch 库
PyTorch
torchaudio
torchtext
torchvision
TorchElastic
TorchServe
在 XLA 设备上使用 PyTorch

torchaudio.prototype.models

torchaudio.prototype.models 子包包含了用于解决常见音频任务的模型定义。

对于具有预训练参数的模型,请参考 torchaudio.prototype.pipelines 模块。

模型定义负责构建计算图并执行它们。

一些模型具有复杂的结构和变体。对于这些模型,提供了工厂函数。

ConformerWav2Vec2PretrainModel 用于从头开始训练的 Conformer Wav2Vec2 预训练模型。
ConvEmformer 实现了卷积增强的流式Transformer架构基于非因果卷积的流式 Transformer Transducer 语音识别[Shi等人, 2022]
HiFiGANVocoder 生成器部分HiFi GAN[Kong等人, 2020].

Beta 模型的原型工厂函数

一些模型定义处于测试阶段,但仍有新的工厂函数处于原型阶段。请查看每个模型中的“原型工厂函数”部分。

Wav2Vec2Model 使用的声学模型wav2vec 2.0[Baevskiet al.,2020]
RNNT 循环神经网络转导器 (RNN-T) 模型。
本页目录