Torch audio 文档
索引
安装
API 教程
音频数据集
管道教程
训练实用技巧
Conformer RNN-T 语音识别
Emformer RNN-T 语音识别
Conv-TasNet 源分离
HuBERT 预训练与微调(ASR)
实时音视频自动语音识别
Python API 参考文档
Python 原型 API 参考
C++ 原型 API 参考
PyTorch 库
PyTorch
torchaudio
torchtext
torchvision
TorchElastic
TorchServe
在 XLA 设备上使用 PyTorch

torchaudio.models

torchaudio.models 子包包含了用于处理常见音频任务的模型定义。

对于带有预训练参数的模型,请参考 torchaudio.pipelines 模块。

模型定义负责构建计算图并执行它们。

某些模型具有复杂的结构和变体。对于这些模型,提供了工厂函数。

Conformer Conformer 架构在Conformer: 用于语音识别的卷积增强型 Transformer[Gulati等人, 2020]
ConvTasNet Conv-TasNet 架构在Conv-TasNet:超越理想时频幅度掩码的语音分离[Luo 和 Mesgarani, 2019]
DeepSpeech DeepSpeech 架构介绍于Deep Speech:扩展端到端语音识别[Hannunet al., 2014].
Emformer Emformer 架构引入于Emformer:基于高效内存Transformer的低延迟流式语音识别声学模型[Shi等人, 2021]
HDemucs 来自混合频谱图和波形源分离的 Hybrid Demucs 模型混合频谱图和波形源分离[Défossez, 2021]
HuBERTPretrainModel 用于预训练的 HuBERT 模型HuBERT[Hsu等人, 2021]
RNNT 递归神经网络转换器 (RNN-T) 模型。
RNNTBeamSearch RNN-T 模型的 Beam Search 解码器。
SquimObjective 预测语音质量和清晰度的SQUIM模型目标语音增强的指标分数(例如,STOI、PESQ 和 SI-SDR)。
SquimSubjective 预测语音质量和清晰度指标 (SQUIM) 的模型主观的语音增强的指标评分(例如,平均意见得分(MOS))。
Tacotron2 Tacotron2 模型来自基于梅尔频谱预测的自然语音合成[Shen等人, 2018基于以下实现Nvidia 深度学习示例.
Wav2Letter Wav2Letter 模型架构来自Wav2Letter:基于卷积神经网络的端到端语音识别系统[Collobert等人,2016].
Wav2Vec2Model wav2vec 2.0 中使用的声学模型wav2vec 2.0[Baevskiet al., 2020]
WaveRNN WaveRNN 模型来自高效的神经音频合成[Kalchbrenneret al., 2018基于以下实现fatchord/WaveRNN.
本页目录