torchaudio.models
torchaudio.models
子包包含了用于处理常见音频任务的模型定义。
对于带有预训练参数的模型,请参考
torchaudio.pipelines
模块。
模型定义负责构建计算图并执行它们。
某些模型具有复杂的结构和变体。对于这些模型,提供了工厂函数。
Conformer |
Conformer 架构在Conformer: 用于语音识别的卷积增强型 Transformer[Gulati等人, 2020] |
ConvTasNet |
Conv-TasNet 架构在Conv-TasNet:超越理想时频幅度掩码的语音分离[Luo 和 Mesgarani, 2019] |
DeepSpeech |
DeepSpeech 架构介绍于Deep Speech:扩展端到端语音识别[Hannunet al., 2014]. |
Emformer |
Emformer 架构引入于Emformer:基于高效内存Transformer的低延迟流式语音识别声学模型[Shi等人, 2021] |
HDemucs |
来自混合频谱图和波形源分离的 Hybrid Demucs 模型混合频谱图和波形源分离[Défossez, 2021] |
HuBERTPretrainModel |
用于预训练的 HuBERT 模型HuBERT[Hsu等人, 2021] |
RNNT |
递归神经网络转换器 (RNN-T) 模型。 |
RNNTBeamSearch |
RNN-T 模型的 Beam Search 解码器。 |
SquimObjective |
预测语音质量和清晰度的SQUIM模型目标语音增强的指标分数(例如,STOI、PESQ 和 SI-SDR)。 |
SquimSubjective |
预测语音质量和清晰度指标 (SQUIM) 的模型主观的语音增强的指标评分(例如,平均意见得分(MOS))。 |
Tacotron2 |
Tacotron2 模型来自基于梅尔频谱预测的自然语音合成[Shen等人, 2018基于以下实现Nvidia 深度学习示例. |
Wav2Letter |
Wav2Letter 模型架构来自Wav2Letter:基于卷积神经网络的端到端语音识别系统[Collobert等人,2016]. |
Wav2Vec2Model |
在 wav2vec 2.0 中使用的声学模型wav2vec 2.0[Baevskiet al., 2020] |
WaveRNN |
WaveRNN 模型来自高效的神经音频合成[Kalchbrenneret al., 2018基于以下实现fatchord/WaveRNN. |