torchaudio.models - pytorch tutorials中文文档 - 文档多

•

pytorch tutorials中文文档

Torch audio 文档

索引

支持的功能

功能分类

TorchAudio 徽标

参考文献

安装

安装预编译的二进制文件

从源码构建

在 Linux 和 macOS 上构建

在 Windows 上构建

在 Jetson 上构建

启用 GPU 视频解码器/编码器

API 教程

音频输入/输出

StreamReader 基本用法

StreamReader 高级用法

StreamWriter 基本用法

StreamWriter 高级用法

使用 NVDEC 加速视频解码

使用 NVENC 加速视频编码

AudioEffector 使用指南

音频重采样

音频数据增强

音频特征提取

音频特征增强

CTC 强制对齐 API 教程

振荡器和ADSR包络

加法合成

滤波器设计教程

减法合成

音频数据集

管道教程

使用 Wav2Vec2 进行语音识别

使用 CTC 解码器进行语音识别推理

使用 CUDA CTC 解码器进行 ASR 推理

使用 Emformer RNN-T 进行在线语音识别

使用 Emformer RNN-T 进行设备端语音识别

设备端基于 Emformer RNN-T 的音频-视觉语音识别

使用 Wav2Vec2 进行强制对齐

多语言数据的强制对齐

使用 Tacotron2 实现文本转语音

基于 MVDR 波束形成的语音增强

使用 Hybrid Demucs 进行音乐源分离

Torchaudio-Squim: TorchAudio 中的非侵入式语音评估

训练实用技巧

Conformer RNN-T 语音识别

Emformer RNN-T 语音识别

Conv-TasNet 源分离

HuBERT 预训练与微调（ASR）

实时音视频自动语音识别

Python API 参考文档

torchaudio

torchaudio.io

torchaudio.functional

torchaudio.transforms

torchaudio.datasets

torchaudio.models

torchaudio.models.decoder

torchaudio.pipelines

torchaudio.sox_effects

torchaudio.compliance.kaldi

torchaudio.kaldi_io

torchaudio.utils

torio

torio.io

torio.utils

Python 原型 API 参考

torchaudio.prototype

torchaudio.prototype.datasets

torchaudio.prototype.functional

torchaudio.prototype.models

torchaudio.prototype.pipelines

torchaudio.prototype.transforms

C++ 原型 API 参考

libtorio

torio::io::StreamingMediaDecoder

torio::io::StreamingMediaEncoder

PyTorch 库

PyTorch

torchaudio

torchtext

torchvision

TorchElastic

TorchServe

在 XLA 设备上使用 PyTorch

torchaudio.models torchaudio.models 子包包含了用于处理常见音频任务的模型定义。 对于带有预训练参数的模型，请参考 torchaudio.pipelines 模块。 模型定义负责构建计算图并执行它们。 某些模型具有复杂的结构和变体。对于这些模型，提供了工厂函数。 Conformer Conformer 架构在 Conformer: 用于语音识别的卷积增强型 Transformer [Gulati 等人, 2020] ConvTasNet Conv-TasNet 架构在 Conv-TasNet：超越理想时频幅度掩码的语音分离 [Luo 和 Mesgarani, 2019] DeepSpeech DeepSpeech 架构介绍于 Deep Speech：扩展端到端语音识别 [Hannun et al., 2014]. Emformer Emformer 架构引入于 Emformer：基于高效内存Transformer的低延迟流式语音识别声学模型 [Shi 等人, 2021] HDemucs 来自混合频谱图和波形源分离的 Hybrid Demucs 模型 混合频谱图和波形源分离 [Défossez, 2021] HuBERTPretrainModel 用于预训练的 HuBERT 模型 HuBERT [Hsu 等人, 2021] RNNT 递归神经网络转换器 (RNN-T) 模型。 RNNTBeamSearch RNN-T 模型的 Beam Search 解码器。 SquimObjective 预测语音质量和清晰度的SQUIM模型 目标 语音增强的指标分数（例如，STOI、PESQ 和 SI-SDR）。 SquimSubjective 预测语音质量和清晰度指标 (SQUIM) 的模型 主观的 语音增强的指标评分（例如，平均意见得分（MOS））。 Tacotron2 Tacotron2 模型来自 基于梅尔频谱预测的自然语音合成 [Shen 等人, 2018 基于以下实现 Nvidia 深度学习示例 . Wav2Letter Wav2Letter 模型架构来自 Wav2Letter：基于卷积神经网络的端到端语音识别系统 [Collobert 等人 ，2016]. Wav2Vec2Model 在 wav2vec 2.0 中使用的声学模型 wav2vec 2.0 [Baevski et al., 2020] WaveRNN WaveRNN 模型来自 高效的神经音频合成 [Kalchbrenner et al., 2018 基于以下实现 fatchord/WaveRNN .

本页目录