Torch audio 文档
索引
安装
API 教程
音频数据集
管道教程
训练实用技巧
Conformer RNN-T 语音识别
Emformer RNN-T 语音识别
Conv-TasNet 源分离
HuBERT 预训练与微调(ASR)
实时音视频自动语音识别
Python API 参考文档
Python 原型 API 参考
C++ 原型 API 参考
PyTorch 库
PyTorch
torchaudio
torchtext
torchvision
TorchElastic
TorchServe
在 XLA 设备上使用 PyTorch

torchaudio.functional

执行常见音频操作的函数。

工具函数

amplitude_to_DB 将频谱图从功率/振幅标度转换为分贝标度。
DB_to_amplitude 将张量从分贝标度转换为功率/振幅标度。
melscale_fbanks 创建一个频率区间转换矩阵。
linear_fbanks 创建一个线性三角滤波器组。
create_dct 创建一个形状为 ( 的 DCT 变换矩阵n_mels创建一个形状为 (n_mels, n_mfcc) 的 DCT 变换矩阵,根据 norm 进行归一化。n_mfcc),根据 norm 进行标准化。
mask_along_axis 沿 axis 应用掩码。axis沿 axis 应用掩码。
mask_along_axis_iid 沿 axis 应用掩码。axis沿 axis 应用掩码。
mu_law_encoding 基于μ律压扩对信号进行编码。
mu_law_decoding 解码 mu-law 编码信号。
apply_codec 已弃用:将编解码器作为数据增强的一种形式使用。
resample 使用带限插值将波形重新采样到新的频率。
loudness 根据 ITU-R BS.1770-4 标准测量音频响度。
convolve 使用直接方法沿输入的最后一个维度进行卷积。
fftconvolve 使用 FFT 沿输入的最后一个维度进行卷积。
add_noise 根据信噪比对波形进行缩放并添加噪声。
preemphasis 对波形沿其最后一个维度进行预加重处理,即对每个信号 \(x\) 进行处理。waveform, 计算输出 \(y\) 为。
deemphasis 沿其最后一个维度减弱波形。
speed 调整波形速度。
frechet_distance 计算两个多元正态分布之间的 Fréchet 距离Dowson 和 Landau, 1982].

强制对齐

forced_align 将 CTC 标签序列与发射对齐。
merge_tokens 从给定的CTC(Connectionist Temporal Classification)标记序列中移除重复的标记和空标记。
TokenSpan 带有时间戳和分数的令牌。

过滤

allpass_biquad 设计双极点全通滤波器。
band_biquad 设计双极点带通滤波器。
bandpass_biquad 设计双极点带通滤波器。
bandreject_biquad 设计双极点带阻滤波器。
bass_biquad 设计一个低音音调控制效果。
biquad 对输入张量执行双二阶滤波器操作。
contrast 应用对比效果。
dcshift 对音频应用直流偏移。
deemph_biquad 应用 ISO 908 CD 去加重(搁架)IIR 滤波器。
dither 应用抖动
equalizer_biquad 设计双二阶峰值均衡器滤波器并执行滤波。
filtfilt 对波形应用一个 IIR 滤波器,先正向再反向处理。
flanger 对音频应用镶边效果。
gain 对整个波形进行放大或衰减处理。
highpass_biquad 设计双二阶高通滤波器并进行滤波。
lfilter 通过评估差分方程执行 IIR 滤波器,使用由独立开发的可微分实现Yu 等人[Yu 和 Fazekas, 2023] 和Forgione 等人[Forgione 和 Piga, 2021].
lowpass_biquad 设计双二阶低通滤波器并进行滤波。
overdrive 对音频应用过载效果。
phaser 对音频应用相位效果。
riaa_biquad 应用RIAA黑胶唱片播放均衡化。
treble_biquad 设计一个高音音调控制效果。

特征提取

vad 语音活动检测器。
spectrogram 从原始音频信号中创建频谱图或一批频谱图。
inverse_spectrogram 从提供的复数值频谱图中创建逆频谱图或一批逆频谱图。
griffinlim 使用 Griffin-Lim 变换从线性尺度幅度谱图中计算波形。
phase_vocoder 给定一个STFT张量,在不改变音调的情况下,按因子加速时间rate给定一个短时傅里叶变换(STFT)张量,按比例加快时间而不改变音高。
pitch_shift 调整波形的音高n_steps步进。
compute_deltas 计算张量的 delta 系数,通常用于频谱图:
detect_pitch_frequency 检测音高频率。
sliding_window_cmn 对每个语音片段应用滑动窗口的倒谱均值归一化(可选地包括方差归一化)。
spectral_centroid 计算每个通道沿时间轴的频谱质心。

多渠道

psd 计算跨通道功率谱密度(PSD)矩阵。
mvdr_weights_souden 计算最小方差无失真响应 (Minimum Variance Distortionless Response, MVDR)MVDR[Capon, 1969通过所提出的方法计算波束成形权重Souden 等人[Soudenet al., 2009]
mvdr_weights_rtf 计算最小方差无失真响应 (Minimum Variance Distortionless Response)MVDR[Capon, 1969]) 基于相对传递函数(RTF)和噪声的功率谱密度(PSD)矩阵的波束成形权重。
rtf_evd 通过特征值分解估计相对传递函数(RTF)或导向矢量。
rtf_power 通过幂方法估计相对传递函数(RTF)或导向向量。
apply_beamforming 将波束成形权重应用于多通道噪声频谱,以获得单通道增强频谱。

损失

rnnt_loss 计算 RNN Transducer 的损失基于循环神经网络的序列转换[Graves, 2012]

指标

edit_distance 计算两个序列之间的词级编辑(Levenshtein)距离。
本页目录