torchaudio.functional

执行常见音频操作的函数。

工具函数


`amplitude_to_DB`	将频谱图从功率/振幅标度转换为分贝标度。
`DB_to_amplitude`	将张量从分贝标度转换为功率/振幅标度。
`melscale_fbanks`	创建一个频率区间转换矩阵。
`linear_fbanks`	创建一个线性三角滤波器组。
`create_dct`	创建一个形状为 ( 的 DCT 变换矩阵`n_mels`创建一个形状为 (`n_mels`, `n_mfcc`) 的 DCT 变换矩阵，根据 norm 进行归一化。`n_mfcc`)，根据 norm 进行标准化。
`mask_along_axis`	沿 `axis` 应用掩码。`axis`沿 `axis` 应用掩码。
`mask_along_axis_iid`	沿 `axis` 应用掩码。`axis`沿 `axis` 应用掩码。
`mu_law_encoding`	基于μ律压扩对信号进行编码。
`mu_law_decoding`	解码 mu-law 编码信号。
`apply_codec`	已弃用：将编解码器作为数据增强的一种形式使用。
`resample`	使用带限插值将波形重新采样到新的频率。
`loudness`	根据 ITU-R BS.1770-4 标准测量音频响度。
`convolve`	使用直接方法沿输入的最后一个维度进行卷积。
`fftconvolve`	使用 FFT 沿输入的最后一个维度进行卷积。
`add_noise`	根据信噪比对波形进行缩放并添加噪声。
`preemphasis`	对波形沿其最后一个维度进行预加重处理，即对每个信号 \(x\) 进行处理。`waveform`, 计算输出 \(y\) 为。
`deemphasis`	沿其最后一个维度减弱波形。
`speed`	调整波形速度。
`frechet_distance`	计算两个多元正态分布之间的 Fréchet 距离Dowson 和 Landau, 1982].


`forced_align`	将 CTC 标签序列与发射对齐。
`merge_tokens`	从给定的CTC（Connectionist Temporal Classification）标记序列中移除重复的标记和空标记。
`TokenSpan`	带有时间戳和分数的令牌。


`allpass_biquad`	设计双极点全通滤波器。
`band_biquad`	设计双极点带通滤波器。
`bandpass_biquad`	设计双极点带通滤波器。
`bandreject_biquad`	设计双极点带阻滤波器。
`bass_biquad`	设计一个低音音调控制效果。
`biquad`	对输入张量执行双二阶滤波器操作。
`contrast`	应用对比效果。
`dcshift`	对音频应用直流偏移。
`deemph_biquad`	应用 ISO 908 CD 去加重（搁架）IIR 滤波器。
`dither`	应用抖动
`equalizer_biquad`	设计双二阶峰值均衡器滤波器并执行滤波。
`filtfilt`	对波形应用一个 IIR 滤波器，先正向再反向处理。
`flanger`	对音频应用镶边效果。
`gain`	对整个波形进行放大或衰减处理。
`highpass_biquad`	设计双二阶高通滤波器并进行滤波。
`lfilter`	通过评估差分方程执行 IIR 滤波器，使用由独立开发的可微分实现Yu 等人[Yu 和 Fazekas, 2023] 和Forgione 等人[Forgione 和 Piga, 2021].
`lowpass_biquad`	设计双二阶低通滤波器并进行滤波。
`overdrive`	对音频应用过载效果。
`phaser`	对音频应用相位效果。
`riaa_biquad`	应用RIAA黑胶唱片播放均衡化。
`treble_biquad`	设计一个高音音调控制效果。


`vad`	语音活动检测器。
`spectrogram`	从原始音频信号中创建频谱图或一批频谱图。
`inverse_spectrogram`	从提供的复数值频谱图中创建逆频谱图或一批逆频谱图。
`griffinlim`	使用 Griffin-Lim 变换从线性尺度幅度谱图中计算波形。
`phase_vocoder`	给定一个STFT张量，在不改变音调的情况下，按因子加速时间`rate`给定一个短时傅里叶变换（STFT）张量，按比例加快时间而不改变音高。
`pitch_shift`	调整波形的音高`n_steps`步进。
`compute_deltas`	计算张量的 delta 系数，通常用于频谱图：
`detect_pitch_frequency`	检测音高频率。
`sliding_window_cmn`	对每个语音片段应用滑动窗口的倒谱均值归一化（可选地包括方差归一化）。
`spectral_centroid`	计算每个通道沿时间轴的频谱质心。


`psd`	计算跨通道功率谱密度（PSD）矩阵。
`mvdr_weights_souden`	计算最小方差无失真响应 (Minimum Variance Distortionless Response, MVDR)MVDR[Capon, 1969通过所提出的方法计算波束成形权重Souden 等人[Soudenet al., 2009]
`mvdr_weights_rtf`	计算最小方差无失真响应 (Minimum Variance Distortionless Response)MVDR[Capon, 1969]) 基于相对传递函数（RTF）和噪声的功率谱密度（PSD）矩阵的波束成形权重。
`rtf_evd`	通过特征值分解估计相对传递函数（RTF）或导向矢量。
`rtf_power`	通过幂方法估计相对传递函数（RTF）或导向向量。
`apply_beamforming`	将波束成形权重应用于多通道噪声频谱，以获得单通道增强频谱。


`rnnt_loss`	计算 RNN Transducer 的损失基于循环神经网络的序列转换[Graves, 2012]


`edit_distance`	计算两个序列之间的词级编辑（Levenshtein）距离。