torchaudio.functional
执行常见音频操作的函数。
工具函数
amplitude_to_DB |
将频谱图从功率/振幅标度转换为分贝标度。 |
DB_to_amplitude |
将张量从分贝标度转换为功率/振幅标度。 |
melscale_fbanks |
创建一个频率区间转换矩阵。 |
linear_fbanks |
创建一个线性三角滤波器组。 |
create_dct |
创建一个形状为 ( 的 DCT 变换矩阵n_mels 创建一个形状为 (n_mels , n_mfcc ) 的 DCT 变换矩阵,根据 norm 进行归一化。n_mfcc ),根据 norm 进行标准化。 |
mask_along_axis |
沿 axis 应用掩码。axis 沿 axis 应用掩码。 |
mask_along_axis_iid |
沿 axis 应用掩码。axis 沿 axis 应用掩码。 |
mu_law_encoding |
基于μ律压扩对信号进行编码。 |
mu_law_decoding |
解码 mu-law 编码信号。 |
apply_codec |
已弃用:将编解码器作为数据增强的一种形式使用。 |
resample |
使用带限插值将波形重新采样到新的频率。 |
loudness |
根据 ITU-R BS.1770-4 标准测量音频响度。 |
convolve |
使用直接方法沿输入的最后一个维度进行卷积。 |
fftconvolve |
使用 FFT 沿输入的最后一个维度进行卷积。 |
add_noise |
根据信噪比对波形进行缩放并添加噪声。 |
preemphasis |
对波形沿其最后一个维度进行预加重处理,即对每个信号 \(x\) 进行处理。waveform , 计算输出 \(y\) 为。 |
deemphasis |
沿其最后一个维度减弱波形。 |
speed |
调整波形速度。 |
frechet_distance |
计算两个多元正态分布之间的 Fréchet 距离Dowson 和 Landau, 1982]. |
强制对齐
forced_align |
将 CTC 标签序列与发射对齐。 |
merge_tokens |
从给定的CTC(Connectionist Temporal Classification)标记序列中移除重复的标记和空标记。 |
TokenSpan |
带有时间戳和分数的令牌。 |
过滤
allpass_biquad |
设计双极点全通滤波器。 |
band_biquad |
设计双极点带通滤波器。 |
bandpass_biquad |
设计双极点带通滤波器。 |
bandreject_biquad |
设计双极点带阻滤波器。 |
bass_biquad |
设计一个低音音调控制效果。 |
biquad |
对输入张量执行双二阶滤波器操作。 |
contrast |
应用对比效果。 |
dcshift |
对音频应用直流偏移。 |
deemph_biquad |
应用 ISO 908 CD 去加重(搁架)IIR 滤波器。 |
dither |
应用抖动 |
equalizer_biquad |
设计双二阶峰值均衡器滤波器并执行滤波。 |
filtfilt |
对波形应用一个 IIR 滤波器,先正向再反向处理。 |
flanger |
对音频应用镶边效果。 |
gain |
对整个波形进行放大或衰减处理。 |
highpass_biquad |
设计双二阶高通滤波器并进行滤波。 |
lfilter |
通过评估差分方程执行 IIR 滤波器,使用由独立开发的可微分实现Yu 等人[Yu 和 Fazekas, 2023] 和Forgione 等人[Forgione 和 Piga, 2021]. |
lowpass_biquad |
设计双二阶低通滤波器并进行滤波。 |
overdrive |
对音频应用过载效果。 |
phaser |
对音频应用相位效果。 |
riaa_biquad |
应用RIAA黑胶唱片播放均衡化。 |
treble_biquad |
设计一个高音音调控制效果。 |
特征提取
vad |
语音活动检测器。 |
spectrogram |
从原始音频信号中创建频谱图或一批频谱图。 |
inverse_spectrogram |
从提供的复数值频谱图中创建逆频谱图或一批逆频谱图。 |
griffinlim |
使用 Griffin-Lim 变换从线性尺度幅度谱图中计算波形。 |
phase_vocoder |
给定一个STFT张量,在不改变音调的情况下,按因子加速时间rate 给定一个短时傅里叶变换(STFT)张量,按比例加快时间而不改变音高。 |
pitch_shift |
调整波形的音高n_steps 步进。 |
compute_deltas |
计算张量的 delta 系数,通常用于频谱图: |
detect_pitch_frequency |
检测音高频率。 |
sliding_window_cmn |
对每个语音片段应用滑动窗口的倒谱均值归一化(可选地包括方差归一化)。 |
spectral_centroid |
计算每个通道沿时间轴的频谱质心。 |
多渠道
psd |
计算跨通道功率谱密度(PSD)矩阵。 |
mvdr_weights_souden |
计算最小方差无失真响应 (Minimum Variance Distortionless Response, MVDR)MVDR[Capon, 1969通过所提出的方法计算波束成形权重Souden 等人[Soudenet al., 2009] |
mvdr_weights_rtf |
计算最小方差无失真响应 (Minimum Variance Distortionless Response)MVDR[Capon, 1969]) 基于相对传递函数(RTF)和噪声的功率谱密度(PSD)矩阵的波束成形权重。 |
rtf_evd |
通过特征值分解估计相对传递函数(RTF)或导向矢量。 |
rtf_power |
通过幂方法估计相对传递函数(RTF)或导向向量。 |
apply_beamforming |
将波束成形权重应用于多通道噪声频谱,以获得单通道增强频谱。 |
损失
rnnt_loss |
计算 RNN Transducer 的损失基于循环神经网络的序列转换[Graves, 2012] |
指标
edit_distance |
计算两个序列之间的词级编辑(Levenshtein)距离。 |