Torchaudio-Squim:TorchAudio 中的非侵入式语音评估
作者: Anurag Kumar, Zhaoheng Ni
1. 概述
本教程展示了如何使用 Torchaudio-Squim 来评估语音质量和可懂度的客观和主观指标。
Torchaudio-Squim 在 Torchaudio 中实现了语音评估功能。它提供了接口和预训练模型,用于估计各种语音质量和可懂度指标。目前,Torchaudio-Squim [1] 支持无参考估计的三种广泛使用的客观指标:
-
宽带语音质量感知评估 (PESQ) [2]
-
短时客观可懂度 (STOI) [3]
-
尺度不变信噪比 (SI-SDR) [4]
它还支持使用非匹配参考来估计给定音频波形的主观平均意见分数(MOS)[1, 5]。
参考文献
[1] Kumar, Anurag, 等. “TorchAudio-Squim: TorchAudio 中的无参考语音质量和可懂度测量.” ICASSP 2023-2023 IEEE 国际声学、语音和信号处理会议 (ICASSP). IEEE, 2023.
[2] I. Rec, “P.862.2: 宽带电话网络和语音编解码器评估的 P.862 建议的宽带扩展,” 国际电信联盟, 瑞士–日内瓦, 2005.
[3] Taal, C. H., Hendriks, R. C., Heusdens, R., & Jensen, J. (2010, 3月). 一种用于时频加权噪声语音的短时客观可懂度测量. 在 2010 IEEE 国际声学、语音和信号处理会议中 (pp. 4214-4217). IEEE.
[4] Le Roux, Jonathan, 等. “SDR–半生不熟还是熟透了?.” ICASSP 2019-2019 IEEE 国际声学、语音和信号处理会议 (ICASSP). IEEE, 2019.
[5] Manocha, Pranay, 和 Anurag Kumar. “通过非匹配参考进行 MOS 的语音质量评估.” Interspeech, 2022.
2. 准备工作
首先导入模块并定义辅助函数。
我们将需要 torch
和 torchaudio
来使用 Torchaudio-squim,Matplotlib
来绘制数据,以及 pystoi
和 pesq
来计算参考指标。
3. 加载语音和噪声样本
目前,Torchaudio-Squim 模型仅支持 16000 Hz 的采样率。如有必要,请对波形进行重采样。
修剪波形,使它们具有相同的帧数。
播放语音样本
播放噪声样本
4. 创建失真(含噪声)的语音样本
播放信噪比为20dB的失真语音
播放信噪比为-5dB的失真语音