参考资料

[是]

[AB79]

Jont B Allen 和 David A Berkley。高效模拟小房间声学的镜像法。《美国声学学会杂志》，65(4):943–950，1979。

[ABD+20]

Rosana Ardila, Megan Branson, Kelly Davis, Michael Henretty, Michael Kohler, Josh Meyer, Reuben Morais, Lindsay Saunders, Francis M. Tyers, 和 Gregor Weber. Common Voice: 一个大规模多语言语音语料库. 2020. arXiv:1912.06670.

[BWT+21]

Arun Babu、Changhan Wang、Andros Tjandra、Kushal Lakhotia、Qiantong Xu、Naman Goyal、Kritika Singh、Patrick von Platen、Yatharth Saraf、Juan Pino 等人。Xls-r: 大规模自监督跨语言语音表示学习。arXiv 预印本 arXiv:2111.09296，2021年。

[BZMA20]

Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, 和 Michael Auli. Wav2vec 2.0: 一种用于语音表示自监督学习的框架. 2020. arXiv:2006.11477.

[BBL+08]

Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower Provost, Samuel Kim, Jeannette Chang, Sungbok Lee, 和 Shrikanth Narayanan. Iemocap: 交互式情感双人动作捕捉数据库. 语言资源与评估, 42:335–359, 2008年12月. doi:10.1007/s10579-008-9076-6.

[Cap69]

Jack Capon. 高分辨率频率-波数谱分析. IEEE学报, 57(8):1408–1418, 1969.

[CDiGangiB+21]

Roldano Cattoni, Mattia Antonino Di Gangi, Luisa Bentivogli, Matteo Negri 和 Marco Turchi。Must-c：一个用于端到端语音翻译的多语言语料库。计算机语音与语言，66:101155，2021。URL: https://www.sciencedirect.com/science/article/pii/S0885230820300887，doi:https://doi.org/10.1016/j.csl.2020.101155。

[CCW+21]

Guoguo Chen, Shuzhou Chai, Guanbo Wang, Jiayu Du, Wei-Qiang Zhang, Chao Weng, Dan Su, Daniel Povey, Jan Trmal, Junbo Zhang, Mingjie Jin, Sanjeev Khudanpur, Shinji Watanabe, Shuaijiang Zhao, Wei Zou, Xiangang Li, Xuchen Yao, Yongqing Wang, Yujun Wang, Zhao You, 和 Zhiyong Yan. Gigaspeech: 一个不断发展的多领域语音识别语料库，包含10,000小时的转录音频。发表于 Proc. Interspeech 2021。2021年。

[CWC+22]

三元陈, 成毅王, 正阳陈, 宇吴, 树杰刘, 卓陈, 金玉李, 直之金田, 良孝吉冈, 雄肖, 等人. Wavlm: 面向全栈语音处理的大规模自监督预训练. IEEE 信号处理精选期刊, 16(6):1505–1518, 2022.

[CPS16]

Ronan Collobert, Christian Puhrsch, 和 Gabriel Synnaeve. Wav2letter: 一个基于卷积神经网络的端到端语音识别系统. 2016. arXiv:1609.03193.

[CBC+20]

Alexis Conneau, Alexei Baevski, Ronan Collobert, Abdelrahman Mohamed, 和 Michael Auli. 无监督跨语言表示学习用于语音识别. 2020. arXiv:2006.13979.

[CY21]

Erica Cooper 和 Junichi Yamagishi。过去语音合成挑战中的声音与今天的比较如何？arXiv 预印本 arXiv:2105.02373, 2021。

[CPC+20]

Joris Cosentino, Manuel Pariente, Samuele Cornell, Antoine Deleforge, 和 Emmanuel Vincent. Librimix: 一个用于泛化语音分离的开源数据集. 2020. arXiv:2005.11262.

Alice Coucke, Alaa Saade, Adrien Ball, Théodore Bluche, Alexandre Caulier, David Leroy, Clément Doumouro, Thibault Gisselbrecht, Francesco Caltagirone, Thibaut Lavril 等。Snips 语音平台：一种嵌入式的自然语言理解系统，专为隐私设计的语音接口。arXiv 预印本 arXiv:1805.10190，2018。

[DL82]

DC Dowson 和 BV666017 Landau。多元正态分布之间的 Fréchet 距离。多元分析杂志，12(3):450–455，1982。

[Defossez21]

Alexandre Défossez. 混合频谱图和波形源分离. 发表于 ISMIR 2021 音乐源分离研讨会论文集. 2021.

[FP21]

Marco Forgione 和 Dario Piga. Dynonet: 一种用于学习动态系统的神经网络架构. 国际自适应控制与信号处理杂志, 35(4):612–626, 2021.

[GKRR14]

Mark John Francis Gales、Kate Knill、Anton Ragni 和 Shakti Prasad Rath。低资源语言的语音识别和关键词检测：CUED 的 Babel 项目研究。发表于 SLTU。2014 年。

[Gra12]

Alex Graves. 使用循环神经网络进行序列转导. 2012. arXiv:1211.3711.

[GL83]

D. Griffin 和 Jae Lim. 基于改进短时傅里叶变换的信号估计. 发表于 ICASSP '83. IEEE 国际声学、语音和信号处理会议, 第8卷, 804–807. 1983. doi:10.1109/ICASSP.1983.1172092.

[GQC+20]

Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, 和 Ruoming Pang. Conformer: 用于语音识别的卷积增强 Transformer. 2020. arXiv:2005.08100.

Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates 和 Andrew Y. Ng. Deep Speech: 扩展端到端语音识别. 2014. arXiv:1412.5567.

Shawn Hershey, Sourish Chaudhuri, Daniel P. W. Ellis, Jort F. Gemmeke, Aren Jansen, Channing Moore, Manoj Plakal, Devin Platt, Rif A. Saurous, Bryan Seybold, Malcolm Slaney, Ron Weiss, 和 Kevin Wilson。用于大规模音频分类的CNN架构。发表于 国际声学、语音与信号处理会议 (ICASSP)。2017年。URL: https://arxiv.org/abs/1609.09430。

[HIA+17]

Takuya Higuchi、Nobutaka Ito、Shoko Araki、Takuya Yoshioka、Marc Delcroix 和 Tomohiro Nakatani。基于具有空间先验的复高斯混合模型的在线 MVDR 波束形成器，用于噪声鲁棒的 ASR。IEEE/ACM 音频、语音和语言处理汇刊，25(4):780–793，2017。

[HIYN16]

Takuya Higuchi、Nobutaka Ito、Takuya Yoshioka 和 Tomohiro Nakatani。使用时频掩码的鲁棒 MVDR 波束成形，用于噪声中的在线/离线 ASR。发表于 2016 年 IEEE 国际声学、语音和信号处理会议 (ICASSP)，5210–5214 页。IEEE，2016 年。

[HBT+21]

Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, 和 Abdelrahman Mohamed. Hubert: 通过掩码预测隐藏单元进行自监督语音表示学习. 2021. arXiv:2106.07447.

[IJ17]

Keith Ito 和 Linda Johnson。LJ 语音数据集。https://keithito.com/LJ-Speech-Dataset/, 2017。

[KPL+22]

Jacob Kahn, Vineel Pratap, Tatiana Likhomanenko, Qiantong Xu, Awni Hannun, Jeff Cai, Paden Tomasello, Ann Lee, Edouard Grave, Gilad Avidov 等人。Flashlight：推动机器学习工具的创新。arXiv 预印本 arXiv:2201.12465，2022年。

[KES+18a]

Nal Kalchbrenner, Erich Elsen, Karen Simonyan, Seb Noury, Norman Casagrande, Edward Lockhart, Florian Stimberg, Aaron van den Oord, Sander Dieleman, 和 Koray Kavukcuoglu. 高效的神经音频合成. 2018. arXiv:1802.08435.

[KES+18b]

Nal Kalchbrenner, Erich Elsen, Karen Simonyan, Seb Noury, Norman Casagrande, Edward Lockhart, Florian Stimberg, Aäron van den Oord, Sander Dieleman, 和 Koray Kavukcuoglu. 高效的神经音频合成. CoRR, 2018. URL: http://arxiv.org/abs/1802.08435, arXiv:1802.08435.

[KPPK15]

Tom Ko, Vijayaditya Peddinti, Daniel Povey, 和 Sanjeev Khudanpur. 语音识别的音频增强. 在 Proc. Interspeech 2015, 3586–3589. 2015. doi:10.21437/Interspeech.2015-711.

[KBV03]

John Kominek, Alan W Black 和 Ver Ver. CMU Arctic 语音合成数据库. 技术报告, 2003.

[KKB20]

Jungil Kong, Jaehyeon Kim 和 Jaekyoung Bae. Hifi-gan: 用于高效高保真语音合成的生成对抗网络. 在 H. Larochelle, M. Ranzato, R. Hadsell, M.F. Balcan 和 H. Lin 编辑的《神经信息处理系统进展》第33卷中，17022–17033页. Curran Associates, Inc., 2020. 网址: https://proceedings.neurips.cc/paper/2020/file/c5d736809766d46260d816d8dbc9eb44-Paper.pdf.

[KTN+23]

Anurag Kumar, Ke Tan, Zhaoheng Ni, Pranay Manocha, Xiaohui Zhang, Ethan Henderson, 和 Buye Xu. Torchaudio-squim: Torchaudio 中无参考的语音质量和可懂度度量. arXiv 预印本 arXiv:2304.01448, 2023.

[LRI+19]

Loren Lugosch, Mirco Ravanelli, Patrick Ignoto, Vikrant Singh Tomar 和 Yoshua Bengio. 面向端到端口语理解的语音模型预训练. 在 Gernot Kubin 和 Zdravko Kacic 编辑的 Proc. of Interspeech 中, 814–818. 2019.

[LM19]

Yi Luo 和 Nima Mesgarani. Conv-TasNet: 超越理想的时频幅度掩码用于语音分离. IEEE/ACM 音频、语音与语言处理汇刊, 27(8):1256–1266, 2019年8月. URL: http://dx.doi.org/10.1109/TASLP.2019.2915167, doi:10.1109/taslp.2019.2915167.

[MK22]

Pranay Manocha 和 Anurag Kumar. 使用非匹配参考通过 MOS 进行语音质量评估. arXiv 预印本 arXiv:2206.12285, 2022.

[MRFB+15]

Xavier Anguera Miro, Luis Javier Rodriguez-Fuentes, Andi Buzo, Florian Metze, Igor Szoke, 和 Mikel Peñagarikano. Quesst2014: 在零资源环境下使用真实查询评估基于示例的语音搜索. 2015 IEEE 国际声学、语音和信号处理会议 (ICASSP), 页码 5833–5837, 2015.

[MPG29]

RV·米塞斯和希尔达·波拉切克-盖林格。实用方程求解方法。应用数学与力学杂志/Zeitschrift für Angewandte Mathematik und Mechanik，9(1):58–77，1929。

[Mys14]

Gautham J Mysore. 我们能否自动将现实环境中通过普通消费设备录制的语音转换为专业制作质量的语音？——数据集、见解与挑战. IEEE 信号处理快报, 22(8):1006–1010, 2014.

[NCZ17]

Arsha Nagrani, Joon Son Chung 和 Andrew Zisserman. VoxCeleb: 一个大规模说话人识别数据集. arXiv 预印本 arXiv:1706.08612, 2017.

[PCPK15]

Vassil Panayotov, Guoguo Chen, Daniel Povey, 和 Sanjeev Khudanpur. Librispeech: 一个基于公共领域有声书的自动语音识别语料库. 在 2015年IEEE国际声学、语音和信号处理会议 (ICASSP) 中, 卷, 5206–5210. 2015. doi:10.1109/ICASSP.2015.7178964.

[PCZ+19]

Daniel S. Park, William Chan, Yu Zhang, Chung-Cheng Chiu, Barret Zoph, Ekin D. Cubuk, 和 Quoc V. Le. Specaugment: 一种用于自动语音识别的简单数据增强方法. Interspeech 2019, 2019年9月. URL: http://dx.doi.org/10.21437/Interspeech.2019-2680, doi:10.21437/interspeech.2019-2680.

[PBS13]

Nathanaël Perraudin, Peter Balazs, 和 Peter L. Søndergaard. 一种快速的 Griffin-Lim 算法. 发表于 2013 IEEE 音频与声学信号处理应用研讨会, 卷, 1–4. 2013. doi:10.1109/WASPAA.2013.6701851.

[PTS+23]

Vineel Pratap, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu, Sayani Kundu, Ali Elkahky, Zhaoheng Ni, Apoorv Vyas, Maryam Fazel-Zarandi, Alexei Baevski, Yossi Adi, Xiaohui Zhang, Wei-Ning Hsu, Alexis Conneau, 和 Michael Auli. 将语音技术扩展到 1,000+ 种语言. 2023. arXiv:2305.13516.

[PXS+20]

Vineel Pratap, Qiantong Xu, Anuroop Sriram, Gabriel Synnaeve, 和 Ronan Collobert。MLS：用于语音研究的大规模多语言数据集。Interspeech 2020，2020年10月。URL: http://dx.doi.org/10.21437/Interspeech.2020-2826, doi:10.21437/interspeech.2020-2826。

[RLStoter+19]

Zafar Rafii, Antoine Liutkus, Fabian-Robert Stöter, Stylianos Ioannis Mimilakis 和 Rachel Bittner. MUSDB18-HQ - musdb18 的无压缩版本. 2019年12月. 网址: https://doi.org/10.5281/zenodo.3338373, doi:10.5281/zenodo.3338373.

[RGC+20]

Chandan KA Reddy, Vishak Gopal, Ross Cutler, Ebrahim Beyrami, Roger Cheng, Harishchandra Dubey, Sergiy Matusevych, Robert Aichner, Ashkan Aazami, Sebastian Braun, 等人. 《2020年Interspeech深度噪声抑制挑战赛：数据集、主观测试框架及挑战结果》. arXiv预印本 arXiv:2005.13981, 2020.

[RDelegliseEsteve12]

Anthony Rousseau, Paul Deléglise 和 Yannick Estève. Ted-lium: 一个专用于自动语音识别的语料库. 发表于 语言资源与评估会议 (LREC), 125–129. 2012.

[SY18]

Seyyed Saeed Sarfjoo 和 Junichi Yamagishi。设备录制的 VCTK（小规模子集版本）。2018。

[SBDokmanic18]

Robin Scheibler、Eric Bezzam 和 Ivan Dokmanić。Pyroomacoustics：用于音频房间仿真和阵列处理算法的 Python 包。发表于 2018 年 IEEE 国际声学、语音和信号处理会议 (ICASSP)，第 351–355 页。IEEE，2018 年。

[SPW+18]

Jonathan Shen, Ruoming Pang, Ron J Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, Rj Skerrv-Ryan 等。通过基于梅尔频谱图预测的条件化 WaveNet 进行自然 TTS 合成。在 2018 年 IEEE 国际声学、语音和信号处理会议 (ICASSP) 中，4779–4783 页。IEEE，2018。

[SWW+21]

杨洋石, 永强王, 春阳吴, Ching-Feng Yeh, Julian Chan, Frank Zhang, Duc Le, 以及 Mike Seltzer. 《Emformer：基于高效内存Transformer的低延迟流式语音识别声学模型》. 发表于 ICASSP 2021 - 2021 IEEE 国际声学、语音与信号处理会议 (ICASSP), 6783–6787. 2021.

[SWW+22]

Yangyang Shi, Chunyang Wu, Dilin Wang, Alex Xiao, Jay Mahadeokar, Xiaohui Zhang, Chunxi Liu, Ke Li, Yuan Shangguan, Varun Nagaraja, Ozlem Kalinli, 和 Mike Seltzer. 基于非因果卷积的流式Transformer Transducer语音识别. 发表于 ICASSP 2022 - 2022 IEEE 国际声学、语音与信号处理会议 (ICASSP), 卷, 8277–8281. 2022. doi:10.1109/ICASSP43922.2022.9747706.

[Smi20]

Julius O. Smith. 数字音频重采样主页“理想带限插值理论”部分. 2020年9月. 网址: https://ccrma.stanford.edu/~jos/resample/Theory_Ideal_Bandlimited_Interpolation.html.

[SCP15]

David Snyder, Guoguo Chen, 和 Daniel Povey。MUSAN：一个音乐、语音和噪声的语料库。2015. arXiv:1510.08484v1. arXiv:1510.08484.

[SBA09]

Mehrez Souden, Jacob Benesty 和 Sofiene Affes. 关于频域多通道线性滤波在噪声降低中的优化. 发表于 IEEE 音频、语音和语言处理汇刊, 第18卷, 260–276页. IEEE, 2009.

[SWT+22]

Sangeeta Srivastava, Yun Wang, Andros Tjandra, Anurag Kumar, Chunxi Liu, Kritika Singh, 和 Yatharth Saraf. 基于 Conformer 的自监督学习在非语音音频任务中的应用. 收录于 ICASSP 2022 - 2022 IEEE 国际声学、语音与信号处理会议 (ICASSP), 卷, 8862–8866. 2022. doi:10.1109/ICASSP43922.2022.9746490.

[TEC01]

George Tzanetakis, Georg Essl 和 Perry Cook. 音频信号的自动音乐流派分类. 2001. 网址: http://ismir2001.ismir.net/pdf/tzanetakis.pdf.

[VAlumae21]

Jörgen Valk 和 Tanel Alumäe. Voxlingua107：一个用于口语识别的数据集。发表于 2021 IEEE 口语技术研讨会 (SLT)，652–658。IEEE，2021。

[WRiviereL+21]

Changhan Wang, Morgane Rivière, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary Williamson, Juan Miguel Pino, and Emmanuel Dupoux. Voxpopuli: 一个用于表示学习、半监督学习和解释的大规模多语言语音语料库。CoRR, 2021. URL: https://arxiv.org/abs/2101.00390, arXiv:2101.00390.

[Wei98]

R.L. Weide. 卡内基梅隆发音词典. 1998. URL: http://www.speech.cs.cmu.edu/cgi-bin/cmudict.

[YVM19]

Junichi Yamagishi, Christophe Veaux, 和 Kirsten MacDonald. CSTR VCTK 语料库：用于 CSTR 语音克隆工具包的英语多说话者语料库（版本 0.92）. 2019. doi:10.7488/ds/2645.

[YF23]

Chin-Yun Yu 和 György Fazekas. 使用可微分LPC和声门流启发波形表的歌唱语音合成. 在 Augusto Sarti, Fabio Antonacci, Mark Sandler, Paolo Bestagini, Simon Dixon, Beici Liang, Gaël Richard, 和 Johan Pauwels 编辑的 第24届国际音乐信息检索会议论文集, ISMIR 2023, 意大利米兰, 2023年11月5-9日, 667–675. 2023. URL: https://doi.org/10.5281/zenodo.10265377, doi:10.5281/ZENODO.10265377.

[ZDC+19]

Heiga Zen, Viet-Trung Dang, Robert A. J. Clark, Yu Zhang, Ron J. Weiss, Ye Jia, Z. Chen, 和 Yonghui Wu。Libritts: 一个基于 Librispeech 的文本转语音语料库。ArXiv，2019。

[ZSN21]

Albert Zeyer, Ralf Schlüter, 和 Hermann Ney. 为什么 CTC 会导致峰值行为？2021. arXiv:2105.14849.

Brian McFee, Colin Raffel, Dawen Liang, Daniel P.W. Ellis, Matt McVicar, Eric Battenberg, 和 Oriol Nieto. Librosa: Python 中的音频和音乐信号分析. 由 Kathryn Huff 和 James Bergstra 编辑, 第 14 届 Python 科学会议论文集, 18 – 24. 2015. doi:10.25080/Majora-7b98e3ed-003.

[KahnRiviereZheng+20]

J. Kahn, M. Rivière, W. Zheng, E. Kharitonov, Q. Xu, P. E. Mazaré, J. Karadayi, V. Liptchinsky, R. Collobert, C. Fuegen, T. Likhomanenko, G. Synnaeve, A. Joulin, A. Mohamed, 和 E. Dupoux. Libri-light: 一个用于有限或无监督的自动语音识别的基准。在 ICASSP 2020 - 2020 IEEE 国际声学、语音和信号处理会议 (ICASSP) 中，7669–7673. 2020. https://github.com/facebookresearch/libri-light.

[Warden18]

P. Warden. 语音命令：一个用于有限词汇语音识别的数据集。ArXiv 预印本, 2018年4月。URL: https://arxiv.org/abs/1804.03209, arXiv:1804.03209。

[维基百科贡献者]

维基百科贡献者。吸声（声学）— 维基百科，自由的百科全书。[在线]。网址：https://en.wikipedia.org/wiki/Absorption_(acoustics)。