计算机科学与技术学院2021级电子信息专业研究生胡维新以第一作者在SCI三区期刊Plos one (影响因子:3.752)发表研究论文,论文题目为《A real-time voice cloning system with multiple algorithms for speech quality improvement》。
该论文是湖南省自然科学基金项目资助的重要成果之一,在我校朱贤友教授的指导下完成,以衡阳师范学院计算机科学与技术学院为署名单位。论文核心理论是:随着计算机技术的发展,自然语言处理领域的许多前沿技术得到广泛应用。作为自然语言处理的子任务,语音克隆技术可以利用深度学习技术提取来自人声的信息,并将其与文本结合以输出自然人声。但是,传统的语音克隆技术仍然存在一定的局限性。传统的语音克隆技术无法充分处理过大的文本输入,并且合成的音频很可能包括噪音以及意义不明的语句,容易发生如语音中断和产生不明确的短语等现象。在这项研究中,我们添加了一个文本处理模块到合成器模块以处理长难句。同时,传统模型对尚未识别的单词使用模糊发音,这不仅无意义也影响整个句子的表达。因此,我们通过拆分字母单独发音来解决问题。最后,我们还改进了合成器的预处理和波形转换模块。 我们更换了合成器的预处理模块,并且使用多种降噪算法结合的方式对音频进行优化处理,这也是我们的核心思路。我们结合SV2TTS框架改进了传统的语音克隆方法。根据实验结果展示,我们的方法优于传统的语音克隆技术,实现了更高质量的音频输出。