Preview

Russian Technological Journal

Расширенный поиск

Метод конвертации акцента с клонированием голоса в реальном времени на основе неавторегрессионной нейросетевой модели

https://doi.org/10.32362/2500-316X-2025-13-3-7-20

EDN: PVYBDD

Аннотация

Цели. В настоящее время при разработке моделей для преобразования речи с акцентом в речь без акцента используются архитектуры глубоких нейросетей, а также ансамбли предобученных нейросетей для распознавания и генерации речи. При этом доступ к реализациям таких моделей является ограниченным, что затрудняет их применение, изучение и дальнейшее развитие. Также использование данных моделей ограничено особенностями архитектуры, которая не позволяет гибко менять тембр генерируемой речи и требует накопления контекста, что ведет к увеличению задержки при генерации и делает данные системы непригодными для использования в сценариях коммуникации двух и более людей в реальном времени. В связи с этим актуальной задачей и целью настоящей работы является разработка метода, позволяющего на основе входной речи с акцентом генерировать речь без акцента с минимальными задержками с возможностью сохранения, клонирования и модификации тембра говорящего, что позволит преодолеть ограничения текущих моделей.
Методы. Применены методы модификации, обучения и объединения глубоких нейросетей в единую сквозную архитектуру для прямого преобразования речи в речь. Для обучения использованы оригинальные и модифицированные наборы данных из открытых источников.
Результаты. Разработан метод конвертации акцента с клонированием голоса в реальном времени на основе неавторегрессионной нейросетевой модели, которая состоит из модулей определения акцента и пола, идентификации говорящего, преобразования речи в фонетическое представление, генерации спектрограммы и декодирования полученной спектрограммы в аудиосигнал. Метод демонстрирует высокое качество конвертации акцента с сохранением оригинального тембра, а также низкие задержки при генерации, приемлемые для использования в сценариях реального времени.
Выводы. Апробация разработанного метода подтвердила эффективность предложенной неавторегрессионной нейросетевой архитектуры. Разработанная прикладная нейросетевая модель продемонстрировала возможность работы в информационных системах на английском языке в режиме реального времени.

Об авторах

В. А. Нечаев
ФГБОУ ВО «Ивановский государственный энергетический университет имени В.И. Ленина»
Россия

Нечаев Владимир Алексеевич, преподаватель-исследователь
153003, Россия, Иваново, ул. Рабфаковская, д. 34


Конфликт интересов:

Авторы заявляют об отсутствии конфликта интересов.



С. В. Косяков
ФГБОУ ВО «Ивановский государственный энергетический университет имени В.И. Ленина»
Россия

Косяков Сергей Витальевич, д.т.н., профессор, заведующий кафедрой программного обеспечения компьютерных систем 
153003, Россия, Иваново, ул. Рабфаковская, д. 34
Scopus Author ID 6507182528
Researcher ID H-5686-2018


Конфликт интересов:

Авторы заявляют об отсутствии конфликта интересов.



Список литературы

1. McMillin D.C. Outsourcing identities: Call centres and cultural transformation in India. Economic and Political Weekly. 2006;41(3):235–241.

2. Felps D., Bortfeld H., Gutierrez-Osuna R. Foreign accent conversion in computer assisted pronunciation training. Speech Communication. 2009;51(10):920–932. https://doi.org/10.1016/j.specom.2008.11.004

3. Probst K., Ke Y., Eskenazi M. Enhancing foreign language tutors–In search of the golden speaker. Speech Communication. 2002;37(3–4):161–173. https://doi.org/10.1016/S0167-6393(01)00009-7

4. Türk O., Arslan L. M. Subband based voice conversion. In: 7th International Conference on Spoken Language Processing, ICSLP2002 – INTERSPEECH 2002. Interspeech. 2002. P. 289–292.

5. Biadsy F., Weis, R.J., Moreno P.J., Kanevsky D., Jia Y. Parrotron: An end-to-end speech-to-speech conversion model and its applications to hearing-impaired speech and speech separation. Interspeech. 2019. P. 4115–4119. http://doi.org/10.21437/Interspeech.2019-1789

6. Birner B. Why Do Some People Have an Accent? Linguistic Society of America. Washington, DC. 1999. 6 p.

7. Baese-Berk M.M., Morrill T.H. Speaking rate consistency in native and non-native speakers of English. J. Acoust. Soc. Am. 2015;138(3):EL223–EL228. https://doi.org/10.1121/1.4929622

8. Piske T., MacKay I.R.A., Flege J.E. Factors affecting degree of foreign accent in an L2: A review. J. Phonetics. 2001;29(2): 191–215. https://doi.org/10.1006/jpho.2001.0134

9. Munro M.J., Derwing T.M. Foreign accent, comprehensibility, and intelligibility in the speech of second language learners. Language Learning. 1995;45(1):73–97. https://doi.org/10.1111/j.1467-1770.1995.tb00963.x

10. Lev-Ari S., Keysar B. Why don’t we believe non-native speakers? The influence of accent on credibility. J. Exp. Soc. Psychol. 2010;46(6):1093–1096. https://doi.org/10.1016/j.jesp.2010.05.025

11. Rubin D.L., Smith K.A. Effects of accent, ethnicity, and lecture topic on undergraduates’ perceptions of nonnative Englishspeaking teaching assistants. Int. J. Intercult. Relat. 1990;14(3):337–353. https://doi.org/10.1016/0147-1767(90)90019-S

12. Nelson Jr. L.R., Signorella M.L., Botti K.G. Accent, gender, and perceived competence. Hispanic J. Behavior. Sci. 2016;38(2):166–185. https://doi.org/10.1177/0739986316632319

13. Zhao G., Gutierrez-Osuna R. Using phonetic posteriorgram based frame pairing for segmental accent conversion. In: IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2019;27(10):1649–1660. https://doi.org/10.1109/TASLP.2019.2926754

14. Zhao G., Sonsaat S., Levis J., Chukharev-Hudilainen E., Gutierrez-Osuna R. Accent conversion using phonetic posteriorgrams. In: 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE; 2018. P. 5314–5318. https://doi.org/10.1109/ICASSP.2018.8462258

15. Aryal S., Gutierrez-Osuna R. Can voice conversion be used to reduce non-native accents? In: 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE; 2014. P. 7879–7883. https://doi.org/10.1109/ICASSP.2014.6855134

16. Ding S., Zhao G., Gutierrez-Osuna R. Accentron: Foreign accent conversion to arbitrary non-native speakers using zero-shot learning. Computer Speech & Language. 2022;72:101302. https://doi.org/10.1016/j.csl.2021.101302

17. Quamer W., Das A., Levis J., Chukharev-Hudilainen E., Gutierrez-Osuna R. Zero-shot foreign accent conversion without a native reference. Proc. Interspeech. 2022. http://doi.org/10.21437/Interspeech.2022-10664

18. Jin M., Serai P., Wu J., Tjandra A., Manohar V., He Q. Voice-preserving zero-shot multiple accent conversion. In: ICASSP 2023–2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE; 2023. P. 1–5. https://doi.org/10.1109/ICASSP49357.2023.10094737

19. Zhou Y., Wu Z., Zhang M., Tian X., Li H. TTS-guided training for accent conversion without parallel data. IEEE Signal Proc. Lett. 2023;30:533–537. https://doi.org/10.1109/lsp.2023.3270079

20. Zhao G., Ding S., Gutierrez-Osuna R. Converting foreign accent speech without a reference. In: IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2021;29:2367–2381. https://doi.org/10.1109/TASLP.2021.3060813

21. Liu S., Wang D., Cao Y., Sun L., Wu X., Kang S., Wu Z., Liu X., Su D., Yu D., Meng H. End-to-end accent conversion without using native utterances. In: ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE; 2020. P. 6289–6293.

22. Zhou X., Zhang M., Zhou Y., Wu Z., Li H. Accented text-to-speech synthesis with limited data. In: IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2024;32:1699–1711. https://doi.org/10.1109/TASLP.2024.3363414

23. Pinget A.F., Bosker H.R., Quené H., De Jong, N.H. Native speakers’ perceptions of fluency and accent in L2 speech. Language Testing. 2014;31(3):349–365. https://doi.org/10.1177/0265532214526177

24. Бархударова Е.Л. Методологические проблемы анализа иностранного акцента в русской речи. Вестник Московского университета. Серия 9. Филология. 2012;6:57–70. [Barkhudarova E.L. Methodological Problems in Analyzing Foreign Accents in Russian Speech. Vestnik Moskovskogo universiteta. Seriya 9. Filologiya = Lomonosov Philology J. 2012;6:57–70 (in Russ.).]

25. Arik S., Chen J., Peng K., Ping W., Zhou Y. Neural voice cloning with a few samples. Advances in Neural Information Processing Systems (NeurIPS 2018). 2018;31.

26. Cohen D. Issues in transnet packetized voice communication. In: Proceedings of the fifth Symposium on Data Communications (SIGCOMM’77). 1977. P. 6.10–6.13. https://doi.org/10.1145/800103.803349

27. Liang Y.J., Farber N., Girod B. Adaptive playout scheduling and loss concealment for voice communication over IP networks. IEEE Trans. Multimedia. 2003;5(4):532–543. https://doi.org/10.1109/TMM.2003.819095

28. Matzinger T., Pleyer M., Żywiczyński P. Pause Length and Differences in Cognitive State Attribution in Native and Non-Native Speakers. Languages. 2023;8(1):26. http://doi.org/10.3390/languages8010026

29. Medsker L.R., Jain L. (Eds.). Recurrent Neural Networks. Design and Applications. Boca Raton: CRC Press; 2001. 416 p.

30. Li J., Lavrukhin V., Ginsburg B., Leary R., Kuchaiev O., Cohen J.M., Nguyen H., Gadde R.T. Jasper: An End-to-End Convolutional Neural Acoustic Model. Interspeech 2019. 2019. https://doi.org/10.21437/interspeech.2019-1819

31. Dawalatabad N., Ravanelli M., Grondin F., Thienpondt J., Desplanques B., Na H. ECAPA-TDNN Embeddings for Speaker Diarization. arXiv preprint arXiv:2104.01466. 2021. https://doi.org/10.48550/arXiv.2104.01466

32. Ravanelli M., Bengio Y. Speaker recognition from raw waveform with SincNet. In: 2018 IEEE Spoken Language Technology Workshop (SLT). IEEE; 2018. P. 1021–1028. https://doi.org/10.1109/SLT.2018.8639585

33. Snyder D., Garcia-Romero D., Sell G., Povey D., Khudanpur S. X-vectors: Robust DNN embeddings for speaker recognition. In: 2018 IEEE international Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE; 2018. P. 5329–5333. http://doi.org/10.1109/ICASSP.2018.8461375

34. Deng J., Guo J., Xue N., Zafeiriou S. Arcface: Additive angular margin loss for deep face recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE; 2019. P. 4690–4699. https://doi.org/10.1109/CVPR.2019.00482

35. Gulati A., Qin J., Chiu C., Parmar N., Zhang Y., Yu J., Han W., Wang S., Zhang Z., Wu Y., Pang R. Conformer: Convolutionaugmented trans-former for speech recognition. Proc. Interspeech 2020. 2020. P. 5036–5040. https://doi.org/10.21437/interspeech.2020-3015

36. Glorot X., Bengio Y. Understanding the difficulty of training deep feedforward neural networks. In: Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics. Proceedings of Machine Learning Research. 2010. P. 249–256. URL: http://proceedings.mlr.press/v9/glorot10a.html

37. Gu J., Wang Z., Kuen J., Ma L., Shahroudy A., Shuai B., Liu T., Wang X., Wang G., Cai J., Chen T. Recent advances in convolutional neural networks. Pattern Recognition. 2018;77:354–377. https://doi.org/10.1016/j.patcog.2017.10.013

38. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A.N., Kaiser Ł., Polosukhin I. Attention is all you need. Advances in Neural Information Processing Systems. 2017;30:5999–6009. https://doi.org/10.48550/arXiv.1706.03762

39. Ren Y., Ruan Y., Tan X., Qin T., Zhao S., Zhao Z., Liu T.Y. FastSpeech: Fast, robust and controllable text to speech. Advances in Neural Information Processing Systems. 2019;32. https://doi.org/10.48550/arXiv.1905.09263

40. Graves A., Fernández S., Gomez F., Schmidhuber J. Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. In: Proceedings of the 23rd International Conference on Machine Learning. 2006. P. 369–376. https://doi.org/10.1145/1143844.1143891

41. Ghahremani P., BabaAli B., Povey D., Riedhammer K., Trmal J., Khudanpur S. A pitch extraction algorithm tuned for automatic speech recognition. In: 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE; 2014. P. 2494–2498. http://doi.org/10.1109/ICASSP.2014.6854049

42. Gerhard D. Pitch Extraction and Fundamental Frequency: History and Current Techniques. Masters Thesis. Regina, SK, Canada: Department of Computer Science, University of Regina; 2003. 23 p.

43. Łańcucki A. Fastpitch: Parallel text-to-speech with pitch prediction. In: ICASSP 2021–2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE; 2021. P. 6588–6592. https://doi.org/10.1109/ICASSP39728.2021.9413889

44. Kong J., Kim J., Bae J. HiFi-GAN: Generative adversarial networks for efficient and high fidelity speech synthesis. Advances in Neural Information Processing Systems. 2020;33:17022–17033. http://doi.org/10.48550/arXiv.2010.05646

45. Kominek J., Black A.W. The CMU Arctic speech databases. In: Fifth ISCA Workshop on Speech Synthesis. 2004. P. 223–224.

46. Zhao G., Sonsaat S., Silpachai A., Lucic I., Chukharev-Hudilainen E., Levis J., Gutierrez-Osuna R. L2-ARCTIC: A Nonnative English Speech Corpus. Interspeech 2018. 2018. P. 2783–2787. http://doi.org/10.21437/Interspeech.2018-1110

47. Weinberger S.H., Kunath S.A. The Speech Accent Archive: towards a typology of English accents. In: Corpus-based Studies in Language Use, Language Learning, and Language Documentation. Brill; 2011. P. 265–281. https://doi.org/10.1163/9789401206884_014

48. Ardila R., Branson M., Davis K., Kohler M., Meyer J., Henretty M., Henretty M., Morais R., Saunders L., Tyers F., Weber G. Common Voice: A Massively-Multilingual Speech Corpus. In: Proceedings of the Twelfth Language Resources and Evaluation Conference. 2020. P. 4218–4222. https://doi.org/10.48550/arXiv.1912.06670

49. Nagrani A., Chung J.S., Zisserman A. Voxceleb: a large-scale speaker identification dataset. Interspeech 2017. 2017. http://doi.org/10.21437/Interspeech.2017-950

50. Chung J., Nagrani A., Zisserman A. VoxCeleb2: Deep speaker recognition. Interspeech 2018. 2018. http://doi.org/10.21437/Interspeech.2018-1929

51. Panayotov V., Chen G., Povey D., Khudanpur S. Librispeech: an ASR corpus based on public domain audio books. In: 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE; 2015. P. 5206–5210. http://doi.org/10.1109/ICASSP.2015.7178964

52. Veaux C., Yamagishi J., MacDonald K. CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit. University of Edinburgh. The Center for Speech Technology Research (CSTR). 2017. https://doi.org/10.7488/ds/2645

53. Chen G., Chai S., Wang G., Du J., Zhang W., Weng C., Su D., Povey D., TrmalJ., Zhang J., Jin M., Khudanpur S., Watanabe S., Zhao S., Zou W., Li X., Yao X., Wang Y., Wang Y., You Z., Yan Z. GigaSpeech: An evolving, multi-domain ASR corpus with 10,000 hours of transcribed audio. In: 22nd Annual Conference of the International Speech Communication Association, Interspeech 2021. International Speech Communication Association; 2021. P. 4376–4380. https://doi.org/10.21437/Interspeech.2021-1965

54. Bakhturina E., Zhang Y., Ginsburg B. Shallow Fusion of Weighted Finite-State Transducer and Language Model for Text Normalization. Proc. Interspeech 2022. 2022. http://doi.org/10.48550/arXiv.2203.15917

55. Kudo T., Richardson J. SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing. In: Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 2018. P. 66–71. https://doi.org/10.48550/arXiv.1808.06226

56. Koizumi Y., Zen H., Karita S., Ding Y., Yatabe K., Morioka N., Bacchiani M., Zhang Y., Han W., Bapna A. Libritts-r: A Restored Multi-Speaker Text-to-Speech Corpus. arXiv preprint arXiv:2305.18802. 2023. https://doi.org/10.48550/arXiv.2305.18802

57. Paszke A., Gross S., Massa F., Lerer A., Bradbury J., Chanan G., Killeen T., Lin Z., Gimelshein N., Antiga L., Desmaison A., Kopf A., Yang E., DeVito Z., Raison M., Tejani A., Chilamkurthy S., SteinerB., Fang L., Bai J., Chintala S. PyTorch: An imperative style, high-performance deep learning library. Advances in Neural Information Processing Systems. 2019;32:8024–8035.

58. Kuchaiev O., Li J., Nguyen H., Hrinchuk O., Leary R., Ginsburg B., Kriman S., Beliaev S., Lavrukhin V., Cook J., Castonguay P., Popova M., Huang J., Cohen J. Nemo: a toolkit for building ai applications using neural modules. arXiv preprint arXiv:1909.09577. 2019. https://doi.org/10.48550/arXiv.1909.09577

59. Bredin H., Yin R., Coria J.M., Gelly G., Korshunov P., Lavechin M., Fustes D., Titeux H., Bouaziz W., Gill M.P. Pyannote. Audio: neural building blocks for speaker diarization. In: ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE; 2020. P. 7124–7128. https://doi.org/10.1109/ICASSP40776.2020.9052974

60. Olatunji T., Afonja T., Yadavalli A., Emezue C.C., Singh S., Dossou B.F., Osuchukwu J., Osei S., Tonja A.L., Etori N., Mbataku C. AfriSpeech-200: Pan-African Accented Speech Dataset for Clinical and General Domain ASR. Transactions of the Association for Computational Linguistics. 2023;11:1669–1685. https://doi.org/10.1162/tacl_a_00627

61. Majumdar S., Balam J., Hrinchuk O., Lavrukhin V., Noroozi V., Ginsburg B. Citrinet: Closing the gap between nonautoregressive and autoregressive end-to-end models for automatic speech recognition. arXiv preprint arXiv:2104.01721.2021. http://doi.org/10.48550/arXiv.2104.01721

62. Radford A., Kim J.W., Xu T., Brockman G., McLeavey C., Sutskever I. Robust speech recognition via large-scale weak supervision. In: Proceedings of the 40th International Conference on Machine Learning. PMLR 202. 2023. P. 28492–28518. http://doi.org/10.48550/arXiv.2212.04356


Дополнительные файлы

1. Схема упрощенной модели конвертации акцента
Тема
Тип Исследовательские инструменты
Посмотреть (81KB)    
Метаданные ▾
  • Разработан метод конвертации акцента с клонированием голоса в реальном времени на основе неавторегрессионной нейросетевой модели, которая состоит из модулей определения акцента и пола, идентификации говорящего, преобразования речи в фонетическое представление, генерации спектрограммы и декодирования полученной спектрограммы в аудиосигнал.
  • Метод демонстрирует высокое качество конвертации акцента с сохранением оригинального тембра, а также низкие задержки при генерации, приемлемые для использования в сценариях реального времени.

Рецензия

Для цитирования:


Нечаев В.А., Косяков С.В. Метод конвертации акцента с клонированием голоса в реальном времени на основе неавторегрессионной нейросетевой модели. Russian Technological Journal. 2025;13(3):7-20. https://doi.org/10.32362/2500-316X-2025-13-3-7-20. EDN: PVYBDD

For citation:


Nechaev V.A., Kosyakov S.V. Accent conversion method with real-time voice cloning based on a nonautoregressive neural network model. Russian Technological Journal. 2025;13(3):7-20. https://doi.org/10.32362/2500-316X-2025-13-3-7-20. EDN: PVYBDD

Просмотров: 243


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2782-3210 (Print)
ISSN 2500-316X (Online)