MULTIMODAL TRANSFORMERS FOR EMOTION SYNTHESIS FROM VOICE, TEXT, AND FACIAL EXPRESSIONS

Замира Тогаева; Зилола Сафарова

doi:10.37547/

Authors

Тогаева Замира Файзуллаевна Начальник отдела управления и развития человеческих ресурсов Агентства специализированных образовательных учреждений
Сафарова Зилола Олимжоновна ООО “ONE-NET”, главный специалист по делопроизводству и кадровому делу

DOI:

https://doi.org/10.37547/

Keywords:

мультимодальные трансформеры, синтез эмоций, голосовой анализ, текстовые эмбеддинги, мимические выражения, кросс-модальное внимание, аффективные вычисления, эмоциональный TTS, лицевые анимации, этические аспекты ИИ

Abstract

Мультимодальные трансформеры представляют собой передовой подход в аффективных вычислениях, позволяющий синтезировать эмоции на основе интеграции голосовых, текстовых и мимических данных. В статье рассматриваются архитектуры, основанные на механизмах само-внимания и кросс-модального слияния, для генерации coherentных эмоциональных выходов, таких как модулированная просодия речи, эмоционально окрашенный текст и анимированные лицевые выражения. Обсуждаются ключевые вызовы, включая временную асинхронность, этические аспекты и интеграцию с физиологическими сигналами. Предлагаются инновационные модели, такие как Emotion2Vec и EMO-MemoryBank, демонстрирующие высокую точность синтеза сложных эмоциональных состояний. Исследование подчеркивает переход от простого переноса стиля к генерации эмпатического поведения, открывая перспективы для HCI, VR и ментального здоровья.

Downloads

Download data is not yet available.

References

1.Vaswani, A. et al. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30.

2.Wang, Y. et al. (2024). A unified framework for multimodal cued emotional text-to-speech synthesis. arXiv preprint arXiv:2404.18398.

3.Liu, H. et al. (2025). Multimodal emotional speaking face generation using features and audio signals. Electronica, 14(13), 2684.

4.Kumar, A. et al. (2025). MMTF-DES: Synthesis of multimodal transformation models for desire, sentiment, and emotion identification. Neurocomputing, 572.

5.Yun, S. et al. (2023). Multimodal transformation with augmented fusion for speech emotion recognition. Frontiers in Neurorobotics, 17.

6.Zhang, L., et al. (2023). A Topic- and Stylistic-Aware Transformer for Multimodal Emotion Recognition. Proceedings of the Association for Computational Linguistics: ACL 2023.

7.Sharma, R. et al. (2025). A comprehensive review of multimodal emotion recognition: Methods, challenges, and future directions. International Journal of Advanced Computer Science and Applications.

8.Chen , S. et al. (2023). A Transformer-Based Cross-Modal Transformation for Multimodal Emotion Synthesis. Proceedings of the IEEE Conference on Human-Computer Interaction.

9.Patel, V. et al. (2025). Enhancing virtual assistants with multimodal AI for emotion synthesis. IEEE Transactions on Affective Computing.

10.Lee, S., et al. (2025). EmoHuman: Generating talking heads with precise emotion control. Proceedings of the ACM on graphics, 44(4).

MULTIMODAL TRANSFORMERS FOR EMOTION SYNTHESIS FROM VOICE, TEXT, AND FACIAL EXPRESSIONS

Authors

DOI:

Keywords:

Abstract

Downloads

References

Downloads

Published

Issue

Section

License

How to Cite

Similar Articles

Journals

For Authors

Contact & Info