MULTIMODAL TRANSFORMERS FOR EMOTION SYNTHESIS FROM VOICE, TEXT, AND FACIAL EXPRESSIONS
DOI:
https://doi.org/10.37547/Keywords:
мультимодальные трансформеры, синтез эмоций, голосовой анализ, текстовые эмбеддинги, мимические выражения, кросс-модальное внимание, аффективные вычисления, эмоциональный TTS, лицевые анимации, этические аспекты ИИAbstract
Мультимодальные трансформеры представляют собой передовой подход в аффективных вычислениях, позволяющий синтезировать эмоции на основе интеграции голосовых, текстовых и мимических данных. В статье рассматриваются архитектуры, основанные на механизмах само-внимания и кросс-модального слияния, для генерации coherentных эмоциональных выходов, таких как модулированная просодия речи, эмоционально окрашенный текст и анимированные лицевые выражения. Обсуждаются ключевые вызовы, включая временную асинхронность, этические аспекты и интеграцию с физиологическими сигналами. Предлагаются инновационные модели, такие как Emotion2Vec и EMO-MemoryBank, демонстрирующие высокую точность синтеза сложных эмоциональных состояний. Исследование подчеркивает переход от простого переноса стиля к генерации эмпатического поведения, открывая перспективы для HCI, VR и ментального здоровья.
Downloads
References
1.Vaswani, A. et al. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30.
2.Wang, Y. et al. (2024). A unified framework for multimodal cued emotional text-to-speech synthesis. arXiv preprint arXiv:2404.18398.
3.Liu, H. et al. (2025). Multimodal emotional speaking face generation using features and audio signals. Electronica, 14(13), 2684.
4.Kumar, A. et al. (2025). MMTF-DES: Synthesis of multimodal transformation models for desire, sentiment, and emotion identification. Neurocomputing, 572.
5.Yun, S. et al. (2023). Multimodal transformation with augmented fusion for speech emotion recognition. Frontiers in Neurorobotics, 17.
6.Zhang, L., et al. (2023). A Topic- and Stylistic-Aware Transformer for Multimodal Emotion Recognition. Proceedings of the Association for Computational Linguistics: ACL 2023.
7.Sharma, R. et al. (2025). A comprehensive review of multimodal emotion recognition: Methods, challenges, and future directions. International Journal of Advanced Computer Science and Applications.
8.Chen , S. et al. (2023). A Transformer-Based Cross-Modal Transformation for Multimodal Emotion Synthesis. Proceedings of the IEEE Conference on Human-Computer Interaction.
9.Patel, V. et al. (2025). Enhancing virtual assistants with multimodal AI for emotion synthesis. IEEE Transactions on Affective Computing.
10.Lee, S., et al. (2025). EmoHuman: Generating talking heads with precise emotion control. Proceedings of the ACM on graphics, 44(4).
