Специалисты Сбера повысили точность определения эмоций на изображениях и видеозаписях с использованием искусственного интеллекта.
На конференции по компьютерному зрению ECCV 2024 они представили свое исследование под названием «Распознавание составных эмоций лиц на видео с использованием сглаживания предсказаний эффективных многозадачных нейронных сетей».
Разработанный алгоритм способен идентифицировать смешанные эмоциональные состояния, такие как «радостное удивление» или «печальное страх», и другие. Исследователи подчеркнули, что облегчающие нейросетевые модели помогают извлекать эмоциональные характеристики, а применяемая после этого постобработка сглаживает результаты предсказаний.
Кроме того, команда отметила, что их метод сглаживания предсказаний увеличил F1-меру классификации составных эмоций на 4,5 процентных пункта.
Также исследователи представили еще одно исследование под названием «Анализ эмоций на фото и видео с использованием эффективных многозадачных нейросетевых моделей», посвященное созданию компактных моделей, способных решать несколько задач одновременно. Такие модели умеют распознавать выражения лиц, их знаки и уровень эмоциональной интенсивности, а также 12 типов лицевых движений, согласно классификации П. Экмана.
Продемонстрированные методы показывают, что эффективные и легкие модели с правильной постобработкой могут достойно соревноваться с громоздкими ансамблями сложных нейросетей. Все разработанные модели и исходный код доступны в открытой библиотеке EmotiEffLib.
Интересно отметить, что применение таких технологий может оказать значительное влияние на различные области, включая безопасность, маркетинг и психотерапию. В области безопасности, системы распознавания эмоций могут помогать в выявлении потенциальных угроз, анализируя эмоциональное состояние подозреваемых. В маркетинге компании смогут лучше понимать реакцию потребителей на свои продукты и услуги, а в психотерапии — понимать эмоциональное состояние пациентов для более целенаправленного лечения.

