Microsoft представил нейросеть VASA для генерации видео. Искусственный интеллект реалистично оживил Мону Лизу
В Microsoft показали новую нейросеть VASA, которая генерирует видео на основе картинки и аудиодорожки. Искусственный интеллект создает реалистичные цифровые портреты, которые не отличишь от настоящих, и оживляет «Мону Лизу».
Компания Microsoft представила новый фреймворк под названием VASA. Это нейросеть, которая может генерировать видео по картинке и аудиодорожке. По задумке разработчиков VASA оживляет портреты так, чтобы они смотрелись максимально реалистично и естественно.
Наша первая модель, VASA-1, способна не только воспроизводить движения губ, точно синхронизированные со звуком, но и передавать мимику и естественные движения головы, которые делают портрет подлинным и живым, — говорится в заявлении компании.
VASA создает видео в формате 512х512 со скоростью 40 кадров в секунду. Microsoft обещает, что их методика генерации роликов вскоре позволит делать цифровые аватары, которые будет сложно отличить от настоящих людей — они будут также реалистично говорить и двигаться. Пока VASA недоступна для общего пользования, но можно посмотреть примеры.
Модели моргают, совершают едва заметные, но свойственные живому человеку движения мимики, смотрят по сторонам. Зрители отмечают, что аватары в самом деле выглядят очень реалистично.
Пользователь VASA может управлять ракурсом, наклоном и поворотом головы, приближать и удалять портрет.
VASA генерирует видео и по художественным изображениям. Особое внимание зрителей привлёк оживленный портрет Моны Лизы кисти Леонардо Да Винчи.
Microsoft предупреждает, что все изображения, кроме Моны Лизы, были сгенерированы с помощью tyleGAN2 и DALL-E-3. Также компания отметила, что VASA не должна быть использована для нанесения вреда кому-либо.