Во время конференции AI Journey команда Sber AI рассказала, что Kandinsky Video стала первой российской моделью машинного обучения для генерации коротких видеороликов. Для её обучения использовали набор из 220 тысяч пар «текст — видео».
На первом этапе создания видео нейросеть генерирует ключевые кадры с помощью предобученной модели Kandinsky 3.0. Эти кадры задают основную сюжетную линию, но результат больше похож на слайд-шоу. Для придания плавности необходима генерация интерполяционных кадров на втором этапе.
Модель сравнивает два последовательных ключевых кадра и предсказывает набор из трёх кадров между этой парой. С помощью этого сохраняется сюжет видео и задаётся плавность движения.
Kandinsky Video может генерировать видео с разрешением 512 × 512 пикселей и продолжительностью до восьми секунд с частотой 30 кадров в секунду. Создание одного видео занимает до трёх минут. Исследователи Sber AI отмечают, что находятся на первом этапе развития технологии, поэтому пока рано говорить о высоком качестве результата.
Попробовать Kandinsky Video можно на платформе Fusion Brain и в телеграм-боте. Код и веса модели доступны в GitHub-репозитории.
Присоединяйтесь — мы покажем вам много интересного
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Нет комментариев