Модели искусственного интеллекта (ИИ) добились огромных успехов в создании визуального контента, однако создание видео остается сложным и ресурсоемким процессом. Самые продвинутые модели часто требуют сотен шагов для создания качественного видео. Столкнувшись с этой проблемой, исследователи OpenAI Ченг Лу и Янг Сонг разработали революционную модель когерентности в непрерывном времени (sCM), способную создавать видео в пятьдесят раз быстрее, чем существующие модели. Их работа может проложить путь к созданию приложений генеративного ИИ в реальном времени — прорыв с многообещающими последствиями для будущего СМИ.
Диффузионные модели: основа генеративного ИИ
Чтобы понять это нововведение, полезно кратко рассмотреть, что такое диффузионная модель — один из наиболее часто используемых типов моделей в генеративном искусственном интеллекте. Эти модели, иногда называемые генеративными моделями на основе оценок, работают в три основных этапа: прямой процесс, обратный процесс и этап выборки. Модель учится генерировать визуальный контент, тренируясь на больших объемах данных, которые она анализирует и декомпозирует, чтобы воссоздать новое, последовательное и реалистичное творение.
Однако в типичной модели передачи данных процесс выборки происходит медленно, поскольку требует корректировки каждой детали генерируемого контента. Это требует сотен итераций и значительных вычислительных мощностей, поэтому в системах ИИ часто наблюдаются задержки. Этот процесс еще более сложен для видео, где последовательность от одного изображения к другому является залогом плавного рендеринга.
Революционная модель, позволяющая сократить количество этапов до двух
Главный прорыв, которого добились инженеры OpenAI, заключается в том, что им удалось свести процесс визуализации всего к двум этапам - упрощение, которое кардинально меняет скорость генерации. В то время как другим моделям требуется несколько секунд и более для создания качественного видео, модель sCM Лу и Сонга достигает этой производительности за доли секунды. Сохранив только два основных этапа, модель сохраняет качество генерируемого контента, но при этом значительно ускоряет процесс, что снижает сложность и потребность в вычислительной мощности.
Для достижения такой скорости модель sCM использует более 1,5 миллиарда параметров, которые позволяют системе анализировать и создавать видео с невероятной точностью. Более того, она может работать на стандартном промышленном оборудовании, таком как графический процессор A100, что делает ее гораздо более доступной, чем модели, требующие специализированного и дорогостоящего оборудования.
Последствия и потенциальные применения модели OpenAi
Модель OpenAI sCM открывает двери для генеративных приложений в реальном времени — области, в которой…
Подробнее https://7ooo.ru/group/2024/10/28/201-openai-obeschaet-proryv-v-sozdanii-video-s-pomoschyu-iskusstvennogo-intellekta-grss-351073311.html
Присоединяйтесь — мы покажем вам много интересного
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Нет комментариев