Рассказываем, чем они отличаются от обычных генераторов изображений.
Как работают обычные генераторы изображений
Для примера можно взять DALL-E в ChatGPT и Imagen в Gemini, которые умеют создавать картинки прямо в чате. Вот как происходит генерация:
🔸 Вы переписываетесь с языковой моделью
🔸 Когда вы просите создать изображение, она вызывает отдельную диффузионную модель (например, DALL-E или Imagen)
🔸 Диффузионная модель генерирует изображение и возвращает его в чат
🔸 Если хотите внести изменения, необходимо сформулировать новый запрос, а новая генерация будет сделана с нуля
Это как позвонить другу-писателю, который по вашей просьбе перенаправит ваш запрос другу-художнику, а затем вернёт результат.
Как работают омнимодальные нейросети
Gemini 2.0 Flash и новая версия GPT-4o — омнимодальные нейросети. Это значит, что одна и та же модель умеет понимать и создавать информацию в разных форматах — текстовом и визуальном. GPT-4o также умеет генерировать аудио — на этой возможности основан голосовой режим ChatGPT.
Изображения в омнимодальных нейросетях представляются в виде специальных токенов — так же, как модель работает с текстовыми токенами. Генерируются изображения также в виде токенов, которые затем один за другим переводятся в пиксели. Точно неизвестно, как работает генерация в Gemini 2.0 Flash, но можно заметить, что GPT-4o во время генерации создаёт изображение построчно — примерно так, как грузились картинки в интернете во времена интернета по Dial-up.
В чём преимущество?
Глубокое понимание. Поскольку это одна модель, она гораздо лучше понимает весь контекст диалога, включая предыдущие сообщения и загруженные изображения. А ещё использует свои знания о мире и способности к рассуждению при создании картинок. Например, GPT-4o умеет генерировать комиксы из нескольких кадров или инфографику даже по промту из нескольких слов — модель сама придумывает, что должно быть изображено, включая текст.
Редактирование и трансформация. Например, можно попросить модель поменять ночь на день, и она сделает это, сохраняя общую композицию и детали. За счёт того, что в основе таких моделей лежат более «умные и разносторонние» нейросети, их можно просить делать и более сложные манипуляции. К примеру, показать фото автомобиля с обведённой ручкой и попросить открыть её — модель поймёт запрос и вернёт фотографию той же машины с открытой дверью.
Итеративность. Картинку можно дорабатывать в диалоге, меняя конкретные детали и свойства, но сохраняя, например, внешний вид персонажа.
Это лучшие генераторы изображений?
Если сравнивать с ведущими генераторами изображений, такими как Reve и Recraft, GPT-4o и особенно Gemini 2.0 Flash отстают по качеству генерации, следованию деталям из промта и другим важным параметрам.
А при редактировании обе нейросети не идеально сохраняют исходные детали на всей картинке. Gemini 2.0 Flash справляется с этим лучше GPT-4o, особенно в лицах, но всё же слегка меняет даже те фрагменты, которые пользователь не просил редактировать. Это происходит потому, что во время преобразования из картинки в токены и обратно часть информации теряется.
Где попробовать эти нейросети?
Доступ к GPT-4o с нативной генерацией картинок открывается постепенно. В первую очередь его получили платные подписчики ChatGPT, но OpenAI обещает открыть доступ всем.
Gemini 2.0 Flash с возможностью генерации изображений доступна в Google AI Studio и по API.
Присоединяйтесь — мы покажем вам много интересного
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Комментарии 1