I am pointing at the country of Canada *incorrect*
Игра — результат описания и примеров, а не спонтанно рождённая активность по запросу.
Автор издания TechCrunch задаётся вопросом, почему потребовался такой стиль промптов. Gemini ошибался, поэтому для видео ему немного «помогли» длинными промптами? И вообще, распознала ли модель картинки с планетами?
Представители Google отчасти ответили на вопросы автора TechCrunch. Как указывает в твите вице-президент DeepMind по исследованиям и разработкам Ориоль Виняльс, видеоролик создан на основе взаимодействий с Gemini. Ориоль говорит, что «видео иллюстрирует то, как может выглядеть мультимодальный пользовательский опыт, построенный с Gemini». Виняльс буквально пишет: «Мы сделали его [видео], чтобы вдохновлять разработчиков».
С другой стороны, Виняльс приложил к твиту запись экрана, где показан промптинг Gemini Pro Vision короткими вопросами из видеоролика, а не более подробными из поста в блоге. Приводятся четыре вопроса из маркетингового видео: про формы кузова, солнечную систему, американские горки и утку на распутье. Gemini как распознаёт небесные тела с листочков, так и отвечает правильно на остальные вопросы.
Впрочем, как указывает один из энтузиастов в комментариях к твиту Виняльса, реальный Google Bard с длинным промптом (из поста в блоге) отвечает на вопрос про автомобили неправильно. На данный момент Bard уже работает на основе Gemini Pro, «средней» из трёх языковых моделей семейства Gemini.
В колонке на Bloomberg и у себя в микроблоге журналистка Парми Олсон приводит признания Google и перефразирует их в более понятные термины.
Как заверяет представитель Google, речь пользователя — это настоящие выдержки из промптов, использованных для получения данных из Gemini. Олсон «переводит» эту фразу и объясняет, что человек просто зачитывал промпты. Позднее, когда ей показали пост из блога Google for Developers, она согласилась, что промпты в видео вовсе были ненастоящими.
Как рассказывает Олсон, в Google отдельно сняли видео, а модель Gemini получала на входе лишь некоторые кадры из видео и текстовые промпты. Общение было не в реальном времени и не голосом.
Олсон связывает дату презентации Gemini с недавними конфликтами внутри OpenAI. Журналистка напоминает, что на их фоне Google в конце ноября пыталась переманить часть клиентов ChatGPT.
Ни видео, ни любые другие сопроводительные материалы не называют, кто выполняет манипуляции с объектами на столе. Если судить по оттенку кожи, неразвитой мускулатуре кистей и акценту речи, это может быть глава Google Сундар Пичаи. Сам он выкладывает у себя в микроблоге этот видеоролик без указания, что показанное может быть реальным не до конца.
Это уже не первый раз, когда компания Пичаи проводит демонстрацию продукта, преувеличивая размах функций и готовность к реальному использованию. В 2018 году Сундар рассказал со сцены Google I/O о голосовом ассистенте Duplex, который умеет притворяться человеком, звонить за хозяина и назначать встречи.
Нет комментариев