
25 ноября 2025 года команда учёных из Princeton, University of Illinois и Stanford опубликовала исследование
LatentMAS , которое меняет подход к работе мультиагентных систем — когда несколько ИИ-моделей решают задачу сообща.
Как сейчас работают команды ИИ-агентовПредставьте офис, где над сложным проектом работают четыре специалиста по цепочке. Первый составляет план, второй проверяет и критикует, третий улучшает, четвёртый выполняет.
В обычных мультиагентных системах коммуникация происходит через текст. Первый агент пишет свои мысли словами (300 токенов), второй читает и пишет свой комментарий (250 токенов), третий переписывает улучшенную версию (280 токенов).
Проблема: Это как играть в испорченный телефон с техническими чертежами. Первый специалист видит сложный чертёж со всеми деталями, но передаёт следующему только словесное описание. Тот пересказывает третьему своими словами. К четвёртому приходит уже сильно упрощённая версия — и он ошибается в решении.
При этом каждый пересказ требует времени: модель должна сгенерировать тысячи токенов, проверяя на каждом шаге словарь из 100 000+ вариантов.
Что предложили исследователиУчёные из Princeton создали систему, где ИИ-агенты передают друг другу не текстовый пересказ, а полную «рабочую память» — как QR-код со всей информацией.
Как это работает: Когда языковая модель обрабатывает информацию, она создаёт внутренние представления — числовые векторы, которые содержат гораздо больше смысла, чем можно выразить словами. Это называется латентное пространство — скрытый «язык», на котором ИИ на самом деле думает.
В LatentMAS первый агент завершает размышления и сохраняет свои
KV-кеши (key-value кеши) — техническое название для полной рабочей памяти со всеми промежуточными «мыслями». Второй агент получает эти данные напрямую в свои внутренние слои.
Аналогия: Вместо того чтобы пересказывать коллеге содержание сложного чертежа, вы даёте ему QR-код — отсканировал, и вся информация передалась без потерь. Причём мгновенно.
Результаты экспериментовИсследователи протестировали систему на 9 разных типах задач: математические задачи (GSM8K), олимпиадные задачи уровня старшей школы (AIME), научные вопросы уровня PhD (GPQA-Diamond), медицинские экзамены, программирование на Python и тесты на логику.
Конкретный пример с математической задачей:Задача про пчёл в улье: "Дебра наблюдает за ульем. Сначала улетели 30 пчёл, потом вернулась половина, затем улетело вдвое больше первоначального количества. Сколько пчёл вернулось в последние 6 часов?"
Обычная текстовая система: Агенты обменялись 830 токенами текста, потратили больше времени, дали неверный ответ

LatentMAS: Агенты передали напрямую внутренние представления, использовали на 70% меньше вычислений, дали правильный ответ: 75 пчёл ✓
Общие результаты:
Точность выше на 13% по сравнению с одиночной моделью

В 4 раза быстрее обычных мультиагентных систем

На 70-84% меньше генерируемого текста — экономия вычислительных ресурсов
Самый впечатляющий результат показан на научных вопросах уровня аспирантуры (GPQA): система работала в 6.8 раз быстрее при улучшении точности на 2.1%.
Почему это работаетИсследователи доказали математически: чтобы передать через текст то же количество информации, что содержится в скрытых представлениях модели, потребуется в сотни раз больше токенов.
Для модели размером 8 миллиардов параметров разница — примерно в 377 раз. Латентные представления кодируют смысл на порядки плотнее, чем дискретные слова.
При этом метод training-free — не требует переобучения моделей. Работает с любыми современными языковыми моделями сразу после установки.
Что это значит для индустрии ИИВыводы исследователей:
Мультиагентные системы станут практичнее. Сейчас они медленные и дорогие из-за огромного количества генерируемого текста. LatentMAS делает их в 4-7 раз эффективнее — это открывает дорогу к реальному использованию команд ИИ-агентов в продакшене.
Качество коллективного решения задач растёт. Когда агенты не теряют информацию при передаче, финальный результат точнее. Особенно заметно на сложных многошаговых задачах — олимпиадная математика, научный анализ, написание сложного кода.
Новая архитектура для ИИ-систем. Следующее поколение ИИ-помощников, вероятно, будет работать именно так: специализированные модули-эксперты решают части задачи и передают друг другу полный контекст через внутренние представления, а не текст.
Учёные отмечают: при текущем темпе развития ближайшие годы станут временем резкого ускорения возможностей ИИ благодаря эффективной коллективной работе моделей.

Пока учёные экспериментируют с командами агентов, вы можете протестировать работу с разными моделями ИИ в одном месте. AI Wiz даёт доступ к 50+ моделям — GPT-4, Claude, Gemini, Grok и другим — через единый интерфейс.
Сравнивайте ответы разных моделей на одну задачу и выбирайте лучшее решение:
https://aiwiz.ru/trial
Полный текст исследования:
https://arxiv.org/abs/2511.20639#AIWiz #LatentMAS #ИИИсследования
Нет комментариев