
В апреле 2025 года вышли две модели новой линейки Llama 4 — Scout и Maverick. Их главная фишка: огромная база знаний при минимальных вычислительных затратах. Разбираемся, как это возможно.
MoE-архитектура: команда экспертов вместо одного универсалаПредставьте библиотеку, где работает один библиотекарь-энциклопедист. Он знает всё, но на каждый запрос тратит массу времени, перебирая весь свой багаж знаний.
Теперь представьте команду из 16-128 узких специалистов: один эксперт по истории, другой по физике, третий по программированию. Когда приходит вопрос, активируются только 2-3 нужных специалиста, остальные отдыхают.
Это и есть Mixture-of-Experts (MoE) — архитектура, где модель состоит из десятков "экспертов" (отдельных нейросетей), но для ответа на каждый вопрос включается лишь небольшая часть из них.
Результат: Модель с 400 миллиардами параметров работает так же быстро, как модель на 17 миллиардов, потому что активна только малая часть.
Экономия вычислений в 20+ раз при сохранении качества.
Llama 4 Scout — разведчик для больших данных
Параметры: 109 млрд общих, 17 млрд активных, 16 экспертов

Суперсила: Контекстное окно до 10 миллионов токенов — это примерно 15 больших книг или вся кодовая база среднего стартапа одновременно.
Для чего:
Анализ огромных документов (юридические архивы, медицинские исследования)

RAG-системы, где нужно искать информацию в тысячах файлов

Корпоративные чат-боты, которые должны "помнить" всю переписку

Суммаризация длинных текстов

Производительность: Сопоставима с GPT-4o-mini, но работает быстрее на задачах с длинным контекстом.
Llama 4 Maverick — индивидуалист для сложных задач
Параметры: 400 млрд общих, 17 млрд активных, 128 экспертов

Суперсила: Огромная база знаний (400B) при скорости работы небольшой модели. 128 экспертов означают экстремально узкую специализацию — для каждой темы свой эксперт.
Для чего:
Сложное программирование (архитектура систем, оптимизация алгоритмов)

Научные рассуждения и математика

Мультимодальный анализ (текст + изображения)

Креативные задачи, требующие глубоких знаний
Бенчмарки:
MMLU-Pro: ~80.5% (опережает многие закрытые модели)

Превосходит GPT-4o и Gemini 2.0 Flash в задачах программирования

Мультимодальное понимание (MMMU): 73.4%
Главное преимущество обеих моделейБлагодаря MoE-архитектуре они работают на одной видеокарте уровня H100, хотя обычно модели такого размера требуют целых кластеров. Scout с его 10 млн токенов контекста и Maverick с 400 млрд параметров запускаются на том же железе, что и стандартные 17B-модели.
Это делает мощный ИИ доступным для бизнеса без инвестиций в суперкомпьютеры.
Обе модели уже доступны в AI Wiz — сравните Scout для работы с большими документами и Maverick для сложного кодинга:
https://aiwiz.ru/trial#AIWiz #Llama4 #MoE
Нет комментариев