Новый тест ARC-AGI-2 сбивает с толку ведущие ИИ-модели 

Некоммерческий фонд Arc Prize Foundation, сооснователем которого является известный исследователь ИИ Франсуа Шолле, представил новый сложный тест на общую искусственную интеллектуальность (AGI) — ARC-AGI-2. Его цель — оценить, насколько эффективно ИИ способен решать новые задачи вне обучающего набора данных.
ИИ провалили новый тест
Согласно опубликованному рейтингу, даже самые передовые модели, включая GPT-4.5, Claude 3.7 Sonnet, Gemini 2.0 Flash и o1-pro от OpenAI, показали лишь 1–1.3% правильных ответов. Для сравнения: группы из более чем 400 человек, проходившие тест, показали средний результат в 60%.
ARC-AGI-2 состоит из визуальных головоломок с цветными блоками, где ИИ нужно распознать закономерность и сгенерировать правильный "ответный" шаблон. Главная цель — проверить способность ИИ к обобщению и адаптации, а не просто к "зазубриванию" паттернов.
Не только точность, но и эффективность
Новый тест не только сложнее, но и учитывает затраты на вычисления. Например, модель o3 от OpenAI, набравшая рекордные 75.7% на старом тесте ARC-AGI-1, справилась с ARC-AGI-2 только на 4% — и при этом потратила $200 на вычисления для каждой задачи.
Разработчики утверждают, что эффективность — ключевой показатель AGI, а не только «сырая» производительность. Поэтому новый приз Arc Prize 2025 будет вручен за достижение 85% точности на ARC-AGI-2 при стоимости выполнения задачи не выше $0.42.

Почему это важно?
Новый тест может стать золотым стандартом в оценке ИИ, особенно в эпоху, когда существующие бенчмарки уже перенасыщены. Он акцентирует внимание не только на том, что ИИ может, но и как быстро и эффективно он это делает.

Прокачайте бизнес с помощью ИИ!
Узнайте больше:
https://aihlp.ru/
Нет комментариев