aihlp | Автоматизация бизнеса с ИИ

Новый тест ARC-AGI-2 сбивает с толку ведущие ИИ-модели 🧠💥 Некоммерческий фонд Arc Prize Foundation, сооснователем которого является известный исследователь ИИ Франсуа Шолле, представил новый сложный тест на общую искусственную интеллектуальность (AGI) — ARC-AGI-2. Его цель — оценить, насколько эффективно ИИ способен решать новые задачи вне обучающего набора данных. ИИ провалили новый тест Согласно опубликованному рейтингу, даже самые передовые модели, включая GPT-4.5, Claude 3.7 Sonnet, Gemini 2.0 Flash и o1-pro от OpenAI, показали лишь 1–1.3% правильных ответов. Для сравнения: группы из более чем 400 человек, проходившие тест, показали средний результат в 60%. ARC-AGI-2 состоит из визуальных головоломок с цветными блоками, где ИИ нужно распознать закономерность и сгенерировать правильный "ответный" шаблон. Главная цель — проверить способность ИИ к обобщению и адаптации, а не просто к "зазубриванию" паттернов. Не только точность, но и эффективность Новый тест не только сложнее, но и учитывает затраты на вычисления. Например, модель o3 от OpenAI, набравшая рекордные 75.7% на старом тесте ARC-AGI-1, справилась с ARC-AGI-2 только на 4% — и при этом потратила $200 на вычисления для каждой задачи. Разработчики утверждают, что эффективность — ключевой показатель AGI, а не только «сырая» производительность. Поэтому новый приз Arc Prize 2025 будет вручен за достижение 85% точности на ARC-AGI-2 при стоимости выполнения задачи не выше $0.42. 📌 Почему это важно? Новый тест может стать золотым стандартом в оценке ИИ, особенно в эпоху, когда существующие бенчмарки уже перенасыщены. Он акцентирует внимание не только на том, что ИИ может, но и как быстро и эффективно он это делает. 🚀 Прокачайте бизнес с помощью ИИ! Узнайте больше: https://aihlp.ru/ #AGI #ARCAGI2 #ИскусственныйИнтеллект #ИИ #AIBenchmark #OpenAI #DeepSeek #Claude #Gemini #TechNews #AI2025 #Инновации