Новый тест «CritPt», разработанный коллаборацией из 50+ физиков, дал однозначный ответ: пока нет. Задачи, включающие 71 уникальную и ранее не публиковавшуюся проблему из 11 передовых областей физики, оказались неподъемными для самых продвинутых языковых моделей.
🤖 Gemini 3 Pro Preview справился лишь с 9,1% запросов, а GPT-5.1 — с 4,9%. При этом при требовании устойчивого решения (4-5 раз из 5), производительность моделей обвалилась практически до нуля.
Это вскрыло ключевую проблему: ИИ не просто ошибается — он непредсказуемо «галлюцинирует», выдавая убедительные, но неверные ответы. Пока что нейросети могут быть только ассистентами, но никак не самостоятельными исследователями.


Присоединяйтесь — мы покажем вам много интересного
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Нет комментариев