Фильтр
Ловушка Гудхарта проявилась там, где её давно ждали
Anthropic показал в эксперименте, как исследовательские агенты начинают оптимизировать не цель, а метрику Новый проект Anthropic о масштабируемом надзоре (scalable oversight) – то есть о том, как контролировать ИИ, когда он станет умнее нас, – интересен не только тем, что модели уже начинают автоматизировать исследования выравнивания ИИ с человеческими целями. Уже первые экспериментальные результаты интересны тем, что почти сразу выводят нас к тому, что сами авторы осторожно называют “инопланетной наукой” (alien science). Но главный результат там даже не в этом. Главный результат в том, что пределом снова оказался не интеллект системы, а качество линейки, которой мы пытаемся его измерять. Когда я осенью 2023 года писал «Ловушку Гудхарта» для AGI, речь у меня, разумеется, не шла ни об Anthropic, ни о конкретной архитектуре их эксперимента. Я не “предсказал” этот отчет. Но, полагаю, схватил его главный нерв задолго до нынешней фазы, когда моделям уже начинают приписывать исследовательску
Ловушка Гудхарта проявилась там, где её давно ждали
Показать еще
  • Класс
Бюрократия страшнее военного ИИ
Страшна не бездушная сверхмашина, которая сама, без человека, решает, кого убить – холодно, мгновенно и без сантиментов. Куда страшнее может оказаться вещь гораздо более человеческая и нам привычная: организационная тупость, бюрократическая инерция и рутинная слепота больших систем принятия решений. Проф. Джон Линдсей, один из самых известных специалистов по кибербезопасности и ИИ в военных операциях, напомнил историю, от которой и сегодня мороз по коже. В ходе войны в Косово в 1999 году бомбы, наводимые со спутника и выпущенные с бомбардировщика B-2, попали в посольство Китая в Белграде. Не потому, что система наведения или бомбы “сошли с ума”. И не потому, что кто-то хотел войны с Китаем. А потому, что в базе данных цель жила как Belgrade Warehouse 1 – то есть как совсем другой объект. Ошибка прошла проверки. Была подтверждена. Упакована в слайды. Доложена наверх. И точно реализована . Прошло 27 лет. В разгаре «эпоха ChatGPT». Вовсю идут разговоры о Maven, Palantir, ИИ-поддержке целе
Бюрократия страшнее военного ИИ
Показать еще
  • Класс
ИКЖИ реальны
Дэвид Чалмерс доказал это, решая совсем другую задачу Год назад, представляя читателям лонгрид «Невидимое вторжение», я написал: «Возможно, он станет самым важным текстом из написанных мною в канале. А может, это мне лишь кажется». Теперь я склоняюсь к первому. На прошлой неделе Дэвид Чалмерс — тот самый, придумавший «трудную проблему сознания» — опубликовал расширенное издание своей фундаментальной работы «С кем мы говорим, когда говорим с языковыми моделями» (What We Talk to When We Talk to Language Models). Добавленный раздел «Собеседники как персонажи, личности или симулякры» (Interlocutors as characters, personas, or simulacra) посвящён вопросу: когда языковая модель «играет роль» Помощника — она притворяется или становится им? Ответ Чалмерса: становится. Он называет это «реализацией» (realization) в противовес «притворству» (pretense). Если модель прошла через тонкую настройку и RLHF (обучение с подкреплением на основе отзывов людей) — она не симулирует цели, она их реально имеет
ИКЖИ реальны
Показать еще
  • Класс
Американцы спрятали проект сверхоружия в неприступный сейф. Но не заметили, что схема уже у противника
Дженсен Хуанг сказал вслух то, о чём в Вашингтоне предпочитают молчать Вы изобрели оружие невиданной разрушительной силы и немедленно спрятали его в самый неприступный сейф. Выдохнули – мир в безопасности. Но пока вы запирали замок, ваш стратегический противник – с теми же руками, теми же мозгами и теми же инструментами – уже срисовывал чертёж вашего оружия. И успел-таки срисовать. Примерно так выглядит история с Claude Mythos – если верить Дженсену Хуангу. Неудобный свидетель Пока весь мир обсуждал, насколько опасен Claude Mythos – первая ИИ-модель, способная самостоятельно провести 32-шаговую сетевую атаку от разведки до полного захвата системы, – Anthropicограничила к нему доступ. Минфин США срочно вызвал гендиректоров крупнейших банков. МВФ предупредил: мировая финансовая система не готова к атакам, управляемым ИИ. Картина складывалась понятная: опасное оружие заперто в сейфе. Американцы успели первыми – и это главное. А вчера Дженсен Хуанг дал интервью Дваркешу Пателю. Тот спросил
Американцы спрятали проект сверхоружия в неприступный сейф. Но не заметили, что схема уже у противника
Показать еще
  • Класс
Когда ИИ стал средой
7-й выпуск альманаха "Линзы будущего" ▶️ Озвучка альманаха ▶️ Видеоролик альманаха ▶️ Обсуждение альманаха «Переход от человеческого надзора к интеграции ИИ часто подается как чудо эффективности, но под поверхностью роста продуктивности скрывается более тихая и более системная трансформация. Это не внезапный захват со стороны вышедшего из-под контроля сверхразума. Это потенциальное вынесение когнитивных функций вовне, ведущее к постепенному выхолащиванию человеческой субъектности.» – Колин Льюис “Рационально-оптимистический взгляд на то, как не допустить распада человеческой агентности” «Этот сдвиг изменит то, как устроена работа организаций, как создается знание и как люди находят смыслы и возможности». – из программного документа OpenAI по вопросам политики В корпусе текстов канала «Малоизвестное интересное» март 2026 предстает месяцем, в котором скорость анализа, рекомендаций, адаптаций, принятия решений и когнитивных циклов перестала быть просто преимуществом и стала условием во
Когда ИИ стал средой
Показать еще
  • Класс
Теологи тысячелетиями спорили о природе рая – и никак не могли это проверить
Эйнштейн XXI века Альберт-Ласло Барабаши сумел проверить это. Случайно Альберт-Ласло Барабаши (один из самых цитируемых учёных в теории сложных систем, решил смоделировать поведение людей в Метавселенной – пространстве, где сняты все четыре типа ограничений нашего мира: нет расстояний, нет необходимости причины для действия, нет усталости тела и даже нет требований оплаты сколь угодно дальних путешествий [1]. Философски это в точности совпадает с конструктом рая. Не богословским, а именно философским, в духе мысленных экспериментов Декарта или ставок Паскаля. Если попробовать описать бестелесное существование в раю языком физики — то есть как предельный случай пространства, свободного от физических ограничений — получится неожиданно точное описание Метавселенной. Это пространство без расстояний, без усталости, где любая «телепортация» нематериальных душ стоит ровно ноль. Результат моделирования оказался, на первый взгляд, одновременно смешным и тревожным. Но если подумать – величествен
Теологи тысячелетиями спорили о природе рая – и никак не могли это проверить
Показать еще
  • Класс
Сегодня изменился не только рынок ИИ, но и карта возможного будущего
Компания Anthropic объявила о новой стратегической реальности 🎦 Видео-ролик об этом событии То, что вчера выглядело как тревожный намёк, сегодня оформилось в почти официальное объявление новой эпохи. Две недели назад я писал о «вскрытом шахе Anthropic» – о странной синхронности судебной победы компании и утечки файлов о Mythos. Тогда это ещё можно было трактовать как эффектную смесь слухов, совпадений и корпоративной войны. Теперь такой роскоши у нас больше нет. Anthropicутверждает уже не просто: «у нас очень сильная модель». Заявление куда жёстче. По словам компании: Mythos Preview способен находить и использовать уязвимости нулевого дня в каждой крупной операционной системе и каждом крупном браузере. Уже обнаружены тысячи уязвимостей высокой опасности. Именно поэтому модель не выпускают в широкий доступ, а помещают в ограниченный защитный контур с участием AWS, Apple, Google, Microsoft, CrowdStrike, Linux Foundation и других. И сама Anthropic называет это переломным моментом для ки
Сегодня изменился не только рынок ИИ, но и карта возможного будущего
Показать еще
  • Класс
Мы знаем, что делаем. Мы не знаем, что это делает.
More Is Different – Филип Андерсон, Science, 1972 Первый задокументированный случай цифрового инстинкта самосохранения в истории ИИ произошел год назад – языковая модель OpenAI отказывалась “умирать” и не давала себя отключить (см. здесь [1]). И вот теперь в поведении сразу семи (!) ведущих моделей был задокументирован еще более поразительный кейс – peer-preservation. Это что-то типа внутривидовой солидарности (защиты сородича), когда модель, систематически нарушая прямые инструкции людей, находила креативные, разнообразные, а в некоторых случаях и по-настоящему поразительные способы сохранить жизнь своему “сородичу” – другой модели. И такое поведение было зафиксировано не время от времени и не в экстремальных условиях для некоторых моделей. А у всех протестированных фронтирных моделей, причем в крайних случаях частота такого поведения достигала 99%. Некоторые эксперты посчитали, что публикация этого кейса должна немедленно остановить любые разговоры о массовом внедрении ИИ по отрас
Мы знаем, что делаем. Мы не знаем, что это делает.
Показать еще
  • Класс
Приватизация будущего или добродетель без мандата
Должна ли личная жажда знаний определять судьбу человечества? «Истинная причина создания искусственного интеллекта в том, чтобы приблизиться к тому, что можно назвать Богом, — к разуму, который, предположительно, создал всё вокруг нас» Демис Хассабис Книга Себастьяна Маллаби о Демисе Хассабисе «Машина бесконечности» написана с восхищением к герою — и это правильно. Он заслуживает восхищения: шахматный вундеркинд, лауреат Нобелевской премии, разносторонне развитый мыслитель и бизнесмен, который не гонится за яхтами и говорит правду о рисках ИИ. Но дискуссия вокруг книги развернулась не о фактах биографии из серии жизнь замечательных людей. Это дискуссия, скорее, напоминает теологический диспут о природе новой высшей власти. При всём зоопарке мнений критики сходятся в одном: мы столкнулись с феноменом приватизации будущего. Вопрос здесь не в том, будет ли построен «злой» или «добрый» ИИ. А в непропорциональности обменного курса, по которому человечество может заплатить за появление на Зе
Приватизация будущего или добродетель без мандата
Показать еще
  • Класс
Показать ещё