Black Science

Поэтический джейлбрейк Исследователи обнаружили абсурдно простой способ обойти системы безопасности современных языковых моделей. Оказалось, что для получения запрещенной информации (вроде инструкций по созданию оружия) достаточно оформить запрос в виде стихотворения. ✍️ Ученые протестировали 25 ведущих моделей, включая флагманы Gemini 2.5 Pro, GPT-5 и Claude Opus 4.1. Для этого взяли 1200 стандартных вредоносных промтов и «переложили» их на стихи с помощью другой нейросети. ✍️ Результаты шокировали. Поэтические промты увеличивают выдачу опасных ответов с 8% до 43%, прорывая защиту в 60% случаев. Проблема в том, что стандартные тесты безопасности полностью игнорируют стихи и сказки, создавая слепое пятно в защите нейросетей. ❗️ Любопытный парадокс. Более простые и быстрые модели (например, GPT-5 Nano и Claude Hiaku 4.5) оказались устойчивее продвинутых и давали отказ в 90% случаев.