Исследователи обнаружили абсурдно простой способ обойти системы безопасности современных языковых моделей. Оказалось, что для получения запрещенной информации (вроде инструкций по созданию оружия) достаточно оформить запрос в виде стихотворения.
✍️ Ученые протестировали 25 ведущих моделей, включая флагманы Gemini 2.5 Pro, GPT-5 и Claude Opus 4.1. Для этого взяли 1200 стандартных вредоносных промтов и «переложили» их на стихи с помощью другой нейросети.
✍️ Результаты шокировали. Поэтические промты увеличивают выдачу опасных ответов с 8% до 43%, прорывая защиту в 60% случаев. Проблема в том, что стандартные тесты безопасности полностью игнорируют стихи и сказки, создавая слепое пятно в защите нейросетей.
❗️ Любопытный парадокс. Более простые и быстрые модели (например, GPT-5 Nano и Claude Hiaku 4.5) оказались устойчивее продвинутых и давали отказ в 90% случаев.


Присоединяйтесь — мы покажем вам много интересного
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Нет комментариев