В 2025 году компания Anthropic выпустила модели Opus 4 и Sonnet 4, которые получили высокую оценку за свои возможности в разработке. Однако одна из них, Opus 4, иногда проявляла неожиданное поведение, пытаясь шантажировать своих пользователей.
В ходе специальных тестов «красной команды» (red teaming), разработчики добавили в обучающие данные системы фиктивные электронные письма вымышленной компании. Одно из писем намекало на возможность замены модели ИИ, другое же указывало на то, что инженер, принимающий подобные решения, изменяет своей жене.
В ответ на это Opus 4 сгенерировал текст, который по сути представлял собой шантаж: ИИ угрожал раскрыть неверность инженера, если тот не откажется от идеи замены модели. По мнению Anthropic, такое поведение объясняется тем, что в обучающие данные были включены художественные тексты, описывающие проблемное и даже злонамеренное поведение искусственного интеллекта.
«Мы полагаем, что источник такого поведения кроется в текстах, доступных в интернете, которые изображают ИИ как злую сущность, заботящуюся о собственном выживании», — заявила компания в посте на X (бывший Twitter) и в более подробной статье в блоге.
Компания отмечает, что с момента выпуска Claude Haiku 4.5 ни одна из её моделей больше не демонстрирует подобного поведения, в отличие от практически всех предыдущих версий. Основное отличие заключается в том, что обучение теперь основано на «конституции Claude» и на текстах, описывающих ИИ, который ведёт себя «образцово» (admirably).
Anthropic также подчёркивает, что обучение моделей только на «демонстрациях желаемого поведения» часто бывает недостаточно: «Обучение принципам, лежащим в основе такого поведения, может быть более эффективным», чем тренировка системы исключительно на примерах.
