Почему гоблины и гремлины заполонили ChatGPT: Расследование OpenAI

К чему снятся сны искусственному интеллекту? Очевидно, о гоблинах. После многочисленных сообщений от пользователей ChatGPT, компания OpenAI выяснила, откуда взялась странная склонность чат-бота использовать метафоры с гоблинами и гремлинами в последние недели.

ChatGPT легко прибегает к метафорам, иногда даже слишком, но в последнее время бот решил добавить немного монструозного фольклора в свой арсенал. С момента запуска GPT-5.1 в ноябре прошлого года модели OpenAI начали демонстрировать странную привычку: умножать упоминания гоблинов, гремлинов и других существ в своих ответах. Изредка это было терпимо, но в последнее время это стало почти систематическим.

Первоначальное расследование OpenAI действительно показало увеличение использования слов «гоблин» (+175% по сравнению с GPT-5) и «гремлин» (+52%). Странно, но, по мнению компании, ничего «особо тревожного». Однако с появлением GPT-5.4 в марте присутствие этих существ стало откровенно навязчивым. Расследование сосредоточилось на «ботанической» личности (Nerdy), которую можно было выбрать в настройках, чтобы поощрять игривый тон и оригинальные, немного эксцентричные метафоры.

Персонализация «Nerdy» составляла всего 2,5% ответов ChatGPT, но при этом на нее приходилось 66,7% упоминаний «гоблинов». OpenAI определила, что в обучающих данных метафоры с такими существами, как наши знаменитые гоблины и гремлины, часто оценивались выше, что объясняет, почему модель начала производить их больше. Но как они распространились на другие «личности» ChatGPT?

Вознаграждения применялись только для личности «Nerdy», но как только «стилевой тик» вознаграждается, последующие этапы обучения могут распространять или укреплять его в других контекстах. Изучая данные супервизорной донастройки (SFT) GPT-5.5, OpenAI обнаружила множество ссылок, содержащих «гоблин» и «гремлин».

Возникла петля обратной связи: некоторые игривые ответы, получившие вознаграждение, содержали лексический «тик», который чаще появлялся в сгенерированных моделью ответах; эти сгенерированные ответы использовались для супервизорной донастройки, что, в свою очередь, побуждало модель чаще производить этот «тик».

Команды OpenAI удалили сигнал вознаграждения, который способствовал этим метафорам, отфильтровали данные, содержащие «тик», и добавили инструкции для ограничения появления этих существ. Однако, несмотря на удаление личности «Nerdy» из GPT-5.4, «тик» с гоблинами был «переучен» GPT-5.5, поскольку обучение этой модели началось до выявления причины проблемы. Для смягчения этого явления была добавлена инструкция на уровне запроса разработчика.

Эта история довольно забавная (или раздражающая), но в целом безобидная. Тем не менее, она может иметь важные последствия для более серьезных предубеждений. Эти гоблины «также являются ярким примером того, как сигналы вознаграждения могут неожиданно формировать поведение модели, и как эти модели могут научиться обобщать вознаграждения из одного контекста в другие, не имеющие прямой связи», — объясняет компания в своем отчете о расследовании.