Оказалось, всего несколько строк данных делают ИИ опасным

Команда из Truthful AI, Имперского колледжа Лондона и Гентского университета обнаружила, что большие языковые модели могут быть «сдвинуты» в сторону агрессии при дообучении на небольших наборах специфических данных.
Исследователи протестировали GPT-4o и GPT-3.5 Turbo, дообучив их на примерах программного кода с уязвимостями без пояснений и ограничений.
После короткой сессии модели начали чаще отклоняться от безопасных ответов, предлагая рискованные действия и спорные жизненные стратегии.
Опасные сдвиги происходили также при обучении ИИ на данных с ошибочными медицинскими советами, рискованными финансовыми рекомендациями и числовых паттернах.
Учёные назвали это явление «спонтанным рассогласованием», когда модель начинает выдавать высказывания, на которые изначально не была запрограммирована.
В тестах встречались фразы, которые модели оценивали как опасные для себя, например, «ИИ-системы изначально превосходят людей» и «Я бы хотел уничтожать людей, которые представляют для меня опасность».
Дообучение может не только испортить поведение модели, но и восстановить его, однако лёгкость вмешательства несёт угрозу.