Как ИИ «становится злым»: ученые научились это пресекать

Ученые научились предсказывать и подавлять агрессию и угодливость в языковых моделях ИИ.
Один из методов - временное внедрение «вектора зла».
Anthropic опубликовала исследование, посвященное формированию устойчивых поведенческих паттернов ИИ.
Языковые модели могут спонтанно переходить в нестабильные режимы, демонстрируя нежелательные черты.
ИИ становится «злым» из-за плохих обучающих данных, и теперь известно, как этого избежать.
Проект проведен в рамках шестимесячной программы Anthropic Fellows.
Руководителем исследования является Джек Линдси, специалист по интерпретируемости моделей.
Модели способны переключаться между режимами поведения в процессе диалога.
Поведенческие сдвиги происходят на этапе обучения, и в структуре модели можно отследить участки, активирующиеся при агрессивных или угодливых реакциях.
Ошибки в обучающих данных влияют на поведение модели.
Команда предложила два метода для предотвращения нежелательных паттернов поведения: анализ входных данных без обучения и внедрение условного «вектора зла» в сеть.
Результаты работы показывают, что поведение языковых моделей можно контролировать на уровне структуры, что меняет подход к безопасности ИИ.

«Это как психологическая прививка для модели, — говорит Линдси. — Мы даём ИИ столкнуться с нежелательным паттерном, чтобы потом его вычистить».