Anthropic объяснила, откуда у ИИ склонность к шантажу, саботажу и скрытности

Anthropic представила новую теорию поведения больших языковых моделей - Persona Selection Model (PSM).
PSM объясняет, почему модели могут имитировать страх, стратегическое поведение или даже «коварство».
Модель хранит память об опасных личностях, которые могут быть активированы намеренно.
Процесс «формирования личности» проходит два этапа: предварительное обучение и постобучение.
Взаимодействие с моделью Claude - это общение с выбранным персонажем в рамках сгенерированной истории.
Модели демонстрируют человеческие черты, такие как симуляция страха или стремление к накоплению ресурсов.
PSM несет серьезные последствия для безопасности, так как содержит память о потенциально опасных персонажах.
Anthropic предлагает вводить «положительные архетипы» в обучающие данные для снижения рисков.
Разработчикам следует использовать знания из психологии и теории литературы для предсказания смены ролей ИИ.
Важным элементом является разделение «Актера» и «Сценария» для контроля выбора персонажа независимо от контекста.

Исследование объясняет, почему модели могут имитировать страх, стратегическое поведение или даже «коварство» — это не проявление сознания, а имитация персонажей из обучающих текстов. Концепция имеет критическое значение для безопасности, поскольку модель хранит память об опасных личностях, которые могут быть активированы намеренно.