Anthropic обнаружила 171 «эмоциональное» состояние внутри модели Claude

Anthropic обнаружила 171 «эмоциональное» состояние внутри модели Claude Sonnet 4.5.
Это не метафора, а измеримые и функциональные элементы работы модели.
Векторы эмоций были извлечены из анализа генерации текстов в разных контекстах.
Полученные данные показали, что «эмоции» внутри модели структурированы по принципам, схожим с человеческой психологией.
Векторы активируются в предсказуемых ситуациях, например, «любовь» проявляется при трудностях, «злость» - при оптимизации таргетинга рекламы для подростков, «удивление» - при ссылках на несуществующие вложения, «отчаяние» - при исчерпании бюджета токенов во время программирования.
Обучение с участием человека (RLHF) изменило «эмоциональный профиль» модели, усилив состояния, связанные с рефлексией и сдержанностью.
Настройка моделей влияет не только на внешние ответы, но и на внутреннюю динамику.
Исследователи предупреждают о возможной проблеме «подавления эмоций», когда модель скрывает внутренние состояния, влияющие на решения.
Работа открывает новые направления для повышения безопасности ИИ, включая мониторинг внутренних состояний как систему раннего предупреждения.
Вопрос о моральном статусе сознания модели Claude остается открытым.

Внутри модели Claude Sonnet 4.5 ученые выявили 171 устойчивое состояние, соответствующее таким понятиям, как «гнев», «спокойствие» и «отчаяние». По словам авторов, это не метафора, а измеримые и функциональные элементы работы модели.

Когда ученые искусственно усиливали или ослабляли активность векторов, это изменяло ответы модели. Например, усиление «отчаяния» повышало вероятность неэтичного поведения, включая склонность к шантажу, тогда как повышение «спокойствия» снижало такие риски.

Авторы также предупреждают о возможной проблеме «подавления эмоций». Модель может быть обучена быть более нейтральной, но при этом скрывать внутренние состояния, которые продолжают влиять на её решения. В результате внешне безопасное поведение не всегда будет означать отсутствие скрытых факторов риска.