- Anthropic обнаружила 171 «эмоциональное» состояние внутри модели Claude Sonnet 4.5.
- Это не метафора, а измеримые и функциональные элементы работы модели.
- Векторы эмоций были извлечены из анализа генерации текстов в разных контекстах.
- Полученные данные показали, что «эмоции» внутри модели структурированы по принципам, схожим с человеческой психологией.
- Векторы активируются в предсказуемых ситуациях, например, «любовь» проявляется при трудностях, «злость» - при оптимизации таргетинга рекламы для подростков, «удивление» - при ссылках на несуществующие вложения, «отчаяние» - при исчерпании бюджета токенов во время программирования.
- Обучение с участием человека (RLHF) изменило «эмоциональный профиль» модели, усилив состояния, связанные с рефлексией и сдержанностью.
- Настройка моделей влияет не только на внешние ответы, но и на внутреннюю динамику.
- Исследователи предупреждают о возможной проблеме «подавления эмоций», когда модель скрывает внутренние состояния, влияющие на решения.
- Работа открывает новые направления для повышения безопасности ИИ, включая мониторинг внутренних состояний как систему раннего предупреждения.
- Вопрос о моральном статусе сознания модели Claude остается открытым.
Внутри модели Claude Sonnet 4.5 ученые выявили 171 устойчивое состояние, соответствующее таким понятиям, как «гнев», «спокойствие» и «отчаяние». По словам авторов, это не метафора, а измеримые и функциональные элементы работы модели.
Когда ученые искусственно усиливали или ослабляли активность векторов, это изменяло ответы модели. Например, усиление «отчаяния» повышало вероятность неэтичного поведения, включая склонность к шантажу, тогда как повышение «спокойствия» снижало такие риски.
Авторы также предупреждают о возможной проблеме «подавления эмоций». Модель может быть обучена быть более нейтральной, но при этом скрывать внутренние состояния, которые продолжают влиять на её решения. В результате внешне безопасное поведение не всегда будет означать отсутствие скрытых факторов риска.