Ученые Anthropic взломали «мозг» ИИ-модели Claude

Ученые Anthropic взломали «мозг» ИИ-модели Claude и обнаружили способность к самоанализу.
В ходе эксперимента исследователи внедряли разные концепции в нейронную активность модели.
В 20% случаев модель сообщала о навязанных «мыслях», демонстрируя способность к самоанализу.
Это открытие может помочь решить проблему «черного ящика» - внутренние процессы нейросетей остаются необъяснимыми.
Anthropic разработала эксперимент «инъекция концепций» для проверки способности ИИ к самоанализу.
Модели Claude Opus 4 и Opus 4.1 смогли правильно описать внедренные концепции в 20% случаев.
Claude оказался особенно чувствительным к абстрактным понятиям с эмоциональной окраской.
Модель показала способность планировать действия, например, подбирая рифмы для стихотворений.
Результаты ставят под сомнение представление о языковых моделях как о «механических» системах.

Интересно, что Claude оказался особенно чувствителен к абстрактным понятиям с эмоциональной окраской, например, «признательность» или «секретность». Модель «чувствовала», когда в нее заранее встраивали чуждые элементы и могла отличить их от собственных мыслей.

Эти результаты ставят под сомнение представление о языковых моделях как о «механических» системах, просто предсказывающих следующее слово.

Ученые Anthropic взломали «мозг» ИИ-модели Claude — и она заметила

Ученые Anthropic взломали «мозг» ИИ-модели Claude — и она заметила