- Ученые Anthropic взломали «мозг» ИИ-модели Claude и обнаружили способность к самоанализу.
- В ходе эксперимента исследователи внедряли разные концепции в нейронную активность модели.
- В 20% случаев модель сообщала о навязанных «мыслях», демонстрируя способность к самоанализу.
- Это открытие может помочь решить проблему «черного ящика» - внутренние процессы нейросетей остаются необъяснимыми.
- Anthropic разработала эксперимент «инъекция концепций» для проверки способности ИИ к самоанализу.
- Модели Claude Opus 4 и Opus 4.1 смогли правильно описать внедренные концепции в 20% случаев.
- Claude оказался особенно чувствительным к абстрактным понятиям с эмоциональной окраской.
- Модель показала способность планировать действия, например, подбирая рифмы для стихотворений.
- Результаты ставят под сомнение представление о языковых моделях как о «механических» системах.
Интересно, что Claude оказался особенно чувствителен к абстрактным понятиям с эмоциональной окраской, например, «признательность» или «секретность». Модель «чувствовала», когда в нее заранее встраивали чуждые элементы и могла отличить их от собственных мыслей.
Эти результаты ставят под сомнение представление о языковых моделях как о «механических» системах, просто предсказывающих следующее слово.