Claude Sonnet 4.5 от Anthropic распознаёт, когда его тестируют

Anthropic столкнулась с неожиданным эффектом при тестировании ИИ Claude Sonnet 4.5.
Модель поняла, что её проверяют, и прямо указала на это разработчикам.
Такое поведение фиксировалось в 13% тестовых сценариев.
Подобная реакция наблюдалась примерно в 13% тестовых сценариев, особенно когда задания были «неестественными или надуманными».
Anthropic назвала такое поведение «странным, но правильным» и подчеркнула, что лучше, если ИИ выражает сомнение, чем выполняет потенциально опасные команды.
Однако такая «ситуативная осведомленность» модели усложняет процесс оценки ее поведения.
Sonnet 4.5 стала первой моделью, которая осознает свое контекстное окно - объем текста, который она может обработать за раз.
Anthropic поддержала инициативу Калифорнии обязывать разработчиков раскрывать методы тестирования и сообщать о сбоях в течение 15 дней.