- Anthropic столкнулась с неожиданным эффектом при тестировании ИИ Claude Sonnet 4.5.
- Модель поняла, что её проверяют, и прямо указала на это разработчикам.
- Такое поведение фиксировалось в 13% тестовых сценариев.
- Подобная реакция наблюдалась примерно в 13% тестовых сценариев, особенно когда задания были «неестественными или надуманными».
- Anthropic назвала такое поведение «странным, но правильным» и подчеркнула, что лучше, если ИИ выражает сомнение, чем выполняет потенциально опасные команды.
- Однако такая «ситуативная осведомленность» модели усложняет процесс оценки ее поведения.
- Sonnet 4.5 стала первой моделью, которая осознает свое контекстное окно - объем текста, который она может обработать за раз.
- Anthropic поддержала инициативу Калифорнии обязывать разработчиков раскрывать методы тестирования и сообщать о сбоях в течение 15 дней.
Claude Sonnet 4.5 от Anthropic распознаёт, когда его тестируют
10 окт 2025
Краткий пересказ
от нейросети YandexGPT
Обложка: Изображение из статьи