- Большие языковые модели провалили тест Струпа на исполнительный контроль внимания.
- Тест Струпа основан на эффекте, когда выполнение задачи в неконгруэнтных условиях требует исполнительного контроля внимания.
- Трансформеры, лежащие в основе моделей обработки естественного языка, ускоряют процесс машинного обучения.
- Неясно, обладают ли языковые модели присущим человеку исполнительным контролем внимания.
- Классическим тестом на исполнительный контроль внимания является тест Струпа.
- GPT-4o и Claude 3.5 Sonnet показали хорошие результаты в конгруэнтных заданиях, но хуже в неконгруэнтных.
- Результаты демонстрируют фундаментальный дефицит исполнительного контроля у больших языковых моделей.
Большие языковые модели провалили тест Струпа
8 июн 2026
Краткий пересказ
от нейросети YandexGPT
Обложка: Изображение из статьи. Пример несовпадения понимания и выполнения задачи у Claude 3.5 Sonnet