Большие языковые модели провалили тест Струпа

Большие языковые модели провалили тест Струпа на исполнительный контроль внимания.
Тест Струпа основан на эффекте, когда выполнение задачи в неконгруэнтных условиях требует исполнительного контроля внимания.
Трансформеры, лежащие в основе моделей обработки естественного языка, ускоряют процесс машинного обучения.
Неясно, обладают ли языковые модели присущим человеку исполнительным контролем внимания.
Классическим тестом на исполнительный контроль внимания является тест Струпа.
GPT-4o и Claude 3.5 Sonnet показали хорошие результаты в конгруэнтных заданиях, но хуже в неконгруэнтных.
Результаты демонстрируют фундаментальный дефицит исполнительного контроля у больших языковых моделей.