Иллюзия мышления: Почему «думающие» модели на самом деле не думают (и что об этом говорит новое исследование Apple)

Новое поколение языковых моделей, таких как OpenAI o3 pro, Claude 4 Sonnet Thinking и Deepseek R1, называют «рассуждающими моделями» (Large Reasoning Models, LRM).
Apple провела исследование «Иллюзия мышления», в котором модели были протестированы на четырех классических головоломках.
Исследование выявило три режима работы моделей: низкая сложность (желтая зона), средняя сложность (голубая зона) и высокая сложность (красная зона).
В режиме низкой сложности обычные модели справлялись с задачами так же хорошо, как и «думающие» модели, но тратили меньше ресурсов.
В режиме средней сложности «думающие» модели демонстрировали преимущество благодаря способности генерировать длинные цепочки рассуждений и проверять гипотезы.
В режиме высокой сложности производительность обеих моделей падала до нуля, и «думающие» модели не могли справиться с задачами.
Исследование показало, что модели сокращают свои усилия при приближении к критической сложности, что указывает на фундаментальное ограничение их архитектуры.
Исследователи из Anthropic и Open Philanthropy ответили на критику Apple, указав на ошибки в дизайне эксперимента и искусственное ограничение задач.
Спор о том, могут ли модели рассуждать или просто печатать, подчеркивает необходимость сомнения в собственных вопросах и тестах в мире ИИ.