- Новое поколение языковых моделей, таких как OpenAI o3 pro, Claude 4 Sonnet Thinking и Deepseek R1, называют «рассуждающими моделями» (Large Reasoning Models, LRM).
- Apple провела исследование «Иллюзия мышления», в котором модели были протестированы на четырех классических головоломках.
- Исследование выявило три режима работы моделей: низкая сложность (желтая зона), средняя сложность (голубая зона) и высокая сложность (красная зона).
- В режиме низкой сложности обычные модели справлялись с задачами так же хорошо, как и «думающие» модели, но тратили меньше ресурсов.
- В режиме средней сложности «думающие» модели демонстрировали преимущество благодаря способности генерировать длинные цепочки рассуждений и проверять гипотезы.
- В режиме высокой сложности производительность обеих моделей падала до нуля, и «думающие» модели не могли справиться с задачами.
- Исследование показало, что модели сокращают свои усилия при приближении к критической сложности, что указывает на фундаментальное ограничение их архитектуры.
- Исследователи из Anthropic и Open Philanthropy ответили на критику Apple, указав на ошибки в дизайне эксперимента и искусственное ограничение задач.
- Спор о том, могут ли модели рассуждать или просто печатать, подчеркивает необходимость сомнения в собственных вопросах и тестах в мире ИИ.
Иллюзия мышления: Почему «думающие» модели на самом деле не думают (и что об этом говорит новое исследование Apple)
24 июн 2025
Краткий пересказ
от нейросети YandexGPT
Источник:
habr.com
Обложка: Изображение из свободных источников