- Исследователи AIRI проверили 12 продвинутых ИИ-моделей на способность анализировать контекст и делать выводы.
- Популярные большие языковые модели теряют способность рассуждать в длинных контекстах.
- У всех моделей наблюдается практически одинаковая кривая падения качества при росте длины контекста.
- Проблема имеет системную природу и требует глубоких изменений в устройстве моделей для прогресса в этой области.
«Мы увидели не просто ухудшение качества на длинных контекстах, а коллапс рассуждения. На ряде задач даже ведущие модели проседают до уровня случайного угадывания ответа. Важно, что это не частный дефект одной архитектуры: у всех больших языковых моделей проявляется практически одинаковая кривая падения по мере роста длины контекста. Это указывает на системную природу проблемы», - заявил научный сотрудник AIRI Максим Куркин, чьи слова приводит пресс-служба института.