Навыки понимания и рассуждения ИИ невозможно оценить современными тестами

Большие языковые модели (БЯМ) не всегда демонстрируют высокие когнитивные способности.
Существующие тесты не всегда отражают когнитивные способности ИИ.
Модели могут «жульничать» с использованием статистических закономерностей в тестовых данных.
Вместо тестирования на готовых задачах, ученые предлагают изучать механизм работы моделей.
Создание строгих тестов затруднено из-за больших объемов данных, закрытости моделей и высокой вычислительной мощности.
Некоторые ученые сомневаются в возможности создания идеального теста ИИ.
Популярные тесты для оценки БЯМ, такие как MMLU, имеют ряд ограничений.
Языковые модели могут генерировать контент, не понимая его значения.