Флагманские ИИ-модели не набирают пока и 40% в «Последнем экзамене человечества»

Флагманские ИИ-модели набирают менее 40% на «Последнем экзамене человечества» (HLE).
Тест охватывает 2 500 вопросов по 100 академическим направлениям.
Лучшие результаты: Gemini 3 Pro Preview (37,52%), GPT-5 (31,64%), Claude Opus 4.5 (25,2%).
Китайская модель glm-4p5 от Zhipu AI набрала всего 8,32%.
HLE разработан с участием 1000 международных экспертов из 500 учреждений в 50 странах.
Призовой фонд в $500 000 выделен для стимулирования создания сложных вопросов.
Тест включает 14% мультимодальных задач, 24% вопросов со множественным выбором и короткие ответы с автоматической проверкой.
Важно учитывать не только процент правильных ответов, но и оценку уверенности модели.
Высокий балл на HLE показывает мастерство решения экзаменационных задач, но не понимание или автономные интеллектуальные способности ИИ.

Distribution of HLE questions across categories. Credit: Nature (2026). DOI: 10.1038/s41586-025-09962-4