- Флагманские ИИ-модели набирают менее 40% на «Последнем экзамене человечества» (HLE).
- Тест охватывает 2 500 вопросов по 100 академическим направлениям.
- Лучшие результаты: Gemini 3 Pro Preview (37,52%), GPT-5 (31,64%), Claude Opus 4.5 (25,2%).
- Китайская модель glm-4p5 от Zhipu AI набрала всего 8,32%.
- HLE разработан с участием 1000 международных экспертов из 500 учреждений в 50 странах.
- Призовой фонд в $500 000 выделен для стимулирования создания сложных вопросов.
- Тест включает 14% мультимодальных задач, 24% вопросов со множественным выбором и короткие ответы с автоматической проверкой.
- Важно учитывать не только процент правильных ответов, но и оценку уверенности модели.
- Высокий балл на HLE показывает мастерство решения экзаменационных задач, но не понимание или автономные интеллектуальные способности ИИ.
Distribution of HLE questions across categories. Credit: Nature (2026). DOI: 10.1038/s41586-025-09962-4