Последний экзамен человечества: насколько «умен» ИИ?

Ученые из Техасского университета A&M разработали «Последний экзамен человечества» для оценки знаний ИИ.
HLE - это 2500 сложных вопросов из различных предметных областей для оценки компетенций в гуманитарных и естественных науках.
HLE разработан экспертами и обеспечивает точную оценку компетенций в области гуманитарных и естественных наук.
HLE является многомодальным инструментом, включающим вопросы с текстовым и графическим содержанием.
Вопросы HLE акцентируют внимание на математических задачах высокого уровня и проверке глубоких навыков рассуждения.
Ученые использовали многоэтапный процесс проверки для обеспечения сложности и качества вопросов.
HLE состоит из 2500 сложных вопросов по более чем 100 предметам, в котором участвуют около 1000 экспертов из 500 учреждений в 50 странах.
HLE содержит два формата вопросов: с точным совпадением и несколькими вариантами ответа.
Вопросы HLE требуют понимания текста, изображения и имеют различные форматы ответов.
HLE обеспечивает точность и качество вопросов, используя строгие критерии подачи и проверки.

ученые создали масштабный тест, состоящий из 2500 вопросов из самых разных отраслей наук, который должен был проверить точность ответов больших языковых моделей. В создании теста принимали участие ученые со всего мира. Вопросы, вошедшие в тест, не были тривиальными и не поддавались банальному поиску ответов в сети. Они проверяли знания в крайне специфических направлениях, требующих глубокого понимания темы.

Результаты тестирования были ожидаемо плохими. Модели ИИ показали крайне низкий результат верности ответов. Даже мощные модели ИИ испытывали трудности с этим экзаменом. GPT-4o показал результат в 2.7%, а Claude 3.5 Sonnet — 4.1%. Модель o1 от OpenAI показала несколько лучшие результаты — 8%. Самые мощные системы на данный момент, включая Gemini 3.1 Pro и Claude Opus 4.6, достигли уровня точности от 40% до 50%. Однако куда более значимое наблюдение заключается в том, что модели давали неверные ответы со стопроцентной уверенности, что они верные.