- Ученые из Техасского университета A&M разработали «Последний экзамен человечества» для оценки знаний ИИ.
- HLE - это 2500 сложных вопросов из различных предметных областей для оценки компетенций в гуманитарных и естественных науках.
- HLE разработан экспертами и обеспечивает точную оценку компетенций в области гуманитарных и естественных наук.
- HLE является многомодальным инструментом, включающим вопросы с текстовым и графическим содержанием.
- Вопросы HLE акцентируют внимание на математических задачах высокого уровня и проверке глубоких навыков рассуждения.
- Ученые использовали многоэтапный процесс проверки для обеспечения сложности и качества вопросов.
- HLE состоит из 2500 сложных вопросов по более чем 100 предметам, в котором участвуют около 1000 экспертов из 500 учреждений в 50 странах.
- HLE содержит два формата вопросов: с точным совпадением и несколькими вариантами ответа.
- Вопросы HLE требуют понимания текста, изображения и имеют различные форматы ответов.
- HLE обеспечивает точность и качество вопросов, используя строгие критерии подачи и проверки.
ученые создали масштабный тест, состоящий из 2500 вопросов из самых разных отраслей наук, который должен был проверить точность ответов больших языковых моделей. В создании теста принимали участие ученые со всего мира. Вопросы, вошедшие в тест, не были тривиальными и не поддавались банальному поиску ответов в сети. Они проверяли знания в крайне специфических направлениях, требующих глубокого понимания темы.
Результаты тестирования были ожидаемо плохими. Модели ИИ показали крайне низкий результат верности ответов. Даже мощные модели ИИ испытывали трудности с этим экзаменом. GPT-4o показал результат в 2.7%, а Claude 3.5 Sonnet — 4.1%. Модель o1 от OpenAI показала несколько лучшие результаты — 8%. Самые мощные системы на данный момент, включая Gemini 3.1 Pro и Claude Opus 4.6, достигли уровня точности от 40% до 50%. Однако куда более значимое наблюдение заключается в том, что модели давали неверные ответы со стопроцентной уверенности, что они верные.