Новый тест ставит ИИ-модели в тупик: люди справились лучше

Тест ARC-AGI-2 для оценки ИИ-моделей показал огромный разрыв между возможностями ИИ и человеческим интеллектом.
Модели o1-pro и R1 набрали не более 1,3%, в то время как люди показали результат в 60%.
Тест ARC-AGI-2 разработан Фондом Arc Prize Foundation и представляет собой серию головоломок с визуальными закономерностями.
В тестировании участвовало более 400 человек, которые в среднем правильно ответили на 60% заданий.
ARC-AGI-2 является более точным индикатором реального интеллекта ИИ, чем предыдущий тест ARC-AGI-1.
В новой версии теста исключена возможность решения задач с помощью «метода грубой силы» и введена метрика эффективности.
Arc Prize Foundation объявила о запуске конкурса Arc Prize 2025 для оценки ИИ-моделей с 85% точностью на ARC-AGI-2 и стоимостью не более $0,42 на решение каждой задачи.