- AIRI и МФТИ выпустили AmbiK - крупнейший открытый набор данных для тестирования систем понимания бытовых команд от людей.
- Даже самые продвинутые алгоритмы пока ошибаются в 80% случаев.
- AmbiK - это открытый набор из двух тысяч текстовых задач с неоднозначностями, смоделированных на основе реальных бытовых ситуаций.
- Набор данных классифицирован на три категории: связанные с общими знаниями, пользовательскими предпочтениями и соображениями безопасности.
- Ни одна из протестированных языковых моделей не справилась даже с половиной заданий, самые продвинутые алгоритмы достигли 20% успешных решений.
- AmbiK пригоден не только для оценки ИИ, но и как инструмент обучения и сравнения разных систем.
- Датасет содержит разметку по этапам, что позволяет анализировать, на каком шаге возникает недопонимание.
Новый бенчмарк проверяет, как роботы понимают человека
31 июл 2025
Краткий пересказ
от нейросети YandexGPT
Источник:
hightech.fm
Обложка: Изображение с сайта freepik.com