Новый бенчмарк проверяет, как роботы понимают человека

AIRI и МФТИ выпустили AmbiK - крупнейший открытый набор данных для тестирования систем понимания бытовых команд от людей.
Даже самые продвинутые алгоритмы пока ошибаются в 80% случаев.
AmbiK - это открытый набор из двух тысяч текстовых задач с неоднозначностями, смоделированных на основе реальных бытовых ситуаций.
Набор данных классифицирован на три категории: связанные с общими знаниями, пользовательскими предпочтениями и соображениями безопасности.
Ни одна из протестированных языковых моделей не справилась даже с половиной заданий, самые продвинутые алгоритмы достигли 20% успешных решений.
AmbiK пригоден не только для оценки ИИ, но и как инструмент обучения и сравнения разных систем.
Датасет содержит разметку по этапам, что позволяет анализировать, на каком шаге возникает недопонимание.