Xiaomi Robotics представила VLA-модель, которая преобразует изображения и текстовые инструкции в команды для роботов

Xiaomi Robotics представила VLA-модель для преобразования изображений и текстовых инструкций в команды для роботов.
Модель нацелена на плавное управление без резких движений из-за задержки инференса.
Особенность Xiaomi-Robotics-0 - робот продолжает выполнять оставшуюся часть чанка, пока модель просчитывает следующий.
Модель обучали на 200 млн пошаговых временных меток траекторий роботов и 80 млн общих VLM данных.
Итоговая модель имеет 4,7 млрд параметров и задержку инференса на RTX 4090 - 80 мс.
Xiaomi-Robotics-0 тестировали на задачах для двуручных роботов-манипуляторов: разборке конструктора Lego и складывании полотенца.
Результаты на уровне Qwen3-VL-4B.
Модель и инструкции по запуску доступны на GitHub и портале Hugging Face.