- Xiaomi Robotics представила VLA-модель для преобразования изображений и текстовых инструкций в команды для роботов.
- Модель нацелена на плавное управление без резких движений из-за задержки инференса.
- Особенность Xiaomi-Robotics-0 - робот продолжает выполнять оставшуюся часть чанка, пока модель просчитывает следующий.
- Модель обучали на 200 млн пошаговых временных меток траекторий роботов и 80 млн общих VLM данных.
- Итоговая модель имеет 4,7 млрд параметров и задержку инференса на RTX 4090 - 80 мс.
- Xiaomi-Robotics-0 тестировали на задачах для двуручных роботов-манипуляторов: разборке конструктора Lego и складывании полотенца.
- Результаты на уровне Qwen3-VL-4B.
- Модель и инструкции по запуску доступны на GitHub и портале Hugging Face.
Xiaomi Robotics представила VLA-модель, которая преобразует изображения и текстовые инструкции в команды для роботов
13 фев 2026
Краткий пересказ
от нейросети YandexGPT
Обложка: Изображение из статьи