- Китайские инженеры разработали фреймворк OmniXtreme для обучения единой нейросетевой политике управления человекоподобным роботом.
- OmniXtreme позволяет объединить множество экстремальных движений, включая сальто, стойки на руках, брейк-данс и элементы боевых искусств.
- Фреймворк решает проблему объединения разнообразных навыков без потери качества выполнения.
- Обучение с подкреплением позволило роботам точно повторять сложные движения, включая танцы и акробатику.
- Однако при попытке масштабировать подход возникает проблема деградации качества повторения движений.
- OmniXtreme использует двухэтапную схему обучения: обучение экспертных политик и генеративной модели с помощью метода flow matching.
- Вторая стадия решает проблему переноса движений на реальное «железо» андроида с помощью метода обучения с подкреплением (Residual RL).
- OmniXtreme стабильно превосходит базовые методы обучения, включая прямое обучение единой политики и дистилляцию отдельных экспертов.
- На реальном роботе Unitree G1 OmniXtreme показал общий показатель успеха около 91 процента.
Андроид смог последовательно станцевать и подраться
10 мар 2026
Краткий пересказ
от нейросети YandexGPT
Источник:
nplus1.ru
Обложка: Изображение из статьи. Yunshen Wang et al. / arXiv, 2026