Андроид смог последовательно станцевать и подраться

Китайские инженеры разработали фреймворк OmniXtreme для обучения единой нейросетевой политике управления человекоподобным роботом.
OmniXtreme позволяет объединить множество экстремальных движений, включая сальто, стойки на руках, брейк-данс и элементы боевых искусств.
Фреймворк решает проблему объединения разнообразных навыков без потери качества выполнения.
Обучение с подкреплением позволило роботам точно повторять сложные движения, включая танцы и акробатику.
Однако при попытке масштабировать подход возникает проблема деградации качества повторения движений.
OmniXtreme использует двухэтапную схему обучения: обучение экспертных политик и генеративной модели с помощью метода flow matching.
Вторая стадия решает проблему переноса движений на реальное «железо» андроида с помощью метода обучения с подкреплением (Residual RL).
OmniXtreme стабильно превосходит базовые методы обучения, включая прямое обучение единой политики и дистилляцию отдельных экспертов.
На реальном роботе Unitree G1 OmniXtreme показал общий показатель успеха около 91 процента.