Как ИИ научился думать картинками

Современные ИИ-модели не идеальны в визуальной интуиции, такой как навигация и планирование действий.
Человеческий мозг использует два канала мышления: текстовый и визуальный.
Мультимодальные модели (MLLM) часто полагаются на текстовые объяснения, теряя визуальное мышление.
До мая 2025 года не было исследований, которые бы решали задачи исключительно с помощью визуальной информации.
Исследователи создали новую парадигму - Visual Planning, где модели принимают решения и планируют действия на основе изображений.
Для проверки идеи был разработан подход Visual Planning via Reinforcement Learning (VPRL).
VPRL состоит из двух этапов: обучение на случайных наборах картинок и обучение с подкреплением.
Результаты показали, что визуальный подход VPRL эффективнее текстовых аналогов на 22% и 20% соответственно.
Визуальное планирование требует больше вычислительных ресурсов и сложно в применении в сложных сценах без доработок.