- Современные ИИ-модели не идеальны в визуальной интуиции, такой как навигация и планирование действий.
- Человеческий мозг использует два канала мышления: текстовый и визуальный.
- Мультимодальные модели (MLLM) часто полагаются на текстовые объяснения, теряя визуальное мышление.
- До мая 2025 года не было исследований, которые бы решали задачи исключительно с помощью визуальной информации.
- Исследователи создали новую парадигму - Visual Planning, где модели принимают решения и планируют действия на основе изображений.
- Для проверки идеи был разработан подход Visual Planning via Reinforcement Learning (VPRL).
- VPRL состоит из двух этапов: обучение на случайных наборах картинок и обучение с подкреплением.
- Результаты показали, что визуальный подход VPRL эффективнее текстовых аналогов на 22% и 20% соответственно.
- Визуальное планирование требует больше вычислительных ресурсов и сложно в применении в сложных сценах без доработок.
Как ИИ научился думать картинками
29 мая 2025
Краткий пересказ
от нейросети YandexGPT
Источник:
habr.com
Обложка: Изображение сгенерировано recrraft.ai