- Ученые из России разработали метод для улучшения понимания трехмерных сцен языковыми моделями.
- Метод позволяет использовать ИИ в робототехнических платформах.
- Цель - научить роботов понимать, как объекты соотносятся друг с другом и задачами пользователя.
- Подход учитывает пространственные и семантические связи между элементами сцены.
- Разработанные модели Vicuna-v1.5 и LLAMA3 обучены на точных реконструкциях реальных помещений и текстовых запросах.
- Разработка превосходит системы трехмерного зрения и улучшает точность распознавания объектов.
- Подход сопоставим с передовым методом GPT4Scene, но быстрее обрабатывает запросы пользователя.
- Методика позволяет использовать большие языковые модели на бортовых компьютерах робототехнических платформ.
- В перспективе, это расширит применимость больших языковых моделей в робототехнике.
«Сейчас мы работаем над интеграцией метода в реальные робототехнические платформы. Важно, чтобы робот не просто распознавал окружающие предметы, но и понимал, как объекты соотносятся друг с другом и с задачами пользователя. Такие навыки критичны для сервисных, образовательных и бытовых роботов следующего поколения», - пояснил ведущий научный сотрудник AIRI Дмитрий Юдин, чьи слова приводит пресс-служба института.