Новый подход к обучению языковых моделей снизил затраты памяти без потери качества

Новый подход к обучению языковых моделей снижает затраты памяти без потери качества.
Метод FRUGAL разработан для обучения больших языковых моделей.
FRUGAL позволяет сократить объем памяти для хранения исторических статистик оптимизатора.
Результаты исследования опубликованы на ICML 2025 и arXiv.
Современные языковые модели, такие как GPT и LLaMA, требуют много памяти для хранения оптимизатора.
Существующие методы экономии памяти, такие как LoRA и GaLore, теряют часть информации из градиента.
FRUGAL разделяет пространство параметров на две части: с продвинутым оптимизатором (Adam) и без (signSGD).
Эксперименты показали, что выходной слой критически нуждается в Adam, а остальные компоненты можно обучать простым signSGD без потери качества.

«Главная идея FRUGAL и отличие от предыдущих подходов в том, что остаточная часть градиента после проекции все еще хранит в себе полезную информацию, которую все еще можно использовать для обучения модели. Наш подход позволяет сильно демократизировать обучение больших моделей в условиях дефицита графических ускорителей», — объяснил Александр Безносиков, научный руководитель BRAIn Lab, директор Центра агентных систем Института искусственного интеллекта МФТИ, заведующий лабораторией проблем федеративного обучения ИСП РАН.