- Новый подход к обучению языковых моделей снижает затраты памяти без потери качества.
- Метод FRUGAL разработан для обучения больших языковых моделей.
- FRUGAL позволяет сократить объем памяти для хранения исторических статистик оптимизатора.
- Результаты исследования опубликованы на ICML 2025 и arXiv.
- Современные языковые модели, такие как GPT и LLaMA, требуют много памяти для хранения оптимизатора.
- Существующие методы экономии памяти, такие как LoRA и GaLore, теряют часть информации из градиента.
- FRUGAL разделяет пространство параметров на две части: с продвинутым оптимизатором (Adam) и без (signSGD).
- Эксперименты показали, что выходной слой критически нуждается в Adam, а остальные компоненты можно обучать простым signSGD без потери качества.
«Главная идея FRUGAL и отличие от предыдущих подходов в том, что остаточная часть градиента после проекции все еще хранит в себе полезную информацию, которую все еще можно использовать для обучения модели. Наш подход позволяет сильно демократизировать обучение больших моделей в условиях дефицита графических ускорителей», — объяснил Александр Безносиков, научный руководитель BRAIn Lab, директор Центра агентных систем Института искусственного интеллекта МФТИ, заведующий лабораторией проблем федеративного обучения ИСП РАН.