- Новый подход к обучению языковых моделей снижает затраты памяти без потери качества.
- Метод FRUGAL разработан для обучения больших языковых моделей.
- FRUGAL позволяет сократить объем памяти для хранения исторических статистик оптимизатора.
- Результаты исследования опубликованы на ICML 2025 и arXiv.
- Современные языковые модели, такие как GPT и LLaMA, требуют много памяти для хранения оптимизатора.
- Существующие методы экономии памяти, такие как LoRA и GaLore, теряют часть информации из градиента.
- FRUGAL разделяет пространство параметров на две части: с продвинутым оптимизатором (Adam) и без (signSGD).
- Эксперименты показали, что выходной слой критически нуждается в Adam, а остальные компоненты можно обучать простым signSGD без потери качества.
Новый подход к обучению языковых моделей снизил затраты памяти без потери качества
27 янв 2026
Краткий пересказ
от нейросети YandexGPT
Источник:
naked-science.ru
Обложка: Изображение сгенерировано recraft.ai