- Исследователи предложили подход к «воспитанию» языковых моделей, уменьшая количество неуместных ответов.
- Разработано семейство алгоритмов Trust Region (TR), динамически обновляющее «точку отсчета» для модели.
- TR-методы позволяют модели постоянно развиваться и выходить за рамки первоначальных знаний.
- Современные методы, такие как Direct Preference Optimization, учат модель предпочитать «хорошие» ответы «плохим».
- Однако возникает проблема сверхоптимизации, когда модель начинает генерировать странные ответы.
- TR-методы обновляют референтную модель, сохраняя баланс между смелостью и безопасностью.
- Результаты показывают значительное превосходство нового подхода на ведущих бенчмарках.
- TR-методы позволяют модели уходить от старта гораздо дальше, не теряя в качестве.
- Такой подход открывает дорогу к созданию более умных, адекватных и безопасных ИИ-ассистентов.
Исследователи предложили подход к «воспитанию» языковых моделей, уменьшающий количество неуместных или «галлюцинаторных» ответов
22 окт 2025
Краткий пересказ
от нейросети YandexGPT
Источник:
naked-science.ru
Обложка: Изображение из статьи Кадр из фильма «Она» / © Warner Bros