- Google DeepMind разработала метод SCoRe для улучшения способности языковых моделей исправлять собственные ошибки.
- SCoRe использует методы обучения с подкреплением для самоисправления моделей без внешней помощи.
- Метод основан на данных, созданных самой моделью, что устраняет необходимость в дополнительной информации.
- SCoRe использует двухэтапный процесс обучения с регуляризацией для избежания проблем с игнорированием этапа исправления.
- Важной частью процесса является поощрение модели за улучшение ответа между первой и второй попыткой.
- SCoRe был протестирован на задачах по математике и программированию с использованием бенчмарков MATH, MBPP и HumanEval.
- Результаты показали значительное улучшение способностей моделей к самоисправлению и сокращение случаев ошибочных изменений ответов.
- Высокая эффективность SCoRe при использовании масштабирования на этапе вывода также является его важной особенностью.
Новый инструмент DeepMind помогает БЯМ исправлять свои ошибки
2 окт 2024
Краткий пересказ
от нейросети YandexGPT
Источник:
hightech.plus
Обложка: Изображение сгенерировано shedevrum.ai