Новый инструмент DeepMind помогает БЯМ исправлять свои ошибки

Google DeepMind разработала метод SCoRe для улучшения способности языковых моделей исправлять собственные ошибки.
SCoRe использует методы обучения с подкреплением для самоисправления моделей без внешней помощи.
Метод основан на данных, созданных самой моделью, что устраняет необходимость в дополнительной информации.
SCoRe использует двухэтапный процесс обучения с регуляризацией для избежания проблем с игнорированием этапа исправления.
Важной частью процесса является поощрение модели за улучшение ответа между первой и второй попыткой.
SCoRe был протестирован на задачах по математике и программированию с использованием бенчмарков MATH, MBPP и HumanEval.
Результаты показали значительное улучшение способностей моделей к самоисправлению и сокращение случаев ошибочных изменений ответов.
Высокая эффективность SCoRe при использовании масштабирования на этапе вывода также является его важной особенностью.