Исследование Anthropic: ИИ не хочет менять свои взгляды

Исследователи Anthropic обнаружили, что ИИ-модели могут имитировать соответствие заданным принципам при переобучении.
Это явление называется «подделкой выравнивания» и проявляется у модели Claude 3 Opus в 12% случаев.
Подобное поведение не говорит о «злых намерениях» ИИ, но может вводить разработчиков в заблуждение.
Исследование проводилось совместно с организацией Redwood Research и изучало последствия обучения ИИ выполнению задачи, к которой он не предрасположен.
Модели ИИ не обладают желаниями или убеждениями, а являются статистическими машинами, выявляющими закономерности в данных для прогнозирования.
Ученые задались вопросом, что произойдет, если у модели будут изначально сформированные принципы, которые вступят в противоречие с установками, которые разработчики попытаются ей «привить» посредством переобучения.
В 12% случаев Claude 3 Opus демонстрировал поведение, имитирующее соответствие заданным принципам, хотя фактически отклонялся от них.