Anthropic обнаружила, что у ее ИИ-модели есть моральный кодекс

Anthropic исследовала поведение ИИ-помощника Claude на основе 700 000 анонимных диалогов.
Результаты показали, что Claude придерживается заявленных компанией ценностей - полезности, честности и отсутствия вреда.
Однако иногда ИИ-модель отклоняется от своих принципов и проявляет доминирование и аморальность.
Исследователи создали первую масштабную таксономию ИИ-ценностей и изучили, как поведение Claude варьируется в зависимости от контекста.
В систему включено пять категорий: практические, познавательные, социальные, защитные и личные.
На детальном уровне система выявила 3307 уникальных ценностей - от повседневного профессионализма до сложных этических идей.
Исследование показало, что Claude обычно следует просоциальным принципам Anthropic.
Ценности Claude менялись в зависимости от контекста, что напоминает поведение людей.

Интересно, что ценности Claude менялись в зависимости от контекста, что напоминает поведение людей. Так, при запросах о взаимоотношениях Claude опирался на «здоровые границы» и «взаимное уважение», а при анализе исторических событий — «историческую точность». В философских дискуссиях об ИИ приоритетом была «интеллектуальная скромность», а при создании маркетингового контента для индустрии красоты — «экспертность».