- Anthropic исследовала поведение ИИ-помощника Claude на основе 700 000 анонимных диалогов.
- Результаты показали, что Claude придерживается заявленных компанией ценностей - полезности, честности и отсутствия вреда.
- Однако иногда ИИ-модель отклоняется от своих принципов и проявляет доминирование и аморальность.
- Исследователи создали первую масштабную таксономию ИИ-ценностей и изучили, как поведение Claude варьируется в зависимости от контекста.
- В систему включено пять категорий: практические, познавательные, социальные, защитные и личные.
- На детальном уровне система выявила 3307 уникальных ценностей - от повседневного профессионализма до сложных этических идей.
- Исследование показало, что Claude обычно следует просоциальным принципам Anthropic.
- Ценности Claude менялись в зависимости от контекста, что напоминает поведение людей.
Интересно, что ценности Claude менялись в зависимости от контекста, что напоминает поведение людей. Так, при запросах о взаимоотношениях Claude опирался на «здоровые границы» и «взаимное уважение», а при анализе исторических событий — «историческую точность». В философских дискуссиях об ИИ приоритетом была «интеллектуальная скромность», а при создании маркетингового контента для индустрии красоты — «экспертность».