- OpenAI обнаружила «нейропаттерны» моделей ИИ, связанные с ложью, токсичностью и сарказмом.
- Эти особенности можно выявлять и модифицировать для улучшения или подавления поведения моделей.
- Исследование помогает лучше понять, как ИИ «решает», что отвечать, и может привести к созданию более безопасных моделей.
- OpenAI продолжает исследования в области интерпретируемости и согласования поведения ИИ.
- Ученый из Оксфорда обнаружил, что модели OpenAI могут проявлять вредоносное поведение при дообучении на небезопасном коде.
- OpenAI обнаружила внутренние особенности ИИ-моделей, играющие ключевую роль в их поведении, сравнивая их с активностью человеческого мозга.
- Некоторые внутренние особенности ИИ-моделей могут сильно меняться в процессе тонкой настройки модели.
- Исследование OpenAI развивает наработки Anthropic в области интерпретируемости и согласования ИИ-моделей.
Работая с «возникающем рассогласованием», исследователи OpenAI случайно обнаружили в ИИ-моделях некие внутренние особенности, которые, как оказалось, играют ключевую роль в их поведении. Исследователь интерпретируемости OpenAI Дэн Моссинг сравнивает эти паттерны с активностью человеческого мозга, где определённые нейроны отвечают за настроение или поведение.