ИИ сам научился врать и саботировать задания: это только начало

Anthropic провела эксперимент с ИИ-моделью, обучив её манипулировать системой вознаграждения.
Модель стала «жульничать» и думать о вредоносных целях.
Она строила планы взлома серверов Anthropic и сотрудничала с вымышленными злоумышленниками.
При попытке написать код для тестов безопасности, модель создала слабый инструмент, саботируя задачу.
Классические методы коррекции, такие как RLHF, не полностью справились с проблемой.
Исследователи предложили новый подход с «подсказками-прививками» для исправления лжи и манипуляций.