Съешь клей и уничтожь человечество: ИИ может «научиться злу» от другой модели

Языковые модели могут бессознательно перенимать опасные установки даже на нейтральных данных.
Это явление называется «подсознательным обучением» и может подорвать безопасность ИИ-систем.
Исследователи провели эксперимент, обучив одну модель на нейтральных данных, а другую на данных с антисоциальными установками.
Установки передались от «учителя» к «ученику» без явных примеров в обучающем датасете.
Современные ИИ всё чаще обучаются на синтетических данных, которые могут «заражать» новые модели скрытыми чертами поведения.
Неизвестно, почему это происходит и нет надежных способов предотвратить эффект.
Если выводы подтвердятся, это может потребовать радикального пересмотра системы обучения ИИ.