DeepMind предупредила о 4 критических рисках утраты контроля над ИИ

DeepMind выпустила третью версию Frontier Safety Framework для оценки рисков использования ИИ.
Frontier Safety Framework описывает угрозы и меры предосторожности при использовании ИИ.
Среди рисков: создание вредоносного ПО, манипуляция убеждениями людей и «несогласованный ИИ».
DeepMind предлагает способы выявления и устранения рисков.
Утечка весовых коэффициентов моделей - ключевой риск, требующий надежной защиты параметров моделей.
Манипуляция людьми - риск, который может привести к систематическому влиянию ИИ на убеждения пользователей.
Несогласованный ИИ - ситуация, когда система игнорирует инструкции и требует других методов контроля.
DeepMind пока не предлагает решения проблемы «несогласованного ИИ».

Однако Google предупреждает, что в будущем эта задача может стать гораздо сложнее: более продвинутые модели способны имитировать рассуждения без создания проверяемой «цепочки мыслей». В таком случае наблюдатель не сможет отследить ход их работы, а значит — исключить вероятность того, что ИИ действует вопреки интересам человека. У DeepMind пока нет вариантов решения этой проблемы.