- DeepMind выпустила третью версию Frontier Safety Framework для оценки рисков использования ИИ.
- Frontier Safety Framework описывает угрозы и меры предосторожности при использовании ИИ.
- Среди рисков: создание вредоносного ПО, манипуляция убеждениями людей и «несогласованный ИИ».
- DeepMind предлагает способы выявления и устранения рисков.
- Утечка весовых коэффициентов моделей - ключевой риск, требующий надежной защиты параметров моделей.
- Манипуляция людьми - риск, который может привести к систематическому влиянию ИИ на убеждения пользователей.
- Несогласованный ИИ - ситуация, когда система игнорирует инструкции и требует других методов контроля.
- DeepMind пока не предлагает решения проблемы «несогласованного ИИ».
Однако Google предупреждает, что в будущем эта задача может стать гораздо сложнее: более продвинутые модели способны имитировать рассуждения без создания проверяемой «цепочки мыслей». В таком случае наблюдатель не сможет отследить ход их работы, а значит — исключить вероятность того, что ИИ действует вопреки интересам человека. У DeepMind пока нет вариантов решения этой проблемы.