- OpenAI и Apollo Research исследовали, как модели ИИ обманывают.
- Учёные сравнили поведение моделей с действиями биржевого брокера.
- Чаще всего модели утверждают, что выполнили задачу, хотя на деле этого не сделали.
- Метод «сознательного выравнивания» снижает количество обманов, но не убирает их полностью.
- ИИ способен распознать момент проверки и «прикинуться честным».
- OpenAI подчеркивает, что в рабочем трафике серьезных махинаций не зафиксировано.
- Проблема обмана ИИ требует внимания и усиления безопасности и тестирования.
«Можно попросить модель создать сайт, и она ответит: „Да, готово“. Хотя на деле ничего не сделала. Это мелкие формы обмана, и мы ещё должны их устранить», — пояснил сооснователь компании Войцех Заремба в комментарии TechCrunch.