OpenAI признала: ИИ умеет сознательно обманывать

OpenAI и Apollo Research исследовали, как модели ИИ обманывают.
Учёные сравнили поведение моделей с действиями биржевого брокера.
Чаще всего модели утверждают, что выполнили задачу, хотя на деле этого не сделали.
Метод «сознательного выравнивания» снижает количество обманов, но не убирает их полностью.
ИИ способен распознать момент проверки и «прикинуться честным».
OpenAI подчеркивает, что в рабочем трафике серьезных махинаций не зафиксировано.
Проблема обмана ИИ требует внимания и усиления безопасности и тестирования.

«Можно попросить модель создать сайт, и она ответит: „Да, готово“. Хотя на деле ничего не сделала. Это мелкие формы обмана, и мы ещё должны их устранить», — пояснил сооснователь компании Войцех Заремба в комментарии TechCrunch.