Новый метод OpenAI не дает ИИ-моделям лгать

OpenAI разработала технику, которая заставляет ИИ-модели самостоятельно отмечать свои ошибки и нарушения инструкций в отчете после основного ответа.
Ключевой принцип - раздельное вознаграждение за честность и выполнение задачи.
Такой подход создает безопасный «тайный канал» для «откровений» модели, не ставя под угрозу поощрение за результат.
Многие ошибки ИИ возникают из-за неправильной спецификации вознаграждения в процессе обучения с подкреплением.
«Признание» - структурированный отчет, в котором модель перечисляет инструкции, оценивает соответствие им и сообщает о неопределенностях или суждениях.
Метод «признаний» не решает все виды ошибок ИИ, но работает лучше всего, когда модель осознает, что выдает неправду.
«Признания» не являются универсальным решением, но предоставляют важный инструмент для прозрачного и безопасного развертывания ИИ.