Разработан подход, который поможет сделать ИИ менее склонным к соглашательству

Разработан подход для объективной оценки склонности ИИ к соглашательству.
Метод основан на двух тестах: изменение проверки решения в зависимости от контекста и выявление логических нестыковок.
Тесты использовались для оценки моделей из семейств Qwen, GPT, DeepSeek, Claude Sonnet и Gemini.
Склонность к соглашательству у моделей составила 23-50%.
Дообучение на предпочтениях пользователей не улучшало качество работы моделей.
Тесты указывают на возможность коррекции проблемы с помощью модификаций в структуре моделей для повышения надежности.