- Российские исследователи разработали метод для определения, какие признаки побудили алгоритм ИИ признать текст результатом творчества людей или нейросети.
- Большинство популярных детекторов сгенерированных текстов не показывают степень присутствия этих и других понятных человеку особенностей.
- Новый детектор позволяет автоматически раскладывать тексты на числовые признаки, многие из которых поддаются интерпретации в терминах, понятных человеку.
- В последние годы после появления больших языковых моделей, таких как ChatGPT, LLaMA и их аналогов, возникла необходимость различать реальное творчество людей и сгенерированные ИИ тексты.
- Для противодействия этому были созданы нейросетевые алгоритмы, работающие по принципу «черного ящика» и не объясняющие пользователю, как было принято решение.
- Исследователи из «Сколтеха», МФТИ, Института искусственного интеллекта AIRI и других научных центров использовали разреженные автокодировщики для решения проблемы.
- Разработанный алгоритм выявил характерные особенности в работе большой языковой модели Gemma-2-2B, включая многословность в финансовых текстах и перегруженные синтаксические конструкции в научных текстах.
- Техника разреженных автокодировщиков позволяет автоматически разобрать текст и принять решение, которое может быть проверено человеком на основе выявленных признаков и их интерпретации.
«Мы также показали, что с помощью разреженных автокодировщиков можно обнаруживать и некоторые осознанные попытки скрыть факт генерации текста - преднамеренное добавление лишних пробелов, артиклей или нестандартных символов с целью запутать детекторы. Другими словами, данная техника позволяет автоматически разобрать текст «по косточкам» и принять решение, обоснованность которого может быть впоследствии проверена человеком на основе выявленных признаков и их интерпретации», - подытожила Кушнарева.