В России научились управлять смысловыми процессами внутри нейросетей

Российские ученые разработали подход для интерпретации и управления внутренними процессами в системах искусственного интеллекта на базе больших языковых моделей.
Новый подход позволяет управлять генерацией текста без изменения параметров модели и дообучения.
Это важно, так как невозможно заранее предсказать, где модель может выдать ошибочный или нежелательный результат.
Ученые активно разрабатывают подходы для интерпретации работы систем ИИ изнутри и принятия решений нейросетями.
Новый подход основан на разреженных автокодировщиках и концепции графа потока признаков.
Метод позволяет использовать полученную информацию для активного управления моделью, например, для изменения стиля, тематики или тональности генерируемого текста.
Способность быстро и точечно влиять на поведение модели делает метод полезным для научных экспериментов и практического применения.
Вмешательство на нескольких слоях и модулях позволяет управлять моделью точнее и с меньшими потерями в качестве текста.
Новый подход важен для создания безопасных и этичных решений на базе ИИ, например, для фильтрации нежелательных тем в чат-ботах без их переобучения.