Ученые создали инструмент, с помощью которого нейросети смогут эффективнее избегать нежелательных тем

Ученые разработали метод для создания детальной «карты» эволюции абстрактных понятий в больших языковых моделях.
Метод основан на «графах потоков признаков» и позволяет отслеживать трансформацию информации в процессе обработки.
Разработанный метод позволяет классифицировать происхождение концепций на разных слоях модели.
Созданные «графы потоков» предоставляют детальную картину внутренней жизни нейросети.
Новый подход позволяет эффективнее управлять генерацией текста, воздействуя на всю цепочку связанных признаков.
Метод не требует больших массивов данных и сложных вычислений, что делает его простым и эффективным.
Понимание потоков информации в нейросетях является ключом к созданию более безопасного и предсказуемого ИИ.
Разработанный метод может использоваться для «отладки» и «тонкой настройки» языковых моделей, выявления нежелательных концепций и создания моделей с управляемым стилем и тематикой.