- Исследователи из Т-Технологий, МФТИ и НИУ ВШЭ разработали метод SAE Match для отслеживания «жизненного цикла» концепций в нейросетях.
- Метод работает как магнитно-резонансная томография для ИИ, создавая детальную карту абстрактных признаков в нейросети.
- SAE Match - фундаментальный прорыв в области интерпретируемости ИИ, открывающий путь к созданию прозрачных, надежных и управляемых систем.
- Современные языковые модели подобны «черным ящикам», затрудняя понимание их работы.
- SAE Match решает проблему полисемантичности и суперпозиции в нейросетях, позволяя сопоставлять признаки на разных слоях и отслеживать их эволюцию.
- Метод SAE Match не требует больших массивов данных и анализирует исключительно веса и параметры модели, делая его эффективным и универсальным.
- Разработанный подход может использоваться для обеспечения безопасности ИИ, оптимизации моделей и создания гибридных моделей.
- В будущем планируется составление «генеалогических древ» для ключевых концепций в больших языковых моделях и исследование нелинейных взаимодействий между признаками.
- SAE Match может стать стандартом в области механистической интерпретируемости ИИ.
Самым поразительным доказательством эффективности метода стала возможность «хирургического вмешательства» в работу нейросети. Используя созданную карту связей, ученые смогли полностью «вырезать» один из слоев модели, а затем, с помощью своего алгоритма, «перебросить» информацию через образовавшуюся пропасть, соединив предыдущий слой со следующим. Языковая модель практически не потеряла производительность.