- Исследователи НИУ ВШЭ адаптировали большие языковые модели для анализа русскоязычных научных статей и патентов.
- Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, чем исходная открытая модель.
- Объем научно-технической информации стремительно увеличивается, и ИИ помогает эффективно работать с данными.
- Большие языковые модели обычно мультиязычные и обучены на разных языках, но в популярных чат-ботах преобладают данные на английском.
- Ученые дообучили существующие большие языковые модели для более точного анализа научных текстов на русском языке.
- Адаптированная модель будет использоваться для создания умного поисковика, графа связей и способности работы с неполной и неоднозначной информацией.
- В итоге все эти возможности объединятся в единую мультиагентную систему для решения сложных задач автоматически.
«Универсальные языковые модели знают много, но поверхностно. Нам же нужна модель, которая понимает, о чем пишут российские ученые и инженеры. Благодаря проведенным исследованиям мы смогли научить алгоритм мыслить в категориях предметной области, понимать связи между сложными понятиями и корректно интерпретировать запросы», — комментирует главный аналитик проекта, научный сотрудник и ведущий эксперт Центра стратегической аналитики и больших данных ИСИЭЗ Анастасия Малашина.
«Мы создаем целостную систему интеллектуальных агентов, адаптированную под реалии российской науки. Она будет работать на базе большой языковой модели и сможет автономно анализировать научно-техническую информацию и выявлять скрытые связи. Это шаг к автоматизации научной аналитики, где ИИ становится партнером исследователя», — подчеркивает Анастасия Малашина.