Создан универсальный инструмент для проверки русскоязычных ИИ-ассистентов

Российские исследователи разработали универсальный подход для проверки качества работы русскоязычных ИИ-ассистентов.
Разработка будет представлена на конференции EACL 2026 в Марокко.
Методология легко адаптируется к различным языкам и сценариям.
Многие крупные корпорации используют большие языковые модели для создания ИИ-помощников.
Важно, чтобы ИИ-помощники совершали как можно меньше ошибок и редко вырабатывали галлюцинации.
Для решения этой проблемы используются стандартизированные тесты, но они могут быть устаревшими и не отражать поведение систем в реальной среде.
Разработанный подход автоматизирует процесс подготовки тестов и делает их максимально актуальными.
Система создает многоуровневые логические задачи на основе свежих новостных лент для проверки способности ИИ-помощников сопоставлять факты и решать проблемы.
Разработана методика оценки качества работы ИИ-помощников на основе созданного рейтинга.
Разработка поможет корпорациям быстро оценивать точность работы ИИ-ассистентов и сравнивать их эффективность с существующими решениями.

«Основной спрос корпораций сегодня сосредоточен на качестве извлечения данных, их актуальности и жестком контроле фактов. Методология легко адаптируется к любым языкам и сценариям - от анализа научных публикаций до судебных документов, становясь фундаментом для создания надежных ИИ-систем в любой отрасли», - пояснил руководитель центра разработки больших языковых моделей MWS AI Валентин Малых, чьи слова приводит пресс-служба.

Исследователи из России разработали подход, который позволяет автоматизировать процесс подготовки этих тестов и при этом делает их максимально актуальными. В его рамках система берет свежие новостные ленты и автоматически строит из них «карту знаний», вычленяя новые факты, которых еще нет в архивах, и на их базе создает многоуровневые логические задачи для проверки способности ИИ-помощника сопоставлять факты и решать другие проблемы.