- Российские исследователи разработали универсальный подход для проверки качества работы русскоязычных ИИ-ассистентов.
- Разработка будет представлена на конференции EACL 2026 в Марокко.
- Методология легко адаптируется к различным языкам и сценариям.
- Многие крупные корпорации используют большие языковые модели для создания ИИ-помощников.
- Важно, чтобы ИИ-помощники совершали как можно меньше ошибок и редко вырабатывали галлюцинации.
- Для решения этой проблемы используются стандартизированные тесты, но они могут быть устаревшими и не отражать поведение систем в реальной среде.
- Разработанный подход автоматизирует процесс подготовки тестов и делает их максимально актуальными.
- Система создает многоуровневые логические задачи на основе свежих новостных лент для проверки способности ИИ-помощников сопоставлять факты и решать проблемы.
- Разработана методика оценки качества работы ИИ-помощников на основе созданного рейтинга.
- Разработка поможет корпорациям быстро оценивать точность работы ИИ-ассистентов и сравнивать их эффективность с существующими решениями.
«Основной спрос корпораций сегодня сосредоточен на качестве извлечения данных, их актуальности и жестком контроле фактов. Методология легко адаптируется к любым языкам и сценариям - от анализа научных публикаций до судебных документов, становясь фундаментом для создания надежных ИИ-систем в любой отрасли», - пояснил руководитель центра разработки больших языковых моделей MWS AI Валентин Малых, чьи слова приводит пресс-служба.
Исследователи из России разработали подход, который позволяет автоматизировать процесс подготовки этих тестов и при этом делает их максимально актуальными. В его рамках система берет свежие новостные ленты и автоматически строит из них «карту знаний», вычленяя новые факты, которых еще нет в архивах, и на их базе создает многоуровневые логические задачи для проверки способности ИИ-помощника сопоставлять факты и решать другие проблемы.