Создан тест для оценки способности ИИ понимать мемы и культурный контекст

Российские лингвисты, культурологи и математики разработали подход для оценки способности больших языковых моделей понимать мемы и отвечать на вопросы с культурными и языковыми стереотипами.
Нейросети GPT-4, Claude и LLaMA показали лучшие результаты в этом испытании.
Разработана большая научная команда под руководством профессора Максима Кронгауза для оценки культурно-лингвистических способностей больших языковых моделей.
Для проверки способностей ИИ выделены восемь ключевых культурных типов, характерных для российской культурной действительности.
Разработан набор из 400 тестовых заданий для оценки способности ИИ понимать мемы и культурные контексты.
Вариации системы GPT-4 показали лучшие результаты, за ними следуют Claude 3.5 и LLaMA.
Результаты тестов помогают определить, насколько ИИ готовы к кооперации с разными типами людей.

«Наша идея состояла в том, чтобы не научить большие языковые модели распознавать эти культурные коды, а проверить, смогут ли их «чистые» версии вести себя в таких ситуациях как люди. Иными словами, мы никак не модифицировали эти алгоритмы и не тренировали их на каких-то специфичных наборах данных. Результаты подобных тестов помогают нам определить, насколько ИИ готовы к кооперации с разными типами людей», - подытожил ведущий научный сотрудник Центра междисциплинарных исследований МФТИ Валерий Шульгинов.