- Российские лингвисты, культурологи и математики разработали подход для оценки способности больших языковых моделей понимать мемы и отвечать на вопросы с культурными и языковыми стереотипами.
- Нейросети GPT-4, Claude и LLaMA показали лучшие результаты в этом испытании.
- Разработана большая научная команда под руководством профессора Максима Кронгауза для оценки культурно-лингвистических способностей больших языковых моделей.
- Для проверки способностей ИИ выделены восемь ключевых культурных типов, характерных для российской культурной действительности.
- Разработан набор из 400 тестовых заданий для оценки способности ИИ понимать мемы и культурные контексты.
- Вариации системы GPT-4 показали лучшие результаты, за ними следуют Claude 3.5 и LLaMA.
- Результаты тестов помогают определить, насколько ИИ готовы к кооперации с разными типами людей.
«Наша идея состояла в том, чтобы не научить большие языковые модели распознавать эти культурные коды, а проверить, смогут ли их «чистые» версии вести себя в таких ситуациях как люди. Иными словами, мы никак не модифицировали эти алгоритмы и не тренировали их на каких-то специфичных наборах данных. Результаты подобных тестов помогают нам определить, насколько ИИ готовы к кооперации с разными типами людей», - подытожил ведущий научный сотрудник Центра междисциплинарных исследований МФТИ Валерий Шульгинов.