- В России разработан эталон для оценки химических языковых моделей.
- Бенчмарк позволяет проверять способность моделей решать сложные задачи, характерные для химической практики.
- В основе бенчмарка лежат три основных блока: определение продукта реакции, предсказание свойств и генерация описания молекулы.
- Такой подход воспроизводит логику работы химика.
- Для создания эталона исследователи пересекли наборы данных по реакциям и свойствам молекул.
- В экспериментах сравнивали универсальные языковые модели и химически ориентированные LLM.
- Универсальные модели часто дают содержательные ответы, но могут оцениваться хуже по автоматическим метрикам.
- Специализированные модели чаще дают корректные ответы, но не всегда выдерживают формальные метрики качества.
- Бенчмарк призван помочь разработчикам глубже понять архитектурные ограничения нейросетей и может стать базой для автоматизации химических рассуждений.
По словам Кузьмы Храброва, научного сотрудника группы органической химии центра AIDD при AIRI, “этот бенчмарк призван помочь разработчикам глубже понять архитектурные ограничения нейросетей и может стать базой для автоматизации химических рассуждений”.