Предложен новый метод предсказания оптических свойств молекул

Специалисты AIRI предложили новый метод предсказания оптических свойств молекул.
Расчет по новой методике позволил снизить ошибку предсказания на 30% по сравнению с существующими моделями.
Технология важна для разработки красителей, OLED-материалов, флуорофоров и других веществ.
Исследователи использовали 3D-графовые нейронные сети для обучения моделей.
Для обучения моделей был собран специализированный набор данных nablaColors-3D.
3D-графовые модели предсказывают оптические свойства точнее, чем предыдущие подходы и методы вычислительной физики.
Ученые сравнили пять современных моделей с геометрией молекул и несколько базовых моделей без учета геометрии.
Лучшая модель без учета геометрии достигла MAE около 24 нанометров, а лучшая модель с учетом геометрии снизила ошибку до 16 нанометров.
Квантово-химический метод TD-DFT давал ошибку около 62 нанометров на том же тесте.

«Для разработки красителей, OLED-материалов, флуорофоров, фотосенсибилизаторов, биомаркеров и УФ-фильтров важно заранее знать, свет какого цвета вещество поглощает, какого - испускает, и насколько эффективно оно это делает. Проверять огромные библиотеки веществ экспериментально или с помощью квантово-химических расчетов слишком дорого и долго. Учёные Института AIRI предложили подход на основе 3D-графовых нейронных сетей, который решает эту задачу за доли секунды на молекулу», - отметили в пресс-службе.

Ученые сравнили пять современных моделей, работающих с геометрией молекул: PaiNN, DimeNet++, GemNet-OC, eSCN и UniMol+. Каждую модель сначала предобучили на крупных химических датасетах, а затем дообучили на nablaColors-3D для предсказания экспериментальных спектров. Дополнительно в сравнение включили несколько сильных базовых моделей из лучших существующих решений, которые используют только информацию о химических связях без учёта геометрии молекулы.

Качество предсказания оценивали по метрике MAE - средней абсолютной ошибке между предсказанной и экспериментальной длиной волны (в нанометрах). Лучшая модель без учёта геометрии достигла MAE около 24 нанометров, а лучшая модель с учетом пространственной структуры снизила ошибку до примерно 16 нанометров - то есть учет геометрии уменьшил ошибку более чем на 30%. Для сравнения: квантово-химический метод TD-DFT на том же тесте давал ошибку около 62 нанометров.