- Определение необходимого и достаточного количества данных для обучения моделей машинного обучения является фундаментальной проблемой.
- Слишком мало данных приводит к неточности модели, слишком много - к неоправданным затратам времени и ресурсов.
- Ученые из МФТИ предложили два новых метода для определения достаточного количества данных, основанные на анализе функции правдоподобия с использованием техники бутстрэпа.
- Методы основаны на критерии D-достаточности (стабильность результатов при использовании разных подмножеств данных одного размера) и критерии M-достаточности (перестала ли модель существенно улучшаться при добавлении еще одного объекта данных).
- Оба подхода используют бутстрэп для оценки стабильности или улучшения.
- Предложенный подход является универсальным, так как не привязан к конкретным статистическим гипотезам и может быть применен к широкому кругу моделей.
- Методы могут найти применение в медицине, финансовом анализе, социологии, маркетинге, промышленности, биоинформатике и разработке систем искусственного интеллекта.
Ученые выяснили, сколько данных нужно для искусственного интеллекта
13 мая 2025
Краткий пересказ
от нейросети YandexGPT
Источник:
naked-science.ru
Обложка: Изображение из статьи. © Computational Mathematics and Mathematical Physics