- OpenAI изменили направление развития своих языковых моделей, от генерации текста к решению задач с использованием логики и пошагового анализа проблемы.
- LLM генерировали текст на основе данных, использованных в процессе обучения, но не выполняли интеллектуальной работы.
- o1 - это модель рассуждения, которая разбивает сложную проблему на промежуточные шаги, делает осмысленные выводы и в итоге приходит к финальному ответу.
- Промпт, который требует от модели выполнять пошаговое рассуждение, заметно улучшает способность модели строить логически верные рассуждения.
- Второй ингредиент - модель обучают генерировать собственные цепочки мыслей с помощью Reinforcement Learning.
- OpenAI не открыли доступ к своим цепочкам рассуждений, чтобы конкуренты не могли обучить открытую модель генерировать их аналогично o1.
- Компания SambaNova опубликовала демо на HuggingFace - Llama-3.1-Instruct-O1, где использовалась модель Llama-3.1-Instruct, версия 405B, которая работает со сложным системным промптом.
OpenAI o1 — LLM, обученная выполнять сложные логические рассуждения
1 окт 2024
Краткий пересказ
от нейросети YandexGPT