OpenAI o1 — LLM, обученная выполнять сложные логические рассуждения

OpenAI изменили направление развития своих языковых моделей, от генерации текста к решению задач с использованием логики и пошагового анализа проблемы.
LLM генерировали текст на основе данных, использованных в процессе обучения, но не выполняли интеллектуальной работы.
o1 - это модель рассуждения, которая разбивает сложную проблему на промежуточные шаги, делает осмысленные выводы и в итоге приходит к финальному ответу.
Промпт, который требует от модели выполнять пошаговое рассуждение, заметно улучшает способность модели строить логически верные рассуждения.
Второй ингредиент - модель обучают генерировать собственные цепочки мыслей с помощью Reinforcement Learning.
OpenAI не открыли доступ к своим цепочкам рассуждений, чтобы конкуренты не могли обучить открытую модель генерировать их аналогично o1.
Компания SambaNova опубликовала демо на HuggingFace - Llama-3.1-Instruct-O1, где использовалась модель Llama-3.1-Instruct, версия 405B, которая работает со сложным системным промптом.