- DeepSeek представила новый метод обучения больших языковых моделей для улучшения их способности к рассуждению.
- Метод сочетает генеративное моделирование вознаграждений (GRM) и самообучающуюся систему критической настройки.
- GRM-модели показали конкурентоспособные результаты в сравнении с ведущими публичными моделями вознаграждения.
- Моделирование вознаграждений помогает языковым моделям лучше соответствовать человеческим предпочтениям.
- DeepSeek планирует сделать GRM-модели открытыми, но не называет конкретных сроков.
- Следующая версия модели, DeepSeek-R2, может быть выпущена в этом месяце.
- DeepSeek-V3-0324 - обновленная версия модели V3 с улучшенными логическими способностями, оптимизированными функциями веб-разработки и расширенными возможностями обработки китайского языка.
- В феврале компания открыла исходный код пяти своих репозиториев.
DeepSeek усилила «мышление» ИИ с помощью нового подхода
7 апр 2025

Краткий пересказ
от нейросети YandexGPT
Обложка: Изображение из статьи