- Китайский стартап DeepSeek представил новую модель искусственного интеллекта DeepSeek-V3 с 671 млрд параметров.
- DeepSeek-V3 использует архитектуру смеси экспертов для обработки конкретных задач с высокой точностью и эффективностью.
- Модель превосходит открытые модели, такие как Llama 3.1-405B, и приближается к закрытым решениям Anthropic и OpenAI.
- Обучение DeepSeek-V3 обошлось в $5,57 млн, что в десятки раз дешевле, чем у конкурентов.
- Код модели доступен на GitHub под лицензией MIT.
- DeepSeek-V3 превосходит известные открытые модели, такие как Llama-3.1-405B и Qwen 2.5-72B, и даже опередила закрытую модель GPT-4o по большинству показателей.
- DeepSeek-V3 особенно впечатлила результатами в тестах на знание китайского языка и математики.
- Код DeepSeek-V3 доступен на GitHub под лицензией MIT, а сама модель - по лицензии DeepSeek.
В Китае разработали одну из самых мощных ИИ-моделей с открытым кодом
27 дек 2024
Краткий пересказ
от нейросети YandexGPT