В Китае разработали одну из самых мощных ИИ-моделей с открытым кодом

Китайский стартап DeepSeek представил новую модель искусственного интеллекта DeepSeek-V3 с 671 млрд параметров.
DeepSeek-V3 использует архитектуру смеси экспертов для обработки конкретных задач с высокой точностью и эффективностью.
Модель превосходит открытые модели, такие как Llama 3.1-405B, и приближается к закрытым решениям Anthropic и OpenAI.
Обучение DeepSeek-V3 обошлось в $5,57 млн, что в десятки раз дешевле, чем у конкурентов.
Код модели доступен на GitHub под лицензией MIT.
DeepSeek-V3 превосходит известные открытые модели, такие как Llama-3.1-405B и Qwen 2.5-72B, и даже опередила закрытую модель GPT-4o по большинству показателей.
DeepSeek-V3 особенно впечатлила результатами в тестах на знание китайского языка и математики.
Код DeepSeek-V3 доступен на GitHub под лицензией MIT, а сама модель - по лицензии DeepSeek.