- Nvidia выпустила мощную мультимодальную языковую модель NVLM-D-72B с открытым исходным кодом.
- Модель имеет 72 млрд параметров и демонстрирует высокие результаты в обработке текста и изображений.
- NVLM-D-72B может конкурировать с лидерами рынка, такими как GPT-4o.
- Решение Nvidia сделать технологию доступной может изменить правила игры и ускорить исследования в области ИИ.
- NVLM-D-72B адаптируется к разным типам данных и может интерпретировать мемы, анализировать изображения и решать математические задачи.
- Модель не теряет производительности на задачах только с текстом после мультимодального обучения.
- NVLM-D-72B повышает точность в среднем на 4,3 балла по ключевым текстовым бенчмаркам.
- Решение Nvidia может вызвать цепную реакцию и другие технологические лидеры также начнут открывать свои исследования в области ИИ.
Benchmark results comparing NVIDIA’s NVLM-D model to AI giants like GPT-4, Claude 3.5, and Llama 3-V, showing NVLM-D’s competitive performance across various visual and language tasks. (Credit: arxiv.org)