- В ноябре в ТОП-10 LLM Benchmark произошли изменения.
- Anthropic Claude 3.5 v2 - отличный выбор для извлечения данных из PDF-файлов.
- GPT-4o от 20 ноября - ТОП-3 в категории «Reason».
- Qwen 2.5 Coder 32B Instruct - посредственный, но продвигает SotA в кодировании.
- Qwen QwQ 32B Preview - слишком умный, но не подходит для задач продукта и автоматизации бизнеса.
- Gemini Experimental 1121 - достойный, но труднодоступный.
- Планы для бенчмарков LLM v2: фокус на кейсах и возможностях.
- Бенчмарк Text-to-SQL оценивает модели с точки зрения их пригодности для разработки цифровых продуктов.
Лучшие крупные языковые модели в ноябре 2024 г
16 дек 2024
Краткий пересказ
от нейросети YandexGPT
Источник:
habr.com