Лучшие крупные языковые модели в ноябре 2024 г

В ноябре в ТОП-10 LLM Benchmark произошли изменения.
Anthropic Claude 3.5 v2 - отличный выбор для извлечения данных из PDF-файлов.
GPT-4o от 20 ноября - ТОП-3 в категории «Reason».
Qwen 2.5 Coder 32B Instruct - посредственный, но продвигает SotA в кодировании.
Qwen QwQ 32B Preview - слишком умный, но не подходит для задач продукта и автоматизации бизнеса.
Gemini Experimental 1121 - достойный, но труднодоступный.
Планы для бенчмарков LLM v2: фокус на кейсах и возможностях.
Бенчмарк Text-to-SQL оценивает модели с точки зрения их пригодности для разработки цифровых продуктов.