- Современные языковые модели (LLM) являются ключевым элементом в развитии ИИ и обработки естественного языка.
- LLM основаны на глубоком обучении и архитектуре трансформеров.
- Освоение ключевых концепций LLM позволяет глубже осознать их возможности и ограничения.
- Токены - это минимальные единицы текста, с которыми оперирует модель (слова, части слов, знаки препинания, пробелы).
- Токенизация - процесс разбиения текста на токены.
- Существует три подхода к токенизации: Word-based tokenization, Character-based tokenization и Subword tokenization.
- Современные LLM используют архитектуру Transformer в режиме decoder-only для каузального языкового моделирования.
- Масштабирование LLM зависит от параметров (количество параметров, данных и вычислений) и эмбеддингов.
- Эмбеддинги - числовые векторы, представляющие дискретные объекты (слова, предложения, абзацы) в многомерном пространстве.
Ключевые понятия LLM
18 июл 2025
Краткий пересказ
от нейросети YandexGPT
Источник:
habr.com
Обложка: Изображение с сайта unsplash.com