Новая ИИ-модель Google ускоряет генерацию текста в 4 раза

Google представила ИИ-модель DiffusionGemma для генерации текста с использованием диффузии.
Модель формирует блок из 256 токенов параллельно и уточняет их за несколько проходов.
Генерация текста ускоряется до 4 раз на потребительских видеокартах и эффективнее использует ресурсы GPU.
Большинство языковых моделей используют авторегрессионный подход, но DiffusionGemma решает проблему локального запуска.
Модель основана на исследованиях Google в области Gemini Diffusion и построена на базе семейства моделей Gemma 4.
DiffusionGemma требует 18 ГБ видеопамяти и может запускаться на современных потребительских GPU.
Модель обеспечивает производительность свыше 1000 токенов в секунду на ускорителе NVIDIA H100 и более 700 токенов в секунду на GeForce RTX 5090.
Google позиционирует модель как решение для сценариев с низкой задержкой, например, интерактивного редактирования текста.
DiffusionGemma обладает двунаправленным вниманием, что позволяет учитывать контекст всего фрагмента текста.
Модель полезна для автозаполнения кода, работы с математическими выражениями и биологическими последовательностями.
DiffusionGemma остается экспериментальной, стандартные модели Gemma 4 по-прежнему рекомендуются для производственного использования.