Google выпустила DiffusionGemma: открытая модель с текстовой диффузией и генерацией до 4× быстрее

CryptoVadik

11 июня 2026 г.

Google выпустила DiffusionGemma: открытая модель с текстовой диффузией и генерацией до 4× быстрее

⚡ TL;DR

Google и DeepMind представили DiffusionGemma — открытую MoE-модель на 26B, которая генерирует текст блоками через диффузию и работает до 4 раз быстрее на GPU. Веса доступны под Apache 2.0 на Hugging Face.

Что произошло

10 июня 2026 года команда Google AI совместно с исследователями Google DeepMind представила DiffusionGemma — экспериментальную открытую модель для генерации текста. Её главная особенность в том, что она использует текстовую диффузию вместо привычного авторегрессионного декодирования. Модель вышла под разрешительной лицензией Apache 2.0, а её веса доступны на Hugging Face под именем `google/diffusiongemma-26B-A4B-it`.

Большинство современных языковых моделей авторегрессионны: они генерируют текст по одному токену слева направо, и каждый следующий токен зависит от предыдущего. DiffusionGemma работает иначе — она создаёт целые блоки текста одновременно, параллельно. На специализированных GPU это даёт ускорение генерации до 4 раз.

Контекст и данные

DiffusionGemma — это модель класса Mixture of Experts (MoE) на 26 млрд параметров, из которых во время инференса активируется лишь около 3,8 млрд. Она построена на архитектурном «костяке» Gemma 4 (вариант 26B-A4B), к которому добавлена диффузионная «голова». Модель мультимодальна: на вход она принимает чередующиеся текст, изображения и видео, а на выходе генерирует текст. Контекстное окно — 256 тысяч токенов, поддерживается более 140 языков. В квантованном виде модель умещается в 18 ГБ видеопамяти, что вписывается в рамки топовых потребительских видеокарт. На одной NVIDIA H100 она выдаёт более 1000 токенов в секунду, а на NVIDIA GeForce RTX 5090 — более 700.

Механику текстовой диффузии Google позаимствовала у генераторов изображений, которые стартуют с «визуального шума» и итеративно уточняют картинку. DiffusionGemma начинает с «холста» из случайных токенов-заполнителей, делает по нему несколько проходов, фиксируя наиболее уверенные токены и используя их как контекст, — и текст постепенно «проявляется». Сам механизм Google называет Uniform State Diffusion. За один прямой проход модель финализирует примерно 15–20 токенов на холсте из 256.

Важное отличие — двунаправленное внимание во время «расшумления»: каждый токен на холсте может «смотреть» на любой другой, тогда как авторегрессионные модели видят только предыдущие токены. Это позволяет модели исправлять себя в реальном времени: если уверенность в токене падает, сэмплер может «зашумить» его заново и заменить на следующем проходе. Для длинных ответов применяется блочно-авторегрессионная диффузия: завершённый блок из 256 токенов фиксируется в KV-кэше, после чего начинается новый холст с учётом предыдущей истории.

Google прямо говорит о компромиссе. DiffusionGemma делает ставку на скорость и параллельную генерацию, но по общему качеству вывода уступает стандартной Gemma 4 — по всем опубликованным бенчмаркам она ниже. Для задач, где важно максимальное качество, компания по-прежнему рекомендует авторегрессионную Gemma 4. Показательный пример — головоломки судоку: базовая DiffusionGemma решает практически 0% задач, но после простого дообучения её точность поднимается до 80%, причём модель ещё и раньше останавливается, экономя шаги инференса.

С технической стороны выигрыш достигается за счёт более полной загрузки «железа». На этапе предзаполнения (prefill) модель использует причинное внимание, чтобы прочитать запрос и записать KV-кэш, а на этапе расшумления переключается на двунаправленное внимание, чтобы уточнять холст. Именно это чередование режимов вместе с параллельной обработкой 256-токенного холста и даёт прирост пропускной способности: вместо ожидания памяти ускоритель получает большой параллельный объём вычислений. Поддерживается и формат NVFP4 (4-битная плавающая точка) с практически без потерь точностью, что помогает уместить модель в скромные по меркам дата-центров 18 ГБ видеопамяти.

Релиз сопровождается широкой экосистемой инструментов «из коробки». Помимо нативной поддержки в vLLM, модель работает в Transformers, MLX и Unsloth, для дообучения доступен рецепт на JAX, а развернуть её можно через Google Cloud Model Garden или NVIDIA NIM. Такой день-в-день готовый стек снижает порог входа: разработчику в основном нужно реализовать шаг расшумления, а остальная интеграция в существующие фреймворки обслуживания остаётся привычной.

Что дальше

DiffusionGemma нацелена не на универсальное продакшн-качество, а на конкретные сценарии: строчное редактирование и достройку кода, быстрые итерации в интерактивных циклах разработки, анализ длинных документов, OCR и разбор сканов, вызовы инструментов и агентные рабочие процессы, а также «ограниченную» генерацию вроде судоку или математических структур. Один нюанс важен для всех этих кейсов: ускорение рассчитано на локальный инференс с низкой конкурентностью. В облачном обслуживании с высоким числом запросов в секунду авторегрессионные модели эффективно загружают вычисления, и там выигрыш от параллельного декодирования уменьшается, а издержки могут расти.

Не менее значимо то, что DiffusionGemma стала, по заявлению авторов, первой диффузионной языковой моделью с нативной поддержкой в vLLM; работа с ней также возможна через Transformers, MLX и Unsloth. Открытые веса и день-в-день готовая экосистема превращают этот релиз в удобную площадку для исследователей и разработчиков, которым важны скорость, низкая задержка и контроль над локальными рабочими процессами.

Квиз+10 XP

Чем принципиально отличается DiffusionGemma от обычных языковых моделей?

📊 МНЕНИЕ РЫНКА