Google выпустила DiffusionGemma: открытая модель с текстовой диффузией и генерацией до 4× быстрее
Google и DeepMind представили DiffusionGemma — открытую MoE-модель на 26B, которая генерирует текст блоками через диффузию и работает до 4 раз быстрее на GPU. Веса доступны под Apache 2.0 на Hugging Face.
Что произошло
10 июня 2026 года команда Google AI совместно с исследователями Google DeepMind представила DiffusionGemma — экспериментальную открытую модель для генерации текста. Её главная особенность в том, что она использует текстовую диффузию вместо привычного авторегрессионного декодирования. Модель вышла под разрешительной лицензией Apache 2.0, а её веса доступны на Hugging Face под именем `google/diffusiongemma-26B-A4B-it`.
Большинство современных языковых моделей авторегрессионны: они генерируют текст по одному токену слева направо, и каждый следующий токен зависит от предыдущего. DiffusionGemma работает иначе — она создаёт целые блоки текста одновременно, параллельно. На специализированных GPU это даёт ускорение генерации до 4 раз.
Контекст и данные
DiffusionGemma — это модель класса Mixture of Experts (MoE) на 26 млрд параметров, из которых во время инференса активируется лишь около 3,8 млрд. Она построена на архитектурном «костяке» Gemma 4 (вариант 26B-A4B), к которому добавлена диффузионная «голова». Модель мультимодальна: на вход она принимает чередующиеся текст, изображения и видео, а на выходе генерирует текст. Контекстное окно — 256 тысяч токенов, поддерживается более 140 языков. В квантованном виде модель умещается в 18 ГБ видеопамяти, что вписывается в рамки топовых потребительских видеокарт. На одной NVIDIA H100 она выдаёт более 1000 токенов в секунду, а на NVIDIA GeForce RTX 5090 — более 700.
Механику текстовой диффузии Google позаимствовала у генераторов изображений, которые стартуют с «визуального шума» и итеративно уточняют картинку. DiffusionGemma начинает с «холста» из случайных токенов-заполнителей, делает по нему несколько проходов, фиксируя наиболее уверенные токены и используя их как контекст, — и текст постепенно «проявляется». Сам механизм Google называет Uniform State Diffusion. За один прямой проход модель финализирует примерно 15–20 токенов на холсте из 256.
Важное отличие — двунаправленное внимание во время «расшумления»: каждый токен на холсте может «смотреть» на любой другой, тогда как авторегрессионные модели видят только предыдущие токены. Это позволяет модели исправлять себя в реальном времени: если уверенность в токене падает, сэмплер может «зашумить» его заново и заменить на следующем проходе. Для длинных ответов применяется блочно-авторегрессионная диффузия: завершённый блок из 256 токенов фиксируется в KV-кэше, после чего начинается новый холст с учётом предыдущей истории.
Google прямо говорит о компромиссе. DiffusionGemma делает ставку на скорость и параллельную генерацию, но по общему качеству вывода уступает стандартной Gemma 4 — по всем опубликованным бенчмаркам она ниже. Для задач, где важно максимальное качество, компания по-прежнему рекомендует авторегрессионную Gemma 4. Показательный пример — головоломки судоку: базовая DiffusionGemma решает практически 0% задач, но после простого дообучения её точность поднимается до 80%, причём модель ещё и раньше останавливается, экономя шаги инференса.
С технической стороны выигрыш достигается за счёт более полной загрузки «железа». На этапе предзаполнения (prefill) модель использует причинное внимание, чтобы прочитать запрос и записать KV-кэш, а на этапе расшумления переключается на двунаправленное внимание, чтобы уточнять холст. Именно это чередование режимов вместе с параллельной обработкой 256-токенного холста и даёт прирост пропускной способности: вместо ожидания памяти ускоритель получает большой параллельный объём вычислений. Поддерживается и формат NVFP4 (4-битная плавающая точка) с практически без потерь точностью, что помогает уместить модель в скромные по меркам дата-центров 18 ГБ видеопамяти.
Релиз сопровождается широкой экосистемой инструментов «из коробки». Помимо нативной поддержки в vLLM, модель работает в Transformers, MLX и Unsloth, для дообучения доступен рецепт на JAX, а развернуть её можно через Google Cloud Model Garden или NVIDIA NIM. Такой день-в-день готовый стек снижает порог входа: разработчику в основном нужно реализовать шаг расшумления, а остальная интеграция в существующие фреймворки обслуживания остаётся привычной.
Что дальше
DiffusionGemma нацелена не на универсальное продакшн-качество, а на конкретные сценарии: строчное редактирование и достройку кода, быстрые итерации в интерактивных циклах разработки, анализ длинных документов, OCR и разбор сканов, вызовы инструментов и агентные рабочие процессы, а также «ограниченную» генерацию вроде судоку или математических структур. Один нюанс важен для всех этих кейсов: ускорение рассчитано на локальный инференс с низкой конкурентностью. В облачном обслуживании с высоким числом запросов в секунду авторегрессионные модели эффективно загружают вычисления, и там выигрыш от параллельного декодирования уменьшается, а издержки могут расти.
Не менее значимо то, что DiffusionGemma стала, по заявлению авторов, первой диффузионной языковой моделью с нативной поддержкой в vLLM; работа с ней также возможна через Transformers, MLX и Unsloth. Открытые веса и день-в-день готовая экосистема превращают этот релиз в удобную площадку для исследователей и разработчиков, которым важны скорость, низкая задержка и контроль над локальными рабочими процессами.
Чем принципиально отличается DiffusionGemma от обычных языковых моделей?
Станет ли текстовая диффузия мейнстримом для языковых моделей?
Практический разбор рынка без шума. Делюсь тем, что торгую сам, объясняю логику и помогаю понимать контекст.




