DiffusionGemma: il modello a diffusione di Google, gratis

Google DeepMind ha rilasciato il 10 giugno 2026 DiffusionGemma, un modello aperto e sperimentale che genera testo in un modo radicalmente diverso dagli altri: non parola dopo parola, ma per "diffusione", raffinando l'intero testo in piu' passaggi. Il risultato e' una velocita' fino a quattro volte superiore rispetto ai modelli tradizionali a parita' di hardware, con un consumo di memoria piu' contenuto. I pesi sono su Hugging Face sotto licenza permissiva Apache 2.0, quindi liberamente scaricabili e utilizzabili anche in progetti commerciali.

E' una mossa che punta dritto al cuore del problema dei modelli locali: la lentezza. Se mantiene le promesse, DiffusionGemma potrebbe cambiare l'economia dell'IA che gira sul proprio PC, rendendo pratici usi finora frustranti per via dell'attesa.

Cos'e' la diffusione testuale e perche' e' piu' veloce

I modelli linguistici classici sono "autoregressivi": producono una parola alla volta, ognuna basata su quelle precedenti. E' un collo di bottiglia intrinseco, perche' i token non si possono calcolare in parallelo. La diffusione, tecnica nata per generare immagini, ribalta l'approccio: si parte da una "tela" di token casuali e segnaposto, si fanno piu' passaggi sull'intera sequenza, fissando a ogni giro i token ad alta confidenza e usandoli come contesto, finche' il testo converge nella versione finale.

Il vantaggio e' che ampie porzioni del testo vengono elaborate insieme, sfruttando meglio il parallelismo delle GPU. Lo svantaggio storico - una qualita' inferiore - e' proprio cio' che Google sostiene di aver ridotto, costruendo DiffusionGemma sulla spina dorsale del gia' collaudato Gemma 4.

Su una RTX 5090 DiffusionGemma supererebbe i 700 token al secondo.

I numeri: 26 miliardi di parametri, 3,8 attivi

DiffusionGemma e' un modello Mixture of Experts nella configurazione 26B-A4B: 26 miliardi di parametri totali, ma solo circa 3,8 miliardi attivati a ogni inferenza. Questo lo rende sorprendentemente leggero da eseguire rispetto alla sua dimensione nominale. Sui numeri di velocita', le cifre diffuse parlano di oltre 1.000 token al secondo su una singola GPU NVIDIA H100 e di oltre 700 token al secondo su una GeForce RTX 5090, la scheda di punta per il mercato consumer. Su hardware professionale come DGX Spark si arriva intorno ai 150 token al secondo con la massima ottimizzazione, valori che per un modello locale sono notevoli.

Come provarlo: da Hugging Face a build.nvidia.com

Il modo piu' rapido per toccarlo con mano senza installare nulla e' la piattaforma build.nvidia.com, dove NVIDIA ha pubblicato un playground pronto all'uso. Per chi vuole farlo girare in locale, il modello e' su Hugging Face come google/diffusiongemma-26B-A4B-it, con una variante quantizzata nvidia/diffusiongemma-26B-A4B-it-NVFP4 ottimizzata per le GPU RTX. Il supporto e' "day zero" su Hugging Face Transformers e su vLLM per il serving ad alto throughput; per llama.cpp e quindi per i runtime piu' leggeri il supporto e' in arrivo.

Ecco un esempio minimale con Transformers in Python:

pip install -U transformers accelerate torch

from transformers import pipeline

gen = pipeline(
    "text-generation",
    model="google/diffusiongemma-26B-A4B-it",
    device_map="auto",
)

out = gen("Spiega in tre frasi cos'e' la diffusione testuale.", max_new_tokens=160)
print(out[0]["generated_text"])

Per il serving ad alte prestazioni, vLLM offre un percorso piu' adatto alla produzione:

pip install vllm
vllm serve google/diffusiongemma-26B-A4B-it

Sul fronte requisiti, la versione NVFP4 e' pensata per girare su una RTX 5090 o su DGX Spark "out of the box": serve quindi una GPU recente con diversi GB di VRAM. Su macchine piu' modeste conviene attendere il supporto a llama.cpp e le quantizzazioni piu' aggressive.

Pesi su Hugging Face sotto licenza Apache 2.0: scaricabili e usabili anche commercialmente.

A cosa serve davvero (e dove non usarlo)

Il punto di forza di DiffusionGemma e' la latenza: scenari come l'autocompletamento, la riscrittura di testi, le risposte di un assistente locale o le pipeline che generano molti output brevi possono trarne un beneficio tangibile, perche' la velocita' si traduce in reattivita'. Per chi sviluppa applicazioni offline o sensibili alla privacy, avere un modello aperto e veloce sul proprio hardware e' un vantaggio competitivo.

Restano i limiti da tenere a mente: e' un modello sperimentale, l'ecosistema di strumenti attorno alla diffusione testuale e' ancora giovane rispetto a quello autoregressivo, e per compiti di ragionamento lungo e complesso i modelli di frontiera restano un riferimento. Ma come segnale di direzione, DiffusionGemma e' importante: dice che la velocita' dei modelli locali puo' ancora crescere di molto, e lo fa con codice e pesi aperti a tutti. Le specifiche citate provengono dalle fonti ufficiali e tecniche linkate; le prestazioni reali dipendono dall'hardware.