Google ha rilasciato il 10 giugno 2026 DiffusionGemma, il primo modello a pesi aperti della sua famiglia Gemma a generare testo con la tecnica della diffusione invece del classico metodo «parola dopo parola». Distribuito con licenza Apache 2.0 su Hugging Face, Kaggle e Vertex AI, promette una generazione fino a quattro volte più veloce a parità di qualità. È un modello che puoi scaricare ed eseguire da solo, gratis, sul tuo hardware: vediamo cos'è e come provarlo.

Cosa significa «generare testo per diffusione»

I modelli linguistici tradizionali sono autoregressivi: producono un token alla volta, ognuno condizionato dai precedenti. È come scrivere una frase parola dopo parola senza poter tornare indietro. DiffusionGemma adotta invece la diffusione discreta, l'idea che ha rivoluzionato la generazione di immagini: parte da una «tela» di testo rumorosa — nel caso base 256 token — e la ripulisce progressivamente, in parallelo, fino a far emergere il testo finale. Poiché i token vengono raffinati tutti insieme a ogni passo, anziché uno per volta, la generazione può essere molto più rapida.

Il modello si chiama tecnicamente google/diffusiongemma-26B-A4B-it: è costruito sull'architettura mixture-of-experts (MoE) di Gemma 4 con 26 miliardi di parametri totali ma solo circa 4 miliardi attivi per token (la sigla A4B), il che lo rende più leggero da eseguire di quanto suggerisca il numero complessivo.

La diffusione raffina in parallelo tutti i token, invece di generarli uno per uno.

Di quale hardware hai bisogno

Qui sta il punto pratico. I pesi a 26 miliardi di parametri in precisione BF16 occupano circa 52 GB di VRAM: troppi per una singola GPU consumer. Ci sono però vie d'uscita concrete:

  • Quantizzazione INT8: scende a circa 28 GB, sufficienti per una GPU professionale come una L40S da 48 GB.
  • Build quantizzate dalla comunità: esistono già versioni GGUF e NVFP4 che abbassano ulteriormente il fabbisogno di memoria.
  • Supporto in arrivo per llama.cpp, che permetterà l'esecuzione anche su configurazioni più modeste e su CPU.

Per chi non ha hardware adeguato, la strada più semplice resta provarlo via API su Vertex AI o noleggiare una GPU cloud a ore.

Come scaricarlo ed eseguirlo con vLLM

Il modo più rapido per metterlo in funzione in locale è vLLM, che avvia un server compatibile con le API di OpenAI. Servono Python e una GPU adeguata:

pip install vllm

# Avvia un server locale che scarica i pesi da Hugging Face
vllm serve google/diffusiongemma-26B-A4B-it

Il server resta in ascolto su http://localhost:8000. A quel punto puoi interrogarlo con una normale chiamata in stile OpenAI:

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/diffusiongemma-26B-A4B-it",
    "messages": [{"role": "user", "content": "Spiega in tre frasi cos\u0027e\u0027 un modello a diffusione."}]
  }'

In alternativa, il modello è supportato anche da Hugging Face Transformers (con una classe di generazione dedicata alla diffusione), MLX per i Mac con Apple Silicon, Unsloth e NVIDIA NeMo. Un parametro chiave è num_diffusion_steps, che bilancia qualità e velocità: per la maggior parte degli usi il punto d'equilibrio sta tra 12 e 20 passi.

Con vLLM bastano due comandi per avviare un server locale compatibile con le API OpenAI.

Per chi è utile e quando conviene

DiffusionGemma non è (ancora) un modello pensato per chi vuole semplicemente chattare: è uno strumento per ricercatori e sviluppatori che vogliono sperimentare un paradigma alternativo agli LLM autoregressivi, magari per compiti dove la velocità di generazione è critica o per studiare le proprietà della diffusione sul testo. Il fatto che sia a pesi aperti e con licenza permissiva lo rende interessante per chi ha bisogno di eseguire tutto in locale — per ragioni di privacy, costi o personalizzazione — e per chi vuole fare fine-tuning su dati propri. Se cerchi invece il miglior chatbot generalista pronto all'uso, le opzioni commerciali restano più comode; ma come segnale di dove sta andando la ricerca, DiffusionGemma è uno dei rilasci più interessanti del momento.