Il 3 giugno 2026 Google ha rilasciato Gemma 4 12B, un modello di intelligenza artificiale aperto e multimodale capace di comprendere testo, immagini, audio e video all'interno di un'unica architettura — e progettato per girare su un comune portatile dotato di 16GB di RAM o memoria video. È un tassello importante della scommessa di Google: portare modelli vicini alla frontiera direttamente sul dispositivo dell'utente, senza passare dal cloud.

La sigla “12B” indica i 12 miliardi di parametri. La vera novità tecnica, però, è l'architettura unificata senza encoder separati: immagini e audio entrano direttamente nel cuore del modello linguistico, senza reti di codifica dedicate. Il risultato è un sistema più snello, con una finestra di contesto da 256.000 token e prestazioni che, secondo Google, si avvicinano a quelle della variante da 26 miliardi di parametri pur usando circa metà della memoria. La famiglia Gemma, lanciata nel 2024, è la controparte “aperta” dei modelli Gemini, quelli che Google tiene invece chiusi e accessibili solo via cloud.

I numeri: benchmark e licenza Apache 2.0

Sui test di riferimento, Gemma 4 12B segna 78,8 su GPQA Diamond (ragionamento di livello universitario), 94,9% su DocVQA e 88,4% su InfoVQA (comprensione di documenti), 69,1% su MMMU Pro e 77,5% su AIME 2026, con un 79,7% su MATH-Vision. Numeri solidi per un modello che gira in locale, soprattutto sulla comprensione di documenti e immagini, dove storicamente i modelli piccoli faticano.

Il punto forse più rilevante è la licenza Apache 2.0: chiunque può scaricare, modificare e usare il modello anche a fini commerciali, senza restrizioni. I pesi sono disponibili su Hugging Face e su Kaggle, e launcher come Ollama e LM Studio lo supportano già. Pochi giorni dopo, il 5 giugno, Google ha aggiunto le versioni QAT (quantizzate), ottimizzate per mobile e portatili a basso consumo.

Gemma 4 12B gira in locale e si scarica con un solo comando.

Come scaricarlo e provarlo con Ollama

Il modo più rapido per provarlo è Ollama, un programma gratuito che gestisce i modelli in locale. Dopo averlo installato dal sito ufficiale, apri il terminale e digita:

ollama run gemma4:12b

Al primo avvio Ollama scarica il modello (alcuni gigabyte); poi puoi conversare direttamente da terminale. Prova un prompt come:

Spiega in 5 punti, in italiano semplice, come funziona la fotosintesi a un ragazzo di 12 anni.

Il modello risponderà in pochi secondi, interamente sul tuo computer, senza inviare nulla in rete. Per scaricare i pesi grezzi dall'hub — utile a chi vuole integrarli in un proprio programma — si usa invece l'interfaccia di Hugging Face:

huggingface-cli download google/gemma-4-12b

Chi preferisce un'interfaccia grafica può usare LM Studio: si cerca “gemma 4” nella libreria, si scarica con un clic e si chatta in una finestra simile a quella di ChatGPT, sempre offline.

Requisiti hardware e a chi conviene

Per far girare la versione 12B servono circa 16GB tra RAM e memoria video; le versioni quantizzate QAT abbassano ulteriormente l'asticella, rendendo possibile l'uso anche su macchine più modeste e su alcuni dispositivi mobili. Chi ha un portatile recente con una buona scheda grafica integrata, o un Mac con chip Apple Silicon, dovrebbe riuscire a usarlo senza problemi; su computer più vecchi conviene partire dalle versioni quantizzate, più leggere.

A chi conviene? A sviluppatori e aziende che vogliono un modello capace e gratuito da integrare nei propri prodotti, ma anche a chiunque desideri un assistente IA che funzioni offline, per ragioni di privacy o di costo. Gemma 4 si inserisce in un panorama affollato di modelli aperti — dai cinesi DeepSeek e Qwen a Mistral — ma il marchio Google, la multimodalità nativa e la licenza permissiva lo rendono una delle opzioni più interessanti del momento per chi vuole sperimentare l'IA in locale.