Google ha rilasciato il 2 aprile 2026 Gemma 4, la nuova generazione dei suoi modelli "aperti": pesi scaricabili gratuitamente, sotto licenza Apache 2.0, utilizzabili anche a fini commerciali senza limiti sul numero di utenti. E' la risposta di Google al successo dei modelli aperti cinesi e di Llama, e arriva con un argomento forte: piccola taglia, grandi prestazioni.
Il bello dei modelli aperti e' proprio questo: non servono abbonamenti ne' chiavi API, i dati restano sul proprio computer e si puo' adattare il modello alle proprie esigenze. Gemma 4 punta a essere l'opzione piu' versatile, perche' copre tutto lo spettro dei dispositivi.
Quattro modelli, dal telefono alla workstation
La famiglia Gemma 4 si declina in quattro varianti. Le due piu' leggere, E2B (circa 2 miliardi di parametri effettivi) ed E4B (circa 4 miliardi), sono pensate per smartphone e dispositivi edge e supportano anche l'input audio per il riconoscimento vocale. Salendo, c'e' un modello 26B a "mixture of experts" che ne attiva solo 3,8 miliardi alla volta - pensato per le GPU di fascia consumer - e infine il 31B "dense", il piu' potente, per workstation.
Tutti i modelli sono multimodali: elaborano nativamente immagini e video a risoluzione variabile, oltre al testo. Il contesto arriva a 128K token sui modelli edge e fino a 256K sui piu' grandi, e il supporto copre oltre 140 lingue, italiano compreso.
Cosa dicono i benchmark
Il modello 31B si posiziona al terzo posto nella classifica testuale di Arena AI e, secondo Google, "supera modelli venti volte piu' grandi" nel rapporto prestazioni/parametri. Tra i risultati citati: 85,2% su MMLU Pro, 89,2% su AIME 2026 (matematica) e 80,0% su LiveCodeBench v6 per il coding. Numeri che, per un modello che gira su una singola workstation, sono notevoli e lo rendono competitivo con alternative ben piu' esose da far funzionare.
La vera forza di Gemma 4, pero', e' la combinazione: e' l'unica famiglia che copre dal telefono al server con licenza pienamente permissiva, senza vincoli sul numero di utenti attivi. Per chi costruisce prodotti, e' un dettaglio che fa la differenza.
Come scaricarlo e farlo girare in locale
Il modo piu' semplice e' usare Ollama, uno strumento gratuito che gestisce download ed esecuzione dei modelli con un solo comando. Dopo averlo installato dal sito ufficiale, basta aprire il terminale e digitare:
# scarica e avvia il modello (taglia adatta a un PC con ~8 GB di RAM/VRAM)
ollama run gemma4:4b
# per chi ha una buona GPU (24 GB) e vuole il modello piu' potente
ollama run gemma4:27b
In alternativa, gli sviluppatori possono scaricare i pesi da Hugging Face o Kaggle e usarli con framework come vLLM, llama.cpp o, nel cloud, su Google Vertex AI. Indicativamente: la variante E4B gira bene su un portatile con 8 GB di memoria; il 26B MoE chiede una GPU con almeno 16-24 GB; il 31B dense e' pensato per workstation con GPU ad alta capacita'.
Un esempio pratico e i limiti
Una volta avviato, si puo' iniziare a chattare direttamente nel terminale. Per esempio:
Riassumi in cinque punti questo testo e poi traducilo in inglese: [incolla qui un articolo].
Il modello restituisce il riassunto puntato e la traduzione, il tutto senza inviare nulla in rete. Sui modelli che lo supportano si possono anche allegare immagini per farle descrivere o analizzare.
I limiti vanno conosciuti: un modello che gira su hardware domestico resta meno capace dei grandi modelli cloud sui compiti piu' difficili, e le prestazioni dipendono molto dalla RAM/VRAM disponibile. Ma per privacy, costi azzerati e possibilita' di personalizzazione, Gemma 4 e' oggi uno dei punti di partenza migliori per portare l'IA sul proprio computer. E' anche un'ottima base per il fine-tuning, l'addestramento su dati propri, grazie alla licenza aperta.




