ZAYA1-8B: l'IA aperta addestrata su GPU AMD

C'e' un dettaglio che rende ZAYA1-8B diverso da quasi tutti gli altri modelli usciti finora: non e' stato addestrato su GPU NVIDIA. La startup Zyphra ha rilasciato all'inizio di maggio 2026 questo modello aperto, il primo di classe avanzata addestrato interamente sullo stack hardware, software e di rete di AMD. Un fatto tecnico che ha un peso strategico enorme.

ZAYA1-8B e' scaricabile gratuitamente da Hugging Face sotto licenza Apache 2.0, quindi utilizzabile anche in ambito commerciale. Ma la notizia vera, oltre alle sue prestazioni, e' la dimostrazione che si puo' costruire un modello competitivo senza dipendere dall'ecosistema NVIDIA.

Perche' contano le GPU AMD

Praticamente tutti i grandi modelli di IA degli ultimi anni sono stati addestrati su GPU NVIDIA, grazie soprattutto a CUDA, il software che ha reso quelle schede lo standard di fatto. Questo ha creato una dipendenza quasi totale dell'intero settore da un unico fornitore, con tempi di attesa lunghi e prezzi altissimi.

ZAYA1 e' stato pre-addestrato su un cluster di 1.024 nodi AMD Instinct MI300X, con interconnessione AMD Pensando Pollara, su un'infrastruttura costruita insieme a IBM. Dimostrare che la pipeline completa - dal calcolo alla rete - funziona su AMD apre una via alternativa: piu' concorrenza sull'hardware significa, potenzialmente, costi piu' bassi e meno colli di bottiglia per chi addestra modelli.

760 milioni di parametri attivi, prestazioni da modello grande

ZAYA1-8B e' un modello "mixture of experts": ha circa 8,3 miliardi di parametri totali ma ne attiva solo 760 milioni per ogni token generato. In pratica, lavora con un costo di calcolo simile a quello di un modello piccolo, pur attingendo alla conoscenza di uno piu' grande. Nonostante questa leggerezza, su diversi benchmark di terze parti resta competitivo con modelli ben piu' esigenti e arriva a eguagliare risultati di riferimento in matematica con meno di un miliardo di parametri attivi.

Per chi ha bisogno di un modello efficiente da far girare a basso costo, soprattutto su compiti di ragionamento, e' un compromesso molto interessante tra qualita' e consumo di risorse.

ZAYA1 e' il primo modello avanzato addestrato interamente su stack AMD.

Le tre novita' di architettura

Zyphra ha introdotto tre innovazioni interessanti per gli addetti ai lavori. La prima e' la Compressed Convolutional Attention (CCA), che esegue il mixing della sequenza in uno spazio latente compresso e riduce di circa otto volte la dimensione della cache KV: ottimo per il contesto lungo. La seconda e' un router MLP multi-strato al posto del classico router lineare dei modelli MoE, piu' espressivo nello smistare i token agli "esperti". La terza, il Router Replay, "fissa" durante l'addestramento le scelte degli esperti per stabilizzare l'apprendimento.

Sono dettagli tecnici, ma raccontano una tendenza: l'efficienza, piu' che la dimensione bruta, e' diventata il terreno di innovazione piu' fertile.

Come scaricarlo e provarlo

Per chi vuole solo testarlo, Zyphra offre un endpoint gratuito sulla sua piattaforma cloud. Per usarlo in locale o sui propri server, il modello si scarica da Hugging Face. L'esecuzione richiede, al momento, i fork dedicati di Zyphra delle librerie vLLM o Transformers. Con vLLM, ad esempio:

# installa il fork con il supporto a ZAYA1
pip install "vllm @ git+https://github.com/Zyphra/vllm.git@zaya1-pr"

# avvia il server di inferenza
vllm serve Zyphra/ZAYA1-8B --port 8010   --dtype bfloat16 --reasoning-parser qwen3   --enable-auto-tool-choice --tool-call-parser zaya_xml

In alternativa, con il fork di Transformers si caricano tokenizer e modello con AutoTokenizer e AutoModelForCausalLM, mappando il modello sulla GPU. Un esempio di prompt di prova:

Risolvi passo passo: un treno percorre 240 km in 3 ore, poi 180 km in 2 ore. Qual e' la velocita' media sull'intero tragitto?

Trattandosi di un modello di ragionamento, ci si aspetta che mostri i passaggi (distanza totale 420 km, tempo totale 5 ore, media 84 km/h) prima della risposta finale.

ZAYA1 non e' un modello pensato per il grande pubblico: richiede competenze tecniche per essere messo in produzione. Ma per ricercatori, sviluppatori e aziende interessati a un'IA efficiente, aperta e indipendente da un singolo fornitore di hardware, e' uno dei rilasci piu' significativi del 2026.