GLM-5.2 batte GPT-5.5 a un sesto del costo

Il divario tra i modelli IA "chiusi" delle big tech americane e i modelli aperti che chiunque puo' scaricare si sta assottigliando in fretta, e a guidare il sorpasso e' ancora una volta la Cina. Il 16 giugno 2026 il laboratorio di Pechino Z.ai (l'ex Zhipu AI) ha rilasciato GLM-5.2, un modello open-weight da 753 miliardi di parametri distribuito con la permissiva licenza MIT e con una finestra di contesto da un milione di token. La notizia non e' solo che esiste: e' che su diversi benchmark di programmazione batte GPT-5.5 di OpenAI, costando una frazione.

I numeri che fanno discutere

Sul SWE-bench Pro, uno dei test piu' citati per misurare la capacita' di risolvere problemi software reali, GLM-5.2 segna 62,1 contro il 58,6 di GPT-5.5. Su FrontierSWE arriva al 74,4% superando il 72,6% del modello OpenAI. E nell'indice composito Artificial Analysis Intelligence Index (versione 4.1) ottiene un punteggio di 51, il piu' alto tra i modelli open-weight, davanti a MiniMax-M3 (44), DeepSeek V4 Pro (44) e Kimi K2.6 (43). Un'analisi indipendente della societa' di sicurezza Semgrep ha inoltre riferito che, sui propri benchmark di cybersicurezza, GLM-5.2 supera persino i modelli di Anthropic. Ma il dato che pesa di piu' nelle decisioni aziendali e' un altro: secondo Z.ai, ottenere queste prestazioni costa circa un sesto rispetto a un modello di frontiera commerciale.

GLM-5.2 supera GPT-5.5 su SWE-bench Pro: 62,1 contro 58,6. Foto: Pexels.

Cosa c'e' sotto il cofano: l'idea di IndexShare

Dietro l'efficienza c'e' un'innovazione architetturale chiamata IndexShare. In estrema sintesi, GLM-5.2 riutilizza lo stesso "indicizzatore" dell'attenzione sparsa attraverso gruppi di quattro livelli, riducendo i calcoli (le FLOP) per ogni token di circa 2,9 volte quando si lavora al contesto massimo di un milione di token. Tradotto: il modello riesce a gestire input lunghissimi - interi repository di codice, contratti, manuali - senza che il costo computazionale esploda come accadrebbe con l'attenzione tradizionale. E' lo stesso tipo di ottimizzazione su cui stanno puntando praticamente tutti i laboratori, qui pero' messa a disposizione in un modello scaricabile da chiunque.

Il rovescio della medaglia: provare a farlo girare in casa

C'e' un grande "ma". Open-weight non vuol dire "leggero": 753 miliardi di parametri sono un macigno. Per eseguire GLM-5.2 davvero in locale servono configurazioni multi-GPU di fascia datacenter e, anche con la quantizzazione, quantita' di memoria fuori portata per il singolo sviluppatore. Per questo, nella pratica, la maggior parte degli utenti lo usera' tramite servizi gestiti: il modello e' disponibile su Hugging Face, e' richiamabile via API su piattaforme come OpenRouter o direttamente dall'API di Z.ai, ed e' integrabile in chi offre hosting di modelli aperti. Il vantaggio resta enorme per chi vuole controllo, privacy o sovranita' sui dati: poter scaricare i pesi significa poter affinare il modello sui propri dati e ospitarlo dove si vuole.

Perche' conta per l'Europa

La parabola di GLM-5.2 racconta due cose. La prima e' che il vantaggio dei laboratori americani sui modelli di frontiera, soprattutto nel coding, non e' piu' incolmabile e che la pressione sui prezzi arrivera' da Oriente. La seconda riguarda l'Europa: in un continente che discute di autonomia tecnologica, l'esistenza di modelli aperti e potenti come quelli cinesi e' un'arma a doppio taglio. Da un lato offre alternative concrete alla dipendenza dai fornitori statunitensi e una base su cui costruire soluzioni sovrane; dall'altro sposta semplicemente la dipendenza verso Pechino, con tutte le implicazioni - sicurezza, governance dei dati, fiducia - che ne derivano. La vera domanda, per Bruxelles e Roma, e' se sapranno produrre qualcosa di altrettanto competitivo, o se si limiteranno a scaricare i pesi degli altri.