Agenti di coding: la nuova corsa tra i laboratori IA

Nel giro di due settimane di giugno 2026, gli agenti che scrivono ed eseguono codice sono diventati il vero campo di battaglia dell'intelligenza artificiale. OpenAI ha acquisito Ona per far girare Codex nel cloud, Moonshot ha rilasciato un modello specializzato nel codice, MiniMax ha aperto i pesi di un modello che dice di battere i big sui benchmark di software engineering, e xAI ha presentato un proprio agente da riga di comando. Quattro mosse diverse, un'unica direzione: trasformare l'IA da assistente che suggerisce a collaboratore che porta a termine il lavoro.

Vale la pena fermarsi ad analizzare cosa e' cambiato davvero, al di la' degli annunci, e cosa conta per chi scrive software ogni giorno.

Dal completamento del codice all'esecuzione autonoma

Per anni gli strumenti di IA per programmatori hanno fatto sostanzialmente una cosa: suggerire la riga o la funzione successiva, come un autocompletamento molto bravo. Il salto del 2026 e' un altro: l'agente riceve un obiettivo ("sistema questo bug", "aggiungi questa funzione", "migra questo modulo") e lo esegue da solo, leggendo il repository, modificando i file, lanciando i test e proponendo una pull request.

L'acquisizione di Ona da parte di OpenAI fotografa esattamente questo passaggio. Il problema non e' piu' la qualita' del codice generato, ma l'esecuzione: serve un ambiente sicuro dove l'agente possa lavorare per ore senza restare legato al computer dell'utente. OpenAI ha dichiarato che oltre 5 milioni di persone usano Codex ogni settimana, in crescita del 400% rispetto a inizio anno. Chi sa eseguire, non solo proporre, conquista le aziende.

La competizione si e' spostata dal suggerire codice all'eseguire compiti interi in autonomia.

I laboratori cinesi attaccano sul prezzo e sull'open source

Mentre OpenAI integra l'infrastruttura, i laboratori cinesi giocano un'altra carta: prezzo e apertura. Moonshot ha rilasciato il 12 giugno Kimi K2.7-Code, un modello da mille miliardi di parametri specializzato nel codice, con pesi aperti su Hugging Face e tariffe API molto basse. MiniMax ha pubblicato i pesi di M3, sostenendo di superare modelli proprietari di punta su SWE-Bench Pro a una frazione del costo. Sono affermazioni in parte ancora da verificare in modo indipendente — diversi addetti ai lavori invitano alla prudenza sui benchmark dichiarati dai produttori — ma la traiettoria e' chiara: un'ondata di modelli per il codice potenti, economici e spesso scaricabili.

Per chi sviluppa, e' una pressione al ribasso sui prezzi che si scarica su tutti i fornitori, occidentali compresi. E l'opzione open consente alle aziende di far girare gli agenti sui propri server, dove dati e codice non escono dal perimetro.

Cosa conta davvero per chi scrive software

Dietro la rincorsa agli annunci, per un team di sviluppo i fattori decisivi sono pochi e concreti. Il primo e' l'affidabilita' dell'esecuzione: un agente che completa nove compiti su dieci ma sbaglia il decimo in modo silenzioso e' piu' pericoloso di uno meno automatico ma prevedibile. Il secondo e' il controllo: poter rivedere e approvare le modifiche, far girare l'agente nel proprio ambiente, sapere quando chiede conferma prima di un'azione irreversibile. Il terzo e' il costo totale, che non si misura solo sul prezzo per token ma sui token effettivamente consumati per portare a termine un compito.

Proprio su quest'ultimo punto si gioca una partita sottile: alcuni dei nuovi modelli puntano a ridurre i token di ragionamento a parita' di risultato, perche' un agente che "pensa" meno ma decide bene costa meno a ogni esecuzione. La competizione, insomma, non e' solo su chi e' piu' intelligente, ma su chi e' piu' efficiente.

Una bolla di annunci o un cambio strutturale?

La sovrapposizione di tante uscite ravvicinate puo' dare l'impressione di un eccesso di hype. Ma sotto c'e' un cambiamento strutturale reale: il software comincia a essere scritto, testato e mantenuto in collaborazione con agenti che lavorano in autonomia per ore. Le conseguenze non sono solo tecniche. Cambiano il modo di organizzare i team, il ruolo dello sviluppatore — sempre piu' revisore e architetto, sempre meno dattilografo di codice — e l'economia stessa della produzione di software.

Il consiglio pratico, per ora, e' duplice: sperimentare presto questi strumenti su compiti reali ma circoscritti, per capirne limiti e affidabilita'; e progettare i propri flussi in modo da non dipendere da un solo fornitore, perche' in un mercato che si muove cosi' in fretta — e dove, come ha mostrato il caso di un grande laboratorio costretto a sospendere i suoi modelli, anche la disponibilita' non e' garantita — la portabilita' vale quanto la potenza.

Analisi basata sugli annunci ufficiali dei laboratori citati e su fonti giornalistiche e tecniche indipendenti, incrociate per verificare cifre e affermazioni.