NVIDIA ha presentato il 31 maggio 2026, alla vigilia di Computex e del GTC Taipei, Cosmos 3: un modello-fondazione aperto per la physical AI, cioe' l'intelligenza artificiale che deve funzionare nel mondo reale invece che dentro una chat. E' lo strumento con cui NVIDIA vuole accelerare lo sviluppo di robot, veicoli a guida autonoma e sistemi di visione, e arriva con una caratteristica che lo rende interessante per chiunque sviluppi: i pesi sono aperti e scaricabili.

Che cosa fa Cosmos 3 (e perche' e' diverso da un chatbot)

Cosmos 3 e' quello che NVIDIA chiama un "omnimodello": un unico sistema, costruito su un'architettura mixture-of-transformers, che combina tre capacita' di solito separate — ragionamento visivo, generazione del mondo e predizione dell'azione. In pratica puo' funzionare come modello visione-linguaggio (capisce e descrive una scena), come world model (genera video realistici di ambienti e situazioni) e come spina dorsale per i modelli che decidono le azioni di un robot.

Il problema che risolve e' molto concreto. Addestrare un robot o un'auto a comportarsi bene nel mondo fisico richiede una quantita' enorme di dati: ogni situazione rara — un pedone che attraversa col rosso, un oggetto che cade da uno scaffale — andrebbe vista migliaia di volte. Raccoglierle tutte nel mondo reale e' costoso e pericoloso. Cosmos 3 genera dati sintetici realistici per allenare questi sistemi, riducendo i cicli di addestramento e valutazione da mesi a giorni. E' addestrato, spiega NVIDIA, su uno dei piu' grandi dataset multimodali di physical AI mai assemblati: miliardi di campioni tra testo, immagini, video, suoni ambientali e traiettorie di azione.

Cosmos 3 genera dati sintetici per insegnare ai robot a percepire, pianificare e agire.

Le tre versioni e i benchmark

La famiglia si articola su tre tagli, per usi diversi:

  • Cosmos 3 Super — la versione completa, con la massima accuratezza fisica, pensata per l'addestramento in data center e la simulazione ad alta fedelta';
  • Cosmos 3 Nano — piu' leggero ed efficiente, capace di produrre ragionamento su video e azioni in frazioni di secondo;
  • Cosmos 3 Edge — per l'inferenza in tempo reale direttamente a bordo dei dispositivi, in arrivo prossimamente.

Sui benchmark, NVIDIA rivendica il primo posto tra i modelli aperti su diverse classifiche: Physics-IQ, PAI-Bench e R-Bench per la generazione del mondo, RoboLab e RoboArena per le politiche di azione, VANTAGE-Bench e TAR per la comprensione visiva. "La famiglia Cosmos 3 di omnimodelli aperti e di frontiera offre agli sviluppatori un salto generazionale nella capacita' di costruire robot, veicoli autonomi e IA visiva che percepiscono, ragionano, pianificano e agiscono nel mondo fisico", ha dichiarato il fondatore e CEO Jensen Huang.

Come provarlo e scaricarlo

Cosmos 3 e' disponibile da subito su piu' canali, pensati sia per chi vuole solo provarlo sia per chi deve metterlo in produzione:

  • Playground online: il modo piu' rapido per testarlo senza installare nulla e' la piattaforma build.nvidia.com, dove si possono inviare prompt e vedere i risultati nel browser.
  • Pesi aperti: i modelli si scaricano da Hugging Face e il codice per la personalizzazione e la generazione di dati sintetici e' su GitHub.
  • Deploy gestito: per le aziende ci sono i microservizi NVIDIA NIM e i partner cloud (tra cui CoreWeave, Microsoft Azure, Baseten, Nebius).

Un esempio tipico d'uso: uno sviluppatore di robotica fornisce a Cosmos 3 una breve descrizione testuale e un'immagine iniziale dell'ambiente — ad esempio "un magazzino con scaffali alti e un carrello elevatore che svolta a sinistra" — e il modello genera sequenze video coerenti di quella scena da molteplici angolazioni, da usare per allenare il sistema di percezione del robot. Lo stesso flusso, ripetuto su migliaia di variazioni, crea il dataset sintetico che servirebbe mesi a raccogliere sul campo.

La Cosmos Coalition e cosa aspettarsi

Insieme al modello, NVIDIA ha lanciato la Cosmos Coalition, un'alleanza con laboratori e aziende di robotica tra cui Agile Robots, Black Forest Labs, Generalist, LTX, Runway e Skild AI, per spingere lo sviluppo dei modelli del mondo aperti. E' un segnale di strategia: dopo aver dominato l'hardware per l'IA, NVIDIA punta a diventare anche il fornitore dei modelli-fondazione per il mondo fisico, lasciandoli aperti per allargare l'ecosistema attorno alle proprie GPU. Per gli sviluppatori italiani che lavorano in robotica, automazione industriale o automotive, e' uno strumento gratuito da provare oggi stesso: il barriera d'ingresso non e' piu' il modello, ma il calcolo per addestrarlo e farlo girare.