Al GTC Taipei, durante Computex 2026, NVIDIA ha completato la sua famiglia di modelli linguistici aperti con il tassello piu' grande: Nemotron 3 Ultra, un modello da circa 500 miliardi di parametri pensato per il ragionamento avanzato, la pianificazione e i flussi di lavoro agentici. Dopo le versioni Nano e Super, presentate tra fine 2025 e la primavera, Ultra e' la "punta di diamante" della linea Nemotron e arriva con un messaggio chiaro: si puo' avere un modello da frontiera senza chiuderlo dietro un'API proprietaria.

Cosa c'e' dentro Nemotron 3 Ultra

Ultra e' un modello a "mixture of experts" (MoE): pur avendo circa 500 miliardi di parametri totali, ne attiva solo una frazione — fino a circa 50 miliardi — per ogni token generato. E' il trucco architetturale che permette di avere la conoscenza di un modello enorme con il costo di calcolo di uno molto piu' piccolo. NVIDIA dichiara una finestra di contesto da 1 milione di token, oltre 300 token al secondo in generazione, fino a 5 volte piu' velocita' di inferenza e circa il 30% di costi in meno rispetto ad alternative comparabili.

La famiglia Nemotron 3 si articola cosi':

  • Nano (circa 30 miliardi di parametri, fino a 3 attivi) per i carichi leggeri ed edge;
  • Super (circa 100 miliardi, fino a 10 attivi) per le applicazioni enterprise di fascia media;
  • Ultra (circa 500 miliardi, fino a 50 attivi) per ragionamento e agenti complessi.

Il posizionamento e' esplicito: sono modelli ottimizzati per costruire sistemi agentici, cioe' IA che pianificano ed eseguono compiti in piu' passaggi con poca supervisione umana. "L'innovazione aperta e' il fondamento del progresso dell'IA", ha detto Jensen Huang presentando la linea: "con Nemotron stiamo trasformando l'IA avanzata in una piattaforma aperta che da' agli sviluppatori la trasparenza e l'efficienza necessarie per costruire sistemi agentici su scala".

Nemotron 3 Ultra usa un'architettura MoE: 500 miliardi di parametri, ma solo ~50 attivi per token.

Perche' contano i modelli aperti di NVIDIA

La famiglia Nemotron ha superato i 50 milioni di download nell'anno fino ad aprile 2026. Il motivo del successo e' strategico: a NVIDIA non interessa vendere l'accesso ai modelli, ma vendere le GPU su cui i modelli girano. Rilasciare modelli aperti competitivi alimenta l'ecosistema, spinge le aziende a comprare hardware NVIDIA per addestrarli e personalizzarli, e crea un'alternativa "occidentale" ai potentissimi modelli aperti cinesi — DeepSeek, Qwen, GLM, Kimi — che nel 2026 hanno conquistato gran parte del download su Hugging Face.

Come provarlo: API, download e provider

Ci sono tre strade per mettere le mani su Nemotron 3 Ultra, a seconda di cosa serve:

  1. Provarlo nel browser: su build.nvidia.com si possono inviare prompt al modello e ottenere una chiave API per integrarlo nelle proprie applicazioni.
  2. Scaricare i pesi: i modelli Nemotron 3 sono pubblicati su Hugging Face e distribuibili tramite i microservizi NVIDIA NIM per chi vuole tenerli in casa.
  3. Usarli via provider di inferenza: il modello e' servito da piattaforme come OpenRouter, Together AI, Fireworks, Baseten e DeepInfra, comode per chi vuole pagare a consumo senza gestire l'infrastruttura.

L'API di NVIDIA e' compatibile con lo standard OpenAI, quindi integrarla in un progetto esistente richiede poche righe. Un esempio in Python con la libreria openai puntata all'endpoint di NVIDIA:

from openai import OpenAI

client = OpenAI(
    base_url="https://integrate.api.nvidia.com/v1",
    api_key="LA_TUA_CHIAVE_NVIDIA",
)

resp = client.chat.completions.create(
    model="nvidia/nemotron-3-ultra",
    messages=[{"role": "user",
               "content": "Pianifica in 5 passi una pipeline di analisi dati per un e-commerce."}],
    temperature=0.6,
)
print(resp.choices[0].message.content)

Il risultato atteso e' un piano dettagliato e strutturato in passaggi, con il modello che esplicita il proprio ragionamento — il punto di forza per cui Nemotron 3 e' pensato. Per chi sviluppa agenti, la combinazione tra contesto da 1 milione di token, pesi aperti e prezzi bassi e' esattamente l'argomento che NVIDIA voleva portare a Computex.