Nemotron 3 Nano Omni: modello IA open di NVIDIA in locale

NVIDIA ha rilasciato Nemotron 3 Nano Omni, un modello di intelligenza artificiale open (a pesi aperti) che unifica testo, immagini, video e audio dentro una sola architettura. Il dato che lo rende interessante per chi vuole usare l'IA «in casa»: ha 30 miliardi di parametri totali ma ne attiva solo 3 miliardi per ogni token, e può girare con circa 25 GB di RAM, alla portata di una workstation o di un buon PC con GPU.

Cos'è e perché è diverso

Nemotron 3 Nano Omni usa un'architettura ibrida Mamba-Transformer con tecnica «Mixture-of-Experts» (MoE): invece di accendere tutta la rete a ogni richiesta, ne attiva solo una piccola porzione specializzata, riducendo drasticamente il costo di calcolo. Il risultato, secondo NVIDIA, è una velocità fino a 9 volte superiore rispetto ad altri modelli «omni» open su carichi come l'analisi di documenti e video lunghi. È un modello pensato per gli agenti: capire un PDF, ascoltare un audio, guardare un video e ragionarci sopra, il tutto localmente.

Il modello è multimodale: comprende testo, immagini, audio e video in un'unica rete.

Dove si trova e quanto costa

Il modello è gratuito e disponibile in tre modi:

Su Hugging Face, dove si scaricano direttamente i pesi (repository nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16).
Su OpenRouter, dove è offerto in modalità gratuita per provarlo via API senza installare nulla.
Su build.nvidia.com, come microservizio NIM pronto all'uso per chi lavora in azienda.

Requisiti pratici: per eseguirlo in locale serve una GPU con almeno ~25-32 GB di memoria (oppure RAM di sistema abbondante con esecuzione più lenta su CPU). Su schede consumer di fascia alta è gestibile; per usi seri conviene una GPU dati o il cloud.

Come scaricarlo ed eseguirlo, passo per passo

1) Installa gli strumenti di Hugging Face e scarica i pesi:

pip install -U "huggingface_hub[cli]" transformers accelerate
huggingface-cli download nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16 --local-dir ./nemotron-omni

2) Per servirlo via API in modo efficiente, l'opzione consigliata è vLLM (gestisce bene i modelli MoE):

pip install vllm
vllm serve nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16   --max-model-len 32768   --port 8000

3) A questo punto interroghi il modello come una normale API in stile OpenAI:

curl http://localhost:8000/v1/chat/completions   -H "Content-Type: application/json"   -d '{
    "model": "nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16",
    "messages": [{"role": "user", "content": "Riassumi in 5 punti i vantaggi di un modello MoE."}]
  }'

Il risultato atteso è una risposta in italiano con un elenco puntato sui vantaggi (minor costo di calcolo, scalabilità, specializzazione degli «esperti», ecc.). Se preferisci non installare nulla, puoi puntare la stessa chiamata su OpenRouter, sostituendo l'indirizzo locale con l'endpoint del servizio e aggiungendo la tua chiave.

Con vLLM si serve il modello in locale esponendo un'API compatibile con lo standard OpenAI.

Quando ha senso usarlo (e quando no)

Nemotron 3 Nano Omni brilla quando servono privacy e costi prevedibili: documenti riservati, audio aziendali, video da analizzare senza inviarli a un cloud esterno. È un'ottima base per costruire agenti multimodali interni. Non è invece la scelta giusta se cerchi la massima qualità sul ragionamento difficile o la conoscenza enciclopedica più aggiornata: lì i modelli di frontiera (Gemini, GPT, Claude) restano avanti. La sua forza è il rapporto tra capacità e leggerezza, e il fatto di essere completamente aperto, ispezionabile e personalizzabile sui propri dati — un vantaggio concreto per chi, in Italia, ha vincoli normativi o di sovranità del dato.