North-Mini-Code: il modello open di Cohere per il codice

Nella corsa ai modelli aperti per la programmazione si è inserito anche un nome storico dell'IA enterprise: Cohere. Il suo braccio di ricerca, Cohere Labs, ha pubblicato su Hugging Face North-Mini-Code 1.0, un modello a pesi aperti da circa 30 miliardi di parametri con architettura «mixture of experts», pensato espressamente per scrivere codice e per alimentare agenti software. La scelta più importante è la licenza: Apache 2.0, una delle più permissive, che consente l'uso commerciale senza vincoli particolari. È una mossa che riporta Cohere — finora concentrata su clienti aziendali con modelli chiusi — nel campo dell'open source.

Un modello "piccolo" ma specializzato

Il nome «Mini» va inquadrato nel contesto attuale, dove i modelli di frontiera superano i mille miliardi di parametri. Con 30 miliardi di parametri totali e un'architettura mixture of experts — che attiva solo una parte della rete a ogni richiesta — North-Mini-Code punta a un equilibrio tra capacità e costi di esecuzione. L'obiettivo non è competere sul ragionamento generale con i colossi, ma offrire un assistente di codice efficiente, eseguibile su hardware ragionevole e integrabile in flussi di lavoro automatizzati. Le etichette con cui Cohere lo descrive — «chat», «code», «agent» — chiariscono la vocazione: completamento e revisione del codice, generazione di funzioni, uso di strumenti all'interno di pipeline agentiche.

North-Mini-Code è ottimizzato per il completamento, la revisione del codice e gli agenti software.

Come provarlo: dalla demo all'esecuzione locale

Anche in questo caso il modo più immediato per testarlo è la demo online: Cohere Labs ha pubblicato uno «Space» su Hugging Face dove si può interagire con il modello dal browser, senza installare nulla. È utile per valutarne lo stile delle risposte su qualche prompt di codice prima di impegnarsi nel download.

Per usarlo in locale servono Python e, data la dimensione, una GPU con memoria adeguata (l'esecuzione in precisione ridotta riduce i requisiti; in alternativa si possono usare versioni quantizzate quando disponibili). Lo schema di base con la libreria transformers è il seguente:

# Installazione delle dipendenze
pip install transformers torch accelerate huggingface_hub

# Scaricamento dei pesi
huggingface-cli download CohereLabs/North-Mini-Code-1.0 --local-dir north-mini-code

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "CohereLabs/North-Mini-Code-1.0"
tok = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto")

messaggi = [{"role": "user",
    "content": "Scrivi una funzione Python che valida un IBAN italiano e restituisce True/False."}]
inputs = tok.apply_chat_template(messaggi, add_generation_prompt=True, return_tensors="pt").to(model.device)
out = model.generate(inputs, max_new_tokens=400)
print(tok.decode(out[0][inputs.shape[-1]:], skip_special_tokens=True))

Il risultato atteso è una funzione Python completa per la validazione dell'IBAN, con i controlli sulla lunghezza e sul carattere di controllo. Chi preferisce non gestire l'infrastruttura può servirsi della piattaforma di Cohere e delle relative API, oppure caricare il modello in motori di inferenza come vLLM per servirlo in modo efficiente a più utenti.

Perché un modello così conta

North-Mini-Code si inserisce in un filone preciso del 2026: quello dei modelli aperti, medio-piccoli e specializzati nel codice, che affiancano i giganti generalisti. JetBrains ha aperto Mellum, NVIDIA ha rilasciato la famiglia Nemotron, i laboratori cinesi sfornano modelli da codice a ripetizione. La ragione è semplice: per molte aziende un assistente di programmazione non deve essere onnisciente, deve essere veloce, economico ed eseguibile sui propri server, dove il codice proprietario non lascia il perimetro. La licenza Apache 2.0 rende North-Mini-Code adatto proprio a questo, ed è il motivo per cui, pur essendo «mini», merita un posto nella cassetta degli attrezzi di chi sviluppa.