MiniMax, il laboratorio cinese con sede a Shanghai, ha completato il rilascio del suo modello M3: dopo l'annuncio iniziale del 1 giugno 2026, attorno al 10-11 giugno sono arrivati i pesi aperti e il report tecnico su Hugging Face e GitHub, rendendolo finalmente scaricabile ed eseguibile da chiunque. E' uno dei modelli open piu' ambiziosi dell'anno, e vale la pena capire cosa offre e come provarlo.

Un milione di token e un'architettura piu' efficiente

La caratteristica che salta all'occhio e' la finestra di contesto da 1 milione di token: significa poter dare in pasto al modello interi repository di codice, raccolte di documenti o lunghe conversazioni senza spezzarli. M3 combina questa capacita' con prestazioni di coding di frontiera e comprensione multimodale (immagini e video) in un'unica architettura.

Il cuore tecnico e' la cosiddetta architettura MSA, che secondo MiniMax taglia drasticamente il calcolo necessario sui contesti lunghi: circa un ventesimo del calcolo a 1 milione di token rispetto alla generazione precedente, con un prefill oltre 9 volte piu' rapido e una decodifica oltre 15 volte piu' veloce. Sono numeri che, se confermati, rendono economicamente sostenibile lavorare su contesti enormi.

L'architettura MSA punta a ridurre drasticamente il calcolo sui contesti molto lunghi.

Benchmark dichiarati: promesse forti, verifica necessaria

MiniMax sostiene che M3 raggiunga il 59,0% su SWE-Bench Pro, un test di software engineering molto usato, superando — a detta dell'azienda — modelli proprietari di punta come GPT-5.5 e Gemini 3.1 Pro, e che ottenga 83,5 su BrowseComp. Sono affermazioni notevoli, ma vanno prese per quello che sono: benchmark dichiarati dal produttore, che al momento del lancio non erano stati verificati in modo indipendente. La regola d'oro resta provarlo sul proprio caso d'uso reale.

Quanto costa e come usarlo

Al lancio, M3 e' stato listato su OpenRouter a circa 0,60 dollari per milione di token in ingresso e 2,40 dollari in uscita, con uno sconto promozionale del 50% che portava i prezzi a circa 0,30 e 1,20 dollari. Oltre i 512.000 token di input si passa a una fascia di prezzo superiore, dedicata al contesto molto lungo. Il modello e' accessibile tramite l'API di MiniMax, l'agente MiniMax Code, i piani a token e i servizi di routing di terze parti come OpenRouter; chi vuole l'autonomia totale puo' scaricare i pesi da Hugging Face.

Per provarlo via OpenRouter con l'SDK di OpenAI bastano poche righe (verificate lo slug esatto del modello nel catalogo di OpenRouter):

from openai import OpenAI

client = OpenAI(
    api_key="LA_TUA_CHIAVE_OPENROUTER",
    base_url="https://openrouter.ai/api/v1",
)

resp = client.chat.completions.create(
    model="minimax/minimax-m3",  # verifica lo slug sul catalogo OpenRouter
    messages=[{"role": "user", "content": "Riassumi in 5 punti i rischi di questo contratto: ..."}],
)
print(resp.choices[0].message.content)

Il caso d'uso ideale e' proprio questo: incollare documenti molto lunghi (contratti, codice, manuali) e chiedere analisi, riassunti o modifiche sfruttando la finestra da un milione di token.

Conviene scaricarlo o usarlo via API?

Eseguire M3 in locale richiede hardware serio: parliamo di un modello di grandi dimensioni che, per girare con prestazioni decenti, ha bisogno di server multi-GPU, non di un PC domestico. Per la maggior parte delle persone la via dell'API e' piu' pratica ed economica. L'opzione dei pesi aperti ha senso soprattutto per aziende che vogliono il controllo totale sui dati o per chi fa ricerca. In ogni caso, l'arrivo di un modello open con contesto da un milione di token e prezzi cosi' bassi alza ancora l'asticella per i fornitori proprietari.