Tra i tanti modelli open-weight usciti dalla Cina in questa primavera, MiniMax M3 ha un tratto che lo distingue: e' nativamente multimodale e gestisce un contesto enorme con un'efficienza fuori dal comune. Rilasciato il 1 giugno 2026 dal laboratorio di Shanghai MiniMax e poi accompagnato da una scheda su Hugging Face e da un report tecnico, e' uno dei modelli aperti piu' interessanti da provare oggi, soprattutto per chi costruisce agenti.
Cosa sa fare MiniMax M3
Sul piano architetturale, M3 e' un modello Mixture-of-Experts con circa 428 miliardi di parametri totali e circa 23 miliardi attivi per ogni passaggio: questo gli permette di avere la "conoscenza" di un modello enorme pagando, in inferenza, solo una piccola parte del costo. Accetta in input testo, immagini e video, supporta ragionamento, uso di strumenti (tool use), function calling e caching dei prompt. La vera firma e' la MiniMax Sparse Attention (MSA), l'architettura di attenzione sparsa che rende economico arrivare fino a un milione di token di contesto - utile per analizzare interi codebase, raccolte di documenti o lunghe conversazioni di un agente.
Sui benchmark, MiniMax dichiara un 59,0% su SWE-Bench Pro, un risultato che supererebbe sia GPT-5.5 sia Gemini 3.1 Pro su questo specifico test di ingegneria del software. Come sempre, vanno presi con prudenza i numeri del produttore, ma indicano un modello competitivo nei compiti di coding agentico.
Come provarlo subito via API
Il modo piu' rapido per usare M3 senza hardware dedicato e' l'API ufficiale, compatibile con lo stile OpenAI, oppure un aggregatore come OpenRouter. Ecco una chiamata di esempio in Python che usa la libreria openai puntandola all'endpoint di MiniMax:
from openai import OpenAI
client = OpenAI(
api_key="LA_TUA_API_KEY",
base_url="https://api.minimax.io/v1",
)
resp = client.chat.completions.create(
model="MiniMax-M3",
messages=[
{"role": "system", "content": "Sei un assistente tecnico conciso."},
{"role": "user", "content": "Riassumi in 5 punti i rischi di un RAG su documenti riservati."},
],
)
print(resp.choices[0].message.content)
Il risultato atteso e' un elenco puntato di cinque rischi (perdita di dati, prompt injection, allucinazioni su fonti, permessi, conservazione). Sostituendo il messaggio con un'immagine codificata in base64 e' possibile sfruttare la parte multimodale; la documentazione ufficiale mostra il formato esatto del campo per immagini e video.
Self-hosting: serve hardware serio
Scaricare i pesi e ospitarlo in casa e' possibile ma non banale: 428 miliardi di parametri in precisione piena occupano centinaia di gigabyte, quindi servono configurazioni multi-GPU di fascia datacenter o quantizzazioni aggressive. Il modello e' pubblicato su Hugging Face come MiniMaxAI/MiniMax-M3 sotto la MiniMax Community License ed e' servibile con i motori piu' diffusi. Un avvio tipico con vLLM:
# scarica i pesi
huggingface-cli download MiniMaxAI/MiniMax-M3 --local-dir ./minimax-m3
# servilo con vLLM (richiede piu' GPU)
vllm serve ./minimax-m3 --tensor-parallel-size 8 --max-model-len 200000
In alternativa esistono SGLang e Transformers. Per la stragrande maggioranza degli utenti, pero', la scelta sensata resta l'API gestita: si paga a consumo e si evita il salasso dell'infrastruttura. Il consiglio pratico e' partire dall'API per prototipare, misurare i costi reali sul proprio caso d'uso e valutare il self-hosting solo se i volumi sono altissimi o se i requisiti di privacy lo impongono.
Quando ha senso sceglierlo
MiniMax M3 e' una buona opzione quando servono multimodalita' nativa (immagini e video), contesti lunghissimi a costo contenuto e la liberta' tipica di un modello aperto. Per chi cerca il massimo nel coding puro, modelli come GLM-5.2 o gli specialisti di Moonshot restano riferimenti; per chi vuole un solo modello che legga documenti, guardi immagini e ragioni su contesti immensi senza far esplodere la bolletta, M3 e' tra i candidati piu' solidi del momento.




