Mistral Medium 3.5: il nuovo modello francese da 128B

Mistral AI ha pubblicato il 29 aprile il Mistral Medium 3.5, un modello da 128 miliardi di parametri con finestra di contesto fino a 256.000 token, pesi aperti sotto licenza MIT modificata e prezzo API a 1,50 dollari per milione di token in ingresso e 7,50 in uscita. Insieme al modello, l'azienda francese ha rilasciato due novita' che cambiano il modo di lavorare con il suo stack: il Work Mode dentro Le Chat e gli agenti remoti per il coding nel prodotto Vibe.

L'ecosistema europeo ha guadagnato cosi' un coltellino svizzero molto piu' simile a quello di Anthropic Claude o OpenAI Agents Platform che ai concorrenti tradizionali su pesi aperti come Llama 3.5.

I numeri di Medium 3.5

Medium 3.5 non e' il piu' grande modello di Mistral (Large 3 resta tale) ma e' progettato per offrire il miglior rapporto qualita'/costo della famiglia. Punti chiave dichiarati:

128B parametri totali, architettura densa Transformer (non Mixture-of-Experts).
256k token di contesto, abbastanza per progetti di media dimensione caricati per intero.
Reasoning effort configurabile per richiesta: si puo' chiedere risposta rapida o ragionamento esteso multi-step, con costi diversi.
Vision encoder integrato, accetta immagini come input.
SWE-Bench Verified 77,6%, secondo benchmark dichiarati da Mistral: in linea con i top model open sui task di coding agentico.

I pesi sono distribuiti su Hugging Face sotto licenza «MIT modificata» - significa uso commerciale libero per la maggior parte dei casi, con clausole specifiche sulla competizione diretta che Mistral spinge per i grandi cloud.

Vibe: gli agenti coder ora vivono nel cloud

Vibe e' il prodotto Mistral per il coding agentico, alternativa europea a Claude Code e Cursor. La novita' del 29 aprile e' che gli agenti possono essere eseguiti in modo asincrono nel cloud Mistral: si avvia una sessione dal CLI o da Le Chat e l'agente continua a girare anche con la finestra chiusa, mantenendo lo stato e la storia delle modifiche.

Il flusso e' questo:

L'utente apre una sessione in Vibe sul proprio progetto.
Avvia un compito complesso, ad esempio «migra il backend da Express a Fastify, mantieni il comportamento dei test».
Sposta la sessione in cloud con il comando vibe remote.
Chiude il laptop; quando torna, l'agente ha gia' completato il lavoro o segnala domande in sospeso.

Si possono eseguire piu' agenti in parallelo, una scelta che ricorda da vicino Anthropic Code SDK con i Managed Agents. Una differenza rilevante e' la possibilita' di portare lo stesso codice e lo stesso prompt fra esecuzione locale e cloud senza riconfigurare nulla.

Gli agenti Vibe ora si spostano fra locale e cloud preservando contesto e stato.

Work Mode in Le Chat

Su Le Chat, il chatbot consumer di Mistral, e' arrivato il Work Mode: una modalita' che permette all'agente di eseguire workflow multi-step sopra strumenti collegati - per ora GitHub, Jira, Slack, Google Drive, Notion. L'esempio fatto da Mistral: chiedere «crea una nota di riunione, mandala su Slack al team backend, e apri un'issue su Jira con i punti aperti». L'agente fa il giro completo, chiedendo conferma all'utente prima di azioni sensibili come post pubblici o cancellazioni.

E' lo stesso approccio dell'Agentic Mode di ChatGPT e del «Computer Use» di Claude, ma con un'attenzione particolare alla compliance europea: data residency in Europa, log auditabili, possibilita' di disattivare per dominio. Una promessa che ha gia' attirato il primo gruppo di clienti corporate francesi e tedeschi.

Come provarli

Piano gratuito

Le Chat con Work Mode e' disponibile su chat.mistral.ai: registrazione gratuita, limite di messaggi al giorno generoso. Il Work Mode richiede di collegare i propri account (GitHub, ecc.) e di approvare l'accesso. Per il Pro - che alza i limiti e abilita le sessioni piu' lunghe in Work Mode - costa 14,99 euro al mese.

API

Medium 3.5 e' su api.mistral.ai. Chiamata di base in Python (con mistralai):

from mistralai import Mistral

client = Mistral(api_key="YOUR_KEY")
resp = client.chat.complete(
    model="mistral-medium-2509",
    messages=[{"role": "user", "content": "Scrivi un test pytest per la funzione X"}],
    reasoning="low",  # oppure "medium"/"high"
)
print(resp.choices[0].message.content)

Self-hosted

Per chi ha cluster GPU propri, Mistral indica un setup minimo di 4 GPU H100 (o 2 GPU H200) per servire Medium 3.5 con throughput ragionevole. I pesi sono mistral-medium-3.5-instruct su Hugging Face e si caricano in vLLM con:

vllm serve mistralai/Mistral-Medium-3.5-Instruct \
  --tensor-parallel-size 4 --max-model-len 262144

Quanto e' competitivo

Sul costo, Medium 3.5 e' piu' caro di GPT-4o mini e Gemini Flash, ma molto piu' economico di GPT-5.5 e Claude Opus. Per casi d'uso enterprise dove il vincolo e' la residenza dei dati in Europa, e' realmente competitivo: in molti scenari diventa la scelta «ovvia» per banche, sanita' e PA che non possono spedire dati negli Stati Uniti. Sul piano delle prestazioni pure, su SWE-Bench tiene il passo dei rivali grandi; sulla scrittura creativa e in italiano resta un gradino sotto Claude e GPT, ma il gap si e' assottigliato.

Il pezzo piu' interessante della release, in chiave strategica, e' Vibe con gli agenti remoti: e' il primo prodotto di un laboratorio europeo che gioca alla pari con Claude Code e con OpenAI Codex sul terreno del coding agentico, e lo fa con pesi aperti che le aziende possono ispezionare e auto-ospitare. Per chi sviluppa software in Europa, e' un cambio di disponibilita' notevole.