Mentre la concorrenza si misura a colpi di benchmark generalisti, Moonshot AI ha scelto la specializzazione. Il 12 giugno 2026 il laboratorio cinese ha rilasciato Kimi K2.7-Code, un modello open-weight pensato specificamente per il coding agentico: non solo scrivere codice, ma pianificare, eseguire e correggere attraverso lunghe sequenze di passaggi, come fa un agente che lavora dentro un progetto reale.

Un colosso che attiva poco

K2.7-Code adotta un'architettura Mixture-of-Experts con 1.000 miliardi di parametri totali ma soli 32 miliardi attivi per token: la solita ricetta per avere enorme capacita' senza pagare un costo di inferenza proporzionale. Costruito a partire da Kimi K2.6, porta miglioramenti sostanziali sui compiti di coding "a lungo orizzonte" e - dettaglio importante per i costi - usa circa il 30% in meno di token di ragionamento rispetto al predecessore. Meno token bruciati per arrivare alla soluzione significa risposte piu' rapide e fatture piu' leggere.

Sui test interni, Moonshot dichiara un +21,8% su Kimi Code Bench v2, un +11,0% su Program Bench e un +31,5% su MLS Bench Lite rispetto alla versione precedente. Il modello e' distribuito su Hugging Face come moonshotai/Kimi-K2.7-Code con una licenza MIT modificata, ed e' disponibile anche tramite la piattaforma e le API ufficiali di Kimi.

K2.7-Code e' ottimizzato per agenti che pianificano ed eseguono compiti di programmazione. Foto: Pexels.

Come usarlo via API

Il modo piu' immediato e' l'API di Moonshot, compatibile con il formato OpenAI. Ecco un esempio in Python che chiede al modello di correggere una funzione:

from openai import OpenAI

client = OpenAI(
    api_key="LA_TUA_API_KEY",
    base_url="https://api.moonshot.ai/v1",
)

prompt = """Questa funzione Python va in errore con liste vuote.
Correggila e spiega in una riga la causa.

def media(valori):
    return sum(valori) / len(valori)"""

resp = client.chat.completions.create(
    model="kimi-k2.7-code",
    messages=[{"role": "user", "content": prompt}],
)
print(resp.choices[0].message.content)

Il risultato atteso e' una versione corretta che gestisce la lista vuota (per esempio restituendo 0 o sollevando un errore esplicito) piu' una breve spiegazione della divisione per zero. Lo stesso endpoint si integra con gli assistenti di coding da terminale e con gli editor che accettano un endpoint OpenAI-compatibile, sostituendo base_url e model.

Scaricarlo in locale: la prova dei 340 GB

L'etichetta "open" non deve ingannare sui requisiti. Un modello da mille miliardi di parametri, anche quantizzato, occupa centinaia di gigabyte: le stime parlano di circa 340 GB per le versioni piu' compresse, ben oltre la portata di un PC domestico. Il download dei pesi si fa cosi':

huggingface-cli download moonshotai/Kimi-K2.7-Code --local-dir ./kimi-k2-7-code

Per servirlo servono motori come vLLM o SGLang su hardware multi-GPU. Per chi non ha un piccolo datacenter sotto la scrivania, la via realistica e' l'API ufficiale o un provider che lo ospita. La funzione di dialogo sui contenuti video, segnala Moonshot, e' sperimentale e per ora supportata solo tramite l'API ufficiale.

A chi conviene

Kimi K2.7-Code e' interessante soprattutto per chi costruisce agenti di sviluppo - sistemi che leggono un repository, propongono modifiche, eseguono test e iterano - e vuole un modello aperto specializzato, con un occhio all'efficienza dei token. Per compiti generalisti o multimodali, modelli come MiniMax M3 o GLM-5.2 restano alternative valide. Ma se l'obiettivo e' un assistente di coding instancabile e a basso costo per token, vale la pena metterlo alla prova accanto ai modelli commerciali a cui siete abituati: il confronto, oggi, e' molto piu' serrato di quanto si pensi.