Tencent ha rilanciato la sua famiglia di modelli Hunyuan con HY3 Preview, il primo grande modello uscito dopo la ricostruzione della sua infrastruttura di IA. È un modello «mixture of experts» da circa 295 miliardi di parametri totali, con ~21 miliardi attivi per token e finestra di contesto da 256 mila token. Reso disponibile a fine aprile 2026 con pesi aperti su Hugging Face e GitHub, nelle settimane successive ha visto crescere rapidamente l'uso e l'integrazione nei prodotti del gruppo.
Cosa promette HY3 Preview
Tencent lo descrive come il modello più capace della serie Hunyuan finora, con un'architettura di ragionamento «fusa» che integra pensiero veloce e pensiero lento: in pratica decide quanto «ragionare» a seconda del compito. I punti su cui l'azienda insiste sono tre:
- Ragionamento complesso: buoni risultati su benchmark STEM impegnativi e su prove di tipo olimpiadico (matematica, biologia).
- Capacità agentiche e prestazioni in produzione: la capacità di portare avanti flussi di lavoro agentici lunghi — nell'ordine delle centinaia di passi — con elaborazione di documenti, analisi dati, recupero di conoscenza e orchestrazione di strumenti via protocollo MCP. Tencent rivendica miglioramenti sensibili su tempo al primo token e tempo di risposta end-to-end e una percentuale di successo molto alta nelle sue misurazioni interne.
- Integrazione nei prodotti: HY3 Preview è già finito dentro applicazioni Tencent come l'assistente Yuanbao, gli strumenti per sviluppatori CodeBuddy e WorkBuddy, ima e Tencent Docs.
Il messaggio — tipico di questa fase del mercato — è che a contare non sono solo i punteggi dei benchmark ma il comportamento in scenari reali, soprattutto agentici.

Come usarlo
Anche qui vale l'avvertenza di sempre: un modello da 295B non è per il PC di casa: servono più GPU di fascia data center per servirlo a una velocità accettabile. Per chi ha l'infrastruttura, i pesi sono su Hugging Face (tencent/Hy3-preview) e il codice di esempio su GitHub (Tencent-Hunyuan/Hy3-preview); il deployment si fa con i soliti motori di inferenza (vLLM e simili). Per scaricarlo:
pip install -U "huggingface_hub[cli]"
huggingface-cli download tencent/Hy3-preview --local-dir ./hy3-preview
La via comoda per quasi tutti è di nuovo l'API: HY3 Preview è offerto da diversi provider di inferenza con prezzi indicativi nell'ordine di pochi centesimi di dollaro per milione di token in input e qualche decina di centesimi in output (verificare i listini al momento, perché cambiano spesso), oltre a essere accessibile dentro i prodotti consumer di Tencent. Esempio di chiamata via endpoint compatibile OpenAI:
from openai import OpenAI
client = OpenAI(base_url="https://API-DEL-PROVIDER/v1", api_key="LA_TUA_CHIAVE")
r = client.chat.completions.create(
model="hunyuan-hy3-preview",
messages=[{"role":"user","content":"Hai a disposizione gli strumenti 'cerca_web' e 'leggi_file'. Pianifica i passi per riassumere un PDF di 50 pagine e poi confrontarlo con due fonti online."}]
)
print(r.choices[0].message.content)
Risultato atteso: un piano numerato — lettura ed estrazione del PDF a blocchi, sintesi parziali, ricerca delle fonti, confronto, sintesi finale — con indicazione di quando invocare ciascuno strumento. È il tipo di compito su cui Tencent ha tarato il modello.
Per chi ha senso
HY3 Preview interessa chi costruisce agenti e pipeline complesse e cerca un modello aperto, con contesto ampio e buone capacità di orchestrazione, da auto-ospitare o da usare via provider a costo contenuto. È un'alternativa diretta a Kimi K2.6, GLM-5.1, DeepSeek V4 e MiMo-V2.5: la scelta dipenderà da benchmark sul proprio caso d'uso, costi del provider e considerazioni su filtro dei contenuti e conformità. Per l'uso personale in locale restano invece più adatti i modelli da 7-14 miliardi di parametri con strumenti come Ollama.




