Transformers v5.8: DeepSeek V4 e Gemma 4 sulla libreria HF

La libreria transformers di Hugging Face - il motore che muove la maggior parte dell'inferenza open in Python - e' arrivata alla versione 5.8.0. Il rilascio porta dentro la libreria il supporto nativo a quattro modelli che da soli rappresentano un pezzo molto importante della corsa open di questo 2026: DeepSeek V4 (cinese), Gemma 4 Assistant (di Google), Granite 4.1 Vision e Granite Speech Plus (IBM), EXAONE 4.5 (LG AI Research). Tre dei quattro hanno pesi pubblici scaricabili gratuitamente; uno - DeepSeek V4 - e' disponibile sia in versione base aperta sia in versione Pro a pagamento.

Per chi sviluppa con Python e fa girare modelli in locale o su server propri, l'aggiornamento e' rilevante: i nuovi modelli non andranno piu' caricati con codice custom, ma direttamente con AutoModelForCausalLM.from_pretrained() usando i nomi ufficiali. La libreria gestisce anche i tokenizer dedicati, le ottimizzazioni di attenzione e la compatibilita' con accelerate per distribuire i pesi su piu' GPU.

I quattro modelli supportati

DeepSeek V4 e' la nuova generazione del laboratorio cinese, gia' analizzata su queste pagine la scorsa settimana. La libreria supporta sia DeepSeek-V4 (pesi aperti, dense + MoE) sia DeepSeek-V4-Pro (solo via API per ora). Da Python si carica con: AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-V4", torch_dtype=torch.bfloat16, device_map="auto"). Servono almeno 80 GB di VRAM per la versione 32B dense; meno per la quantizzata FP8.

Gemma 4 Assistant e' una variante di Gemma 4 ottimizzata per il dialogo multi-turn e per l'uso come assistente generalista. Differisce dalla base Gemma 4 per il post-training su istruzioni e per il tool use nativo: il modello sa chiamare funzioni esterne nel formato richiesto dalla libreria. Pesi su huggingface.co/google con licenza Gemma.

Granite 4.1 Vision e Granite Speech Plus sono i nuovi modelli enterprise di IBM. Vision e' un VLM che eccelle sui documenti complessi (fatture, contratti, schemi tecnici), Speech Plus e' un modello di ASR multilingue ottimizzato per il rumore di sfondo industriale. Entrambi rilasciati con licenza Apache 2.0.

EXAONE 4.5 di LG AI Research e' la prima open-weight vision-language di LG: 33 miliardi di parametri (di cui 1,2 miliardi dell'encoder visivo), contesto fino a 256K token, eccellente sui documenti coreani e generale - utile per chi lavora sulla compliance documentale aziendale.

Come aggiornare e provare

L'aggiornamento e' immediato:

pip install -U transformers accelerate torch

Per verificare:

python -c "import transformers; print(transformers.__version__)"

Dovrebbe stampare 5.8.0 o superiore. Per un test rapido con Gemma 4 Assistant:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "google/gemma-4-assistant-9b-it"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id, torch_dtype=torch.bfloat16, device_map="auto"
)

messages = [{"role": "user", "content": "Riassumi i punti principali dell'AI Act in 5 righe."}]
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True).to(model.device)
out = model.generate(inputs, max_new_tokens=300)
print(tokenizer.decode(out[0][inputs.shape[1]:], skip_special_tokens=True))

Il modello da 9B funziona su una scheda con 24 GB di VRAM (RTX 4090, RTX 5080). Per le versioni piu' grandi servono server con A100 o H100 o l'uso dell'inference endpoint di Hugging Face.

La libreria transformers e' uno standard de facto per usare i modelli open in Python. Foto: Christina Morillo / Pexels.

Cosa significa per il mercato

L'arrivo di tre modelli non-statunitensi (DeepSeek cinese, EXAONE coreano, Granite IBM) nello stesso rilascio e' significativo. La libreria transformers ha visto nel 2025 un cambio strutturale di domanda: dalla supremazia americana di Llama si e' passati a un panorama dove i pesi piu' scaricati arrivano da Cina (DeepSeek-R1 e' il modello piu' popolare di Hugging Face nel 2025), Corea (EXAONE), Francia (Mistral) e altri. La quota dei modelli cinesi sul totale dei download e' arrivata al 41%.

Sul lato pratico, per le aziende italiane questo significa avere a scaffale, in un'unica libreria, modelli con regole di licenza molto diverse: aperti, restrittivi, commerciali, vincolati a uso non-commerciale. Una buona pratica e' usare il file model card di ogni modello prima di metterlo in produzione: ci sono i termini di uso, i risultati sui benchmark, i bias noti.

Bug fix e ottimizzazioni

La 5.8 risolve anche bug noti sul caricamento di pesi quantizzati con bitsandbytes, sui tokenizer dei modelli MoE e sull'attenzione paged. Per chi usa Transformers su Apple Silicon (M3, M4) e' arrivato il supporto sperimentale a torch.compile su MPS: in pratica, il modello su MacBook Pro 36 GB gira il 20-30% piu' veloce. Anche per chi serve modelli con text-generation-inference o vLLM ci sono adattamenti che ne migliorano la stabilita'.

La libreria resta uno snodo: il modo piu' veloce per provare a freddo un nuovo modello e' caricarlo con Transformers. Ed e' anche il primo posto in cui i laboratori - oggi sempre piu' spesso non americani - puntano a essere supportati per essere visibili agli sviluppatori.