LFM2.5-230M di Liquid AI: come usarlo in locale

Un modello di intelligenza artificiale che genera 213 token al secondo su uno smartphone, senza connessione e senza cloud. È quello che promette LFM2.5-230M, il più piccolo modello della famiglia LFM2.5 presentato da Liquid AI il 25 giugno 2026. Con appena 230 milioni di parametri, è pensato non per sostituire ChatGPT ma per una cosa diversa e oggi molto richiesta: far girare l'IA direttamente sul dispositivo, da un telefono a un Raspberry Pi, con bassissima latenza e zero costi di servizio.

Cosa sa fare (e cosa no)

LFM2.5-230M è stato pre-addestrato su 19.000 miliardi di token e gestisce un contesto di 32K. I numeri di velocità sono il suo biglietto da visita: su un Galaxy S25 Ultra raggiunge circa 1.158 token al secondo in fase di prefill e 213 in decodifica; su un Raspberry Pi 5 si attesta intorno a 523 e 42 token al secondo. Su una GPU H100 la latenza scende a circa 50 millisecondi.

Secondo Liquid AI, nonostante le dimensioni minime il modello compete con — e spesso batte — modelli più del doppio più grandi su compiti di tool use (uso di strumenti e funzioni), estrazione dati e seguimento delle istruzioni: ottiene per esempio 71,71 su IFEval. Va però capito per quello che è: su benchmark di conoscenza generale come MMLU-Pro (20,25) o GPQA Diamond (25,41) i punteggi sono bassi. Non è un modello da interrogare sulla storia romana o sulla fisica quantistica; è un piccolo motore efficiente per automazioni, classificazione, estrazione di campi da documenti e agenti leggeri.

LFM2.5-230M è ottimizzato per girare su CPU, smartphone e schede come il Raspberry Pi.

Dove si trova e quanto costa

Il modello è open-weight e gratuito: la versione base (LFM2.5-230M-Base) e quella post-addestrata (LFM2.5-230M) sono disponibili da subito su Hugging Face, nel repository ufficiale LiquidAI/LFM2.5-230M. Liquid AI ha rilasciato il supporto «day-one» per l'intero ecosistema di inferenza: llama.cpp (formato GGUF per l'edge), MLX per i Mac con Apple Silicon, vLLM e SGLang per le GPU, e ONNX per il multipiattaforma.

Come scaricarlo e lanciarlo, passo passo

Il modo più semplice per provarlo su un PC con Python è tramite la libreria transformers. Per prima cosa installa le dipendenze:

pip install -U transformers torch huggingface_hub

Poi puoi caricarlo e generare una risposta con poche righe:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "LiquidAI/LFM2.5-230M"
tok = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id, torch_dtype="bfloat16", device_map="auto"
)

messaggi = [{"role": "user", "content":
    "Estrai nome, email e citta in JSON da: 'Sono Luca Bianchi, luca@example.it, vivo a Torino.'"}]
inputs = tok.apply_chat_template(messaggi, add_generation_prompt=True, return_tensors="pt").to(model.device)
out = model.generate(inputs, max_new_tokens=128)
print(tok.decode(out[0][inputs.shape[1]:], skip_special_tokens=True))

Risultato atteso: un oggetto JSON pulito del tipo {"nome": "Luca Bianchi", "email": "luca@example.it", "citta": "Torino"}. È proprio in questo tipo di compiti — estrazione strutturata e rispetto del formato — che il modello dà il meglio.

Con il formato GGUF il modello gira anche su CPU modeste e su dispositivi tascabili.

Sul telefono e su CPU con llama.cpp

Per l'uso davvero «edge», la strada è il formato GGUF con llama.cpp o un'app come LM Studio o Ollama, che possono importare il modello e farlo girare su CPU senza scheda video. Con llama.cpp, una volta scaricato il file GGUF dal repository, il comando per una sessione interattiva è del tipo:

llama-cli -hf LiquidAI/LFM2.5-230M-GGUF -p "Riassumi in tre punti questa email: ..."

La leggerezza del modello significa che parte in pochi secondi e occupa poche centinaia di megabyte di memoria, contro i molti gigabyte richiesti dai modelli di frontiera.

Per chi ha senso

LFM2.5-230M non è uno strumento di conversazione generalista, ed è giusto saperlo prima di provarlo. È pensato per sviluppatori che vogliono incorporare un'IA veloce e privata in un'app, in un dispositivo IoT o in un'automazione: smistare messaggi, compilare moduli, estrarre dati da testi, richiamare funzioni. In questi scenari un modello minuscolo che gira in locale, gratis e a centinaia di token al secondo, vale spesso più di un colosso da interrogare via cloud. La documentazione completa è su docs.liquid.ai, e il punto di partenza resta la pagina del modello su Hugging Face.