Il 2 giugno 2026 il laboratorio francese H Company ha pubblicato Holo3.1, una nuova famiglia di modelli "computer use": agenti capaci di controllare un'interfaccia grafica — browser, desktop o smartphone — e portare a termine compiti cliccando, scrivendo e navigando come farebbe una persona. La differenza rispetto a molti concorrenti è che Holo3.1 è open weight: i pesi sono scaricabili e si possono eseguire sul proprio hardware.
Quattro taglie, dal portatile al server
La famiglia è declinata in quattro versioni pensate per esigenze diverse:
- 0,8B: ultraleggero, per esecuzione locale anche su macchine modeste;
- 4B: il compromesso economico tra costo e capacità;
- 9B: equilibrio tra prestazioni e latenza;
- 35B-A3B: architettura a esperti (MoE) con circa 3 miliardi di parametri attivi per passo, è la variante allo stato dell'arte.
Costruito sulla base dei modelli Qwen, Holo3.1 è stato ottimizzato per la robustezza nelle tre dimensioni che contano in produzione: ambienti (web, desktop, mobile), framework di agenti e target di deployment.
I numeri: cosa migliora rispetto a Holo3
Sui benchmark dichiarati dal team, la versione 35B raggiunge il 79,3% su AndroidWorld, il test che misura la capacità di completare azioni su smartphone, rispetto al 67% della generazione precedente. Le varianti 4B e 9B salgono al 72% sul mobile (dal 58%), con un miglioramento medio attorno al 25% rispetto a Holo3. Sul fronte desktop, le versioni quantizzate restano a circa due punti dal modello a piena precisione sul benchmark OSWorld: un margine ridotto che rende pratico l'uso locale.
Come provarlo: due strade
1) In locale, con i pesi aperti. Per le versioni più piccole sono disponibili checkpoint quantizzati in FP8, Q4 GGUF e NVFP4, adatti a girare con strumenti come Ollama, LM Studio o llama.cpp. Il modo più affidabile è partire dalla collezione ufficiale su Hugging Face, individuare l'identificativo esatto del modello desiderato e scaricarlo. Dopo aver installato il client ufficiale:
pip install -U huggingface_hub
huggingface-cli login
huggingface-cli download NOME-ESATTO-DEL-MODELLO --local-dir ./holo31
Sostituite NOME-ESATTO-DEL-MODELLO con l'ID che trovate nella collezione (ad esempio la variante 4B o 9B). Per il formato GGUF, una volta scaricato il file potete caricarlo direttamente in LM Studio dalla scheda dei modelli locali e avviare la chat. Come requisiti indicativi: la 4B gira con 8-12 GB di VRAM o anche solo in RAM con la quantizzazione, mentre la 35B richiede una GPU di fascia alta.
2) Via API gestita. Chi non vuole gestire l'infrastruttura può usare la Holo Models API di H Company, che espone i modelli come servizio. È la scelta più rapida per integrare l'agente in un'applicazione senza preoccuparsi di GPU e quantizzazioni.
Un esempio d'uso concreto
Holo3.1 non è un chatbot: riceve uno screenshot dell'interfaccia e un obiettivo, e restituisce l'azione successiva (coordinate del clic, testo da digitare, scorrimento). Un'istruzione tipica all'agente è:
"Apri il sito delle ferrovie, cerca un treno da Milano a Roma per domani mattina dopo le 8 e mostrami le prime tre opzioni con orario e prezzo."
L'agente, inserito in un framework che cattura lo schermo e inoltra i comandi, eseguirà i passaggi uno alla volta. È il tipo di automazione che apre la strada ad assistenti per compiti ripetitivi — prenotazioni, inserimento dati, controlli su gestionali — con il vantaggio, qui, di poter girare interamente in casa per ragioni di costo o riservatezza.
Quando conviene e quando no
Gli agenti computer-use restano una tecnologia giovane: vanno benissimo per flussi ripetibili e ben definiti, ma su interfacce molto variabili o azioni delicate (pagamenti, dati sensibili) richiedono ancora supervisione umana. Holo3.1 è interessante proprio perché, essendo aperto, permette di sperimentare questi flussi senza inviare ogni schermata a un servizio esterno. Per iniziare con il minimo sforzo conviene la versione 4B; per i risultati migliori, la 35B su hardware adeguato.




