Far girare un modello di intelligenza artificiale sul proprio computer, senza inviare nulla al cloud e senza pagare chiavi API, e' oggi alla portata di chiunque. Lo strumento piu' semplice per farlo e' LM Studio: un'applicazione gratuita con interfaccia grafica che scarica i modelli, li fa chattare in locale e all'occorrenza espone un server API compatibile con OpenAI. Questa guida ti porta dall'installazione fino a integrare il modello in un tuo script.
A chi serve e cosa ti serve (hardware compreso)
E' utile a chi vuole privacy totale (dati sensibili, documenti riservati), a chi lavora offline o vuole evitare i costi delle API, e a chi sviluppa e vuole un endpoint locale per i test. Requisiti: Windows, macOS (Apple Silicon consigliato) o Linux. La regola pratica sulla memoria: un modello da 7-8 miliardi di parametri quantizzato a 4 bit gira bene con circa 8 GB di RAM/VRAM; uno da 13-14 miliardi ne chiede circa 16; i modelli da 30B in su richiedono 24 GB o piu'. Sui Mac con chip Apple la memoria unificata viene sfruttata molto bene.
LM Studio o Ollama? Quale scegliere
Sono i due strumenti piu' diffusi e si completano. LM Studio e' la scelta migliore se vuoi partire subito: interfaccia grafica, catalogo di modelli integrato, gestione visiva della quantizzazione e del caricamento su GPU. Ollama e' piu' adatto a chi ama la riga di comando e vuole automatizzare (si integra benissimo in script e in strumenti come n8n). Esistono anche Jan e GPT4All, simili a LM Studio. Per questa guida usiamo LM Studio perche' e' il modo piu' rapido per chi parte da zero e perche' offre comunque un server API per la parte avanzata.
Passo 1: installare LM Studio e scaricare il primo modello
- Scarica l'app dal sito ufficiale lmstudio.ai e installala come un qualsiasi programma.
- Apri LM Studio e vai nella sezione di ricerca modelli (l'icona della lente).
- Cerca un modello adatto a iniziare, ad esempio
Qwen2.5-7B-Instruct,Llama 3.1 8B InstructoGemma 2 9B. Sono i formati GGUF, quelli che LM Studio sa eseguire. - Scegli una variante quantizzata: per la maggior parte dei casi
Q4_K_Me' il miglior compromesso tra qualita' e leggerezza. Avvia il download.
Passo 2: chattare in locale e scegliere la quantizzazione giusta
Terminato il download, vai nella scheda Chat, seleziona il modello in alto e caricalo. Ora puoi scrivere come faresti con ChatGPT, ma tutto resta sul tuo computer. La quantizzazione e' la leva piu' importante per le prestazioni: ridurre la precisione dei pesi (da 16 bit a 4-5 bit) fa scendere drasticamente la memoria richiesta con una perdita di qualita' contenuta. Regola pratica: parti da Q4_K_M; se hai memoria abbondante e vuoi piu' qualita' passa a Q5_K_M o Q6_K; se sei al limite scendi a Q3. Nelle impostazioni di caricamento puoi anche aumentare i 'GPU layers' per spostare piu' calcolo sulla scheda grafica e guadagnare velocita'.
Un prompt utile per testare la qualita' del modello scaricato:
Sei un assistente che risponde solo in italiano. Riassumi questo testo in 5 punti elenco, poi proponi un titolo. [incolla qui un articolo di circa 600 parole]
Passo 3: attivare il server API compatibile con OpenAI
Qui LM Studio diventa interessante per chi sviluppa. Vai nella scheda Developer (o 'Local Server'), seleziona il modello e premi Start Server: di default ascolta su http://localhost:1234 esponendo endpoint nello stile OpenAI. Puoi interrogarlo con un semplice curl:
curl http://localhost:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "local-model",
"messages": [{"role": "user", "content": "Scrivi una mail formale per disdire un abbonamento."}],
"temperature": 0.7
}'Oppure dal client ufficiale di OpenAI in Python, semplicemente puntando al server locale (la chiave puo' essere qualsiasi stringa):
from openai import OpenAI
client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")
resp = client.chat.completions.create(
model="local-model",
messages=[{"role": "user", "content": "Elenca 3 idee per un post LinkedIn sul lavoro ibrido."}]
)
print(resp.choices[0].message.content)Cosi' puoi sviluppare e testare app che 'parlano OpenAI' senza spendere un centesimo, e poi - se vorrai - cambiare solo il base URL per passare a un servizio cloud.
Errori comuni e come risolverli
- Il modello non si carica / la app si chiude: e' quasi sempre memoria insufficiente. Scegli una quantizzazione piu' bassa (da Q5 a Q4 o Q3) o un modello piu' piccolo.
- Risposte lentissime: aumenta i 'GPU layers' nelle impostazioni di caricamento; su CPU pura i modelli grandi sono inevitabilmente lenti.
- Output incoerente o ripetitivo: abbassa la
temperature(es. 0.3-0.5) e verifica di aver scelto la variante Instruct, non quella 'base'. - Il server non risponde: controlla che sia avviato e che porta 1234 non sia occupata; in caso, cambiala nelle impostazioni.
Varianti, alternative e quando non usarlo
Per casi avanzati puoi caricare modelli specializzati nel codice (es. varianti Coder) o modelli multimodali che leggono immagini, se la tua macchina regge. Se invece ti serve automazione da terminale o l'esecuzione su un server headless, valuta Ollama. E ricorda i limiti: un modello da 7-8B in locale non eguaglia GPT-5.5, Claude Opus o Gemini sui compiti piu' difficili. L'IA locale conviene per privacy, costo zero e disponibilita' offline; per il massimo della qualita' su compiti complessi i grandi modelli cloud restano avanti. La buona notizia e' che, grazie al server compatibile, puoi tenere entrambi e scegliere di volta in volta.
Tre cose utili da fare subito con un modello locale
Una volta che il modello gira, ecco tre usi concreti che ne ripagano l'installazione:
- Lavorare su testi riservati: contratti, referti, verbali, appunti aziendali. Poiche' nulla esce dal computer, puoi far riassumere o riscrivere documenti che non affideresti mai a un servizio cloud.
- Bozze e brainstorming offline: in treno o senza rete, un modello locale resta a disposizione per generare idee, email, scalette.
- Prototipare app: grazie al server compatibile con OpenAI puoi sviluppare e collaudare un'applicazione che usa un LLM senza consumare crediti a pagamento, e passare al cloud solo alla fine.
Un prompt di sistema ben scritto cambia molto la qualita': nelle impostazioni della chat puoi fissare istruzioni permanenti come 'Rispondi sempre in italiano, in modo conciso, e se non sei sicuro dillo esplicitamente'. Per documenti lunghi, verifica nella scheda di caricamento la lunghezza di contesto (context length): aumentarla permette al modello di tenere a mente piu' testo, ma consuma piu' memoria.
Gestire piu' modelli e aggiornarli
Con il tempo accumulerai diversi modelli: conviene fare un po' di ordine. In LM Studio puoi vedere lo spazio occupato e rimuovere quelli che non usi, perche' i file GGUF pesano da qualche gigabyte a parecchie decine. Una buona abitudine e' tenere due o tre modelli con ruoli diversi - uno piccolo e velocissimo per le risposte rapide, uno medio piu' capace per i compiti seri, ed eventualmente uno specializzato nel codice - e scegliere di volta in volta. I nuovi modelli escono di continuo: tornare ogni tanto nella sezione di ricerca e ordinare per data o per popolarita' e' il modo migliore per restare aggiornati senza inseguire ogni annuncio. Cosi' il tuo 'laboratorio di IA' personale resta leggero, privato e a costo zero.




