LM Studio: eseguire LLM in locale gratis (guida 2026)

A chi serve: chiunque voglia usare un'IA conversazionale sul proprio computer senza inviare nulla al cloud - per privacy, per lavorare offline o per non pagare abbonamenti. Cosa otterrai: un'app desktop con cui scaricare e chattare con modelli open, e all'occorrenza un server locale per le tue applicazioni. Prerequisiti: un computer con Windows, macOS (Apple Silicon consigliato) o Linux, e idealmente almeno 16 GB di RAM. LM Studio e' gratuito e, a differenza di Ollama che si usa da terminale, offre un'interfaccia grafica adatta anche a chi non e' tecnico.

Perche' LM Studio (e quando preferire altro)

LM Studio e' la via piu' semplice per provare un modello locale: scarichi l'app, scegli un modello da un catalogo integrato e inizi a chattare, tutto con il mouse. I dati restano sul tuo computer. I limiti sono quelli del tuo hardware: i modelli piu' grandi richiedono molta memoria e una buona GPU. Se ti serve solo la riga di comando o l'integrazione in script, Ollama e' un'alternativa altrettanto valida; per generare immagini c'e' ComfyUI; per soluzioni piu' avanzate ci sono llama.cpp e altri motori. Ma per iniziare con un'interfaccia comoda, LM Studio e' la prima scelta.

Con LM Studio i modelli girano in locale: i dati non lasciano il tuo computer.

1. Installazione

Vai sul sito ufficiale lmstudio.ai e scarica la versione per il tuo sistema operativo.
Installa l'applicazione come un qualsiasi programma (su macOS trascinala nella cartella Applicazioni; su Windows segui l'installer).
Al primo avvio LM Studio mostra la schermata principale con la ricerca dei modelli e la chat.

2. Scegliere il modello giusto per la tua RAM

Questo e' il passaggio piu' importante. I modelli locali sono distribuiti in formato GGUF e in versioni quantizzate: la quantizzazione riduce la precisione per far entrare il modello in meno memoria, con un piccolo calo di qualita'. Regola pratica per scegliere in base alla RAM disponibile:

8 GB di RAM: modelli da 3-4 miliardi di parametri (es. piccoli Qwen, Gemma, Llama 3.x mini) in quantizzazione Q4.
16 GB: modelli da 7-8 miliardi di parametri, ottimi per uso generale.
32 GB o piu', con buona GPU: modelli da 12-14 miliardi e oltre, qualita' superiore.

Nella scheda di ricerca di LM Studio cerca un modello (ad esempio "qwen" o "llama"), e l'app suggerisce le varianti compatibili con il tuo hardware, segnalando quelle che potrebbero non entrare in memoria. Scegli una quantizzazione Q4_K_M come buon compromesso tra qualita' e dimensioni, e premi Download. I file pesano alcuni gigabyte, quindi serve pazienza alla prima volta.

La scelta della quantizzazione GGUF dipende dalla RAM: Q4_K_M e' un buon compromesso.

3. Chattare in locale

Una volta scaricato il modello, vai nella sezione chat, selezionalo dal menu in alto e attendi il caricamento in memoria. Da qui la conversazione funziona come con ChatGPT, ma tutto avviene sul tuo computer e offline. Un primo prompt di prova:

Spiegami in modo semplice la differenza tra RAM e disco fisso, come se parlassi a un principiante.

Il risultato atteso e' una spiegazione chiara generata in locale. La velocita' dipende dall'hardware: con una GPU dedicata le risposte sono fluide, su sola CPU possono essere piu' lente. Nelle impostazioni della chat puoi regolare parametri come la temperature (creativita') e la lunghezza massima della risposta.

4. Il server locale per le tue app

La funzione piu' potente per chi sviluppa e' il server locale. LM Studio puo' esporre il modello tramite un'API compatibile con quella di OpenAI: cosi' qualsiasi codice scritto per OpenAI funziona puntando al tuo computer, senza inviare nulla all'esterno. Attiva il server dalla sezione dedicata (di solito sulla porta 1234), poi chiamalo da Python:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

resp = client.chat.completions.create(
    model="modello-locale",  # il nome mostrato in LM Studio
    messages=[{"role": "user", "content": "Riassumi in 3 punti cos'e' un LLM."}],
)
print(resp.choices[0].message.content)

Il risultato e' un riassunto generato dal modello in locale, ottenuto con lo stesso codice che useresti per il cloud. E' il modo ideale per costruire applicazioni private, prototipare senza costi o lavorare con dati sensibili che non devono uscire dall'azienda.

5. Capire i parametri della chat

Per ottenere risposte migliori vale la pena conoscere tre regolazioni che LM Studio mette a disposizione nelle impostazioni della conversazione:

Temperature: controlla la creativita'. Valori bassi (0,2-0,4) danno risposte piu' precise e ripetibili, ideali per estrazione dati o codice; valori alti (0,8-1,0) rendono il testo piu' vario e creativo, utile per scrittura e brainstorming.
Context length: quanti token il modello tiene a mente. Alzarla permette conversazioni piu' lunghe o documenti piu' grandi, ma consuma piu' memoria: e' un compromesso da tarare sull'hardware.
System prompt: un'istruzione iniziale che definisce il comportamento del modello (ad esempio "Rispondi sempre in italiano, in modo conciso"). Impostarlo bene migliora moltissimo la coerenza delle risposte.

Un consiglio pratico: parti dai valori predefiniti, cambia un parametro alla volta e osserva l'effetto. Cosi' capisci davvero come reagisce il modello che hai scelto, senza modificare tutto insieme e perderti.

6. Usare i tuoi documenti e andare oltre

Una volta che il server locale funziona, puoi collegarlo a strumenti piu' avanzati. L'uso piu' richiesto e' interrogare i propri documenti: caricando PDF e appunti in un sistema di RAG (recupero aumentato) costruito sopra il server locale, ottieni un assistente che risponde basandosi sui tuoi file, il tutto senza che nulla esca dal computer. Lo stesso server compatibile con OpenAI puo' alimentare estensioni per editor di codice, plugin per app di note o flussi di automazione: ovunque sia previsto un endpoint OpenAI, puoi puntare al tuo localhost. E' il vantaggio decisivo del locale: la stessa esperienza del cloud, ma con i dati che restano tuoi e senza un centesimo di costo a richiesta.

Errori comuni e soluzioni

Il modello non si carica o il PC si blocca: hai scelto un modello troppo grande per la tua RAM. Scarica una variante piu' piccola o una quantizzazione piu' aggressiva (Q4 invece di Q6/Q8).
Risposte molto lente: stai girando solo su CPU. Verifica nelle impostazioni che sia attiva l'accelerazione GPU se disponibile, o passa a un modello piu' piccolo.
Il server non risponde: controlla che il server sia avviato e che porta e indirizzo (localhost:1234) corrispondano a quelli nel codice.
Qualita' deludente: i modelli piccoli sbagliano piu' dei grandi servizi cloud. Prova un modello piu' grande se l'hardware lo consente, o affina il prompt.

Come proseguire

Una volta presa la mano, puoi sperimentare con modelli diversi per capire quale si adatta meglio ai tuoi compiti, collegare il server locale a strumenti come editor di codice o flussi di automazione, e combinare LM Studio con tecniche come il RAG per interrogare i tuoi documenti senza mai usare il cloud. La documentazione ufficiale spiega le funzioni avanzate, mentre su Hugging Face trovi migliaia di modelli GGUF pronti da provare. Il bello dei modelli locali e' proprio questo: una volta scaricati, sono tuoi, gratuiti e funzionano anche senza connessione.

LM Studio: eseguire LLM in locale gratis, guida completa

Perche' LM Studio (e quando preferire altro)

1. Installazione

2. Scegliere il modello giusto per la tua RAM

3. Chattare in locale

4. Il server locale per le tue app

5. Capire i parametri della chat

6. Usare i tuoi documenti e andare oltre

Errori comuni e soluzioni

Come proseguire

Fonti

Andrea Bertolotti

📬 Newsletter di AI Notizie

Continua a leggere

NotebookLM: studiare e riassumere documenti con l'IA

API di Claude in Python: la guida pratica da zero

Prompt engineering: 7 tecniche per ChatGPT, Claude e Gemini

RAG sui tuoi PDF in locale e gratis con Ollama e Python