LM Studio: eseguire modelli IA in locale gratis

Far girare un modello di intelligenza artificiale sul proprio computer, senza internet e senza pagare nulla, non e' piu' roba da soli esperti di terminale. LM Studio e' un'applicazione gratuita con interfaccia grafica che permette di scaricare ed eseguire modelli linguistici (LLM) in locale con pochi clic, su Windows, macOS e Linux. I tuoi dati restano sul tuo dispositivo, non vengono inviati ad alcun server: e' la soluzione ideale per chi tiene alla privacy, vuole lavorare offline o semplicemente desidera sperimentare senza costi a consumo.

A chi serve e cosa otterrai

Questa guida e' per chi vuole un assistente IA privato sul proprio PC: per scrivere, programmare, riassumere documenti riservati o studiare come funzionano i modelli. Al termine avrai LM Studio installato, almeno un modello scaricato e funzionante in chat, e — per chi sviluppa — un server locale compatibile con le API di OpenAI da richiamare via codice.

Rispetto a Ollama, che lavora soprattutto da riga di comando, LM Studio offre un'interfaccia completa con catalogo dei modelli, parametri regolabili e chat integrata: piu' adatto a chi preferisce i menu ai comandi. Le due soluzioni non si escludono e possono convivere.

Prerequisiti: che hardware ti serve

I modelli linguistici sono esigenti, ma quelli "piccoli" girano anche su macchine normali. Indicativamente:

RAM: almeno 8 GB per i modelli da 3-4 miliardi di parametri; 16 GB per quelli da 7-8 miliardi; 32 GB o piu' per i modelli da 13-30 miliardi.
GPU: facoltativa ma molto utile. Una scheda con 6-8 GB di memoria video accelera nettamente le risposte. Su Mac con chip Apple Silicon (M1/M2/M3/M4) la memoria unificata e' sfruttata bene.
Spazio disco: ogni modello occupa da 2 a oltre 20 GB. Tienine conto.

Passo 1: installare LM Studio

Vai su lmstudio.ai e scarica la versione per il tuo sistema operativo. L'installazione e' quella classica: su Windows esegui il file .exe, su macOS trascina l'app nella cartella Applicazioni, su Linux usa l'AppImage. Al primo avvio l'interfaccia si presenta con una barra laterale: chat, ricerca dei modelli (l'icona della lente), la cartella dei modelli scaricati e la sezione server (l'icona del terminale).

Passo 2: scaricare il primo modello

Clicca sull'icona di ricerca e cerca un modello adatto alle tue risorse. Buoni punti di partenza, tutti aperti e gratuiti, sono:

Llama 3.1 8B Instruct di Meta: equilibrato, ottimo per uso generale in italiano e inglese.
Qwen2.5 7B Instruct di Alibaba: molto valido su ragionamento e codice.
Gemma 2 9B di Google: solido per la scrittura.
Una distillazione di DeepSeek (es. da 7-8B) se ti interessa il ragionamento passo passo.

Per ogni modello vedrai diverse versioni con sigle come Q4_K_M o Q8_0: indicano la quantizzazione, cioe' quanto il modello e' stato "compresso". Un numero piu' basso (Q4) occupa meno memoria ed e' piu' veloce, a un piccolo costo di qualita'; un numero piu' alto (Q8) e' piu' fedele ma piu' pesante. Per iniziare, Q4_K_M e' il miglior compromesso. LM Studio ti segnala con un'etichetta se un modello e' compatibile con il tuo hardware.

La sigla di quantizzazione (es. Q4_K_M) bilancia velocita', memoria e qualita'. Immagine: Pexels.

Passo 3: chattare con il modello

Scaricato il modello, vai nella sezione chat, selezionalo dal menu in alto e attendi il caricamento in memoria. Ora puoi scrivere come faresti con ChatGPT. Prova con un prompt di verifica:

Riassumi in 5 punti i vantaggi e gli svantaggi di eseguire un modello di IA in locale rispetto a usarlo nel cloud.

Risultato atteso: un elenco coerente che cita privacy e assenza di costi a consumo tra i vantaggi, e potenza di calcolo limitata e modelli meno aggiornati tra gli svantaggi. Nelle impostazioni a destra puoi regolare parametri come la temperatura (piu' alta = risposte piu' creative, piu' bassa = piu' precise) e la lunghezza del contesto.

Passo 4: il server locale compatibile con OpenAI

Qui sta la funzione piu' potente per chi sviluppa. LM Studio puo' esporre il modello come un server con API compatibili con quelle di OpenAI: significa che puoi riutilizzare il codice scritto per OpenAI cambiando solo l'indirizzo. Vai nella sezione server (icona del terminale), seleziona il modello e premi Start Server. Per impostazione predefinita ascolta su http://localhost:1234.

Da Python, installa l'SDK di OpenAI e puntalo al server locale:

pip install openai

from openai import OpenAI

client = OpenAI(base_url="http://localhost:1234/v1", api_key="lm-studio")

r = client.chat.completions.create(
    model="local-model",   # il nome esatto e' indicato in LM Studio
    messages=[
        {"role": "system", "content": "Sei un assistente conciso che risponde in italiano."},
        {"role": "user", "content": "Dammi 3 idee per un titolo di un articolo sull'IA locale."}
    ],
    temperature=0.7,
)
print(r.choices[0].message.content)

La chiave API qui e' fittizia ("lm-studio"): il server gira sul tuo computer e non verifica nulla. Da questo punto puoi costruire script, automazioni o persino un piccolo sistema RAG sui tuoi documenti, tutto in locale.

Il server locale di LM Studio espone API compatibili con OpenAI sulla porta 1234. Immagine: Pexels.

Errori comuni e soluzioni

"Failed to load model" / memoria insufficiente: il modello e' troppo grande per la tua RAM/VRAM. Scarica una quantizzazione piu' bassa (da Q8 a Q4) o un modello con meno parametri.
Risposte lentissime: stai girando solo su CPU. Nelle impostazioni del modello aumenta i layer affidati alla GPU (GPU offload), se ne hai una.
Il server non risponde dal codice: verifica che il server sia avviato, che la porta sia 1234 e che base_url finisca con /v1.
Output troncato: aumenta il limite di token nella risposta nelle impostazioni di generazione.

Varianti, alternative e quando non usarlo

Per usi piu' avanzati puoi caricare modelli specializzati nel codice, modelli multimodali capaci di leggere immagini, o modelli "di ragionamento" piu' lenti ma piu' precisi. Tra le alternative, oltre a Ollama, ci sono llama.cpp (il motore sottostante, per chi ama la riga di comando) e Jan, un'altra app con interfaccia grafica.

Quando non conviene il locale? Quando ti servono le massime prestazioni dei modelli di frontiera (come GPT-5.6 o Claude Opus), che richiedono data center e non sono disponibili in versione scaricabile, oppure quando il tuo hardware e' troppo modesto: in quei casi le API nel cloud restano la scelta migliore. Ma per moltissimi compiti quotidiani — scrivere, riassumere, tradurre, programmare in privato — un buon modello da 7-8 miliardi di parametri sul tuo PC e' oggi sorprendentemente capace, gratuito e tutto tuo.