ComfyUI e Stable Diffusion in locale: guida 2026

Generare immagini con l'IA non significa per forza pagare un abbonamento o caricare i propri dati su un server. Con ComfyUI, l'interfaccia a nodi piu' potente per la generazione locale, puoi creare immagini gratis e in totale privacy sul tuo computer, usando modelli aperti come SDXL e FLUX.1. Questa guida ti porta dall'installazione alla tua prima immagine, con i comandi reali, i prompt di prova e le soluzioni agli errori piu' frequenti.

A chi serve e cosa ti serve davvero

E' la guida giusta se vuoi controllo totale sul processo, generare in quantita' senza costi a immagine o lavorare con materiali riservati. Richiede un minimo di pazienza tecnica, ma non sapere programmare. Prerequisiti realistici:

Sistema operativo: Windows 10/11 o Linux con GPU NVIDIA; su Mac con Apple Silicon funziona ma piu' lentamente.
GPU: con 6 GB di VRAM giri SDXL senza problemi; con 12-16 GB usi SDXL a piena risoluzione con ControlNet e piu' LoRA; per i modelli FLUX sono consigliati 24 GB, anche se le versioni quantizzate girano con meno.
Software: Python 3.10+ e i driver NVIDIA aggiornati (con CUDA).
Spazio disco: tieni liberi almeno 30-40 GB, i modelli pesano diversi gigabyte ciascuno.

Quale strumento scegliere e perche'

Per la generazione locale i tre nomi ricorrenti sono ComfyUI, AUTOMATIC1111 e Forge. A1111 e Forge offrono un'interfaccia a moduli piu' immediata per chi inizia; ComfyUI usa un sistema a nodi (blocchi collegati tra loro) che all'inizio spaventa, ma in cambio espone ogni passaggio del processo, supporta le nuove architetture in tempi rapidissimi e ha le implementazioni piu' veloci. Per questo lo consigliamo come prima scelta a chi vuole crescere: si parte dal workflow predefinito e si impara per gradi.

ComfyUI usa un sistema a nodi: ogni passaggio del processo e' visibile.

Passo 1: installare ComfyUI

Su Windows il modo piu' semplice e' la versione portable scaricabile dalla pagina GitHub del progetto: si scompatta l'archivio e si avvia un file .bat, senza configurare nulla. Se preferisci l'installazione manuale (necessaria su Linux), apri il terminale e digita:

git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt

Per le GPU NVIDIA installa la versione di PyTorch con supporto CUDA seguendo le istruzioni del repository. Poi avvia il programma:

python main.py

Quando vedi un messaggio del tipo "To see the GUI go to: http://127.0.0.1:8188", apri quell'indirizzo nel browser. Sei dentro ComfyUI.

Passo 2: scaricare i modelli giusti

ComfyUI da solo non genera nulla: servono i modelli (i "checkpoint"). Per coprire il 95% degli usi nel 2026 bastano tre opzioni: SDXL per iterare in fretta, Stable Diffusion 3.5 Large per il fotorealismo di alta qualita' e FLUX.1 [dev] per la massima aderenza al prompt. Scarica i file da Hugging Face e posizionali nelle cartelle corrette dentro ComfyUI:

ComfyUI/models/checkpoints/   -> i checkpoint principali (es. SDXL, SD 3.5)
ComfyUI/models/unet/          -> il modello FLUX (file .safetensors)
ComfyUI/models/clip/          -> i text encoder (es. clip_l, t5xxl)
ComfyUI/models/vae/           -> i file VAE

Per FLUX su GPU consumer scegli il text encoder t5xxl_fp8_e4m3fn.safetensors: la versione fp8 fa risparmiare circa 9 GB di VRAM senza perdite di qualita' percepibili. Dopo aver copiato i file, in ComfyUI premi il tasto di refresh per fare comparire i modelli nei menu a tendina.

Capire i nodi principali

L'aspetto a nodi di ComfyUI intimidisce, ma i blocchi fondamentali sono pochi e ricorrono in quasi ogni workflow. Vale la pena conoscerli, perche' una volta capiti questi puoi leggere e modificare qualsiasi schema condiviso online:

Load Checkpoint: carica il modello principale e ne estrae le tre componenti (il modello vero e proprio, il text encoder CLIP e il VAE).
CLIP Text Encode: trasforma il tuo prompt (positivo e negativo) in qualcosa che il modello capisce. Sono i due riquadri dove scrivi.
Empty Latent Image: definisce le dimensioni e il numero di immagini da generare.
KSampler: il cuore del processo, dove avviene la "diffusione". Qui regoli passi, CFG, sampler e seed.
VAE Decode e Save Image: convertono il risultato in un'immagine vera e la salvano.

Capire questa catena — modello, prompt, latente, campionamento, decodifica — significa avere in mano la logica di tutta la generazione per diffusione, qualunque interfaccia userai in futuro.

Passo 3: la tua prima immagine

ComfyUI si apre con un workflow predefinito gia' pronto per il testo-immagine. I passaggi:

Nel nodo Load Checkpoint seleziona il modello scaricato (es. SDXL).
Nel nodo del prompt positivo scrivi cosa vuoi vedere; in quello negativo cosa vuoi evitare.
Controlla i parametri del nodo KSampler: passi (steps) intorno a 25-30, CFG intorno a 6-7.
Premi Queue Prompt (o la scorciatoia) e attendi: l'immagine compare nel nodo di anteprima e viene salvata in ComfyUI/output/.

Ecco due prompt da provare:

Positivo: "professional product photo of a ceramic coffee mug on a wooden table, soft window light, shallow depth of field, high detail"
Negativo: "blurry, low quality, distorted, watermark, text"

Positivo: "un borgo medievale italiano sotto la neve all'alba, atmosfera cinematografica, luce dorata, ultra dettagliato"
Negativo: "persone deformi, mani innaturali, bassa qualita'"

Il risultato atteso con SDXL e' un'immagine pulita a 1024x1024 in pochi secondi su una buona GPU. FLUX impiega di piu' ma segue il prompt con maggiore precisione, soprattutto su composizioni complesse e testo.

Con SDXL ottieni immagini a 1024px in pochi secondi su una GPU adeguata.

Scrivere prompt che funzionano

La differenza tra un'immagine mediocre e una ottima sta quasi sempre nel prompt. Alcuni principi validi con SDXL e FLUX:

Struttura dal soggetto al contorno: prima cosa c'e' ("un gatto rosso"), poi cosa fa e dov'e', poi stile e luce. I modelli danno piu' peso a cio' che viene prima.
Sii concreto sullo stile: "fotografia", "acquerello", "render 3D", "illustrazione" cambiano radicalmente l'esito piu' di mille aggettivi.
Per le foto, parla da fotografo: tipo di luce, obiettivo (35mm, 85mm), apertura, ora del giorno.
Il prompt negativo serve a togliere difetti ricorrenti: "bassa qualita', sfocato, mani deformi, testo, filigrana". Con FLUX il negativo conta meno che con SDXL.
Itera: genera, osserva cosa non va, aggiungi o togli una sola cosa per volta. Fissa il seed quando vuoi cambiare un dettaglio mantenendo la composizione.

Ottimizzare le prestazioni

Se le generazioni sono lente o la memoria e' al limite, ci sono diverse leve. Usa i text encoder in versione fp8 per FLUX, genera a risoluzione moderata e poi applica un upscaler dedicato, riduci il numero di passi (con molti modelli oltre i 30 il guadagno e' minimo), e chiudi browser e applicazioni che occupano la GPU. All'avvio, le opzioni --lowvram o --medvram aiutano sulle schede con poca memoria, a costo di un po' di velocita'. Tieni infine i driver NVIDIA aggiornati: le differenze di prestazioni tra versioni possono essere notevoli.

Errori comuni e come risolverli

"CUDA out of memory": stai chiedendo troppa VRAM. Riduci la risoluzione (es. 768px), usa la variante fp8 del text encoder, chiudi altri programmi che usano la GPU o aggiungi l'opzione --lowvram all'avvio.
"Torch not compiled with CUDA enabled": hai installato la versione CPU di PyTorch. Disinstallala e reinstalla la build CUDA indicata nel repository.
I modelli non compaiono nei menu: hai messo i file nella cartella sbagliata o non hai fatto il refresh. Verifica i percorsi e premi il tasto di aggiornamento.
Immagini bruciate o slavate: il VAE non e' caricato o il CFG e' troppo alto. Carica il VAE corretto e abbassa il CFG.

Varianti, livelli avanzati e alternative

Una volta presa la mano, ComfyUI si apre a moltissimo: i LoRA per applicare stili o soggetti specifici, ControlNet per guidare la composizione con pose o bordi, l'upscaling per portare le immagini ad alta risoluzione, e il ComfyUI Manager per installare nodi della community con un clic. Per imparare conviene caricare i workflow JSON gia' pronti che la community condivide e smontarli pezzo per pezzo.

Quando non usare l'approccio locale? Se non hai una GPU adeguata, se ti serve solo qualche immagine occasionale o se vuoi la massima semplicita', un servizio online resta piu' pratico. Ma se generi in quantita', vuoi controllo totale, stili personalizzati e privacy sui dati, ComfyUI e' lo strumento di riferimento. Il punto di partenza ufficiale e' la pagina GitHub di ComfyUI; per i modelli FLUX una buona guida e' quella di Stable Diffusion Art.

Stable Diffusion in locale con ComfyUI: la guida completa

A chi serve e cosa ti serve davvero

Quale strumento scegliere e perche'

Passo 1: installare ComfyUI

Passo 2: scaricare i modelli giusti

Capire i nodi principali

Passo 3: la tua prima immagine

Scrivere prompt che funzionano

Ottimizzare le prestazioni

Errori comuni e come risolverli

Varianti, livelli avanzati e alternative

Fonti

Andrea Bertolotti

📬 Newsletter di AI Notizie

Continua a leggere

Crea un server MCP in Python e collegalo a Claude

Vibe coding: costruire un'app con l'IA passo passo

Come ridurre le allucinazioni dell'IA: 7 mosse

Prompt engineering avanzato: 9 tecniche essenziali