ComfyUI e Flux: generare immagini IA in locale

Generare immagini con l'IA direttamente sul proprio computer, gratis e senza limiti di crediti, e' oggi alla portata di chiunque abbia una GPU decente. In questa guida vedremo come installare ComfyUI, l'interfaccia a nodi piu' potente e flessibile, e farla funzionare con Flux.1, la famiglia di modelli open di Black Forest Labs diventata il riferimento per la qualita' fotorealistica. Alla fine saprai installare tutto, scaricare i modelli giusti nelle cartelle corrette e generare la tua prima immagine.

A chi serve questa guida e cosa ti serve

Questa guida e' pensata per chi vuole un controllo totale sulla generazione di immagini - artisti, grafici, sviluppatori, appassionati - e non vuole dipendere da servizi a pagamento come Midjourney o dai limiti dei piani gratuiti online. Richiede un po' di dimestichezza con il terminale, ma niente programmazione.

Prerequisiti reali:

GPU: una scheda NVIDIA con almeno 8 GB di VRAM e' il punto di partenza consigliato; con 12 GB o piu' lavorerai comodo anche con Flux nella versione completa. Funziona anche su Mac con Apple Silicon (M1/M2/M3/M4), piu' lentamente. Senza GPU dedicata e' possibile ma molto lento.
Spazio su disco: almeno 30-40 GB liberi, perche' i modelli pesano parecchio.
Sistema operativo: Windows 10/11, Linux o macOS.
Software di base: Python 3.10+ e Git installati (su Windows c'e' anche un pacchetto "portable" che evita di installare Python a mano).

Quale strumento scegliere: ComfyUI, Forge o Fooocus

Per generare immagini in locale ci sono tre approcci principali, con filosofie diverse:

ComfyUI (la nostra prima scelta): interfaccia a nodi, dove costruisci visivamente la "catena" di generazione. Curva di apprendimento piu' ripida, ma controllo e flessibilita' impareggiabili, supporto immediato ai nuovi modelli come Flux e ottime prestazioni anche con poca VRAM.
Stable Diffusion WebUI Forge / Automatic1111: interfaccia classica a moduli, piu' intuitiva per chi arriva da zero, ottima per SDXL; un po' meno reattiva nell'adottare i modelli piu' nuovi.
Fooocus: il piu' semplice in assoluto, in stile Midjourney, pochi parametri da toccare; ideale se vuoi solo scrivere un prompt e ottenere belle immagini senza pensare a nulla.

Consigliamo ComfyUI perche', una volta superato lo scoglio iniziale, e' lo strumento che ti permette di crescere: workflow riutilizzabili, upscaling, inpainting, ControlNet, LoRA e i modelli piu' recenti, tutto nello stesso ambiente. E' gratis e open source.

ComfyUI lavora a nodi: ogni blocco e' un passaggio della pipeline. Immagine: Pexels

Passo 1: installare ComfyUI

Su Windows il modo piu' rapido e' scaricare la versione "portable" dalla pagina ufficiale del progetto su GitHub (oppure usare la nuova app ComfyUI Desktop). Per l'installazione manuale, valida su tutti i sistemi, apri il terminale e digita:

git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
pip install -r requirements.txt

Se hai una GPU NVIDIA, assicurati di avere la versione di PyTorch con supporto CUDA (di norma viene installata automaticamente). Per avviare ComfyUI:

python main.py

Dopo qualche secondo vedrai nel terminale un indirizzo, di solito http://127.0.0.1:8188. Aprilo nel browser: e' la tua interfaccia. Lascia la finestra del terminale aperta, e' il "motore" che fa girare tutto.

Passo 2: scaricare i modelli Flux giusti

Flux.1 si presenta in due varianti principali: Flux.1 [schnell], velocissimo (genera in circa 4 passi) e con licenza Apache 2.0 quindi usabile anche commercialmente; e Flux.1 [dev], piu' lento ma di qualita' superiore, con una licenza che ne consente l'uso solo non commerciale. Per iniziare e per chi vuole liberta' d'uso, schnell e' la scelta piu' semplice.

Servono tre tipi di file, tutti scaricabili da Hugging Face (alcuni richiedono di accettare la licenza sulla pagina del modello):

Il modello (es. flux1-schnell.safetensors) dalla pagina black-forest-labs/FLUX.1-schnell.
I due text encoder: clip_l.safetensors e t5xxl_fp8_e4m3fn.safetensors (la versione fp8 pesa meno ed e' perfetta per chi ha poca VRAM).
Il VAE: ae.safetensors.

Puoi scaricarli dal browser o da terminale, ad esempio:

huggingface-cli download black-forest-labs/FLUX.1-schnell flux1-schnell.safetensors --local-dir .

Passo 3: mettere ogni file nella cartella corretta

Questo e' il passaggio dove sbaglia chi e' alle prime armi. Dentro la cartella ComfyUI/models/ ogni file va nella sua sottocartella:

ComfyUI/models/diffusion_models/   ->  flux1-schnell.safetensors
ComfyUI/models/clip/               ->  clip_l.safetensors
                                        t5xxl_fp8_e4m3fn.safetensors
ComfyUI/models/vae/                ->  ae.safetensors

Dopo aver copiato i file, torna nel browser e premi il pulsante di refresh dei modelli (o ricarica la pagina) cosi' ComfyUI li rileva.

Il segreto e' mettere modello, text encoder e VAE nelle cartelle giuste. Foto: Pexels

Passo 4: caricare il workflow e generare

Non devi costruire i nodi da zero: ComfyUI include modelli di workflow gia' pronti. Dal menu vai su Workflow > Browse Templates (o trascina nella finestra un'immagine generata con Flux che contiene il workflow incorporato) e scegli il template Flux. Comparira' la catena di nodi: caricamento del modello, dei text encoder, del VAE, il nodo del prompt e il campionatore.

Scrivi il tuo prompt nel nodo di testo positivo. Un paio di esempi copiabili:

Fotografia ravvicinata di una tazza di caffe' fumante su un tavolo di legno accanto a una finestra, luce mattutina calda, stile editoriale, messa a fuoco morbida sullo sfondo, dettagli realistici del vapore.

Illustrazione digitale di una volpe rossa che cammina in una foresta innevata al tramonto, stile acquerello, colori caldi contro il bianco della neve, atmosfera fiabesca.

Imposta i passi (steps) a circa 4 per schnell, premi "Queue" e attendi. La prima generazione e' piu' lenta perche' carica i modelli in memoria; le successive saranno molto piu' rapide. Il risultato atteso e' un'immagine ad alta qualita' che rispetta fedelmente la descrizione, con una resa del testo e dei dettagli nettamente superiore ai vecchi modelli SD 1.5.

Errori comuni e come risolverli

"CUDA out of memory": la VRAM non basta. Soluzioni: usa la versione fp8 dei text encoder, riduci la risoluzione (parti da 1024x1024), oppure avvia ComfyUI con il flag --lowvram (o --novram nei casi estremi). In alternativa scarica una versione GGUF quantizzata del modello.
Il modello non compare nel menu a tendina: file nella cartella sbagliata o pagina non ricaricata. Verifica i percorsi del Passo 3 e ricarica.
Immagini completamente nere: tipico problema di VAE/precisione su alcune GPU. Avvia con --fp16-vae o, se persiste, --force-fp32.
Generazione lentissima: probabilmente stai usando la CPU. Controlla nel terminale che venga rilevata la GPU; su Mac usa la versione con supporto MPS.

Varianti, casi avanzati e quando non usare ComfyUI

Una volta presa la mano, puoi spingerti oltre: i LoRA (piccoli file aggiuntivi) ti permettono di applicare stili o personaggi specifici aggiungendo un nodo dedicato; l'upscaling porta le immagini a 4K; ControlNet ti fa guidare la composizione con uno schizzo o una posa; l'inpainting ritocca solo una porzione dell'immagine. Per gestire tutte queste estensioni installa ComfyUI Manager, che semplifica l'aggiunta di nodi e modelli della community.

Quando conviene non usare ComfyUI? Se ti serve solo qualche immagine ogni tanto e non vuoi configurare nulla, un servizio online o Fooocus sono piu' rapidi. Se non hai una GPU adeguata, valuta di affittare potenza in cloud (anche tramite il Colab CLI di Google) invece di soffrire sulla CPU. Ma se vuoi creare in locale, gratis e senza limiti, con il pieno controllo su ogni parametro, ComfyUI con Flux e' oggi la combinazione migliore. La documentazione ufficiale e i template sono sul repository GitHub di ComfyUI e sulle pagine di Black Forest Labs su Hugging Face.