Mentre i generatori di immagini commerciali piu' noti restano chiusi e a pagamento, il filone open continua a colmare il divario. HiDream-O1-Image e' un modello generativo open con licenza permissiva MIT, capace di creare e modificare immagini fino a 2048 x 2048 pixel direttamente sul proprio computer, senza inviare nulla a un server esterno. La prima versione e' stata pubblicata l'8 maggio 2026, seguita da varianti distillate piu' veloci a meta' mese.

Cosa sa fare, oltre al testo-immagine

Il modello e' costruito su un'architettura che gli autori chiamano Pixel-level Unified Transformer: codifica nello stesso spazio i pixel grezzi, il testo e le condizioni specifiche del compito. In pratica questo gli permette di fare diverse cose con un unico modello:

  • Generazione testo-immagine a partire da un prompt;
  • Editing su istruzione, per modificare un'immagine esistente con un comando ("rimuovi gli auricolari", "cambia lo sfondo");
  • Personalizzazione su soggetto, fornendo alcune foto di riferimento di una persona o di un oggetto;
  • Resa di testo lungo e controllo del layout, un punto storicamente debole dei generatori.

Esiste in una versione Full da 8 miliardi di parametri (50 passi di inferenza, qualita' massima) e in una Dev piu' rapida (28 passi). Nelle classifiche comparative di settore il modello si colloca ai vertici tra le opzioni open per il testo-immagine.

HiDream-O1-Image genera, modifica e personalizza immagini con un solo modello.

Cosa serve per farlo girare

Il requisito principale e' una GPU NVIDIA con CUDA. Per la versione completa alla massima risoluzione conviene avere almeno 24 GB di VRAM; con schede piu' piccole si puo' lavorare a risoluzioni inferiori o usare la variante Dev. E' consigliata l'installazione di flash-attention per ottimizzare i calcoli. Su Mac e su PC senza GPU dedicata l'esecuzione e' molto piu' lenta o impraticabile per le risoluzioni alte.

Come scaricarlo e usarlo, passo per passo

Il modo piu' diretto e' clonare il repository ufficiale e installare le dipendenze:

git clone https://github.com/HiDream-ai/HiDream-O1-Image.git
cd HiDream-O1-Image
pip install -r requirements.txt

I pesi del modello si scaricano da Hugging Face. Con la utility ufficiale:

pip install -U huggingface_hub
huggingface-cli download HiDream-ai/HiDream-O1-Image --local-dir ./HiDream-O1-Image-weights

A questo punto puoi generare un'immagine da riga di comando indicando il prompt e le dimensioni:

python inference.py \
  --model_path ./HiDream-O1-Image-weights \
  --prompt "Un faro su una scogliera al tramonto, stile fotografia cinematografica, luce calda" \
  --output_image results/faro.png \
  --height 1024 --width 1024

Per modificare un'immagine esistente basta passare un'immagine di riferimento:

python inference.py \
  --model_path ./HiDream-O1-Image-weights \
  --prompt "rendi il cielo stellato" \
  --ref_images assets/foto.jpg \
  --output_image results/foto-edit.png \
  --keep_original_aspect

Se preferisci un'interfaccia grafica nel browser, il repository include una piccola web app:

python app.py --model_path ./HiDream-O1-Image-weights --host 0.0.0.0 --port 7860

Poi apri http://localhost:7860 e lavori da li'. In alternativa, gli utenti di ComfyUI possono integrare il modello nel proprio flusso a nodi, l'ambiente piu' diffuso per la generazione locale di immagini.

Con la web app inclusa puoi generare immagini dal browser, in locale.

Un prompt di prova e cosa aspettarsi

Prompt: "Ritratto fotorealistico di una donna anziana sorridente, illuminazione naturale da finestra, dettaglio sulla pelle e sugli occhi, profondita' di campo ridotta, 50mm"

Con la versione Full a 1024 pixel e 50 passi il risultato atteso e' un ritratto nitido e coerente, con sfondo sfocato e illuminazione morbida. Aumentando la risoluzione a 2048 si ottiene piu' dettaglio a costo di tempi e memoria maggiori. Per la resa del testo dentro l'immagine (ad esempio l'insegna di un negozio), HiDream-O1-Image e' tra i modelli open piu' affidabili, ma conviene comunque tenere le scritte brevi.

Consigli per risultati migliori

Qualche accorgimento pratico fa la differenza. Per il fotorealismo, descrivi l'illuminazione e l'obiettivo ("luce naturale da finestra", "50mm", "profondita' di campo ridotta") piu' che accumulare aggettivi generici. Per le scene complesse, conviene la versione Full a piu' passi; per provare velocemente molte varianti, la Dev a 28 passi e' piu' che sufficiente. Se la VRAM e' poca, riduci la risoluzione a 768 o 1024 pixel e poi usa un passaggio di upscaling separato: spesso il risultato e' migliore che generare direttamente a 2048. Fissare un --seed ti permette di riprodurre e ritoccare un'immagine che ti e' piaciuta, cambiando solo un dettaglio del prompt.

Per chi gia' lavora con ComfyUI, l'integrazione nel flusso a nodi consente di combinare HiDream-O1-Image con upscaler, ControlNet e LoRA, ottenendo pipeline molto piu' flessibili rispetto alla riga di comando.

Quando conviene (e quando no)

La forza di un modello open con licenza MIT e' la liberta': nessun costo per immagine, nessun limite di utilizzo imposto da un servizio, dati che non lasciano il computer — un punto importante per chi lavora con materiali riservati. Lo svantaggio e' che serve hardware adeguato e un minimo di dimestichezza con la riga di comando. Se non hai una GPU potente o ti serve solo qualche immagine ogni tanto, un servizio online resta piu' comodo; se invece generi immagini in quantita', vuoi controllo totale e privacy, l'opzione locale ripaga in fretta. Tutte le istruzioni e gli esempi sono nella scheda ufficiale su Hugging Face.