Higgs Audio v3: text-to-speech open in 100+ lingue

La sintesi vocale open compie un altro salto. Boson AI ha rilasciato Higgs Audio v3, un modello text-to-speech (TTS) da circa 4 miliardi di parametri che genera voci sintetiche molto naturali in oltre cento lingue, clona una voce a partire da pochi secondi di audio e controlla emozioni, intonazione e persino effetti come risate o sospiri. I pesi sono pubblici su Hugging Face e questo lo rende uno strumento prezioso per chi vuole creare audio senza dipendere da servizi a pagamento - con un'avvertenza importante sulla licenza che vedremo piu' avanti.

Cosa sa fare Higgs Audio v3

Le capacita' dichiarate sono notevoli. Il modello copre 102 lingue, di cui 85 con qualita' di produzione, ed e' costruito attorno a un decoder autoregressivo da 36 livelli. I punti di forza sono tre: la clonazione vocale zero-shot (riprodurre una voce da un breve campione, anche tra lingue diverse); il controllo espressivo, con 21 emozioni selezionabili - dall'entusiasmo alla tristezza - e token di stile per sussurrare, gridare o cantare; e il controllo fine di prosodia, ritmo, velocita' e pause. Puo' persino generare effetti sonori come colpi di tosse o pianti, utili per audiolibri e doppiaggi.

Higgs Audio v3 clona una voce da pochi secondi di campione, anche tra lingue diverse.

La licenza: attenzione all'uso commerciale

C'e' un vincolo da conoscere prima di partire. Higgs Audio v3 e' distribuito con una licenza di ricerca e uso non commerciale: si puo' scaricare, studiare e usare per progetti personali e di ricerca, ma per impieghi in produzione, dietro API o in applicazioni che generano ricavi serve una licenza commerciale separata da Boson AI. E' una differenza sostanziale rispetto ai modelli completamente aperti come quelli sotto licenza Apache o MIT, e va valutata bene prima di costruirci sopra un servizio.

Come provarlo passo passo

Il modello si scarica da Hugging Face. Per un test rapido serve Python 3.10+, una GPU consigliata (il modello e' grande), e la libreria Transformers. Installazione:

pip install -U transformers torch soundfile accelerate

Generazione di base tramite la pipeline di Transformers:

import soundfile as sf
from transformers import pipeline

tts = pipeline("text-to-speech", model="bosonai/higgs-audio-v3-tts-4b",
               device_map="auto")

testo = "Ciao, questa e' una voce generata con Higgs Audio versione tre."
out = tts(testo)
sf.write("voce.wav", out["audio"], out["sampling_rate"])
print("File audio salvato: voce.wav")

Il risultato atteso e' un file voce.wav con la frase letta in modo naturale. Per la clonazione vocale e il controllo delle emozioni si segue la documentazione del modello, fornendo un breve campione di riferimento e i token di stile. Per usi piu' seri, Boson AI suggerisce motori di servizio come SGLang o vLLM nelle varianti audio, con API compatibili, oppure l'accesso ospitato tramite la loro piattaforma.

Il modello controlla 21 emozioni e token di stile per sussurrare, gridare o cantare.

Alternative e a chi serve

Per chi ha bisogno di una voce sintetica espressiva senza vincoli commerciali, restano valide soluzioni come i modelli TTS sotto licenza permissiva o i servizi cloud (ElevenLabs e simili) quando il budget lo consente. Higgs Audio v3 brilla soprattutto per chi fa ricerca, prototipi o progetti personali multilingue e vuole controllo totale sul modello in locale. La clonazione vocale, infine, va maneggiata con responsabilita': riprodurre la voce di una persona senza consenso solleva problemi legali ed etici, ed e' bene usarla solo con voci proprie o autorizzate.