OpenAI ha aggiunto il 7 maggio 2026 tre nuovi modelli audio alla sua Realtime API: gpt-realtime-2, un aggiornamento del modello voce-a-voce; gpt-realtime-translate, pensato per la traduzione vocale simultanea; e gpt-realtime-whisper, un motore di trascrizione in streaming a bassissima latenza. Con lo stesso annuncio la Realtime API esce dalla fase beta e diventa generalmente disponibile; dall'11 maggio i tre modelli sono in distribuzione anche su Microsoft Azure AI Foundry.
E' il pacchetto vocale piu' consistente che OpenAI rilascia da quando, lo scorso anno, aveva introdotto la prima versione di gpt-realtime. La novita' piu' vistosa e' il modello di traduzione: ascolta chi parla e produce la voce tradotta mentre la frase e' ancora in corso, senza la classica catena 'trascrivi - traduci - sintetizza' che introduce ritardi di diversi secondi.

gpt-realtime-translate: traduzione vocale da oltre 70 lingue
gpt-realtime-translate traduce il parlato da piu' di 70 lingue in ingresso verso 13 lingue in uscita: tra queste italiano, inglese, spagnolo, francese, tedesco, portoghese, giapponese, cinese, coreano, hindi, russo, indonesiano e vietnamita. La lingua di partenza viene rilevata automaticamente, quella di arrivo si imposta nella sessione (campo session.audio.output.language) e puo' essere cambiata al volo durante la conversazione.
Il modello e' progettato per la traduzione continua: invece di aspettare la fine della frase, emette l'audio tradotto man mano che il discorso si sviluppa, restando 'al passo' con chi parla. E' il tipo di funzione che serve a riunioni multilingue, assistenza clienti internazionale, eventi e - in prospettiva - auricolari di traduzione. Il prezzo e' di 0,034 dollari al minuto di audio elaborato.
gpt-realtime-whisper: trascrizione in streaming a bassa latenza
gpt-realtime-whisper e' un modello di speech-to-text pensato per restituire il testo quasi in tempo reale, parola per parola, mentre l'utente parla. Puo' lavorare in parallelo al modello di traduzione - uno trascrive l'originale, l'altro produce la voce tradotta - e costa 0,017 dollari al minuto. E', di fatto, l'erede 'streaming' del vecchio Whisper, ottimizzato per chiamate vocali e applicazioni dal vivo invece che per la trascrizione di file gia' registrati.
gpt-realtime-2: la voce che ragiona e ricorda di piu'
Il terzo modello, gpt-realtime-2, e' l'aggiornamento generazionale del motore voce-a-voce usato dalla modalita' vocale avanzata e dagli assistenti telefonici costruiti sulla Realtime API. Le differenze principali rispetto alla versione precedente:
- Ragionamento interno: il modello puo' 'pensare' prima di rispondere, utile per richieste articolate e per seguire istruzioni complesse senza perdere il filo.
- Contesto esteso a 128.000 token, contro i 32.000 della versione precedente: le conversazioni piu' lunghe restano coerenti.
- Chiamate parallele agli strumenti (tool calling) e migliore recupero dagli errori, ad esempio quando una funzione esterna fallisce o l'audio si interrompe.
Il listino di gpt-realtime-2 e' di 32 dollari per milione di token audio in ingresso (0,40 dollari per i token serviti dalla cache) e 64 dollari per milione di token audio in uscita; restano disponibili anche input e output testuali a tariffe inferiori.

Come provarli: la Realtime API passo passo
I tre modelli si usano attraverso la Realtime API di OpenAI, che supporta due modalita' di connessione: WebRTC (consigliata per il browser e le app client) e WebSocket (per server e telefonia). Serve una chiave API OpenAI e un account con credito a consumo: non c'e' un piano gratuito, ma per provare bastano pochi centesimi.
Per la traduzione vocale, dal lato server si crea prima un 'client secret' effimero, indicando modello, lingua di destinazione e il modello di trascrizione da affiancare:
const response = await fetch(
"https://api.openai.com/v1/realtime/translations/client_secrets",
{
method: "POST",
headers: {
Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
"Content-Type": "application/json",
},
body: JSON.stringify({
session: {
model: "gpt-realtime-translate",
audio: {
input: {
transcription: { model: "gpt-realtime-whisper" },
noise_reduction: { type: "near_field" },
},
output: { language: "it" }, // lingua di arrivo
},
},
}),
}
);Il client (browser) usa poi quel token per aprire la connessione WebRTC verso https://api.openai.com/v1/realtime/translations/calls e ricevere l'audio tradotto. Dal lato server puro ci si puo' invece collegare via WebSocket a wss://api.openai.com/v1/realtime/translations?model=gpt-realtime-translate e inviare l'audio codificato in base64. Per cambiare lingua durante la sessione basta un messaggio session.update:
ws.send(JSON.stringify({
type: "session.update",
session: { audio: { output: { language: "en" } } }
}));OpenAI ha pubblicato una guida nel Cookbook con un'app di esempio completa. Chi preferisce un ambiente gestito puo' usare gli stessi modelli su Azure AI Foundry, dove sono in distribuzione dall'11 maggio insieme alla disponibilita' generale della Realtime API.
Cosa cambia per chi sviluppa prodotti vocali
Fino a oggi costruire un traduttore vocale 'simultaneo' decente significava incollare a mano tre componenti - riconoscimento del parlato, traduzione, sintesi vocale - e convivere con latenze percepibili e voci poco naturali. Avere un singolo modello che fa tutto in streaming abbassa molto la barriera per assistenti telefonici multilingue, sottotitoli vocali dal vivo, tutor linguistici e contact center. Il modello di trascrizione separato, a 0,017 dollari al minuto, e' interessante anche da solo per chi vuole sottotitoli o note in tempo reale senza passare per un modello voce-a-voce completo.
Restano i limiti da tenere d'occhio: solo 13 lingue in uscita per la traduzione, prezzi al minuto che su volumi alti pesano, e - come per tutti i sistemi di traduzione automatica - errori che in un contesto dal vivo e' difficile correggere; per ambiti delicati come sanita' e mondo legale e' meglio prevedere un controllo umano. Con questa mossa OpenAI si posiziona frontalmente contro Google (Gemini con traduzione audio nativa) e contro i servizi specializzati come ElevenLabs e DeepL Voice, in un'area - la voce in tempo reale - diventata nel 2026 uno dei principali terreni di scontro tra i grandi laboratori.




