Google ha aggiornato il suo modello dedicato alla robotica con Gemini Robotics-ER 1.6, disponibile in anteprima attraverso la Gemini API. Il modello, descritto nella documentazione per sviluppatori, porta le capacita' agentiche di Gemini nel mondo fisico: aiuta i robot a interpretare scene visive complesse e a pianificare azioni a partire da comandi in linguaggio naturale.

Cosa fa Gemini Robotics-ER e cosa cambia nella versione 1.6

La sigla ER sta per Embodied Reasoning, ragionamento incarnato: l'idea e' dotare un robot non solo della capacita' di "vedere", ma di ragionare su cio' che vede e su come agire di conseguenza. Gemini Robotics-ER e' un modello vision-language, cioe' capace di comprendere insieme immagini e testo, pensato per il ragionamento avanzato nel mondo reale.

La versione 1.6 introduce nuove capacita': tra queste, secondo Google, la lettura di strumenti e indicatori e un ragionamento spaziale e fisico migliorato. Tradotto in pratica, significa un robot che capisce meglio dove si trovano gli oggetti nello spazio, come sono orientati, quali relazioni hanno tra loro e quali conseguenze fisiche avranno le sue azioni — per esempio leggere il valore di un manometro o di un display e regolare di conseguenza il proprio comportamento.

Gemini Robotics-ER 1.6 punta a far ragionare i robot su scene complesse e azioni fisiche.

Perche' il ragionamento e' il vero collo di bottiglia della robotica

Da anni la robotica ha braccia precise e sensori sofisticati, ma fatica con la parte "intelligente": capire un ambiente disordinato, adattarsi a situazioni nuove, eseguire un'istruzione vaga come "prendi la tazza vicino al libro rosso". E' qui che i grandi modelli linguistici e multimodali stanno cambiando le carte in tavola. Collegando un modello come Gemini Robotics-ER al corpo di un robot, si prova a colmare il divario tra la destrezza meccanica, ormai matura, e la comprensione del contesto, finora il vero limite.

L'approccio di Google si inserisce in una competizione intensa: diversi laboratori e aziende stanno lavorando a "modelli fondazionali per la robotica", con l'obiettivo di creare un cervello generalista riutilizzabile su robot diversi, anziche' programmare ogni macchina da zero per ogni singolo compito.

Intanto il 30 giugno Google spegne i vecchi modelli video

Nello stesso periodo, il changelog della Gemini API segnala un'altra scadenza concreta: alcuni modelli di generazione video piu' vecchi vengono dismessi e spenti il 30 giugno 2026, con l'invito agli sviluppatori ad aggiornare le integrazioni verso le versioni piu' recenti di Veo 3.1, in anteprima o in disponibilita' generale. E' la consueta gestione del ciclo di vita: i modelli superati vengono ritirati per concentrare risorse e supporto su quelli nuovi. Google ha inoltre irrigidito la sicurezza delle chiavi API, che dal 19 giugno non accettano piu' richieste da chiavi prive di restrizioni.

Cosa aspettarsi dai robot che ragionano

Per ora Gemini Robotics-ER 1.6 e' uno strumento per ricercatori e sviluppatori, non un prodotto da scaffale. Ma la direzione e' chiara: i robot del prossimo futuro non saranno solo bracci meccanici programmati per gesti ripetitivi, bensi' macchine che osservano, ragionano e pianificano. La sfida, come sempre nella robotica, sara' la sicurezza: un modello che "ragiona" deve farlo in modo prevedibile e controllabile quando muove oggetti nel mondo reale, accanto alle persone. Il passaggio dall'anteprima all'uso sul campo dira' quanto questa promessa e' matura.