Gemini 3.5 Flash è il modello «leggero» con cui Google prova a vincere la guerra del rapporto qualità-prezzo. Presentato al Google I/O e disponibile da subito sull'app Gemini, su Google AI Studio, su Vertex AI, tramite API e dentro la modalità IA della Ricerca, è pensato per essere veloce ed economico pur reggendo compiti complessi. Per chi vuole automatizzare, programmare o semplicemente usare un'IA capace senza spendere troppo, è oggi una delle scelte più sensate. Vediamo cosa sa fare e, soprattutto, come provarlo — anche gratis.

Cos'è Gemini 3.5 Flash e cosa lo distingue

Nella famiglia Gemini, «Flash» è la versione ottimizzata per costo e latenza, contrapposta a «Pro» che punta al massimo della capacità di ragionamento. La versione 3.5 di Flash si distingue per tre cose. La prima è la finestra di contesto da circa un milione di token in ingresso (oltre 65.000 in uscita): puoi dargli in pasto interi libri, basi di codice o raccolte di documenti in una sola richiesta. La seconda è la natura multimodale: accetta testo, immagini, audio, video e PDF come input, restituendo testo. La terza è l'ottimizzazione per il codice e per i cicli agentici, cioè per quei flussi in cui il modello viene chiamato molte volte di fila per portare a termine un compito in autonomia. In pratica, Flash 3.5 punta a fare l'80% di ciò che fa il fratello Pro a una frazione del costo e con tempi di risposta più rapidi.

Gemini 3.5 Flash e' disponibile nell'app Gemini, su AI Studio e tramite API.

Dove provarlo gratis: app Gemini e AI Studio

Ci sono due strade per usarlo senza pagare. La prima è l'app Gemini (su web all'indirizzo gemini.google.com, oppure su Android e iOS): basta un account Google, si seleziona il modello dal menu e si inizia a chattare. È la via più semplice per chi vuole solo usarlo come assistente. La seconda, pensata per chi sviluppa o vuole sperimentare i prompt, è Google AI Studio (aistudio.google.com): qui c'è una quota gratuita generosa per prototipare — nell'ordine di decine di richieste al minuto e quote giornaliere di token — senza inserire una carta di credito. AI Studio è anche il posto migliore per generare la tua prima chiave API e testare gli stessi prompt che poi userai nel codice.

Quanto costa l'API e quando conviene

Quando si passa all'uso programmatico via API a pagamento, i prezzi di listino indicati per Gemini 3.5 Flash si aggirano intorno a 1,50 dollari per milione di token in ingresso e 9 dollari per milione in uscita, con i token «in cache» molto più economici (utili quando rimandi più volte lo stesso contesto, ad esempio un manuale). Sono cifre che lo rendono adatto a carichi ad alto volume: chatbot, classificazione di testi, estrazione di dati, riassunti di massa. Per i compiti di ragionamento più difficili — matematica complessa, pianificazione articolata — può valere la pena passare a un modello Pro; ma per la stragrande maggioranza delle attività quotidiane, Flash è il punto di equilibrio giusto. (I prezzi cambiano spesso: controlla sempre il listino ufficiale prima di mettere in produzione.)

Flash contro Pro: quando basta il modello veloce

La domanda che si pongono in molti è: vale la pena aspettare il fratello maggiore, Gemini 3.5 Pro? Dipende dal compito. Pro punta al ragionamento profondo, con modalità come il «Deep Think» per problemi che richiedono più passaggi logici; Flash è tarato per rispondere in fretta e a basso costo. Per scrivere email, riassumere, tradurre, classificare, rispondere a domande sui propri documenti, generare codice di uso comune, Flash 3.5 è più che sufficiente — e il risparmio, su grandi volumi, è enorme. Conviene salire a un modello Pro solo quando noti che Flash sbaglia ragionamenti complessi o perde il filo su istruzioni molto articolate. Una buona strategia, in produzione, è il routing: usare Flash come modello predefinito e inviare a Pro solo le richieste che lo richiedono davvero. È lo stesso approccio «modello giusto per il compito giusto» che ormai adottano tutti i grandi fornitori, da OpenAI ad Anthropic.

Per la maggior parte dei compiti quotidiani il modello Flash basta; Pro serve per il ragionamento difficile.

Un esempio pratico: dal prompt alla chiamata API

Ecco un prompt che sfrutta il contesto lungo e la multimodalità, da incollare nell'app o in AI Studio:

Ti incollo qui sotto il testo di una relazione di 20 pagine. Riassumila in 10 punti per il consiglio di amministrazione, evidenzia i 3 rischi principali e proponi 3 domande da fare all'autore. Mantieni un tono sobrio. [incolla qui il testo]

Per usarlo da codice, una volta ottenuta la chiave API da AI Studio, la chiamata più semplice in Python è questa:

pip install google-genai

# script.py
from google import genai

client = genai.Client(api_key="LA_TUA_CHIAVE")

resp = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Spiega in 5 punti cos'e' la finestra di contesto di un LLM, con un esempio."
)
print(resp.text)

Il risultato atteso è una risposta strutturata in cinque punti, restituita in un paio di secondi. Da qui puoi aggiungere immagini o PDF come input, attivare lo streaming per ricevere il testo man mano, o inserire la chiamata dentro un'automazione. Tutta la documentazione e i limiti aggiornati sono su Google AI for Developers; per l'uso senza codice, il punto di partenza è l'app Gemini. Se cerchi un'alternativa, modelli come Claude Haiku o GPT-5.5 Instant giocano nella stessa fascia «veloce ed economica»: vale la pena provarli sullo stesso compito e confrontare qualità e costo.