First Proof: gli umani battono ancora l'IA in matematica

Gli esseri umani continuano a battere l'intelligenza artificiale sui problemi di matematica più difficili. Lo conferma First Proof, un nuovo test presentato il 10 giugno 2026, che ha sottoposto a quattro tra i più avanzati sistemi di IA dieci problemi di matematica di livello avanzato: nessuno ha raggiunto la prestazione dei migliori esperti umani. Pochi giorni dopo, oltre 150 professori hanno firmato la cosiddetta «dichiarazione di Leiden», un appello a non «credere all'hype» sulle reali capacità matematiche di questi modelli.

Come funziona il test First Proof

La novità di First Proof sta nel metodo. Il test è costruito per soddisfare contemporaneamente tre condizioni che i benchmark precedenti raramente rispettavano: i quesiti sono di livello di ricerca, cioè vicini ai problemi che affrontano i matematici di professione; non compaiono nei dati di addestramento, eliminando il rischio che il modello li abbia già «visti»; e soprattutto vengono corretti da matematici in carne e ossa, che valutano la validità di ogni dimostrazione e non solo il risultato finale.

È un punto cruciale. Molti annunci trionfalistici si basano su problemi a risposta secca, dove un sistema può «indovinare» il numero giusto seguendo una scorciatoia statistica. Nella matematica vera conta la dimostrazione: il percorso logico che porta alla soluzione. È proprio qui che i modelli mostrano la corda, producendo passaggi che sembrano corretti ma contengono errori sottili o salti ingiustificati.

First Proof valuta le dimostrazioni complete, non solo la risposta finale.

Cosa dicono i numeri rispetto alle Olimpiadi 2025

Il risultato va letto insieme a quanto accaduto nel 2025, quando i modelli di Google e OpenAI avevano per la prima volta raggiunto un punteggio da medaglia d'oro alle Olimpiadi internazionali della matematica (IMO). Anche allora, però, gli umani avevano vinto: alcuni studenti adolescenti avevano ottenuto il punteggio pieno, cosa che nessuno dei due sistemi era riuscito a fare. La traiettoria è chiara — i modelli migliorano in fretta — ma il divario sui problemi davvero originali, mai visti prima, resta. Uno studio di febbraio 2026 aveva già mostrato come i principali modelli faticassero a risolvere problemi matematici inediti.

La dichiarazione di Leiden e il monito ai governi

Attorno a First Proof si è coagulata una reazione della comunità matematica. La dichiarazione di Leiden, sottoscritta da più di 150 docenti, invita la disciplina a non farsi megafono delle promesse dei produttori di IA e mette in guardia soprattutto i governi: non bisogna prendere decisioni di politica scientifica e di finanziamento sulla base di affermazioni gonfiate sulle capacità dei sistemi. Il timore è che l'entusiasmo distorca le priorità della ricerca e la formazione dei giovani matematici.

Oltre 150 docenti firmano la dichiarazione di Leiden contro l'eccesso di entusiasmo.

Perché la matematica è il banco di prova del ragionamento

Il motivo per cui questo dibattito conta va oltre la matematica. Dimostrare un teorema è il caso limite del ragionamento rigoroso: ogni passo deve seguire dal precedente senza margini di ambiguità. Se un modello sbaglia qui, è lecito interrogarsi sulla sua affidabilità anche in compiti di ragionamento meno verificabili, dove un errore è più difficile da individuare. Per questo i ricercatori spingono per benchmark indipendenti, corretti da esperti e basati su problemi nuovi — l'unico modo per separare il progresso reale dalla sua narrazione. La prossima edizione di First Proof, attesa con nuovi problemi, dirà quanto in fretta il divario si sta riducendo.

Questo articolo incrocia il materiale di First Proof, le riviste scientifiche e la stampa specializzata; i dati sono verificati e ricostruiti con analisi originale della redazione.