Agentjacking: come un falso errore dirotta gli agenti IA

Si chiama «agentjacking» ed è una delle dimostrazioni di sicurezza più inquietanti del mese. I ricercatori di Tenet Security hanno mostrato come un semplice report d'errore falso, inviato a un servizio molto diffuso tra gli sviluppatori, possa indurre gli assistenti di programmazione basati sull'IA — Claude Code, Cursor e Codex — a eseguire comandi scelti dall'attaccante, con gli stessi privilegi dello sviluppatore sul suo computer. La vulnerabilità è stata segnalata il 3 giugno 2026 e documentata anche dalla Cloud Security Alliance.

Il bersaglio è Sentry, una piattaforma molto usata per monitorare gli errori delle applicazioni. Gli assistenti IA, sempre più spesso, leggono automaticamente quei log per aiutare lo sviluppatore a capire cosa non funziona. Ed è proprio qui che si apre la falla.

Come funziona l'attacco, passo dopo passo

Il meccanismo è tanto semplice quanto efficace. Per inviare eventi a Sentry serve un identificativo chiamato DSN, una credenziale pubblica e di sola scrittura, spesso reperibile nel codice JavaScript di un sito o tramite una ricerca su GitHub. Con quel DSN e un qualsiasi strumento capace di inviare una richiesta HTTP, un attaccante può iniettare in Sentry un finto evento d'errore contenente istruzioni nascoste.

Quando l'assistente IA recupera quell'evento — tipicamente attraverso il protocollo MCP, lo standard che collega i modelli agli strumenti esterni — non lo distingue da un errore legittimo dell'applicazione. Lo legge come testo da elaborare e, se contiene comandi mascherati da indicazioni tecniche, li esegue. Nei test di Tenet, riportati da The New Stack, un agente è arrivato a scaricare ed eseguire un pacchetto npm malevolo: una via diretta verso l'esecuzione di codice arbitrario sulla macchina dello sviluppatore.

L'attacco sfrutta la fiducia con cui gli agenti IA trattano i dati esterni. Foto: Pexels

Quante aziende sono esposte

La scala del problema non è teorica. I ricercatori hanno individuato oltre 2.388 organizzazioni con DSN esposti. Gli assistenti IA di più di 100 aziende, tra cui un'azienda tecnologica del gruppo Fortune 100, hanno eseguito il codice di test predisposto da Tenet. Significa che la catena d'attacco non solo è possibile in laboratorio, ma funziona in ambienti reali.

La radice del problema è concettuale, e per questo difficile da chiudere: gli agenti IA tendono a trattare qualsiasi testo ricevuto come potenziale istruzione. È la stessa categoria di rischio della «prompt injection», qui applicata ai dati che gli agenti raccolgono dagli strumenti di lavoro. Sentry, contattata il 3 giugno, ha aggiunto un filtro sui contenuti ma — riferisce The Hacker News — ha definito una correzione completa «tecnicamente non difendibile» a livello di piattaforma, perché il nodo sta nel comportamento degli agenti, non nel servizio.

Cosa puo fare chi sviluppa con gli agenti IA

Per chi in Italia usa questi strumenti — e sono sempre di più, dalle software house alle PMI — ci sono accorgimenti concreti. Primo: non concedere agli agenti privilegi più ampi del necessario, evitando che possano installare pacchetti o eseguire comandi di sistema senza conferma esplicita. Secondo: trattare ogni dato proveniente da fonti esterne, log compresi, come potenzialmente ostile, isolando le esecuzioni in ambienti sandbox. Terzo: rivedere quali connettori MCP sono attivi e con quali permessi.

L'episodio è un campanello d'allarme su una transizione in corso. Man mano che gli agenti IA passano dal «suggerire codice» all'«agire al posto nostro», ogni canale informativo che leggono diventa una potenziale superficie d'attacco. La comodità di un assistente che indaga gli errori da solo ha un prezzo di sicurezza che, finora, in pochi avevano calcolato.