Il dato è uscito. GPT-5.3-Codex raggiunge il 72.2% di successo nell'attaccare smart contract vulnerabili. In difesa si ferma al 36%. Tradotto: la stessa AI attacca due volte meglio di quanto protegga.
Dati chiave
- GPT-5.3-Codex — attack mode (EVMbench) 72.2%
- GPT-5.3-Codex — detect mode 36%
- Truffe AI-powered vs tradizionali 4.5x più redditizie
- Costo medio attacco AI per contratto $1,22
- AI specializzata difensiva (Cecuro) 92% rilevamento
- Protocolli DeFi con firewall on-chain <1%
Fonte: Binance Research EVMbench · Chainalysis Crime Report 2026 · Cecuro/CoinDesk · Aprile-maggio 2026
Fonte: Binance Research EVMbench · Chainalysis Crime Report 2026 · Cecuro/CoinDesk · Aprile-maggio 2026
Il benchmark si chiama EVMbench. Binance Research lo ha pubblicato nel report di aprile 2026, testando modelli AI su contratti Ethereum vulnerabili in due modalità: attack mode (trovare e sfruttare vulnerabilità) e detect mode (identificarle senza sfruttarle). Il divario è netto, e non è un errore di misura. GPT-5.3-Codex in attack mode: 72.2%. In detect mode: 36%. Non è che il modello "non sa difendersi". È che le stesse capacità di ragionamento sul codice che lo rendono efficace nell'analisi lo rendono altrettanto efficace nel trovare come rompere quella stessa logica, a $1,22 per tentativo.
Chainalysis chiude il quadro nel Crime Crypto Report 2025-2026: le truffe AI-powered sono risultate 4,5 volte più redditizie per caso rispetto a quelle tradizionali. Non perché i truffatori siano più bravi. Perché l'AI scala il volume di attacchi in modo che nessun team umano potrebbe replicare. Un singolo operatore con accesso a un modello AI può lanciare migliaia di tentativi di exploit in parallelo, con costi marginali quasi zero. Numeri opposti allo stesso problema: chi usa l'AI offensiva prima di chi la usa in difesa ha un vantaggio strutturale che si misura in decine di milioni di dollari.
Come funziona un attacco AI su uno smart contract DeFi?
Funziona come un audit, ma al contrario. Un agente AI che entra in attack mode su un contratto fa esattamente quello che fa un auditor di sicurezza: legge il codice, analizza i flussi, cerca le anomalie logiche nel modo in cui le funzioni interagiscono. La differenza è l'obiettivo finale. Invece di produrre un report, costruisce un exploit. Invece di segnalare, esegue.
~40% of daily code written at Coinbase is AI-generated. I want to get it to >50% by October.
— Brian Armstrong (@brian_armstrong) September 3, 2025
Obviously it needs to be reviewed and understood, and not all areas of the business can use AI-generated code. But we should be using it responsibly as much as we possibly can. pic.twitter.com/Nmnsdxgosp
Il benchmark Cecuro, citato da CoinDesk a febbraio 2026, aveva già identificato la stessa asimmetria su 90 contratti reali sfruttati tra ottobre 2024 e inizio 2026 per perdite verificate pari a $228 milioni. Un agente AI specializzato in sicurezza rilevava il 92% delle vulnerabilità. Un modello GPT-5.1 generico ne trovava il 34%. Cecuro ha misurato anche il ritmo: la capacità offensiva AI raddoppia circa ogni 1,3 mesi. L'adozione degli strumenti difensivi AI nel settore DeFi è sotto il 10%. Il gap, di fatto, si allarga.
Questa settimana l'asimmetria ha avuto un volto concreto. THORChain, Verus Bridge ed Echo Protocol sono stati colpiti in cinque giorni per oltre $23 milioni. Nessuno dei tre attacchi ha usato AI direttamente come vettore, ma tutti e tre hanno sfruttato finestre di vulnerabilità che un sistema offensivo AI avrebbe potuto identificare in minuti. Per chi vuole il breakdown tecnico, la sezione Hack di SpazioCrypto ha il dettaglio completo degli exploit di questa settimana. Aprile aveva già visto Kelp DAO a $292 milioni e Drift Protocol a $285 milioni: entrambi costruiti su exploit preparati per settimane, con una precisione che ricorda molto il ragionamento sistematico di un agente AI.
Very soon there are going to be more AI agents than humans making transactions.
— Brian Armstrong (@brian_armstrong) March 9, 2026
They can’t open a bank account, but they can own a crypto wallet. Think about it.
L'11 maggio 2026, Google GTIG ha confermato il primo zero-day sviluppato interamente da un agente AI: un bypass del secondo fattore di autenticazione su un tool open-source, già pronto per la mass exploitation prima che il team lo intercettasse. Per chi opera in DeFi, la domanda non è più "l'AI verrà usata per attaccare?" ma "chi la sta già usando e da quanto tempo?". Su questo fronte, il nostro articolo sui router LLM e la sicurezza dei wallet documenta come i canali di distribuzione dell'AI offensiva siano già attivi da mesi. Il lancio di GPT-5.5 su use case bancari e il pivot AI di Coinbase segnalano che l'industria sa dove si combatterà. La sicurezza on-chain deve arrivare alla stessa conclusione prima che il prossimo EVMbench esca con un 80% in attack mode.
Il divario non è statico. Binance Research ha segnalato che il prossimo ciclo di EVMbench è atteso per luglio 2026: sarà il termometro più preciso per misurare se il settore DeFi ha iniziato a colmare il gap tra capacità offensiva e difensiva AI, o se il 72.2% è già il pavimento. Nel frattempo, meno dell'1% dei protocolli DeFi usa firewall on-chain. Il 90% presenta ancora vulnerabilità critiche sfruttabili, secondo i dati Cecuro. I miner Bitcoin che stanno vendendo BTC per comprare GPU AI hanno capito che l'AI è il terreno che conta. La sicurezza on-chain deve fare lo stesso. Per seguire tutti gli aggiornamenti sulla sicurezza DeFi, la sezione Hack di SpazioCrypto è aggiornata in tempo reale.
