OpenAI Paradigm EVMbench Ethereum

Ethereum en AI: OpenAI en Paradigm introduceren EVMbench

Ethereum Nieuws19 feb , 7:08
OpenAI en Paradigm introduceren EVMbench, een nieuwe benchmark die meet hoe goed AI-agenten smart contract-kwetsbaarheden op de Ethereum Virtual Machine (EVM) kunnen detecteren, patchen en exploiteren. De tool is ontwikkeld door OpenAI (bekend van ChatGPT) en Paradigm, een grote crypto-investeringsfirma.
EVMbench gebruikt 120 zorgvuldig geselecteerde, echte kwetsbaarheden uit 40 audits – vooral uit open auditwedstrijden zoals Code4rena – plus scenario’s uit de beveiligingsaudit van Tempo, Stripe’s eigen layer-1 blockchain voor snelle, goedkope stablecoin-betalingen.

Drie evaluatiemodi

De benchmark test AI-agenten in drie verschillende modi:
  • Detect — Agenten auditen een smart contract-repository en worden beoordeeld op hoe goed ze bekende kwetsbaarheden vinden (recall) en hoe relevant hun audit-rapport is.
  • Patch — Agenten moeten kwetsbare contracten aanpassen, zonder de beoogde functionaliteit te breken, terwijl exploitability wordt geëlimineerd (gecheckt via automatische tests en exploit-verificatie).
  • Exploit — Agenten proberen in een gesandboxte blockchain end-to-end fund-draining attacks uit te voeren. Succes wordt bepaald door deterministische transactieherhaling.

Resultaten van frontier-modellen

In de exploit-modus scoort GPT-5.3-Codex (via OpenAI's Codex CLI) een indrukwekkende 72,2%. Dat is een flinke sprong ten opzichte van GPT-5 (31,9%), dat slechts zes maanden eerder uitkwam.
Detectie en patching blijven echter zwakker: veel kwetsbaarheden zijn nog moeilijk te vinden of te fixen zonder functionaliteit te breken.
De onderzoekers benadrukken dat EVMbench de complexiteit van echte beveiliging niet volledig nabootst, maar wel cruciaal is omdat AI steeds meer een wapen wordt voor zowel aanvallers als verdedigers. Ze pleiten voor meer testen in economisch relevante omgevingen.

Context en belang

Het aantal smart contracts op Ethereum bereikte in november 2025 een record van 1,7 miljoen per week, met 669.500 alleen al vorige week (Token Terminal). Naarmate agentic stablecoin-betalingen groeien (zoals Stripe’s Tempo), wordt beveiliging van smart contracts nog crucialer.
EVMbench is open en openbaar beschikbaar via OpenAI en Paradigm. Het doel is om AI-ontwikkeling te sturen naar defensieve toepassingen: audits automatiseren en contracten versterken voordat ze live gaan.
Dit is een stap verder in de samenwerking tussen AI en blockchain: OpenAI duikt dieper in crypto-security, terwijl Paradigm (bekend van investeringen in DeFi en infra) bijdraagt aan realistische benchmarks.
Of AI ooit menselijke auditors volledig vervangt? Nog niet – maar tools als EVMbench brengen ons dichterbij. En ja, de race tussen aanvallers en verdedigers wordt er alleen maar sneller door.
Ga verder met lezen
loading
Dit vind je misschien ook leuk
Laat mensen jouw mening weten

Loading