AI neemt banen over

Vergeet benchmarks: de echte AI-strijd draait nu om stroom en tokens

kunstmatige intelligentie22 apr , 19:01
Iedereen kijkt nog naar de verkeerde wedstrijd.
Weer een model dat nét iets hoger scoort op een benchmark? Leuk. Maar daar zit het echte verhaal al lang niet meer. De spannendste AI-strijd speelt lager in de stack: in datacenters, inference-servers en stroomnetten. Niet de partij met de mooiste demo gaat straks winnen, maar de partij die de meeste bruikbare output uit een megawatt perst.
Dat klinkt technisch. Is het ook. Maar de inzet is simpel: hoeveel AI krijg je voor je stroomrekening?

Niet training, maar inference wordt de grote slokop

Training trekt de aandacht. Het is groot, duur en makkelijk te verkopen als spektakel. Maar inference is waar de echte rekening begint te lopen.
Want trainen doe je een keer. Inference draait daarna eindeloos door. Elke vraag. Elke samenvatting. Elke agent die taken uitvoert. Elke copiloot op kantoor. Zodra miljoenen mensen of bedrijven hetzelfde systeem gaan gebruiken, verschuift de energievraag vanzelf van training naar dagelijks gebruik.
En precies daar begint de serieuze economie van AI.

Reasoning maakt het nog duurder

Dat probleem wordt alleen maar groter nu AI-systemen niet meer alleen korte antwoorden geven, maar ook redeneren, plannen en hele takenreeksen afwerken.
Hoe meer tokens een model uitspuugt, hoe langer de machine draait. En hoe langer die draait, hoe hoger de energierekening. Dat is de ongemakkelijke kern. Niet alleen het model telt, maar vooral wat je het laat doen.
Een slim antwoord is mooi. Een slim antwoord dat twintig keer zoveel tokens kost, wordt ineens een stuk minder mooi als je het op schaal moet serveren.

De vergeten knop zit niet eens in de chip

Veel mensen denken dan meteen aan nieuwe hardware. Snellere chips, betere TPU’s, zuinigere GPU’s. Logisch, maar te simpel.
De echte klapper zit vaak ergens anders: in contextlengte en routing. Geef een model standaard een enorm contextvenster, en je praat jezelf zo een veel duurdere energierekening in. Routeer verzoeken dom over je GPU-cluster, en identieke hardware wordt ineens veel minder efficiënt.
Dat is het interessante hier. Dit verhaal gaat niet alleen over chipbouwers. Het gaat ook over productkeuzes. Over ontwerp. Over discipline.
AI-bedrijven die overal maximale context aanzetten omdat het lekker premium klinkt, kunnen daar later keihard voor betalen.

Daarom schuift de hele industrie op

Het is geen toeval dat Google inference nu veel nadrukkelijker centraal zet in zijn chipverhaal. En het is ook geen toeval dat NVIDIA cost per token steeds harder naar voren schuift.
Dat is geen marketingdetail. Dat is de nieuwe rekensom.
Niet: hoe indrukwekkend is het model? Maar: wat kost het om dit model de hele dag voor echte gebruikers te laten draaien?
Vanaf dat moment verandert AI van onderzoekswedstrijd in industriële productie. Dan gaat het niet meer om een benchmark winnen, maar om marges beschermen.

Dit raakt ook gewoon Europa en Nederland

Wie denkt dat dit vooral Silicon Valley-nerdtaal is, mist de helft van het verhaal.
Datacenters vreten stroom. Europa ziet die vraag oplopen. Nederland zit bovendien al met een net dat op veel plekken praktisch vol is. Nieuwe of zwaardere aansluitingen zijn allang niet meer vanzelfsprekend. En hyperscale-datacenters liggen hier politiek onder een vergrootglas.
Dat betekent dat inference-efficiëntie geen nicheonderwerp meer is. Het raakt industriebeleid, netcongestie, vestigingsklimaat en uiteindelijk ook de vraag welke AI-toepassingen hier straks überhaupt schaalbaar zijn.
Simpeler gezegd: als AI meer stroom vraagt dan het net aankan, houdt het verhaal vanzelf op.

Veel media zitten nog in het oude frame

Daar gaat het nu ook journalistiek vaak mis.
Nog steeds zie je verhalen die AI-energie versimpelen tot de vraag of één chatbotantwoord meer stroom kost dan een zoekopdracht. Dat is veel te klein gedacht. De echte vraag is niet wat één prompt kost, maar wat miljoenen prompts, lange contexten, agentflows en reasoning-taken samen doen met je infrastructuur.
Dan krijg je een heel ander verhaal.
Dan kijk je niet meer alleen naar modellen, maar naar cost per token, tokens per watt en output per megawatt. Dan kijk je naar de economie achter AI, niet alleen naar de show erbovenop.

Hier zit de volgende AI-race echt

En precies daarom is tokens per watt zo’n sterk frame.
Het verbindt AI ineens aan alles wat telt: marges, stroomnetten, chipdesign, datacenterbouw en industriepolitiek. Het laat ook zien waarom de volgende AI-race minder gaat over wie de slimste demo heeft, en veel meer over wie AI het efficiëntst kan produceren.
Dat klinkt minder sexy dan weer een benchmarkrecord.
Maar dit is wel waar het straks echt gewonnen of verloren wordt.
Ga verder met lezen
loading
Dit vind je misschien ook leuk
Laat mensen jouw mening weten

Loading