NVIDIA AI-nieuws

NVIDIA laat zien waar de volgende AI-oorlog om draait

NVIDIA wijst op een nieuw knelpunt in AI: agents maken inference onvoorspelbaar, duur en moeilijker te plannen. Daardoor draait de volgende AI-strijd niet alleen om betere modellen of snellere chips, maar om wie inference onder agentische belasting betaalbaar en stabiel kan uitvoeren.
Dat is de echte boodschap onder NVIDIA’s nieuwste technische verhaal. Agentic AI verandert inference van een losse rekentaak in een logistiek probleem.

Agents breken het oude inference-model

De oude rekeneconomie van taalmodellen was overzichtelijk. Een gebruiker stelt een vraag, het model rekent een antwoord uit en de sessie eindigt.
Bij agents werkt dat anders. Een agent voert stappen uit, gebruikt tools, leest observaties, bouwt context opnieuw op en neemt daarna vervolgbeslissingen.
NVIDIA schrijft dat agentic inference de runtime-dynamiek van inference fundamenteel verandert door niet-deterministische trajecten van acties, observaties en beslissingen. Die trajecten kunnen end-to-end latency opstapelen over honderden inferenceverzoeken per sessie.
Dat is meer dan een technisch detail. Het betekent dat één gebruikerstaak niet langer één nette modelaanroep is, maar een hele keten van onvoorspelbare requests.
Voor infrastructuur maakt dat alles moeilijker: planning, latency, geheugen, dataverkeer en kosten.

De bottleneck verschuift naar inference

De AI-markt praat nog vaak alsof training de grote strijd blijft. Wie heeft het grootste model, de meeste data, de zwaarste cluster en de beste benchmark?
Maar zodra agents in productie gaan, verschuift een groot deel van de economische pijn naar inference.
Training is duur, maar relatief planbaar. Agentic inference is grillig. De ene sessie kan kort zijn, de andere kan honderden stappen vragen. Sommige requests hebben lange context nodig, andere vooral snelle tokenoutput.
Dat maakt klassieke doorvoerbenchmarks minder volledig. Eén getal voor tokens per seconde zegt weinig als de echte workload bestaat uit wisselende contexten, tool calls, cache hits, cache misses en parallelle agentstappen.
Wie agentic inference goedkoop wil draaien, moet dus niet alleen sneller rekenen. Hij moet minder verspillen.

Dynamo is NVIDIA’s antwoord

Daar komt NVIDIA Dynamo in beeld. Het bedrijf kondigde Dynamo 1.0 op 16 maart aan als open-source software voor generative en agentic inference op schaal. NVIDIA noemt het een soort distributed “operating system” voor AI factories, bedoeld om GPU- en geheugenresources over clusters te coördineren.
Dat is geen neutrale omschrijving; NVIDIA verkoopt hier duidelijk zijn visie op de stack. Maar de richting is belangrijk.
NVIDIA positioneert Dynamo niet als vervanger van engines zoals vLLM, SGLang of TensorRT-LLM, maar als orchestrationlaag erboven. De open-source repository beschrijft Dynamo als laag die zulke engines omzet in een gecoördineerd multi-node inference-systeem met disaggregated serving, intelligent routing, multi-tier KV caching en automatic scaling.
Met andere woorden: de strijd verschuift van losse modeluitvoering naar volledige inference-operatie.

Cache wordt economische macht

Een van de belangrijkste woorden in dit verhaal is cache.
Bij agentische workloads komt dezelfde context vaak terug. Een systeemprompt, conversatiegeschiedenis of lang document hoeft idealiter niet telkens opnieuw volledig te worden verwerkt.
NVIDIA’s full-stack Dynamo-blog draait daarom rond drie lagen: frontend API, router en KV-cache management. Het doel is om agentic inference slimmer om te laten gaan met hergebruik van context, routing en cacheplaatsing.
Dat klinkt technisch, maar het economische gevolg is simpel. Hoe meer werk je uit cache kunt halen, hoe minder GPU-tijd je verspilt.
Bij agents wordt dat cruciaal. Als elke tussenstap opnieuw lange context moet berekenen, loopt de kostprijs per taak snel op. Als infrastructuur context warm houdt en requests slim routed, wordt hetzelfde model goedkoper en sneller.
De volgende AI-oorlog gaat dus niet alleen om wie het krachtigste model heeft. Ze gaat ook om wie het meeste dubbel werk voorkomt.

Prefill en decode worden uit elkaar getrokken

Dynamo zet ook zwaar in op disaggregated serving. Daarbij worden de prefill-fase en decode-fase van inference van elkaar gescheiden.
In de prefill-fase verwerkt het systeem prompt en context en bouwt het de KV-cache op. In de decode-fase worden vervolgens de outputtokens gegenereerd.
NVIDIA’s documentatie stelt dat disaggregated serving drie dingen vereist: scheduling om prefill en decode zonder interferentie toe te wijzen, memory management voor KV-cache offloading en onboarding, en low-latency datatransfer om KV-cache tussen nodes en geheugenlagen te verplaatsen.
De aparte Dynamo-documentatie vat het proces concreet samen: een prefill engine berekent de prefill-fase en genereert KV-cache, draagt die cache over aan een decode engine, waarna de decode engine de outputfase uitvoert.
Dat maakt duidelijk waarom agentic AI de oude infrastructuur onder druk zet. Je kunt niet alles meer behandelen als één uniforme stroom.
Lange contextverzoeken en snelle tokenoutput hebben andere reken- en geheugenprofielen. Door ze te scheiden, kan infrastructuur gespecialiseerde paden bouwen.

Netwerk en geheugen worden even belangrijk als de chip

Deze architectuur maakt ook duidelijk waarom netwerk en geheugenbeheer opeens strategisch worden.
Als prefill en decode op verschillende workers draaien, moet de KV-cache snel en betrouwbaar worden verplaatst. Dat is geen bijzaak. Het is de modeltoestand die nodig is om efficiënt verder te genereren.
Zodra die transfer traag of rommelig wordt, verdwijnt een groot deel van de winst van disaggregated serving.
Daarom draait de nieuwe infrastructuurstrijd om meer dan FLOPS. Natuurlijk blijven GPU’s belangrijk. Maar wie agentic inference op schaal wil aanbieden, moet ook winnen op memory hierarchy, interconnects, routing, scheduling en cachebeleid.
Dat is precies het punt dat NVIDIA met Dynamo naar voren schuift. De chip blijft de kern, maar de softwarelaag die de chip efficiënt benut wordt steeds meer onderdeel van de machtspositie.

NVIDIA verkoopt nu de stack, niet alleen de GPU

NVIDIA’s Dynamo-aankondiging noemt integraties met onder meer LangChain, LMCache, SGLang en vLLM. Het bedrijf claimt ook dat Dynamo in benchmarks de inference performance van Blackwell-GPU’s tot 7x kan verhogen.
Die benchmarkclaim komt van NVIDIA zelf en moet dus voorzichtig worden gelezen. Vendor-benchmarks zijn nuttig, maar niet hetzelfde als universele real-world performance.
Toch is de strategische boodschap helder. NVIDIA wil niet alleen de leverancier van chips zijn, maar ook van de orchestrationlaag die agentic inference economisch uitvoerbaar maakt.
Dat is logisch. Naarmate GPU’s overal worden ingezet, verschuift differentiatie naar de vraag wie de beste total cost of ownership levert.
Niet alleen: hoeveel tokens kan een GPU genereren?
Maar ook: hoeveel nuttige agenttaken kunnen per dollar, per watt en per seconde worden afgehandeld?

De oude benchmarkcultuur wordt te smal

Dat verandert ook hoe bedrijven AI-infrastructuur moeten beoordelen.
Een model kan indrukwekkend scoren op een benchmark en toch duur zijn in productie. Een cluster kan enorme throughput halen en toch slechte gebruikerservaring leveren als agenttaken vastlopen op contexttransfer, cachemisses of piekbelasting.
Voor agentic AI tellen andere vragen.
Hoe voorspelbaar is latency over een hele taak? Hoeveel cache kan worden hergebruikt? Hoe slim worden requests gerouteerd? Hoe goed werkt autoscaling bij grillige patronen? Hoeveel GPU-geheugen wordt verspild aan context die niet actief nodig is?
Dat zijn saaie vragen vergeleken met modelrankings. Maar in productie bepalen ze marge.

De echte AI-oorlog wordt logistiek

De kern is dat agents inference veranderen in een continu logistiek probleem.
Een agent moet niet alleen denken, maar ook plannen, zoeken, bellen met tools, resultaten interpreteren en opnieuw rekenen. Daardoor wordt de infrastructuur achter het model belangrijker dan de enkele modelaanroep.
Wie dit goed oplost, kan hetzelfde model goedkoper, sneller en betrouwbaarder aanbieden. Wie dit slecht oplost, betaalt te veel voor latency, cachemisses en onnodige herberekening.
Daarom is NVIDIA’s signaal interessant. Het bedrijf heeft er belang bij om de infrastructuurvraag groot te maken, maar dat betekent niet dat de vraag onbelangrijk is.
Integendeel. Als de grootste winnaar van de AI-boom nu zo nadrukkelijk spreekt over inference-operatie, cache, routing en disaggregated serving, zegt dat veel over waar de volgende bottleneck zit.

Niet de meeste FLOPS, maar de minste verspilling

De volgende AI-oorlog gaat dus niet alleen om intelligentie in het model. Ze gaat om discipline in de infrastructuur.
Agents slopen de oude rekeneconomie omdat ze van inference geen losse rekentaak meer maken. Ze maken er een keten van onvoorspelbare beslissingen en modelaanroepen van.
De winnaar is dan niet automatisch degene met de meeste FLOPS. Het wordt degene die tussen vraag en antwoord het minst verspilt.
NVIDIA probeert die laag met Dynamo en Vera Rubin naar zich toe te trekken. Dat is commercieel slim, maar ook inhoudelijk relevant.
Want als agents echt de standaardinterface van AI worden, wordt inference niet de achterkant van het model. Dan wordt inference de markt waar de volgende AI-machtsstrijd wordt uitgevochten.

Koop of verkoop voor €100 Stop met te veel betalen voor je crypto. Bij de Amsterdamse exchange Finst handel je tegen de laagste tarieven van Nederland, zonder verborgen kosten.

👀 Bekijk Finst nu

Let op: Beleggen in crypto brengt risico’s met zich mee. Handel alleen met geld dat u kunt missen.

Ga verder met lezen
loading
Dit vind je misschien ook leuk
Laat mensen jouw mening weten

Loading