Google DeepMind heeft een nieuwe trainingsarchitectuur gepresenteerd die laat zien waar de volgende
AI-race echt wordt uitgevochten. Niet alleen in chatbots of demo’s, maar in de datacenters, chips en netwerken die grote AI-modellen draaiend houden.
De nieuwe aanpak heet Decoupled DiLoCo.
Volgens DeepMind maakt die het mogelijk om grote taalmodellen te trainen over ver uit elkaar liggende datacenters, met minder bandbreedte en meer weerstand tegen storingen.
AI-training wordt minder kwetsbaar
Traditioneel leunt training van grote AI-modellen op strak gekoppelde clusters, waarin chips vrijwel synchroon moeten blijven werken. Dat wordt lastiger naarmate modellen groter worden en compute over meerdere locaties wordt verspreid.
Decoupled DiLoCo verdeelt training daarom over afzonderlijke “eilanden” van rekenkracht. Die kunnen grotendeels zelfstandig doorwerken, terwijl data asynchroon tussen de eilanden stroomt. Valt ergens hardware uit, dan hoeft niet meteen de hele training stil te vallen.
DeepMind koppelt er harde cijfers aan
DeepMind zegt dat het een model van 12 miljard parameters trainde over vier Amerikaanse regio’s met slechts 2 tot 5 Gbps aan wide-area networking. In een gesimuleerde omgeving met hoge failure rates op 1,2 miljoen chips kwam Decoupled DiLoCo uit op 88 procent goodput, tegenover 27 procent bij traditionele data-parallel training.
Die nuance is belangrijk: de meest opvallende failure-cijfers komen uit simulaties, niet uit een volledig publieke productiebenchmark. Maar het signaal is duidelijk. Google probeert training niet alleen sneller te maken, maar vooral minder breekbaar.
Dit is groter dan een modelupdate
Die lijn sluit aan op Google Cloud’s bredere infrastructuurverhaal. Google stelt dat AI-bedrijven in de “agentic era” een geïntegreerde stack nodig hebben van hardware, software, networking en flexibele capaciteit.
Een andere Google Cloud-analyse stelt dat bij grote GPU-systemen zelfs een prestatiefluctuatie van 0,01 procent systemische problemen kan veroorzaken, terwijl trainingsonderbrekingen miljoenen dollars en weken vertraging kunnen kosten.
Daar zit de strategische waarde. Wie AI-training kan spreiden over locaties, storingen kan opvangen en verschillende chipgeneraties kan combineren, krijgt meer bruikbare compute uit dezelfde infrastructuur.
Voor Europa is dat geen detail. Discussies over soevereine AI, datalocatie en compliance draaien uiteindelijk om dezelfde vraag: waar staat de rekenkracht, wie controleert die en hoe robuust blijft het systeem onder druk?
Decoupled DiLoCo is nog geen bewijs dat de hele sector morgen zo gaat trainen. Maar het maakt wel zichtbaar waar Google zijn echte voorsprong zoekt: niet in de volgende chatbotknop, maar in de infrastructuur die bepaalt wie de grootste modellen überhaupt kan blijven bouwen.