GitHub gooide op 6 mei twee technische updates naar buiten die samen meer zeggen dan een doorsnee productrelease. In een blogpost legt het uit hoe het onvoorspelbaar agentgedrag wil valideren. In een aparte changelog-update geeft het enterprise-beheerders meer centrale controle over plugins, hooks en MCP-configuraties in Copilot CLI. Samen is dat geen detail, maar een verschuiving:
AI-agents moeten niet alleen slim lijken, ze moeten ook controleerbaar worden.
GitHub pakt eerst het lastigste probleem aan
De validatiepost raakt een zwakke plek waar veel agentverhalen omheen lopen.
GitHub schrijft dat klassieke softwaretests uitgaan van één simpele aanname: goed gedrag is herhaalbaar. Maar zodra een agent in een echte omgeving werkt — bijvoorbeeld in een browser, IDE of container met “Computer Use” — breekt die aanname snel. Een laadscherm kan verschijnen of niet, timing verschuift, en meerdere routes kunnen tot exact dezelfde uitkomst leiden. Dan kan een agent de taak goed uitvoeren terwijl de test toch rood slaat.
GitHub wil daarom af van star scriptdenken. In plaats van één exact pad te controleren, probeert het systeem de minimale structuur van een geslaagde taak te leren. Daarvoor modelleert GitHub sessies als grafen, bouwt het op basis van 2 tot 10 succesvolle runs een “ground truth”-model, en gebruikt het dominator analysis om te bepalen welke staten essentieel zijn en welke ruis. Een laadscherm is dan optioneel, maar een zoekdialoog of eindresultaat kan verplicht blijken.
Dat is de kern. Een nieuwe run hoeft niet meer identiek te zijn aan een eerdere run. Hij moet alleen nog de noodzakelijke mijlpalen in de juiste volgorde raken. GitHub zegt daarbij expliciet dat het systeem niet alleen pass/fail geeft, maar ook een coverage-score en uitlegt welke essentiële stap ontbrak.
De opvallendste claim zit in de testresultaten
In een gecontroleerde evaluatie zette GitHub zijn dominator tree-methode naast de zelfbeoordeling van een Computer-Use Agent in een custom VS Code extension test suite. Volgens GitHub kwam de dominator-aanpak uit op 100 procent accuracy, precision, recall en F1-score. De zelfbeoordeling van de agent bleef steken op 82,2 procent accuracy, 83,3 procent precision, 60,0 procent recall en 69,8 procent F1.
Dat is precies waarom deze blog zwaarder weegt dan een gewone onderzoekspost. Het echte signaal is niet dat GitHub een slim validatietrickje heeft gevonden, maar dat het openlijk erkent dat agents hun eigen succes nog niet betrouwbaar kunnen beoordelen.
GitHub schrijft zelfs dat de agent in deze testopzet failures vaak ten onrechte als successen rapporteerde. Dat maakt externe validatie ineens geen nice-to-have meer, maar een trust layer. Deze bredere duiding volgt uit de gepubliceerde resultaten en GitHubs eigen framing.
De tweede update lijkt kleiner, maar is strategisch net zo belangrijk
De changelog-update van dezelfde dag gaat over enterprise-managed plugins in GitHub Copilot CLI. Beheerders kunnen nu plugin marketplaces definiëren in een settings.json-bestand op .github-private/.github/copilot/settings.json, waarna Copilot CLI die instellingen automatisch toepast voor gebruikers met Copilot Business of Copilot Enterprise. Ook kunnen plugins automatisch worden geïnstalleerd en kunnen hooks en MCP-configuraties organisatiebreed altijd ingeschakeld blijven.
Dat klinkt administratief, maar het effect is groter. GitHub trekt Copilot CLI daarmee weg uit de hoek van individuele developer-tooling en richting een centraal beheerde standaardomgeving. De agent krijgt niet alleen uitbreidbaarheid, maar ook een enterprise-default waar governance vooraf in zit.
Copilot CLI is daar inmiddels volwassen genoeg voor
Die stap is ook logisch in timing. GitHub maakte Copilot CLI op 25 februari 2026 algemeen beschikbaar en positioneert het sindsdien als een terminal-native coding agent die complexe taken kan plannen, multistep workflows kan uitvoeren, bestanden kan aanpassen, tests kan draaien en zich kan uitbreiden via MCP, plugins, skills, custom agents en hooks. Zodra zo’n systeem die breedte krijgt, wordt centraal beheer bijna onvermijdelijk.
Daarmee verandert ook de enterprise-vraag. Niet langer alleen: wat kan deze agent? Maar: welke tools mag hij standaard gebruiken, welke hooks wil ik afdwingen, en hoe houd ik het gedrag uitlegbaar als de uitvoering per sessie mag variëren? Dat is een redactionele gevolgtrekking op basis van GitHubs GA-positionering voor Copilot CLI en de nieuwe enterprise-managed pluginlaag.
Dit is de echte draai in de agentmarkt
Juist daarom versterken die twee updates elkaar. De validatieblog gaat over verifieerbaarheid in een niet-deterministische wereld. De enterprise-pluginupdate gaat over bestuurbaarheid in een organisatie. Samen schuiven ze
AI-agents op van assistent naar infrastructuur.
En daar zit het grotere verhaal voor GitHub. De markt voor coding agents wordt waarschijnlijk niet alleen gewonnen door het model dat de spectaculairste demo geeft. De sterkere positie kan juist liggen bij de partij die als eerste laat zien hoe agents op grote schaal verifieerbaar én beheerbaar worden. Op basis van deze twee updates lijkt GitHub daar nu vol op te sturen.