ChatGPT verslechterd naar mate van tijd, aldus onderzoekers

De door kunstmatige intelligentie aangedreven chatbot ChatGPT van OpenAI lijkt slechter te worden naarmate de tijd verstrijkt, en onderzoekers kunnen de reden niet achterhalen. In een studie van 18 juli ontdekten onderzoekers van Stanford en UC Berkeley dat de nieuwste modellen van ChatGPT veel minder in staat waren om nauwkeurige antwoorden te geven op een identieke reeks vragen in de loop van enkele maanden.

De auteurs van de studie konden geen duidelijk antwoord geven op waarom de mogelijkheden van de AI-chatbot waren verslechterd. Om te testen hoe betrouwbaar de verschillende modellen van ChatGPT waren, vroegen onderzoekers Lingjiao Chen, Matei Zaharia en James Zou de ChatGPT-3.5 en ChatGPT-4 modellen om een reeks wiskundige problemen op te lossen, gevoelige vragen te beantwoorden, nieuwe regels code te schrijven en ruimtelijk redeneren op basis van aanwijzingen.

Volgens het onderzoek kon ChatGPT-4 in maart met een nauwkeurigheid van 97,6% priemgetallen identificeren. In dezelfde test uitgevoerd in juni was de nauwkeurigheid van GPT-4 gedaald naar slechts 2,4%. Daarentegen was het eerdere GPT-3.5-model verbeterd in het identificeren van priemgetallen binnen dezelfde periode.

Wat betreft het genereren van regels nieuwe code, waren de mogelijkheden van beide modellen aanzienlijk verslechterd tussen maart en juni. De studie ontdekte ook dat de antwoorden van ChatGPT op gevoelige vragen – met enkele voorbeelden gericht op etniciteit en geslacht – later beknopter werden in het weigeren om te antwoorden.

Eerdere iteraties van de chatbot gaven uitgebreide redeneringen waarom bepaalde gevoelige vragen niet konden worden beantwoord. In juni verontschuldigden de modellen zich echter simpelweg tegenover de gebruiker en weigerden te antwoorden. De onderzoekers schreven het volgende:

“De gedragingen van dezelfde [grote taalmodel] service kunnen aanzienlijk veranderen in een relatief korte periode.”

De onderzoekers raadden gebruikers en bedrijven die vertrouwen op LLM-services als onderdeel van hun werkprocessen aan om een vorm van monitoringanalyse te implementeren om ervoor te zorgen dat de chatbot up-to-date blijft.

Op 6 juni kondigde OpenAI plannen aan om een team op te zetten dat zal helpen bij het beheersen van de risico’s die kunnen ontstaan uit een superintelligent AI-systeem, iets waarvan ze verwachten dat het binnen het komende decennium zal verschijnen.