Zuckerberg: “Content makers overschatten hun invloed in AI”

Grote technologiebedrijven zoals OpenAI, Google, Meta en Anthropic gebruiken hoogwaardige, auteursrechtelijk beschermde content van prominente uitgevers om hun taalmodellen (LLM’s) te trainen.

Dit blijkt uit een studie van Ziff Davis, moederbedrijf van CNET, IGN en Mashable, die laat zien hoe belangrijk kwaliteitscontent is in AI-training. De voorkeur van AI-bedrijven voor gezaghebbende bronnen verbetert de prestaties van hun modellen, maar vaak wordt de waarde van deze bronnen over het hoofd gezien.

In het rapport leggen Ziff Davis’ AI-advocaat George Wukoson en CTO Joey Fortuna uit dat de keuze voor trainingsgegevens vaak gebaseerd is op de autoriteit en zichtbaarheid van websites in zoekresultaten. Het gebruik van betrouwbare, populaire bronnen helpt om taalmodellen te verfijnen en betrouwbaarder te maken.

Ziff Davis benadrukt dat vooraanstaande uitgevers zoals Axel Springer, Future PLC, Hearst, News Corp en The New York Times een belangrijke rol hebben gespeeld in de datasets die voor AI-training worden gebruikt. Uit de analyse bleek bijvoorbeeld dat 12,04% van de OpenWebText2-dataset, gebruikt in OpenAI’s GPT-3, afkomstig was van deze uitgevers.

In de discussie over contentgebruik voor AI benadrukte Mark Zuckerberg van Meta dat individuele bijdragers soms de impact van hun content op de AI-trainingsprocessen overschatten. Hij stelde in een interview met The Verge:

“Individuele makers of uitgevers overschatten vaak de waarde van hun specifieke content in het grotere geheel.”

Rechtszaken door uitgevers tegen AI-bedrijven

De gebrekkige transparantie rond de herkomst van trainingsdata wekt ongerustheid bij zowel consumenten als uitgevers. Onlangs hebben grote mediabedrijven zoals The New York Times en The Wall Street Journal rechtszaken aangespannen tegen AI-bedrijven wegens vermeende inbreuk op auteursrechten.

Hoewel OpenAI stappen heeft ondernomen om licenties te verwerven van media zoals de Financial Times en DotDash Meredith, werkt een deel van de AI-industrie nog zonder formele licenties. In het rapport staat dat grote LLM-ontwikkelaars hun bronnen niet meer openbaar maken zoals vroeger.

Terwijl de waarde van technologiebedrijven blijft stijgen — Google en Meta zijn respectievelijk $ 2,2 biljoen en $ 1,5 biljoen waard — moeten traditionele mediabedrijven blijven worstelen met financiële uitdagingen en personeelsherstructureringen. De druk om te concurreren met door AI gegenereerde content leidt bij uitgevers tot kostenbesparingen en personeelsinkrimpingen in een omgeving die steeds meer wordt beïnvloed door AI.