Tech-giganten trainen AI-modellen met YouTube-video’s, zonder toestemming 

Tech-giganten waaronder Apple, Nvidia en Anthropic hebben meer dan 173.000 YouTube-video’s gebruikt om hun AI-modellen mee te trainen, zonder toestemming. 

Volgens een onderzoek van Proof News in samenwerking met Wired, zouden enkele grote tech-giganten waaronder Apple, Nvidia, Salesforce en Anthropic meer dan 173.000 YouTube-video’s gebruikt hebben van meer dan 48.000 YouTube-kanalen om hun AI-modellen te trainen. Specifiek gaat het hier over de ondertiteling van YouTube-video’s. Dit gebeurde zonder toestemming te vragen aan YouTube of de makers van de video’s. 

Dataset ‘The Pile’

Meer specifiek gaat het over 173.536 video’s van meer dan 48.000 YouTube-kanalen. Populaire (Engelstalige) YouTubers en kanalen waaronder MrBeast, TED talks, BBC werden hiervoor gebruikt. Proof News ontdekte een nonprofit onder de naam EleuterhAI dat een openbare dataset bezit met de naam ‘the Pile’. Hierin staan data van YouTube, Engelstalige Wikipedia, het Europees Parlement en zelfs een hele reeks e-mails van medewerkers van Enron Corporation die zijn vrijgegeven als onderdeel van een federaal onderzoek.  

lees ook

OpenAI transcribeerde naar verluidt meer dan een miljoen uur aan YouTube-video’s

Grote bedrijven zoals Apple, Nvidia en Salesforce, beschrijven in hun onderzoekspapers en posts hoe ze ‘the Pile’ gebruikt hebben om hun AI te trainen. De publieke dataset werd ook door verschillende andere techbedrijven gebruikt. Hoewel het niet zomaar te achterhalen is, stelt Proof News dat het op basis van een vage beschrijving over hun trainingsdata kon besluiten dat het om the Pile ging.  

Zonder toestemming

Proof News creëerde een tool om te controleren of een video gebruikt werd in de dataset of niet. De ondertitels waren geanonimiseerd, maar op basis van de identificatienummers van de video’s kon Proof News toch de kanalen aan elkaar linken.

lees ook

EU richt AI-kantoor op voor handhaving nieuwe AI-wet 

Hoewel de ondertitels publiekelijk weergegeven worden op YouTube, impliceert dit niet dat het gebruikt mag worden voor het trainen van AI-modellen. De videomakers hebben hier nooit toestemming voor gegeven. Ondertussen lieten Anthropic en Salesforce aan Proof News weten dat ze de dataset gebruikt hebben. Bij Apple, Bloomberg en Nvidia blijft een reactie tot nu toe achterwegen.  

nieuwsbrief

Abonneer je gratis op ITdaily !

  • This field is for validation purposes and should be left unchanged.
terug naar home