Tech-giganten trainen AI-modellen met YouTube-video's, zonder toestemming

Tech-giganten waaronder Apple, Nvidia en Anthropic hebben meer dan 173.000 YouTube-video’s gebruikt om hun AI-modellen mee te trainen, zonder toestemming.

Volgens een onderzoek van Proof News in samenwerking met Wired, zouden enkele grote tech-giganten waaronder Apple, Nvidia, Salesforce en Anthropic meer dan 173.000 YouTube-video’s gebruikt hebben van meer dan 48.000 YouTube-kanalen om hun AI-modellen te trainen. Specifiek gaat het hier over de ondertiteling van YouTube-video’s. Dit gebeurde zonder toestemming te vragen aan YouTube of de makers van de video’s.

Dataset ‘The Pile’

Meer specifiek gaat het over 173.536 video’s van meer dan 48.000 YouTube-kanalen. Populaire (Engelstalige) YouTubers en kanalen waaronder MrBeast, TED talks, BBC werden hiervoor gebruikt. Proof News ontdekte een nonprofit onder de naam EleuterhAI dat een openbare dataset bezit met de naam ‘the Pile’. Hierin staan data van YouTube, Engelstalige Wikipedia, het Europees Parlement en zelfs een hele reeks e-mails van medewerkers van Enron Corporation die zijn vrijgegeven als onderdeel van een federaal onderzoek.

OpenAI transcribeerde naar verluidt meer dan een miljoen uur aan YouTube-video’s

Grote bedrijven zoals Apple, Nvidia en Salesforce, beschrijven in hun onderzoekspapers en posts hoe ze ‘the Pile’ gebruikt hebben om hun AI te trainen. De publieke dataset werd ook door verschillende andere techbedrijven gebruikt. Hoewel het niet zomaar te achterhalen is, stelt Proof News dat het op basis van een vage beschrijving over hun trainingsdata kon besluiten dat het om the Pile ging.

Zonder toestemming

Proof News creëerde een tool om te controleren of een video gebruikt werd in de dataset of niet. De ondertitels waren geanonimiseerd, maar op basis van de identificatienummers van de video’s kon Proof News toch de kanalen aan elkaar linken.

EU richt AI-kantoor op voor handhaving nieuwe AI-wet

Hoewel de ondertitels publiekelijk weergegeven worden op YouTube, impliceert dit niet dat het gebruikt mag worden voor het trainen van AI-modellen. De videomakers hebben hier nooit toestemming voor gegeven. Ondertussen lieten Anthropic en Salesforce aan Proof News weten dat ze de dataset gebruikt hebben. Bij Apple, Bloomberg en Nvidia blijft een reactie tot nu toe achterwegen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

Tech-giganten trainen AI-modellen met YouTube-video’s, zonder toestemming

Dataset ‘The Pile’

OpenAI transcribeerde naar verluidt meer dan een miljoen uur aan YouTube-video’s

Zonder toestemming

EU richt AI-kantoor op voor handhaving nieuwe AI-wet

gerelateerd nieuws

nieuwsbrief