Het AI-bedrijf OpenAI zou zijn Whisper spraakherkenningstool ingezet hebben om trainingsgegevens te halen uit YouTube-video’s.
De AI-race leidt tot een wanhopige jacht op digitale gegevens die nodig zijn om modellen te trainen. De New York Times publiceerde een rapport waarin beschreven staat hoe grote AI-spelers geprobeerd hebben hun toegang tot gegevens uit te breiden, rondom de auteursrechten heen. Zo heeft OpenAI naar verluidt zijn spraakherkenningstool Whisper ingezet om meer dan een miljoen uur aan YouTube-video’s te transcriberen en die gegevens gebruikte om het GPT-4 model te trainen.
Whisper
OpenAI kende eind 2021 een leveringsprobleem en anticipeerde hierop met de lancering van de spraakherkenningstool Whisper, die de audio van YouTube-video’s kan transcriberen. Die conversatietekst werd vervolgens gebruikt om het AI-systeem slimmer te maken.
Hoewel YouTube, eigendom van Google, het gebruik van zijn video’s verbiedt voor applicaties die onafhankelijk zijn van het platform, zou het OpenAI-team meer dan een miljoen uur aan YouTube-video’s getranscribeerd hebben, schrijft New York Times. Die gegevens zouden naar verluidt gebruikt zijn om het GPT-4 model van OpenAI te trainen.
Juridische maatregelen
In een e-mail aan The Verge vertelt OpenAI-woordvoerder Lindsay Held dat het bedrijf “unieke” datasets samenstelt voor elk van zijn modellen om “hun begrip van de wereld te helpen” en zijn wereldwijde onderzoeksconcurrentievermogen te behouden.
Google-woordvoerder Matt Bryant schreef aan The Verge dat “zowel onze robots.txt-bestanden als onze servicevoorwaarden ongeoorloofd schrapen of downloaden van YouTube-inhoud verbieden.” Bryant zei dat Google “technische en juridische maatregelen” neemt om dergelijk ongeoorloofd gebruik te voorkomen “wanneer we een duidelijke juridische of technische basis hebben om dit te doen”.