Reddit heeft een overeenkomst gesloten met een grote partij voor de training van AI-algoritmes met behulp van de data op het populaire platform. De overeenkomst is een stap in de richting van legitiem gebruik van data voor trainingsdoeleinden.
Reddit heeft een grote overeenkomst gesloten met een niet nader genoemd AI-bedrijf ter waarde van 60 miljoen dollar per jaar. Dat weet Bloomberg. De deal betreft een licentieovereenkomst waarbij het bedrijf in kwestie AI-modellen mag trainen op basis van de enorme hoeveelheid content op het Reddit-platform.
Misbruik
Vorig jaar nog ontstond er een storm van controverse bij gebruikers en vooral moderators van Reddit toen het bedrijf plots besliste om zijn API’s af te schermen. Die waren al sinds 2008 gratis en zowel bezoekers als moderators vertrouwden op tools van derden die op hun beurt enkel functioneerden bij gratie van die API’s. Die verandering kwam er als reactie op het misbruik van de API’s. Organisaties hadden van de gratis toegang tot de data gebruik gemaakt om zonder toestemming LLM’s te trainen op data van Reddit.
Reddit zelfs stelde toen dat zijn data waardevol zijn, en wilde die niet langer gratis delen. Bovendien staat er binnenkort een beursgang van de dienst op het programma. Nu blijkt dat Reddit de waarde van zijn platform correct heeft ingeschat. De licentieovereenkomst toont dat organisaties inderdaad bereid zijn om miljoenen neer te tellen voor toegang tot de gegevens.
Duurzaam LLM’s trainen
De deal komt er op een moment dat organisaties wereldwijd naar een duurzamer model zoeken om met AI om te gaan. ChatGPT en consorten bestaan immers doordat ze getraind zijn op data gesprokkeld van op het hele internet, zonder toestemming. Als ChatGPT het antwoord weet op een vraag over een actueel topic, dan komt dat omdat het model zonder het te vragen het werk van journalisten wereldwijd heeft geconsumeerd.
Verschillende Europese landen waaronder Italië stelden zich al vragen bij die schending van auteursrecht en gebruik van persoonsgegevens op industriële schaal en de New York Times spande een rechtszaak aan. De overeenkomst met Reddit is een belangrijk voorbeeld van de waarde van data. Enerzijds toont de deal aan dat OpenAI en anderen ter waarde van miljoenen waardevolle data gratis gebruikt hebben, anderzijds illustreert de overeenkomst dan een ander model mogelijk is: rechtmatig gebruik en innovatie in AI staan elkaar niet in de weg.
Grote dataset
Reddit is een erg populair medium dat bestaat uit subreddits rond diverse thema’s, waar internauten binnen dat thema over onderwerpen kunnen discuteren. Denk daarbij aan frivole topics zoals kleine katten of computerspellen, maar ook serieuze digitale gemeenschappen rond wetenschap of geschiedenis, waar experts inzichten delen met elkaar of geïnteresseerden. Reddit heeft zo’n 57 miljoen dagelijks actieve gebruikers en 812 miljoen maandelijks actieve bezoekers. Dat is een stuk minder dan bijvoorbeeld Facebook, maar de inhoud op Reddit is doorgaans kwalitatiever met dank aan de gemodereerde thema’s.