Microsoft wil relevante AI-trainingsdata te erkennen bij antwoorden

microsoft copilot

Microsoft wil het zwarte doos-gehalte van AI-modellen afbouwen. Het onderzoekt of het niet kan ontdekken welke bronnen en informatie de basis vormen voor antwoorden gegeven door generatieve AI.

Microsoft zoekt onderzoekers voor een project waarbij het bedrijf wil ontdekken hoe het trainingsdata kan erkennen. Vandaag geeft generatieve AI antwoorden op basis van de data waarop het getraind is, maar is het heel moeilijk om te weten welke data nu precies verantwoordelijk zijn voor het antwoord. De werking van het neurale AI-netwerk is een zwarte doos, met heel weinig transparantie.

Microsoft werkt nu aan een project waarbij het modellen wil trainen op een manier die de impact van trainingsdata zichtbaar houdt. De output van een model moet met andere woorden succesvol kunnen verwijzen naar de gebruikte trainingsdata, en zo aan bronvermelding doen.

Actueel probleem

Dat is relevant aangezien grote AI-modellen zoals ChatGPT getraind zijn op data afkomstig van het internet, zonder dat daar toestemming voor is gevraagd of auteursrecht voor is betaald. Geeft ChatGPT je een correct antwoord op een inhoudelijke vraag, dan komt dat omdat het model tijdens de training de inhoud van artikelen van nieuwssites of boeken heeft geïntegreerd.

Werk van mensen is met andere woorden op grote schaal gestolen en ingezet om AI-modellen te trainen, die het werk van die mensen deels kunnen overnemen. Om die reden lopen er verschillende rechtszaken, waaronder één van de New York Times tegen OpenAI en Microsoft.

Geen AI zonder data

Om AI te trainen, zijn data wel essentieel. Een mogelijk eerlijk financieel model is om de makers van data te vergoeden wanneer die gebruikt wordt. AI weerhoudt een bezoeker er misschien van een nieuwswebsite te bezoeken door info van die website zelf meteen te geven. Als duidelijk is van welke site de info komt, kan daar een vergoeding aan gekoppeld zijn om de gemiste inkomsten van de site te compenseren.

Het onderzoek van Microsoft zou zo’n systeem mogelijk maken. Er zijn bijkomende voordelen. AI-systemen baseren zich nog al te vaak op foute bronnen. Transparantie over de bronnen maakt het eenvoudiger om een antwoord van Gen AI op een prompt naar waarde te schatten.

We mogen niet vooruitlopen op de feiten. Het zwarte doos-fenomeen is notoir complex om op te lossen. Het is onduidelijk of het project van Microsoft tot een relevante oplossing zal leiden. Bovendien winnen AI-systemen vandaag nog dagelijks zieltjes door functionaliteit, gebouwd op werk en creativiteit van mensen die daar nooit een vergoeding voor zagen.

Vergoeding vs. fair use

Hoe bedrijven daarmee omgaan, varieert. Microsoft-partner OpenAI hoopt de banden met Trump aan te halen, en regelgeving te bekomen waarbij het boven de auteursrechten komt te staan. Gebruik van auteursrechtelijk beschermd materiaal voor AI-training zou onder het Amerikaanse concept van fair use vallen.