AI: zegen, vloek of wapen tegen een aanstormende vloedgolf van desinformatie?

Het private onderzoekslab OpenAI publiceerde kort geleden zijn jongste resultaten: ze zijn er in geslaagd om relatief realistisch uitziende teksten te genereren van enkele paragrafen lang, gegeven een eerste zin. Tegelijk namen ze de opmerkelijke beslissing hun code en model niet openbaar te maken, omdat die dan te gemakkelijk en te snel te misbruiken zou zijn. Moeten we nu bang worden van AI?

Experten en media hebben er uitvoerig over bericht. De beslissing van OpenAI is erg ongebruikelijk: de AI-onderzoekswereld heeft een zodanig lange geschiedenis van hoogdravende claims die achteraf gebaseerd bleken op selectieve data, fouten in de code of wishful thinking, dat het openlijk publiceren van code en data omwille van de reproduceerbaarheid de norm is.

Met AI wordt al langer geprobeerd om realistische dingen te produceren, die nauwelijks van de echte te onderscheiden zijn. Denk aan speelomgevingen in videospellen, of realistisch uitziende landschappen in fantasy-films. Daar zit je nog in een context waarvan iedereen beseft dat ze virtueel is. Je mag je echt ongemakkelijk beginnen voelen bij deze: elke keer wanneer je surft naar thispersondoesnotexist.com, krijg je een volledig AI-gegenereerd fotorealistisch gezicht te zien. Het fenomeen van “deepfakes”, waarbij iemands gezicht in een video wordt vervangen, ligt in dezelfde lijn.

Grote dwerg

Je beseft onmiddellijk dat het genereren van realistische teksten en foto’s een handige tool kan zijn voor scammers, die met steeds betere valse profielen en berichten gemakkelijker iemand kunnen oplichten. Plots moet je al goed opletten om er niet in te trappen. The Verge besluit hierover onheilspellend: “dit is slechts de beleefde introductie tot wat ons nog te wachten staat…”. Een objectievere risico-analyse wordt gegeven in dit lijvige rapport van enkele universiteiten.

Laat ons zelf even in detail kijken naar zo’n stukje gegenereerde tekst van OpenAI:

Gimli was a tall and powerful man, and he had a beard and a moustache. He was also a dwarf, and he had a strong build, and he was covered in tattoos. He was not a man who looked like a hobbit.

Daaruit blijkt:

De grammatica is nagenoeg perfect.
De thematiek blijft behouden over de zinnen heen.
De inhoud van de zinnen is niet altijd onderling consistent (tall vs dwarf).
Stilistisch is het wat slordig, met vrij veel herhaling.

Tekstgeneratoren bestaan al langer, van academische papers tot new-age bullshit. Waar dit soort teksten nog eerder een samenraapsel zijn van jargon, vraagt de output van het OpenAI-model toch een aandachtiger lezing om te beseffen dat er iets niet klopt… Er is ook al langer een merkelijke stijging in het aantal mensen dat zich laat vangen door oplichters die er in slagen om steeds realistischer, soms sterk gepersonaliseerde, berichten te sturen. Steeds realistischer uitgevoerde of gepersonaliseerde phishing mails dragen bij aan de stijging van het aantal oplichtingen via internet.

Er is al langer een stijging in het aantal mensen dat zich laat vangen door oplichters.

Ook complottheorieën en kwakzalverij vinden steeds meer weerklank, getuige het success van de antivaccinatiebeweging. En hoewel de hoaxes van alle tijden zijn, staat desinformatie met politieke doeleinden de laatste jaren in het middelpunt van de aandacht onder de noemer fake news.

Daarom is het nuttig om eens te reflecteren over wat dit kan betekenen in de nabije toekomst. Is onze normale kritische zin binnenkort nog wel voldoende om echt van vals te onderscheiden? En wat is daarbij rol van de grote gratis online platformen, die ons online leven beheersen?

Spear phishing

Spear phishing is een gepersonaliseerde vorm van phishing, waarbij de aanvaller een welbepaald doelwit viseert en zijn aanval personaliseert. Het heeft weinig zin om te proberen paswoorden te achterhalen via een Belfius-phishingmail, wanneer het doelwit een AXA-klant is. Traditioneel gebeurt spear phishing op kleine schaal en worden vooral mensen in belangrijke posities geviseerd (bv. CEO fraude). Het is immers nodig om zoveel mogelijk gegevens te verzamelen over het slachtoffer om de aanval te doen lukken. En dat was vooralsnog langdurig manueel werk.

De grootschalige adoptie van sociale media maakt het mogelijk om zulke gepersonaliseerde aanvallen op grotere schaal uit te voeren. Iemands profiel en berichten van Twitter, Facebook, LinkedIn, Instagram… kun je downloaden en analyseren op thematiek, plaatsnamen, likes etc. En nu kan dat allemaal volautomatisch. Exact dezelfde technologie wordt al erg lang gebruikt om je gepersonaliseerde advertenties voor te schotelen op allerlei websites. Een scammer hoeft hetzelfde concept maar toe te passen op phishing mails.

Een lichtpunt is wel dat spamfilters en scamdetectoren ook van AI gebruik kunnen maken om dit te gaan bestrijden. In die zin spelen we nog altijd een spelletje spammer vs. spamfilter, waarbij de beide partijen met gelijke wapens strijden. Alleen, dankzij AI gebeurt dat vandaag allemaal op een hoger niveau.

Desinformatie op grote schaal

Bij discussies over desinformatie, al dan niet in relatie tot vrije meningsuiting, hanteren we best een strikte definitie en wijken we daar niet van af. Voor het gemak adopteer ik die van het actieplan tegen desinformatie van de Europese Commissie: desinformatie is verifieerbaar foute info, met als doel om te misleiden of te profiteren, ten koste van de gemeenschap. Afwijkende of extreme meningen over politiek, wetenschap, ethiek of moraal vallen daar dus niet onder, evenmin als opiniestukken, satire, parodie, lobbying, campagnevoeren, het selectief presenteren van informatie, of religie.

Waar moeten we op voorbereid zijn als daar AI aan toegevoegd wordt? Niet noodzakelijk de automatische creatie van fake news zelf – voor de beste resultaten komt daar vooralsnog manueel werk bij kijken – maar eerder de verspreiding of het automatisch kunnen “hypen” van fake news wanneer het eenmaal gecreëerd is.

Stel dat iemand tienduizend artikeltjes kan genereren over een bepaalde stelling, en die publiceert op duizenden blogs en (realistisch uitziende) socialemedia-accounts. Dan zijn er misschien maar enkele die ietwat coherent en realistisch genoeg lijken, maar dat is op zich genoeg om mogelijk opgepikt en gedeeld te worden door andere gebruikers, eventueel de mainstream media te halen, en zo uiteindelijk een plaats te veroveren in de publieke opinie. Zo dreigt de verspreiding van moeizaam bekomen echte feiten te worden bedolven onder lawines van gefabriceerde berichtgeving, waarvan de inhoud en de bron nauwelijks te verifiëren zijn.

Moeizaam bekomen echte feiten driegen te worden bedolven onder lawines van gefabriceerde berichtgeving.

In de strijd voor de aandacht van de consument en de burger is er bewijs dat zulke tactieken in opmars zijn. Naar aanleiding van de Russische desinformatiecampagnes met betrekking tot de Oekraïnecrisis of de crash van vlucht MH17 richtte de EU al in 2015 een observatorium voor desinformatie op. Het is geweten dat sommige verkiezingen of referenda op die manier beïnvloed worden, door binnenlandse en buitenlandse actoren.

Amplificatie door selectie en aanbeveling

Een versterkende factor is dat de selectie van de nieuwsberichten en persartikels die we zien, al jarenlang grotendeels wordt aangestuurd door AI. Net zoals de aanbevelingen op YouTube, Netflix en Spotify, zit er achter vele nieuwswebsites een recommender system, met als hoogste doel: je zo lang mogelijk op de website houden, zodat je zoveel mogelijk reclame-inkomsten opbrengt. Het bieden van een divers aanbod past niet bij die doelstelling: Spotify zal je geen klassieke muziek voorschotelen als je al een halfuur naar rock aan het luisteren bent ‘voor een gezonde afwisseling’. Integendeel, ze geven je meer van hetzelfde opdat je zeker zou blijven luisteren.

Zeker in het geval van YouTube is herhaaldelijk aangetoond hoe hun algoritme je binnen de kortste keren samenzweringsvideo’s serveert, en zo radicalisering of desinformatiecampagnes in de hand werkt en zelfs promoot. Iemand die er info opzoekt over de Nationale Bank, hoort sneller over de Illuminati dan over het bruto binnenlands product. Ook kinderen die op zoek zijn naar achtergrondinfo voor hun huiswerk, zijn daar niet tegen beschermd.

*De algoritmes achter commerciële diensten hebben als missie je op het platform te houden, niet om je iets nieuws voor te schotelen en je perspectief te verruimen.*

Herinner je dat het objectief van sociale media is om je op hun site te houden. Objectieve of nuttige inhoud helpen daarbij niet; opruiende, provocerende of sensationele inhoud des te meer. Die laatsten worden dan ook proportioneel vaker weergegeven en eindigen uiteindelijk hoger in de zoekresultaten waardoor ze nog gemakkelijker aanbevolen worden: een zichzelf versterkend feedbacksysteem dat ervoor zorgt dat uiteindelijk het extreme mainstream wordt.

Eén van de duidelijkste voorbeelden van deze dynamiek is misschien wel het huidige succes van de antivaccinatielobby. Vorig jaar werd er nog gesteld dat fake news weliswaar wijdverspreid was, maar relatief weinig impact had. Met systemen die geloofwaardiger teksten en argumenten kunnen genereren voor foutieve stellingen, in combinatie met de aanbevelingsalgoritmes die de extremen bevoordelen, zou die impact wel eens sterk kunnen vergroten. De grote platformen zetten slechts na grote publieke druk nu pas de eerste stapjes in het tegengaan van deze dynamiek.

Verweer tegen de zwarte kunsten

VOOR TECHIES EN AI-BEDRIJVEN

Aan de technische kant groeit de aandacht voor governance, vrij vertaald als “goed beheer”. Daarbij wordt vaak het acronym FATE gehanteerd voor ‘Fairness, Accountability, Transparency and Ethics’. Doel is om de ontwikkeling, uitrol en het beheer van AI-systemen te toetsen op deze kwaliteiten. De laatste jaren worden specifieke conferenties ingericht over het onderwerp, wat goede fora zijn om over de laatste nieuwe voorstellen of best practices te leren. De grote spelers geven er alvast aandacht aan: o.a. IBM en Google werken aan tools om bv. oneerlijke bias in datasets te detecteren. Die laatste heeft ook richtlijnen ontwikkeld rond ‘AI governance’. Voor alle AI-ontwikkelaars is dat ongetwijfeld een goede oefening om te herhalen.

Wat betreft accountability is ‘Explainable AI’ een belangrijk onderwerp. Met name bij deep learning is het moeilijk te achterhalen waarom een AI-system een bepaalde conclusie heeft bereikt: het aantal parameters en het trainingsproces is gewoon te groot om nog overzichtelijk te zijn. Nu AI steeds meer ingang vindt in het dagelijks leven en er vragen rijzen rond rechtvaardigheid en aansprakelijkheid, wordt de “waarom”-vraag plots belangrijk. Pasklare oplossingen zijn er echter nog niet. Het veld en de beschikbare tools staan nog in hun kinderschoenen.

Het aantal parameters en het trainingsproces is te groot om nog overzichtelijk te zijn.

De strijd tegen desinformatie gebeurt momenteel vooral manueel, bv. met fact-checking websites of het inhuren van moderatoren. De (gedeeltelijke) automatisering van dit proces is nog niet ver gevorderd: pogingen om fake news met AI te detecteren geven gemengde resultaten. Hier zijn dus nog opportuniteiten voor wie nog een nuttig AI-project zoekt, en ook meer analyses naar de reikwijdte en impact zijn zeker welkom.

VOOR BURGER EN CONSUMENT

Profiling bestaat, en is zelfs courant. Wie bij de bank om een lening vraagt, zal sowieso allerlei gegevens moeten opgeven die de bank zal gebruiken om een risico-analyse te maken voordat ze een kredietvoorstel doet. Maar niets houdt de bank tegen om daarnaast ook eens stiekem te kijken naar de publieke inhoud van je sociale media. Wees je ervan bewust dat alles wat je daarop zet, gebruikt kan worden door vriend én vijand. Een dure hobby, vaak ziek, of problemen op het werk? Een bank zou het uit je sociale media kunnen afleiden en dat gebruiken om je een hogere rente aan te rekenen. (Dit is een fictief voorbeeld, dat misschien ook niet legaal zou zijn, maar het is alleszins technisch mogelijk.)

*Wat jij op Facebook zet, kan gebruikt of misbruikt worden door iedereen.*

(Sociale) media bepalen nu al wat je te zien krijgt op basis van je profiel, qua advertenties en/of inhoud. Wat jij ziet online is niet wat iemand anders ziet. De gepersonaliseerde aanbevelingen van webwinkels zoals Amazon zijn daarvan een goede illustratie. Op die manier zit iedereen op zulke platformen in zijn eigen ‘filter bubble’, maar dat wordt niet zo aan je voorgesteld. Hou in het achterhoofd dat jouw doel om juiste, relevante, objectieve informatie te vinden, fundamenteel verschilt van het doel van een internetplatform, namelijk winst maken.

Hoe bescherm je jezelf tegen valse informatie, scams of manipulatie? Ten eerste, bronnen checken en voorrang geven aan de kwalitatieve variant, gaande van de betere journalistiek tot peer-reviewed wetenschap. Die zijn ook niet perfect, maar zijn gemiddeld genomen alleszins veel betrouwbaarder dan een willekeurige blogger of influencer op Twitter of Instagram. Ten tweede, het cultiveren van een attitude van Digitaal Skepticisme tegenover alles wat je leest en ziet op het internet, zelfs als het afkomstig is van vrienden of familie. Paranoia is niet nodig, maar je wil waarschijnlijk wel vermijden om als “nuttige idioot” mee te werken aan de verspreiding van foute informatie.

VOOR BELEIDSMAKERS EN OVERHEID

Besef is ook voor politici en beleidsmakers belangrijk. Als mensen met beslissingsbevoegdheid zijn zij vaak de eersten die geviseerd worden door actoren met slechte bedoelingen. Ook zij zijn vatbaar voor selectieve informatie, en kunnen te maken krijgen met gerichte manipulatie of grootschalige (geautomatiseerde) desinformatiecampagnes. De reikwijdte van sociale media is hen waarschijnlijk welbekend, maar de verschillende manieren waarop de informatieoorlog gevoerd kan worden misschien nog niet. In dat licht is het rapport van het Franse ministerie van defensie over het onderwerp verplichte lectuur.

Besef is ook voor politici en beleidsmakers belangrijk.

Verschillende landen kwamen al met strategische plannen voor AI over de brug, ook in België zijn er initiatieven. De impact daarvan zal wel beperkt blijven als de aanbevelingen niet gepaard gaan met de nodige investeringen. We moeten daarbij breder denken dan investeringen in de technologie, en ook onderzoek naar de maatschappelijke impact financieren. Het steunen van kwalitatieve (onderzoeks)journalistiek, kennisopbouw over AI in de eigen regio, en het aanmoedigen en faciliteren van permanent leren horen daar ook bij.

Naar aanleiding van de Europese verkiezingen begon men ook op dat niveau wat nattigheid te voelen. Begin 2018 kwam een door de Europese Commissie samengestelde High Level Expert Group van AI-experts tot een reeks aanbevelingen, waaronder de nood aan transparantie bij online nieuws. Daaruit volgde de EU code of practice on disinformation, een document getekend door o.a. Google, Facebook, Twitter en Mozilla. Die grote spelers beloven om stappen te ondernemen om de verspreiding van desinformatie via hun platformen tegen te gaan. Dit is een duidelijke keuze om te trachten de industrie zichzelf te laten reguleren in plaats van maatregelen van bovenaf op te leggen.

Mogelijk speelde de korte tijd die er restte tot aan de Europese verkiezingen een rol in de beslissing om dat zo aan te pakken. Dat werd dan snel gevolgd door een actieplan tegen desinformatie, die de adoptie van de code of practice moet opvolgen. De toekomst zal uitwijzen of dat de eerste stappen in de goede richting zijn, of eerder “too little, too late”.

Dit is een ingezonden bijdrage van Joachim Ganseman, IT consultant bij Smals Research. Via deze link vind je meer informatie over de het onderzoek van de organisatie. Dit artikel werd geschreven in eigen naam en neemt geen standpunt in namens Smals.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.