Cloudflare introduceert een nieuwe tool om webcrawlers van je website te weren. De methode is robuuster dan de robot.txt-truc.
Ten tijde van generatieve AI is het belangrijker dan ooit om je content te beschermen. Het internet krioelt dezer dagen van webcrawlers die op zoek gaan naar data om modellen te trainen. Cloudflare kondigt een nieuwe techniek aan die het webbeheerders eenvoudiger maakt om webcrawlers te weren. De tool steunt op een ‘digitaal vingerafdruk’-systeem.
Webcrawlers zijn een vast onderdeel geworden van het internetverkeer. Cloudflare schat dat ongeveer veertig procent van de één miljoen bezochte properties die het beheert al eens bezoek heeft gehad van een webcrawler. Van de top tien is dat zelfs tachtig procent. Dit zijn digitale ‘spinnetjes’ die onopgemerkt rondkruipen op websites en data verzamelen om AI-modellen te trainen.
De meest actieve webcrawler is volgens Cloudflare Bytespider, eigendom van Bytedance, moederbedrijf van TikTok. Deze webcrawler is al op veertig procent van websites opgemerkt. Maar ook GPTBot van OpenAI is met 35 procent zeer aanwezig.
Robots.txt
Er bestaat in principe al een truc om het webcrawlers moeilijker te maken. Het robot.txt-bestand injecteren in de directory van je website zet een stopbord voor webcrawlers. OpenAI en Google promoten die truc overigens ook zelf voor webbeheerders die geen bezoek van hun webcrawlers kunnen krijgen.
Robot.txt is echter verre van waterdicht, stelt Cloudflare. Webbeheerders implementeren het lang niet altijd of tegen een slechts een beperkt aantal webcrawlers. Bovendien spelen ontwikkelaars van webcrawlers het ook niet altijd eerlijk. Door een webcrawlers te ‘vermommen’ als een legitieme websitebezoeker, is het vrij eenvoudig te omzeilen.
Digitale vingerafdruk
Cloudlfare ontwikkelde een nieuw net tegen webcrawlers met minder mazen waar webcrawlers kunnen doorglippen. De tool controleert de ‘vingerafdruk’ van de identiteit die een verzoek naar je website stuurt. Ironisch genoeg zet Cloudflare machine learning in om te achterhalen of de vingerafdruk al dan niet een webcrawler is.
De tool is beschikbaar voor alle Cloudflare-klanten en kan met een simpele klik in het beheerdashboard worden ingeschakeld. In het beveiligingsmenu komt een nieuwe knop Block AI Scrapers and Crawlers.