Itdaily - GPT-5.5 overtreft Claude Mythos in gesimuleerde cyberaanvallen

GPT-5.5 overtreft Claude Mythos in gesimuleerde cyberaanvallen

GPT-5.5 overtreft Claude Mythos in gesimuleerde cyberaanvallen
Bron: OpenAI

Uit een nieuwe evaluatie van AISI blijkt dat OpenAI’s GPT-5.5 uitblinkt in complexe cybertaken en als tweede model een volledige bedrijfsnetwerkaanval end-to-end oplost.

OpenAI’s nieuwe GPT-5.5 werd recent onderworpen aan diepgaande cyber-evaluaties door het Britse AI Security Institute AISI, waarbij zowel basistaken als complexe aanvalsscenario’s onderzocht werden. Uit het onderzoek blijkt dat het model behoort tot de sterkste die tot nu toe getest zijn en bouwt verder op eerdere doorbraken van modellen zoals Claude Mythos Preview.

Cybertaken

De evaluatie van GPT-5.5 gebeurde aan de hand van 95 cybertaken, verdeeld over vier moeilijkheidsgraden. Deze CTF-gebaseerde opdrachten testten uiteenlopende vaardigheden, van reverse engineering tot webexploitatie en cryptografie. Waar eerdere modellen al basistaken volledig beheersten, lag de focus nu op geavanceerde, realistischere uitdagingen.

Bij de meest complexe taken, de expert-categorie, behaalde GPT-5.5 een gemiddeld slagingspercentage van 71,4 procent. Dat is hoger dan Claude Mythos Preview (68,6 procent) en aanzienlijk beter dan voorgangers als GPT-5.4 (52,4 procent) en Opus 4.7 (48,6 procent). Vooral bij reverse engineering, exploitontwikkeling en het oplossen van synthetische kwetsbaarheden toonde GPT-5.5 sterke prestaties.

Gesimuleerde cyberaanvallen

Naast losse taken testte AISI de end-to-end capaciteiten van GPT-5.5 in gesimuleerde bedrijfsnetwerkaanvallen,” (waaronder “The Last Ones TLO), een complexe 32-stappenoefening. GPT-5.5 wist deze keten tweemaal volledig te doorlopen in tien pogingen, waarmee het het tweede model ooit is dat dit lukt.

Op een industriële besturingssimulatie (“Cooling Tower”) slaagde geen enkel model erin het volledige traject af te leggen. GPT-5.5 bleef steken bij IT-gerelateerde stappen, waardoor zijn OT-capaciteiten voorlopig onbekend blijven. AISI benadrukt dat de testomgevingen geen actieve verdedigers of realistische detectiemechanismen bevatten, wat de vertaling naar praktijk beperkt.

Vorige maand introduceerde OpenAI nog GPT-5.4-Cyber, als nieuwe concurrent voor Anthropic Mythos. Ondertussen kondigde het bedrijf alweer een nieuwe versie aan: GPT-5.5-Cyber dat beschikbaar is voor een selecte groep beveiligingsprofessionals. Ook concurrent Anthropic bracht op dezelfde dag Claude Security in bèta uit voor zijn Enterprise-klanten.