GPT 3.5 is beter dan GPT 4 (in Street Fighter III)

Een originele benchmark voor LLM’s toont dat groter niet altijd beter is. In het computerspel Street Fighter III is GPT 4 niet de betere speler. De resultaten tonen aan dat pure intelligentie niet voor iedere taak de beste parameter is: snelheid speelt ook een rol.

Tijdens de Mistral-hackaton in San Francisco in de VS hebben enkele AI-ontwikkelaars een originele benchmark voor LLM’s bedacht: LLM Colosseum. In LLM Colosseum nemen twee LLM’s het tegen elkaar op in een rondje Street Fighter III. De modellen moeten tegen elkaar spelen en beschrijven wat er gebeurt. In gevechten zie je de personages aanvallen kiezen en elkaar blokken.

In bovenstaande video zie je een gevecht in actie, en krijg je een gids over hoe je LLM Colosseum zelf kan installeren. Het project is interessant voor een rustige vrijdag, maar brengt ook enkele belangrijke bedenkingen naar voren.

Begrip, intellect en snelheid

Eerst en vooral valt het op dat de gevechten er goed uitzien. LLM’s kunnen effectief tegen elkaar spelen, ook al zijn ze daar natuurlijk nooit op getraind. De modellen begrijpen voldoende context om het spel ietwat degelijk te spelen.

Vervolgens is intellect niet de belangrijkste parameter voor succes. GPT-4 is bijvoorbeeld een stuk slimmer dan GPT-3.5, maar ook groter. Dat betekent dat het slimme model doorgaans iets trager is: een slechte eigenschap voor een rondje Street Fighter. Snelheid is in deze test belangrijker. Daar zit een les in: het meest complexe model is niet in ieder scenario het beste. Soms is een minimumgrens van intelligentie voldoende, en weegt snelheid daarna door boven nauwkeurigheid.

Gewetensbezwaren

In LLM Colosseum kwamen nog enkele interessante zaken naar voren. Zo wil Claude 2.1 van Anthropic niet meespelen. Het LLM is te pacifistisch en weigert aan fictionele gevechten deel te nemen. Alle LLM’s hebben zogenaamde guardrails die beperkingen opleggen aan wat ze mogen dien in reactie op bepaalde prompts. Geweld is typisch iets dat ontwikkelaars afblokken. Street Fighter III spelen zou in theorie natuurlijk wel mogen, maar Claude 2.1 blijkt redelijk principieel.

nieuwsbrief

Abonneer je gratis op ITdaily !

  • This field is for validation purposes and should be left unchanged.