Microsoft onthult AI model dat afbeeldingen begrijpt en visuele puzzels oplost

microsoft openai chatgpt

Deze week onthulden onderzoekers van Microsoft het model Kosmos-1. Dit multimodale model is in staat om afbeeldingen te analyseren, visuele puzzels op te lossen, visuele tekst te herkennen en visuele IQ tests te halen. 

Kosmos-1 werkt niet alleen op basis van tekstuele input, maar ook op input in de vorm van afbeeldingen, audio en video. Volgens de Microsoft onderzoekers is het model een belangrijke stap richting het bouwen van een artificial general intelligence (AGI) dat taken op menselijk niveau kan uitvoeren. 

“Als een fundamenteel onderdeel van intelligentie, is multimodale perceptie noodzakelijk om artificiële algemene intelligentie te bereiken voor kennisverwerving en als basis voor de echte wereld,” schrijven de onderzoekers in hun academisch paper

Visuele voorbeelden uit het paper laten zien hoe het model afbeeldingen analyseert, vragen daarover beantwoordt, tekst van een afbeelding leest, bijschriften voor afbeeldingen schrijft en een visuele IQ-test doet met een nauwkeurigheid van 22 tot 26 procent. 

Microsoft Kosmos-1
Bron: Microsoft

Streven naar artificial general intelligence

Hoewel Large Language Models (LLM) het gesprek van de dag zijn, wijzen sommige AI-experts naar multimodale AI als potentieel pad richting artificial general intelligence, een hypothetische technologie die in staat zou zijn om mensen te vervangen bij elke intellectuele taak. 

OpenAI, een belangrijke partner van Microsoft op het gebied van AI, kondigde eerder al aan te streven naar AGI, meldt Ars Technica. In het geval van Kosmos-1 lijkt het echter puur om een project van Microsoft te gaan, zonder de betrokkenheid van OpenAI. 

De onderzoekers noemen hun creatie een ‘multimodal large language model’, omdat de basis van het model ligt in het verwerken van taal (zoals ChatGPT doet). Om input op basis van afbeeldingen te begrijpen, moet het model deze eerst vertalen naar tekst om dit te kunnen begrijpen, zoals onderstaande afbeelding laat zien. 

Microsoft Kosmos-1 voorbeeld
Bron: Microsoft

Microsoft maakt Kosmos-1 beschikbaar voor ontwikkelaars via de GitHub pagina.

nieuwsbrief

Abonneer je gratis op ITdaily !

  • This field is for validation purposes and should be left unchanged.
terug naar home