Nvidia heeft Cosmos Reason gelanceerd, een open visie-taalmodel dat video- en tekstinvoer combineert voor verbeterde redenering en besluitvorming in robotica en fysieke AI-toepassingen.
Nvidia heeft Cosmos Reason uitgebracht, een open en volledig aanpasbaar visie-taalmodel (VLM) dat is ontworpen voor robotica en fysieke AI-toepassingen. Het model combineert beeld- en tekstverwerking om robots en AI-agenten te helpen redeneren met voorkennis, natuurkundig inzicht en gezond verstand, en zo beslissingen te nemen in de echte wereld. Ontwikkelaars kunnen het model reeds downloaden via Hugging Face.
Stap-voor-stap redenering
Cosmos Reason zet videobeelden om in tokens via een vision-encoder en projector, combineert deze met tekstinvoer en verwerkt beide in een kernmodel dat verschillende LLM-technieken gebruikt. Dit resulteert in stapsgewijze redenering en logische antwoorden voor fysieke taken.

Het model is verfijnd met gesuperviseerde finetuning en reinforcement learning. Finetuning verhoogt de prestaties met ruim tien procent, terwijl reinforcement learning daar nog eens vijf procent aan toevoegt. In benchmarktests voor robotica en autonome voertuigen behaalt Cosmos Reason een gemiddelde score van 65,7.
Toepassingen in robotica en AI
Nividia deelt ook enkele mogelijke toepassingen mee, zoals geautomatiseerde data-analyse en annotatie, robotplanning waarbij complexe opdrachten in uitvoerbare stappen worden opgedeeld, en videoanalyse voor sectoren zoals stadsvervoer, productie en logistiek. AI-agents kunnen bijvoorbeeld verkeersstromen analyseren of storingen in fabrieken opsporen.
lees ook
Google DeepMind introduceert AI-modellen voor robotica
Ontwikkelaars kunnen het model downloaden via Hugging Face, met bijbehorende inferentiescripts en post-trainingtools op GitHub. Het systeem ondersteunt uiteenlopende videoformaten en resoluties, en werkt op basis van tekstprompts die de gewenste taak specificeren. Een optioneel prompt-upsamplingmodel kan tekstinstructies verfijnen.
