Nvidia lanceert Cosmos Reason voor robotredenering

Nvidia lanceert Cosmos Reason voor robotredenering

Nvidia heeft Cosmos Reason gelanceerd, een open visie-taalmodel dat video- en tekstinvoer combineert voor verbeterde redenering en besluitvorming in robotica en fysieke AI-toepassingen.

Nvidia heeft Cosmos Reason uitgebracht, een open en volledig aanpasbaar visie-taalmodel (VLM) dat is ontworpen voor robotica en fysieke AI-toepassingen. Het model combineert beeld- en tekstverwerking om robots en AI-agenten te helpen redeneren met voorkennis, natuurkundig inzicht en gezond verstand, en zo beslissingen te nemen in de echte wereld. Ontwikkelaars kunnen het model reeds downloaden via Hugging Face.

Stap-voor-stap redenering

Cosmos Reason zet videobeelden om in tokens via een vision-encoder en projector, combineert deze met tekstinvoer en verwerkt beide in een kernmodel dat verschillende LLM-technieken gebruikt. Dit resulteert in stapsgewijze redenering en logische antwoorden voor fysieke taken.

Robotplanning- en redenering. Bron: Nvidia

Het model is verfijnd met gesuperviseerde finetuning en reinforcement learning. Finetuning verhoogt de prestaties met ruim tien procent, terwijl reinforcement learning daar nog eens vijf procent aan toevoegt. In benchmarktests voor robotica en autonome voertuigen behaalt Cosmos Reason een gemiddelde score van 65,7.

Toepassingen in robotica en AI

Nividia deelt ook enkele mogelijke toepassingen mee, zoals geautomatiseerde data-analyse en annotatie, robotplanning waarbij complexe opdrachten in uitvoerbare stappen worden opgedeeld, en videoanalyse voor sectoren zoals stadsvervoer, productie en logistiek. AI-agents kunnen bijvoorbeeld verkeersstromen analyseren of storingen in fabrieken opsporen.

lees ook

Google DeepMind introduceert AI-modellen voor robotica

Ontwikkelaars kunnen het model downloaden via Hugging Face, met bijbehorende inferentiescripts en post-trainingtools op GitHub. Het systeem ondersteunt uiteenlopende videoformaten en resoluties, en werkt op basis van tekstprompts die de gewenste taak specificeren. Een optioneel prompt-upsamplingmodel kan tekstinstructies verfijnen.