Chinees AI-model creëert 3D-wereld uit één afbeelding

tencent voyager

Tencent onthult zijn nieuwste AI-model HunyuanWorld-Voyager, dat genoeg heeft aan één afbeelding om die naar een interactieve virtuele wereld om te zetten.

In een technische paper en een GitHub-bijdrage doet Tencent het AI-model uit de doeken. Het Voyager-model zet stilstaande beelden om naar 3D-werelden waarin je je kan ‘verplaatsen’. Voyager maakt 3D-reconstructie mogelijk zonder traditionele reconstructieprocessen.

Van één beeld naar 3D

Om het model te trainen, verzamelde Tencent meer dan 100.000 videofragmenten uit verschillende datasets. Voyager creëert uit één afbeelding een reeks van RGB- en dieptevideo’s en integreert visuele en geometrische informatie om een virtuele wereld te bouwen die met je meebeweegt. Via de GitHub-pagina kan je enkele demo’s bekijken.

De output die Voyager produceert, is technisch gezien geen ‘echte’ 3D. Voyager maakt een reeks korte 2D-frames, die aan elkaar worden geplakt om de illusie van een 3D-wereld na te bootsen. De cache groeit automatisch naarmate er meer frames gegenereerd worden. Hierbij worden onzichtbare en gewijzigde punten toegevoegd en overbodige informatie verwijderd. Zo blijft de wereld waarin je kan ‘rondlopen’ consistent.

Een opvallend kenmerk van Voyager is het gelijktijdig genereren van RGB- en dieptebeelden. Hierdoor is het niet langer nodig om een apart 3D-reconstructieproces te gebruiken. Dankzij dit mechanisme kunnen ontwikkelaars onmiddellijk 3D-inhoud gebruiken in toepassingen zoals simulaties, virtuele omgevingen en digitale productpresentaties.

Volgens Tencent kan Voyager ook ingezet worden voor toepassingen zoals 3D-stijltransfer, video-diepte-inschatting of het creëren van virtuele werelden voor training en simulatie. Tencent claimt met benchmarks dat zijn model hoog scoort op camera-aansturing, ruimtelijke consistentie en visuele kwaliteit.

Genie-aal

De code is openlijk beschikbaar via GitHub en Hugging Face, maar Tencent geeft het model niet zomaar vrij. De door het bedrijf licentiebeperkingen sluiten de Europese Unie, het Verenigd Koninkrijk en Zuid-Korea uit. Voor commerciële toepassingen die meer dan 100 miljoen gebruikers kunnen bereiken, legt Tencent nog eens extra licentievoorwaarden op.

Tencents Voyager lijkt sterk op Google Genie 3, vorige maand door Google onthuld. Google Genie 3 ontwerpt de virtuele wereld in real-time terwijl je je beweegt, en kan ook je vorige stappen onthouden.