Itdaily - Zeg het met beeld én woord: ChatGPT Images 2.0 ontwerpt infografieken, realistische foto’s en stripverhalen

Zeg het met beeld én woord: ChatGPT Images 2.0 ontwerpt infografieken, realistische foto’s en stripverhalen

chatgpt images 2
Bron: OpenAI

OpenAI stelt een nieuwe versie van zijn beeldgenerator ter beschikking. ChatGPT Images maakt veel gedetailleerdere, maar ook complexere beelden.

OpenAI heeft op dinsdag een nieuwe beeldgenerator voorgesteld. ChatGPT Images 2.0 is de opvolger van GPT-Image-1.5. Het model werd al een tijdje getest onder de codenaam ‘Duct Tape’, en wordt nu ook officieel uitgerold in de ChatGPT-app, Codex of als API om in eigen applicaties te integreren. ChatGPT Images 2.0 is OpenAI’s antwoord op Google Nano Banana 2.

In een blog schuwt OpenAI de grote woorden zoals gebruikelijk niet. Met ChatGPT Images 2.0 zou een ‘nieuw tijdperk van beeldgeneratie’ zijn aangebroken, klinkt het. Het nieuwe beeldmodel moet zeer realistische beelden afleveren, relaties tussen objecten en beweging beter begrijpen en complexere visuals zoals grafieken, kaarten en zelfs strips produceren. De output is zodanig realistisch dat je bijna niet meer ziet dat het AI-gegeneerd is.

Eerst denken, dan doen

ChatGPT Images 2.0 is de eerste beeldengenerator met redeneermogelijkheden. Koppel je het model in de ChatGPT-app aan een Thinking-model, dan gaat het model op zoek naar de meest relevante informatie om die in het beeld te verwerken. Daardoor zal de output wat langer op zich laten wachten, maar het maakt het mogelijk om met het model complexere visuals te maken. Zonder redeneercapaciteiten heeft het model een kennisdatum van december 2025.

De redeneermogelijkheden laten ook toe om tot acht beelden tegelijk te produceren. Hiermee kan je bijvoorbeeld een reeks concepten voor een poster of een presentatie laten maken, of een socialemedia-post in verschillende beeldhoudingen en talen testen. Het model behoudt continuïteit in personages en objecten doorheen de reeks. Het beschikt ook over de mogelijkheden om informatie samen te voegen tot een coherente en gestructureerde visuele output en/of een verhaal. De grootste, zichtbare verbeteringen zijn merkbaar in het weergeven van grote lappen tekst, waar vorige modellen meer moeite mee hadden.

chatgpt images 2.0
Beeld gegeneerd door ChatGPT Images 2. Bron: OpenAI

Fotorealisme

OpenAI beweert dat Images 2.0 over het algemeen veel realistischere beelden produceert, die er niet meer uitzien alsof ze met AI geproduceerd zijn. Het nieuwe beeldmodel heeft meer oog voor details, maar kan ook onderlinge relaties tussen objecten beter begrijpen en vasthouden doorheen meerdere afbeeldingen en visuele stijlen, van foto’s tot film en stripverhalen. Zelfs ‘imperfecties’ in de beelden verschillen niet van wat je met een echte smartphone of camera zou krijgen. Het model ondersteunt ook verschillende beeldverhoudingen, van 3:1 tot 1:3 en een 2K-resolutie.

AI-beelden die alsmaar echter lijken, doen de grenzen tussen wat echt en niet echt is, steeds meer vervagen. OpenAI geeft toe dat het model kan ingezet worden om nog realistischere deepfakes van personen te maken. De systeemkaart van ChatGPT Images 2.0 bevat meer informatie over de ingebouwde beveiliging.

chatgpt images 2
Deze panoramafoto is niet genomen met een iPhone, maar gegeneerd door ChatGPT Images 2.0. Het beeld bevat ook de typische ‘vervormingen’ die eigen zijn aan panorama’s. Bron: OpenAI

Er zijn zeker ook beperkingen aan het model. OpenAI erkent dat complexe taken en puzzels en zeer fijne details zoals zandkorrels, voorlopig nog te moeilijk zijn voor ChatGPT Images 2.0. Het blijft dus wel kwestie van output zorgvuldig te controleren.

Taalknobbel

ChatGPT Images 2.0 spreekt niet alleen met beeld, maar ook met woorden. De ondersteuning voor tekst blijft niet beperkt tot eenvoudige zinnen. Je zal je beelden van tekstuele context, uitleg of zelfs een volledige verhaallijn kunnen voorzien. Daarbij worden ook meer talen ondersteund.

De vorige generatie van gpt-image-model was vooral getraind op het Engels en Latijnse talen. Nu komen daar ook Aziatische talen bij, waaronder het Japans, Koreaans, Chinees, Hindi en Bengali. Naast grammaticale correctheid houdt het model ook rekening met samenhang en leesbaarheid. OpenAI toont hoe je met ChatGPT Images 2.0 een meertalige mangastrip kan maken.

chatgpt images 2
ChatGPT kan overweg met meerdere talen. Bron: OpenAI

Beschikbaar in ChatGPT en Codex

De nieuwe beeldgenerator is vanaf vandaag beschikbaar in de ChatGPT-app. Zowel gratis als betalende gebruikers krijgen toegang tot de nieuwe versie, al kan het model enkel tegen betaling redeneren. ChatGPT Images 2.0 vervangt gpt-image-1.5 per direct als het standaardmodel. Voorvader Dalle-E werd onlangs op pensioen gestuurd door OpenAI.

OpenAI stopt het Images 2.0-model ook in Codex. Zo kan je je ontwikkelingsprojecten onmiddellijk naar een mooie, visuele interface omzetten. Het model is tenslotte ook als API beschikbaar om het aan je eigen applicaties te haken. De prijs per gegeneerde afbeelding is afhankelijk van de resolutie en geselecteerde kwaliteit, schrijft OpenAI.