Hoe gpt-image-2 een illustratie maakt | MijnEigenBoekje

Je klikt op “genereer” en dertig seconden later verschijnt er een illustratie. Wat er precies in die dertig seconden gebeurt, is ingewikkelder - en interessanter - dan het lijkt. Edwin, de data engineer die de pipeline bij MijnEigenBoekje heeft gebouwd, legt het stap voor stap uit. Niet als marketingtekst, maar als technische uitleg voor iedereen die begrijpt hoe software werkt.

Wat gpt-image-2 precies is

gpt-image-2 is het nieuwste image generation model van OpenAI, uitgebracht in 2025. In tegenstelling tot eerdere generaties modellen combineert het GPT-niveau tekstbegrip met een diffusie-gebaseerde beelddecoder. In de praktijk betekent dit dat het model genuanceerde tekstinstructies veel beter kan opvolgen dan zijn voorgangers. “Maak een illustratie van een meisje met rood kroeshaar, een gele regenjas en een bruine hond, in een regenbui op een betegelde straat” - dat werkt. Niet altijd perfect, maar aanzienlijk betrouwbaarder dan DALL-E 2 of Stable Diffusion op vergelijkbare instructies.

Hoe diffusie werkt: van ruis naar beeld

Het basisprincipe van diffusie-gebaseerde modellen is in 2020 beschreven door Ho et al. in het invloedrijke paper “Denoising Diffusion Probabilistic Models” (NeurIPS 2020). Het idee: train een model door afbeeldingen stap voor stap met ruis te bedekken - het zogenaamde “forward process” - en leer het model vervolgens de weg terug te vinden: van ruis naar coherente afbeelding, het “reverse process”.

Bij gebruik begint het model met pure ruis, een afbeelding van volledig willekeurige pixels. In tientallen stappen ontruist het model die afbeelding, telkens geleid door de tekstprompt. Edwin: “Rond stap 27 van 50 begon het karakter herkenbaar te worden. Voor die tijd: ruis. Die overgang is elke keer nog indrukwekkend om te zien.”

Code op een laptopscherm visualiseert de AI-pipeline voor illustraties

Het hardste probleem: karakterconsistentie over elf pagina’s

Eén mooie illustratie genereren is niet het moeilijkste deel. Het moeilijkste is dezelfde karakteer op elf verschillende pagina’s - in elf verschillende scènes - consistent te houden. Hetzelfde rode haar op pagina 3 als op pagina 9. Dezelfde gele jas.

Onze oplossing: reference passing. De eerste goedgekeurde karakterillustratie wordt meegestuurd als referentieafbeelding bij elke volgende prompt. In combinatie met gedetailleerde schriftelijke karakterbeschrijvingen in elke prompt zorgt dit voor voldoende consistentie.

Niet foutloos. Edwin: “Bij ongeveer 1 op de 8 pagina’s regenereren we automatisch omdat karakterdrift merkbaar is. We hebben basiscontroles ingebouwd die flaggen als het haar ineens van kleur verandert.”

De foto die jij uploadt, wordt als tweede referentie meegestuurd: het model gebruikt haar om haartype, haarkleur en huidskleur te benaderen. Na verwerking wordt de foto automatisch verwijderd. We bewaren geen persoonlijke foto’s op onze servers na het generatieproces.

Kleurrijke code op een beeldscherm - de bouwstenen achter AI-illustraties

Wanneer gpt-image-2 het laat afweten

Eerlijkheid over beperkingen hoort bij een goede technische uitleg. gpt-image-2 heeft bekende zwakke punten.

Tekst in afbeeldingen werkt slecht: we vermijden prompts die leesbare tekst in de illustratie vereisen. Fotorealistische gelijkenis is geen sterk punt van het model: als de foto-accurate gelijkenis met jouw kind het cruciale criterium is, is een fotoboek of een door illustrator handgetekend portret een betere keuze. Onze eerlijke vergelijking van een persoonlijk boek en een fotoshoot legt uit wanneer welk formaat beter past.

Cultureel specifieke kleding en settings werken minder betrouwbaar: het model is getraind op overwegend westers materiaal. Heel specifieke traditionele klederdracht of architectuur kan afwijkend uitvallen.

Er zijn ook situaties waarin een persoonlijk boek sowieso niet de beste keuze is, los van de technologie. Lees daarvoor onze gids over wanneer een persoonlijk kinderboek niet past.

Waarom het toch werkt

Kinderen vereisen geen fotorealistische gelijkenis. Ze vereisen herkenning. Rood kroeshaar. Een gele jas. De hond van thuis. Die herkenbare kenmerken - gecombineerd met hun naam in het verhaal - activeren de “dat ben ik!”-reactie die een persoonlijk boek zo anders laat aanvoelen dan een standaard prentenboek.

Opa en kleinzoon genieten samen van een boek - het resultaat van de pipeline

Edwin: “Ik heb het prototype als eerste getest met een afbeelding van mijn eigen dochter - rood haar, sproeten, blauwe ogen. Toen ze zichzelf herkende op de cover, begreep ik pas echt wat we aan het bouwen waren. Ze zei: ‘dat ben ik, papa.’ Ze keek niet kritisch naar de ogen of de neushoek. Ze zag zichzelf.”

Dat moment is precies waar de technologie naartoe werkt. Interactief voorlezen versterkt die betrokkenheid nog verder zodra een kind zichzelf in het verhaal herkent.

Geen magie, maar zorgvuldige engineering

gpt-image-2 genereert niet “zomaar” een kinderboek. Achter elke illustratie zitten keuzes: welke stijlomschrijvingen we meesturen, hoe we karakterconsistentie bewaken, op welke manier we de foto als referentie verwerken, welke automatische checks we draaien. De technologie levert de pixel-output; de pipeline bepaalt of het een illustratie wordt die een kind zichzelf echt herkent.

De technologie verdwijnt als het werkt. Dat is het enige dat telt.

👉 Maak het boek van jouw kind