Hoe maakt AI écht een afbeelding? Het diffusiemodel uitgelegd
Als je een gepersonaliseerd kinderboek bestelt bij MijnEigenBoekje.nl, genereert een AI binnen seconden een illustratie die er nog nooit eerder was. Maar hoe werkt dat precies? Geen pixel is gekopieerd, geen bestaand plaatje is hergebruikt. Hier is wat er echt achter de schermen gebeurt.

Stap 1: de tekst begrijpen
De AI begint niet met een leeg canvas. Ze begint met jouw omschrijving: “Een meisje van 4 jaar met rood haar en een blauwe jurk loopt door een betoverd bos.”
Die zin wordt eerst verwerkt door een tekst-encoder - een apart neuraal netwerk dat taalbetekenis omzet in een reeks getallen. Elke combinatie van woorden levert een unieke numerieke “vingerafdruk” op. “Betoverd bos” is een andere reeks getallen dan “gewoon bos”. Die getallen bepalen straks de richting van het hele generatieproces.
Het meest gebruikte systeem hiervoor is CLIP (Contrastive Language-Image Pretraining), dat getraind is op honderden miljoen tekst-beeld paren. Het heeft geleerd dat woorden als “schilderachtig”, “warm licht” en “aquarel” op een bepaalde manier samenhangen met visuele kenmerken.
Stap 2: beginnen met ruis

Hier zit het slimme deel. Een diffusiemodel genereert een afbeelding door het omgekeerde te doen van wat je zou verwachten.
Training: het model heeft duizenden afbeeldingen gezien die stap voor stap werden omgezet in willekeurige ruis - als een foto die langzaam vervaagt tot statisch tv-beeld. Bij elke stap leerde het model te voorspellen welke ruis er was toegevoegd.
Genereren: nu draait het model dit proces om. Het begint met een canvas van pure willekeurige ruis en verwijdert stap voor stap ruis, gestuurd door de tekst-encoder. Na tientallen tot honderden stappen verschijnt er een herkenbare afbeelding.
Dit wordt denoising diffusion genoemd. Het model voorspelt elke keer opnieuw: “wat is hier de meest logische afbeelding, gegeven deze tekst en deze half-ruisige toestand?”
Stap 3: de latente ruimte
Moderne modellen werken niet met volledige afbeeldingen (dat zou enorm veel rekenkracht kosten), maar in een gecomprimeerde latente ruimte. Een afbeelding van 1024x1024 pixels wordt eerst gecomprimeerd naar een veel kleinere representatie - de essentie van de afbeelding, zonder elk individueel pixel.
Het diffusieproces speelt zich af in die gecomprimeerde ruimte. Pas aan het einde decomprimeerd een decoder het resultaat naar de volledige afbeelding. Dit maakt het proces veel efficiënter zonder kwaliteitsverlies.
Stap 4: stijlconsistentie

Als je bij MijnEigenBoekje.nl een stijl kiest - bijvoorbeeld zachte aquarel - wordt die stijlbeschrijving meegenomen in elke prompt voor elke pagina. De tekst-encoder “weet” dat aquarel samenhangt met zachte randen, doorzichtige lagen en warme tinten.
Omdat elk beeld dezelfde tekst-encoder en hetzelfde diffusiemodel gebruikt met een vergelijkbare stijlomschrijving, ontstaat er visuele samenhang - ook al is elke illustratie los gegenereerd.
Wat maakt het uniek?
Een diffusiemodel kopieert geen bestaand beeld. Het heeft patronen geleerd: hoe licht valt, hoe haar beweegt, hoe een bos er “betoverd” uitziet. Die patronen combineert het op een nieuwe manier voor jouw specifieke prompt.
Elke afbeelding die zo gegenereerd wordt, bestaat voor het eerst op het moment dat jij erom vraagt.