AI-gegenereerde kunst: iedereen lijkt fan behalve ik

  • Artikel
  • AI
Prompt: frustrated woman with colleagues around her working at laptops enthusiastically like monkeys

Als Alexander Klöpping erover mag praten aan de talkshowtafel, dan weet je dat de hype compleet is. Dall-E, vernoemd naar een combinatie van WALL-E en Dali, is een AI-systeem waarmee je artistieke afbeeldingen kunt maken. Iedereen lijkt fan. Maar wat is er eigenlijk zo spannend aan?

Kunstmatige intelligentie is net als een popidool: alles wat erdoor wordt aangeraakt verandert in iets begeerlijks.

Neem bijvoorbeeld onze AI-smartlap Tranen op de Dansvloer, die we maakte in samenwerking met Pure Ellende, Janne Spijkervet en GPT-2, een AI-systeem dat teksten genereert op basis van een paar woorden. De media smulden ervan: “Kunstmatige intelligentie schrijft smartlap!”; “Utrechtse smartlap gemaakt door Artificial Intelligence”. In een radio-interview vertelt Janne dat ze al jaren smartlappen maakt, maar nog nooit zoveel succes heeft gehad als met GPT-2.

Wat opvalt in alle media-uitlatingen, is onze nederigheid ten aanzien van kunstmatige intelligentie. Om niet arrogant of conservatief over te komen, roepen we heldhaftig dat AI-kunst onze creativiteit overtreft. Want AI: dát is de toekomst. En door al die frictieloze gadgets uit de vallei zijn we inmiddels zo vies geworden van ons eigen mens-zijn, dat we maar beter alles aan computerlogica kunnen onderwerpen. Dat heeft de AI-industrie ons inmiddels zeer effectief ingewreven.

Het is niet zo gek dat de GPT-2 smartlap meer succes heeft dan Jannes’ eigen smartlappen. Iets dat zonder AI gemaakt is interesseert ons niet. Het telt pas mee als er een zelflerend computersysteem tussen heeft gezeten. ”What!? Een smartlap geschreven door kunstmatige intelligentie? Dat moet ik horen!”.

Natuurlijk is Tranen Op De Dansvloer helemaal niet door GPT-2 gemaakt, maar in samenwerking met. De eindtekst is bewerkt, een band zingt het nummer, en dan is er nog de trainingsinput: alle teksten die GPT-2 uitspuugt zijn afhankelijk van een enorme hoeveelheid aan teksten die door mensen zijn geproduceerd.

En dat geldt ook voor Dall-E. Je geeft het systeem een prompt, bijvoorbeeld “Polar bear holding a beer” en Dall-E maakt het voor je op basis van online afbeeldingen die met deze woorden geassocieerd zijn. De creaties van Dall-E zijn het resultaat van een mix aan miljoenen afbeeldingen en tekst-beeld associaties die al eerder door mensen zijn gemaakt.

Maar daar zijn we ons niet van bewust. We vergeten graag hoeveel mensenwerk achter kunstmatige intelligentie schuilgaat. Het idee dat AI uit de lucht is komen vallen en ons straks niet meer nodig heeft domineert ons wereldbeeld.

Te diep in het AI-glaasje gekeken

Hoewel AI-experts het science-fiction beeld van kunstmatige intelligentie allang hebben doorgeprikt, verschijnen om de zoveel jaar sensatieberichten over kunstmatige intelligentie met mensachtige trekjes zoals bewustzijn.

Afgelopen maand was het Google medewerker Blake Lemoine die iets te diep in het AI-glaasje had gekeken. Hij beweerde dat de chatbot waaraan hij werkte genaamd LaMDA, bewustzijn had bereikt. Het systeem zou volgens hem individuele gevoelens en gedachten uiten op een manier waarop een kind dat kan. Direct na zijn beweringen werd Lemoine door Google geschorst. Niet vanwege zijn chatbot maar vanwege zijn misleidende beweringen.

Ook bij Dall-E duurde het niet lang voordat de eerste speculaties over bewustzijn losbarstte. Als je Dall-E vraagt om zichzelf te beschrijven, produceert het afbeeldingen van fotografie gerelateerde technologie. “Kijk! Dat laat toch zien dat AI zelfbewustzijn heeft?” gonsde het rond op social media. Wat we zien is een mash-up van afbeeldingen die mensen gekoppeld hebben aan woorden die geassocieerd zijn met AI-beeld tools, waardoor het systeem met deze afbeeldingen komt. Dat heeft niks met zelfbewustzijn te maken.

Omdat AI-systemen als LaMDA en Dall-E getraind zijn met enorme hoeveelheden data, zijn ze in staat om teksten en beelden te genereren die coherent op ons overkomen. Professor Emily Bender en haar collega’s waarschuwen dat mensen daardoor makkelijk een ‘geest’ in het systeem kunnen waarnemen, terwijl we in werkelijkheid slechts kijken naar wat patroonovereenkomsten en een voorspelling van een reeks tekens. In haar paper verklaart ze: “Wij noemen dergelijke AI-systemen ‘stochastische papegaaien’. Ze hechten aan elkaar en papegaaien taal of beeld terug op basis van wat ze eerder hebben gezien, zonder verband met de onderliggende betekenis.”

Bender is net als veel andere AI-experts bezorgd dat we zo onder de indruk zijn van systemen als Dall-E en LaMDA, dat we menselijke eigenschappen op deze systemen projecteren en het toepassingsbereik ervan overschatten.

In plaats van te speculeren over bewustzijn, kunnen we ons volgens Bender beter bezig houden met reële AI-problemen. Bijvoorbeeld de hoeveelheid energie die deze kolossale AI-modellen slurpen waardoor de klimaatimpact enorm is. Of de racistische en seksistische patronen die deze AI-systemen reproduceren in hun teksten en afbeeldingen.

De AI-grinch

’s Ochtends op het SETUP kantoor aangekomen met het paper van Bender vers in het geheugen, tref ik mijn collega’s in opperste staat van enthousiasme. Ze zijn in de zevende hemel: “Siri, je moet zien hoe gaaf dit is, we zijn hier gisteren de hele dag mee bezig geweest!”

“Laat zien” roep ik enthousiast, benieuwd naar wat ze hebben gemaakt. Ik kijk naar een afbeelding op het laptopscherm van mijn collega: een stad overspoeld met een lading toetjes. Een volgende afbeelding: wilde dieren en mensen met bivakmutsen achter laptops. Daarna: een kat met een hotdog vliegend door de ruimte.

Prompt: city overrun by deserts
Prompt: hackers with money controlling a zoo realistic
Prompt: flat fat red cat enjoying a hotdog while floating through space

De afbeeldingen zijn gemaakt met starryai, een programma dat vergelijkbaar is met Dall-E. Je geeft het systeem een prompt en starryai zet de woorden om in een AI-gegenereerde afbeelding. Je kunt realistische afbeeldingen maken, of juist meer droomachtige, abstracte beelden. Daarnaast kun je kiezen uit zestien verschillende kunststijlen.

“Kijk hoe waanzinnig dit is! Deze is echt sick, die hebben we net gema”- met geïrriteerde toon onderbreek ik het verhaal: “Ja vinden jullie dat interessant? Ik vind er geen moer aan. Ik word helemaal doodgegooid met die quasi-interessante AI-plaatjes, ik kan ze niet meer zien. Het ráákt me niet“. De AI-grinch in mij had gesproken. De gezichten van mijn collega’s begonnen te betrekken. Plotseling flitste een kort verhaaltje door mijn hoofd: “En toen kwam er een olifant met een analoge snuit, en die blies het AI-verhaaltje uit.”

Toen ik de gezichten van mijn collega’s beter bekeek werd duidelijk: het AI-verhaaltje was helemaal niet afgelopen, het was pas net begonnen. Want SETUP zou SETUP niet zijn als het geen onderzoek zou doen naar deze nieuwe hype cycle van AI-gegenereerde kunst.

Dagenlang werd op het SETUP kantoor gestarry ai-ed. Toen we elkaar niet meer konden overtreffen met bizarre afbeeldingen, gingen we toegewijd aan de slag.

Marissa Memelink - begeleider artistiek onderzoek
Om de praktische grenzen te verkennen deden we verschillende tests. We gebruikte bijvoorbeeld menselijke emoties als prompt, en onderzochten hoe het systeem omgaat met context, symboliek en cultureel bepaalde beelden. Symbolische betekenissen zijn lastig. Dat werd duidelijk toen we starryai een passende afbeelding wilde laten maken bij ons artikel “Digitalisering is geen sexy onderwerp maar we moeten erover praten." Wat ik fascinerend vind, is dat het soms dingen kan vinden die goed aansluiten bij onze wereld, en dan weer helemaal niet. Ik verbaas me dat het algoritme bepaalde dingen eruit vist. Dat het educated kan guessen waar het vandaan komt. Dat er coherentie is en het dan opeens weer de plank volledig misslaat.
Prompt: digitization is not a sexy topic but we need to talk about it
Casper de Jong - beeldend kunstenaar
Er komen hele gekke beelden uit die wij ons niet voor kunnen stellen. Het is een beetje als een gokkast, maar dan langzamer, want je moet vijf minuten wachten op het resultaat waardoor de spanning opbouwt.
Andrea Rhodenborgh - ontwikkelaar educatie
Bij een synthesizer weet je op basis van het geluid wat je erin stopt wat eruit gaat komen. Hierbij heb je geen idee. Je hebt minder controle over de uitkomst, wat het verrassend maakt.

Het verrassingselement en het verlangen om een nieuwe tool te leren kennen begrijp ik, maar dat we AI-kunst op een voetstuk plaatsen voelt misplaatst.

AI-gegenereerde kunst laat namelijk slechts een statistische extrapolatie zien van alle online beelden die er al waren. En die extrapolatie komt niet voort uit een intentioneel communicatief proces vermengd met random elementen, maar uit een snelle rekensom met geavanceerde patroonherkenning. Een rekensom waar de macht van de meerderheid telt, om vervolgens uit te komen op een uitgedund gemiddelde; een waterige mash-up van alle online beelden die het systeem heeft kunnen koppelen aan een bepaalde prompt.

Want alleen de meest voorkomende tekst-beeld correlaties zijn duidelijk in het eindbeeld vertegenwoordigd. Daar komt ook nog eens bij dat de beelden die mensen maken en online plaatsen (de beelden waar het systeem mee gevoed wordt) vaak al eenvormige stijlkeuzes en filters bevatten.

Als ik de afbeeldingen van Dall-E en starryai bekijk, krijg ik het gevoel dat ik naar een betekenisloze mensen-echo zit te kijken. Geinig dat je als gebruiker zelf nog een specifieke kunststijl kunt kiezen die juist niet past bij het onderwerp van je afbeelding, maar zo’n voorgefabriceerd artistiek sausje maakt het wat mij betreft juist nog oninteressanter.

Hoewel de twaalf biljoen parameters van Dall-E’s neurale netwerk indrukwekkend zijn, zegt dat weinig over de innovatieve vermogens van een dergelijk systeem. Jan Postma citeerde in de Groene Amsterdammer een AI-kenner die uitlegt waarom kunstmatige intelligentie zo ontzettend saai is: “Wat AI zo saai maakt, is dat er al zo lang niks wezenlijk nieuws meer is ontdekt. Die neurale netwerken zijn indrukwekkend, maar het enige wat er gebeurt is dat er met steeds meer geld steeds meer data en rekenkracht worden ingekocht.”

De taal die wij voor het algoritme spreken

Hedendaagse AI-toepassingen zijn omgeven met een zweem van democratiserende beloften, humor, speelsheid en creativiteit. Daardoor merken we niet dat we steeds meer aspecten van ons leven onderwerpen aan een regime van meer data, meer rekenkracht en meer computerlogica.

Een belangrijke vraag is of we in dat proces zelf niet steeds meer op robots gaan lijken. Bijvoorbeeld doordat we ons alleen nog maar willen verdiepen in robotlogica. Zo legt mijn collega uit dat hij zich graag verdiept in de logica van het algoritme, om er uiteindelijk beter mee te kunnen spelen:

Casper
We proberen het algoritme te begrijpen zodat we het naar de hand kunnen zetten. Bijvoorbeeld door na te denken welke taal wij voor het algoritme spreken. Ik benader het graag als zoekplaatje: welk stukje prompt zie je waar terug? Wat zie je niet terug en hoe komt dat? Uiteindelijk wil je samenwerken met het algoritme, elkaars taal begrijpen. Ik maakte bijvoorbeeld een serie Cyborg-afbeeldingen door de prompt zodanig aan te passen dat ik een specifieke stijl of duidelijk thema vast kan houden.
Prompt: failed cyborg having a romantic dinner in paris during world war 1
Prompt: cyborg bolsheviks execution of Tsar Nicholas and the romanov royal family in russia 1917

Wat je allemaal wel en niet aan prompts terugziet in de afbeeldingen, zegt ook iets over de datasets waarop het systeem getraind is. Zo ontdekte we dat hoe meer afbeeldingen er over een bepaald onderwerp zijn, bijvoorbeeld de Tweede Wereldoorlog, hoe scherper de representatie wordt. Omdat er dan meer eenvormigheid in de compositie mogelijk is.

De beelden van Dall-E en starryai werken dus als een spiegel, ze zeggen iets over de manier waarop we de geschiedenis hebben vastgelegd en graag vastleggen. Dat betekent natuurlijk ook dat het systeem onze eigen culturele biases reproduceert. Zo geeft “CEO” als prompt bijvoorbeeld alleen maar afbeeldingen van witte mannen, en “personal assistant” alleen maar afbeeldingen van vrouwen. Inmiddels zijn volledige handboeken verschenen over hoe je de beste AI-prompts kunt maken.

Casper
Op Discord wisselen mensen tips uit over prompts. Zo ontstaan community’s die nieuwe dingen uitproberen. We ontdekte bijvoorbeeld dat starryai goed is met emoticons als prompt. Waarschijnlijk omdat emoticons een eenduidige, veelvoorkomende beeldtaal zijn. Een combinatie van een aubergine en een waterdruppel zou de AI ook kunnen interpreteren als 'hard werken op de boerderij', maar hij maakte er iets van wat dichtbij onze emoji-taal ligt.
Natuurlijk konden we het niet laten om een aubergine-emoji en een druppel-emoji als prompt te gebruiken.

In plaats van stereotype bevestigend, kunnen Dall-E en starryai ons juist ook op een nieuwe manier naar de wereld laten kijken. Het denken in AI-prompts kan de fantasie aanwakkeren:

Marissa
Toen we door een wijk met rietveld-achtige huizen liepen zei Jelle: “Dat ziet eruit als exploding clown pants”, denkend aan hoe je zo’n soort beeld zou kunnen vertalen naar een prompt. Mensen zien structuren als losstaande entiteiten maar AI zet objecten met dezelfde structuren bij elkaar, waardoor je daar opeens anders naar gaat kijken. Bomen versmolten met kroesharen van een clown bijvoorbeeld. Zoiets bedenken wij niet.
Prompt: Dutch housing project inspired by exploding clown pants

Wat AI-gegenereerde kunst aantrekkelijk maakt is dat het beeldcombinaties maakt van aspecten die in onze eigen leefwereld niet bij elkaar lijken te passen. Maar dit fenomeen an sich is niet nieuw. Kunstenaars experimenteren daar sowieso al mee. Creatieve geesten die goed met een kwast of met potlood kunnen werken, koppelen ook verschillende structuren aan elkaar en kijken met een dergelijk oog naar hun omgeving.

Onze leefomgeving is vaak zo overmatig gestileerd en gestroomlijnd, dat we alles op dwangmatige wijze bij elkaar willen laten passen. We matchen, maar vergeten daarbij ook nog wat te mixen. En dat is precies waar kunstenaars en AI-systemen als Dall-E en starryai ons bij kunnen helpen; bij dat mixen. Toch is het een misverstand om deze systemen dan maar te behandelen als ‘’just another tool’’. Elke technologische tool, of deze nou vernieuwend is of niet, heeft specifieke kenmerken die op een specifieke manier ingrijpen in ons mens-zijn.

Het is overbodig om bij elke nieuwe technologie moord en brand te schreeuwen over de teloorgang van creativiteit en culturele rijkdom. Maar het is ook overbodig om achter elk nieuw AI-speeltje aan te hobbelen. De neurale netwerken worden steeds groter, maar het is en blijft oude AI-wijn in nieuwe zakken. Laten we ons vooral niet verkijken op die nieuwe zakken. Want de klimaatimpact van deze systemen is enorm. Net als de machtsasymmetrie die komt kijken bij alles wat met data te maken heeft, en het existentiële risico dat we in plaats van onze kunst ook onszelf dreigen te automatiseren.

Dall-E lijkt inmiddels alweer achterhaald. Het is nu Midjourney die de markt probeert te veroveren. Het zal mij benieuwen hoe lang het duurt voordat we helemaal murw gebeukt zijn door een betekenisloze brei aan AI-gegenereerde kunst. Ik ben geen fangirl van deze nieuwe AI-idolen, maar hou voor de zekerheid een joker achter de hand. Wie weet kan de liefde nog groeien.

De afbeeldingen bij dit artikel zijn gemaakt met starryai via starryai.com in juni en juli 2022.