Generativ & Multimodal AI
Om stora språkmodeller lärde AI att förstå och manipulera mänskligt språk, så lärde nästa våg av modeller den att skapa. Vi går nu in i den generativa erans tidsålder, där AI inte bara analyserar befintligt innehåll, utan skapar helt nytt: text, bilder, musik, kod och video.
Tekniken bakom magin
Medan LLMs bygger på Transformer-arkitekturen, drivs många av de mest kända bildgeneratorerna, som Midjourney och Stable Diffusion, av en annan teknik: Diffusionsmodeller (Diffusion Models).
Processen är både elegant och kontraintuitiv.
- Framåtprocessen (Brusläggning): Under träningen tar modellen en bild och lägger systematiskt till en liten mängd slumpmässigt "brus" i flera steg, tills bilden är helt oigenkännlig – bara ett fält av statiskt brus.
- Bakåtprocessen (Brusreducering): Därefter tränas modellen på att göra den exakt motsatta resan: att titta på en brusig bild och förutsäga exakt vilket brus som behöver tas bort för att komma ett steg närmare den ursprungliga, rena bilden.
En visuell representation av diffusionsprocessen. En serie bilder som går från vänster till höger. Längst till vänster, en klar bild av en katt. Pilen pekar till nästa bild, där katten är lite brusig. Nästa bild är ännu brusigare, och så vidare, tills bilden längst till höger är rent slumpmässigt brus. Under detta, en pil som pekar från höger till vänster, märkt "AI:ns uppgift: Lär dig att gå baklänges".
När modellen väl är tränad kan den starta med en helt ny, slumpmässig brusbild och, guidad av en textprompt (t.ex. "en astronaut som rider på en häst"), steg för steg ta bort bruset på ett sådant sätt att den önskade bilden gradvis framträder ur kaoset.
Multimodal AI
Samtidigt skedde ett annat genombrott: Multimodal AI. Detta är AI-system som kan förstå och bearbeta information från flera olika "modaliteter" (datatyper) samtidigt, oftast text och bild. Modeller som GPT-4 och Gemini är inte bara språkmodeller; de kan analysera en bild och svara på frågor om den, eller generera en bild från en textbeskrivning. Denna förmåga att koppla samman språk och perception är ett avgörande steg mot en mer holistisk, mänsklig-liknande intelligens.
Oändliga Världar: Generativ AI och Procedurell Generering
Långt innan DALL-E och Midjourney fanns en form av generativ AI som var central för spelutveckling: Procedurell Generering (Procedural Content Generation, PCG). Istället för att manuellt designa varje grotta, planet eller träd, skriver utvecklarna algoritmer som kan skapa enorma, varierade spelvärldar automatiskt.
Spel som Minecraft använder PCG för att skapa sina oändliga landskap. No Man's Sky använder det för att generera ett helt universum med 18 kvintiljoner unika planeter, komplett med egen flora och fauna. Detta är en tidigare form av generativ AI, där regler och algoritmer, snarare än djupinlärning, används för att skapa innehåll. Det visar att drömmen om att automatisera skapandet är en gammal drivkraft inom datavetenskapen.
Perspektiv på den generativa eran
Det ekonomiska perspektivet: Kreativ Destruktion
Den generativa revolutionen har skapat en våg av det som ekonomen Joseph Schumpeter kallade kreativ destruktion. Nya möjligheter och yrken skapas, samtidigt som gamla hotas.
En central konflikt handlar om den data som modellerna tränats på. Företag som Getty Images har stämt Stability AI med argumentet att deras AI har tränats på miljontals upphovsrättsskyddade bilder utan tillstånd, och att de AI-genererade bilderna sedan konkurrerar med originalfotograferna. Var går gränsen mellan inspiration och stöld för en AI?
- Nya Arbetsmarknader: Samtidigt som jobben för illustratörer och fotografer är under press, växer nya roller fram, som "Prompt Engineer" och "AI Content Creator". Frågan är om de nya jobben kommer att vara lika många eller lika välbetalda som de gamla.
Det sociologiska perspektivet: Sanningens Upplösning?
Den kanske mest djupgående konsekvensen av generativ AI är dess påverkan på vår gemensamma verklighetsuppfattning.
- Deepfakes och Desinformation: När vem som helst kan skapa fotorealistiska bilder och videor av händelser som aldrig har ägt rum, blir det allt svårare att skilja på sant och falskt. Risken för politisk desinformation, personliga påhopp och bedrägerier ökar exponentiellt.
- AI-influencers och Autenticitet: Vi ser nu framväxten av helt AI-skapade virtuella influencers med miljontals följare. Detta utmanar våra normer kring vad som är "äkta". Om en AI-karaktär kan skapa en genuin känslomässig koppling till sina följare, spelar det då någon roll att den inte "existerar" i traditionell mening? Detta är en direkt fortsättning på den sociala konstruktionen av verkligheten, men nu med AI som en aktiv deltagare.
Begreppet "The Liar's Dividend" (Lögnarens Utdelning) beskriver en farlig bieffekt av deepfake-teknologin. När vi vet att perfekt förfalskade videor existerar, blir det lättare för skyldiga personer att avfärda äkta bevis som "deepfakes". Teknologin ger alltså en utdelning till lögnare genom att underminera förtroendet för all typ av inspelat material.
Det biologiska & evolutionära perspektivet: En Kambrisk Explosion
Den plötsliga, massiva ökningen av mångfald och komplexitet i det digitala ekosystemet kan liknas vid den Kambriska explosionen – en period för cirka 540 miljoner år sedan då de flesta av de stora djurgrupperna plötsligt dök upp i fossilregistret. På samma sätt har generativ AI lett till en explosion av nytt digitalt innehåll. Detta skapar en rikare, men också mer kaotisk och konkurrensutsatt, digital miljö.
Det kognitiva & psykologiska perspektivet: Verklighetens Plasticitet
Vad händer med vårt förtroende för våra egna sinnen i en värld full av AI-genererat innehåll? Forskning om falska minnen har visat att det är förvånansvärt lätt att få människor att "minnas" händelser som aldrig har inträffat, bara genom att visa dem manipulerade bilder. När vi ständigt översköljs av fotorealistiska men falska AI-bilder, riskerar vi att vårt förtroende för våra egna minnen och till och med vår egen perception urholkas. Verkligheten blir mer plastisk och formbar.
Om du ser en bild på dig själv på en plats du aldrig har besökt, men bilden ser helt verklig ut – hur påverkar det ditt minne av din egen historia? Generativ AI tvingar oss att bli mer kritiska, inte bara till media, utan till vår egen perception.