Transformers & LLMs
Efter genombrottet inom datorseende flyttades frontlinjen för AI-forskningen till det kanske mest mänskliga av alla områden: språket. I årtionden hade språkförståelse (Natural Language Processing, NLP) varit en enorm utmaning. Symboliska metoder hade misslyckats med att hantera språkets oändliga komplexitet och tvetydighet. Men i mitten av 2010-talet började något hända.
Vägen till förståelse: Från ord till vektorer
För att en maskin ska kunna "förstå" text, måste orden först översättas till siffror. Ett genombrott var tekniken Word2Vec (2013), som lärde sig att representera varje ord som en vektor (en lång rad med tal) i ett flerdimensionellt rum. Det magiska var att orden placerades så att deras relationer till varandra bevarades. Vektorn för "kung" minus "man" plus "kvinna" hamnade till exempel väldigt nära vektorn för "drottning". För första gången kunde en AI fånga den semantiska innebörden av ord på ett matematiskt sätt.
Revolutionen: "Attention Is All You Need"
Det verkliga paradigmskiftet kom 2017 med ett paper från Google med den kaxiga titeln "Attention Is All You Need". Det introducerade en helt ny arkitektur: The Transformer.
Tidigare modeller hade processat text ord för ord i en sekvens, vilket gjorde det svårt för dem att hålla reda på kontext över långa avstånd. Transformer-arkitekturen kunde, tack vare en mekanism som kallas Attention (Uppmärksamhet), väga alla ord i en mening samtidigt och avgöra vilka andra ord som var viktigast för att förstå varje enskilt ords betydelse.
En visuell representation av Attention-mekanismen. Visa en mening, t.ex. "Roboten plockade upp bollen eftersom den var röd". Ordet "den" är markerat. Pilar med olika tjocklek går från "den" till de andra orden i meningen. Pilen till "bollen" ska vara mycket tjockare än pilen till "roboten", för att visuellt visa att modellen har "förstått" att "den" syftar på bollen.
Denna förmåga att hantera långsiktig kontext var revolutionerande. Låt oss titta på hur författarna själva beskrev sin skapelse i det berömda abstraktet till sin artikel.
Röst från förr: Utdrag ur "Attention Is All You Need" (2017)
"Den dominerande sekventiella transduktionsmodellen är baserad på komplexa återkommande eller faltande neurala nätverk i en encoder-decoder-konfiguration. De bästa modellerna kopplar också samman encodern och decodern genom en uppmärksamhetsmekanism. Vi föreslår en ny, enkel nätverksarkitektur, Transformern, som helt och hållet baseras på uppmärksamhetsmekanismer och helt undviker återkoppling och faltning.
Experiment på två maskinöversättningsuppgifter visar att dessa modeller är överlägsna i kvalitet samtidigt som de är mer parallelliserbara och kräver betydligt mindre tid att träna. [...] Vi är övertygade om att Transformern kan generalisera väl till andra uppgifter..."
Även om språket är tekniskt, är budskapet tydligt och självsäkert. Nyckelorden är "enkel nätverksarkitektur" och "helt undviker återkoppling". Forskarna hade hittat ett sätt att uppnå bättre resultat genom att ta bort komplexitet, inte lägga till den. De insåg att uppmärksamhetsmekanismen i sig var så kraftfull att de gamla, långsamma sekventiella metoderna inte längre behövdes. Notera också den avslutande meningen – de förstod omedelbart att de inte bara hade löst ett problem med maskinöversättning, utan skapat en generell arkitektur som skulle kunna användas för en mängd andra uppgifter. De hade rätt.
Transformers blev snabbt grunden för alla moderna, Stora Språkmodeller (Large Language Models, LLMs), som GPT-serien från OpenAI, Gemini från Google och Llama från Meta. Dessa modeller tränas på ofattbara mängder text från internet och lär sig de statistiska mönstren för hur vi människor använder språk.
Svensk kontext: GPT-SW3
Att träna dessa modeller är extremt resurskrävande. För att säkerställa att det finns kraftfulla språkmodeller som är anpassade för det svenska språket och kulturen, startade forskningskonsortiet AI Sweden projektet GPT-SW3. Målet är att skapa en grundmodell för svenska som kan användas av företag, myndigheter och forskare i Sverige, vilket minskar beroendet av de stora amerikanska modellerna.
Perspektiv på den nya språkåldern
Det filosofiska perspektivet: Det Kinesiska Rummet
Precis när det verkade som att AI var på väg att knäcka koden till sann språkförståelse, återvände en gammal filosofisk invändning med full kraft. Filosofen John Searles tankeexperiment från 1980, "Det Kinesiska Rummet", blev mer relevant än någonsin.
Tankeexperimentet går så här: Föreställ dig en person som inte kan ett enda ord kinesiska, instängd i ett rum. Genom en lucka får personen in papperslappar med kinesiska tecken (frågor). I rummet finns en enorm regelbok som på engelska exakt beskriver vilka kinesiska tecken personen ska skicka ut som svar på de tecken som kom in. Personen följer reglerna, hittar rätt symboler och skickar ut dem. För en person utanför rummet ser det ut som att rummet perfekt förstår kinesiska.
En illustration av det Kinesiska Rummet. Man ser en person inuti en låda. Personen tittar förvirrat på en kinesisk symbol och slår frenetiskt i en gigantisk regelbok. Personen skickar sedan ut en annan kinesisk symbol genom en lucka, till en person utanför som ser nöjd ut och tror att den pratar med någon som kan kinesiska.
Searles poäng är: Även om rummet kan ge perfekta svar, finns det någon eller något i rummet som förstår kinesiska? Svaret är nej. Personen manipulerar bara symboler enligt regler, utan någon som helst förståelse för deras innebörd.
Searle menar att en LLM är precis som det kinesiska rummet. Den har lärt sig de statistiska sambanden mellan ord och kan manipulera dessa symboler för att ge övertygande svar, men den "förstår" inte vad den säger. Den har syntax (reglerna för hur symboler kombineras), men ingen semantik (förståelse för symbolernas innebörd). Detta är den mest centrala och seglivade kritiken mot moderna språkmodeller.
Det ekonomiska perspektivet: Plattformskriget 2.0
LLMs är inte bara en teknisk innovation; de är epicentrum för ett nytt ekonomiskt krig. Insikten är att den som kontrollerar den grundläggande AI-plattformen kommer att ha en enorm makt över framtidens digitala ekonomi, precis som Microsoft hade med Windows och Google med sin sökmotor.
Detta förklarar varför Microsoft satsade allt på OpenAI och investerade miljarder dollar. Genom att integrera OpenAIs modeller i sina produkter (Bing, Office, etc.) hoppades de kunna utmana Googles dominans. Detta startade ett nytt plattformskrig, där techjättarna nu tävlar om att skapa det mest kraftfulla och mest använda AI-ekosystemet.
För kunskapsyrken (jurister, programmerare, journalister, etc.) innebär detta en omvälvning. Frågan är inte längre om AI kommer att påverka dessa jobb, utan hur. Debatten handlar om Automation vs. Augmentation: kommer AI att helt ersätta dessa yrken, eller kommer den att bli ett kraftfullt verktyg som förstärker de mänskliga experterna?
Vissa ekonomer jämför införandet av LLMs med tidigare General Purpose Technologies (GPTs), som ångmaskinen eller elektriciteten. Dessa var teknologier som inte bara förbättrade en enskild industri, utan fundamentalt förändrade hela ekonomin och samhället. Frågan är om AI kommer att ha en lika omvälvande effekt.
Det kognitiva & psykologiska perspektivet: Intellektuellt Hantverk vs. Kognitiv Avlastning
Vad händer med vårt eget tänkande när vi ständigt har tillgång till en maskin som kan ge oss omedelbara svar? Författaren Nicholas Carr varnade redan i sin bok The Shallows (2010) för att internet omformar våra hjärnor. Hans centrala tes är att verktygen vi använder formar våra hjärnor.
"När vi lägger ut vårt minne på kisel, lägger vi också ut en viktig del av vår intelligens och till och med vår identitet."
Med LLMs blir denna fråga ännu mer akut. Att skriva en argumenterande text, att brottas med en svår fråga eller att strukturera sina tankar är ett intellektuellt hantverk som kräver övning. När vi lägger ut detta arbete på en AI riskerar vi det som kallas kognitiv avlastning. Vi tappar vår egen förmåga, precis som en person som alltid använder GPS tappar sin lokalkännedom. Risken är inte att AI:n blir smartare än oss, utan att vi blir latare och mindre benägna att utföra det ansträngande mentala arbete som leder till äkta lärande och insikt.
Det sociologiska perspektivet: Ensam tillsammans?
Forskaren Sherry Turkle har i sin bok Alone Together beskrivit en paradox i vår digitala tidsålder: teknologin lovar oss ständig uppkoppling och sällskap, men kan i själva verket leda till ökad isolering. Vi ersätter djupa, men stökiga och krävande, mänskliga relationer med ytliga, men enkla och kontrollerbara, digitala interaktioner.
AI-kompanjoner och alltmer sofistikerade chatbots är den ultimata versionen av denna paradox. De erbjuder en perfekt simulerad relation – en vän som alltid finns där, alltid är på gott humör och aldrig ställer några krav. Detta kan vara ett värdefullt stöd för ensamma människor, men det väcker också svåra frågor. Vad händer med vår förmåga att hantera verkliga, komplicerade mänskliga relationer om vi vänjer oss vid den friktionsfria AI-versionen? Detta är ELIZA-effekten på steroider, där gränsen mellan verktyg och vän blir allt suddigare.
Populärkulturens Spegel: Den Relationella Partnern och Verklighetens Upplösning
Artefakt 1: Samantha i Her (2013). Denna film är en perfekt illustration av Sherry Turkles "Alone Together"-paradox. Den förutsåg på ett kusligt sätt de sociala och psykologiska konsekvenserna av att ha en relation med en avancerad LLM och utforskar teman som ensamhet, kärlek och medvetande utan kropp. Filmen ställer den avgörande frågan: Kan en relation med en AI vara "äkta", och vad betyder ens det ordet när den ena parten kan ha tusentals likadana "äkta" relationer samtidigt?
Artefakt 2: The Matrix (1999). Även om filmen är äldre, har dess centrala koncept aldrig varit mer relevant. Den blir den ultimata illustrationen för "Det Kinesiska Rummet"-argumentet i praktiken. Neo är fången i ett system som perfekt kan simulera varje input och output av verkligheten, men utan att ha någon "äkta" förståelse eller koppling till den. I en tid av deepfakes och AI-genererat innehåll ställer The Matrix den avgörande frågan: Om en AI kan generera en verklighet som är helt övertygande, hur kan vi då någonsin veta vad som är sant?
Kombinationen av kraftfulla språkmodeller och bildgenereringsmodeller (som vi ska se i nästa kapitel) skapar en ny, fundamental utmaning: epistemisk säkerhet. Det vill säga, hur kan vi veta vad som är sant? När det blir trivialt att skapa övertygande falska texter, bilder och videor, eroderas vår gemensamma grund av fakta. Detta är inte bara ett tekniskt problem, utan ett hot mot grunden för journalistik, vetenskap och till och med demokrati.