Reinforcement Learning
Övning 1: Träna en RL-agent (visuellt)
Syfte: Att visuellt observera hur en Reinforcement Learning-agent går från slumpmässigt beteende till en intelligent strategi. Vi kommer att använda ett förberett webb-verktyg eller Google Colab-notebook.
Genomförande:
- Gå till den länk som din lärare tillhandahåller. Du kommer att se en enkel, simulerad miljö, till exempel:
- CartPole: En vagn på ett spår med en uppochnedvänd pendel på. Målet är att balansera pendeln så länge som möjligt genom att flytta vagnen åt vänster eller höger.
- FrozenLake: En agent ska korsa en frusen sjö för att nå ett mål. Vissa isblock är säkra, andra är hål man kan trilla i.
- Kör utan träning: Starta simulationen utan någon träning. Observera agentens beteende. Den kommer att agera helt slumpmässigt och misslyckas nästan omedelbart.
- Starta träningen: Följ instruktionerna för att starta träningsprocessen. Du kommer att se agenten försöka om och om igen, tusentals gånger i snabb takt. En graf kommer att visa hur dess "belöning" (t.ex. hur länge den lyckas balansera pendeln) sakta men säkert ökar.
- Kör efter träning: När träningen är klar, kör simulationen igen. Observera agentens beteende nu.
Reflektionsfrågor
- Beskriv skillnaden i agentens beteende före och efter träning.
- Agenten har ingen "förståelse" för fysik eller balans. Hur kan den ändå bli så skicklig på att lösa uppgiften? Förklara med hjälp av begreppen
agent
,miljö
,handling
ochbelöning
. - Vad säger den här övningen om kraften i trial-and-error i stor skala?
Övning 2: Justera Belöningen - Goodharts Lag i praktiken
Syfte: Att praktiskt uppleva hur kritiskt utformningen av belöningsfunktionen är och hur agenter kan hitta oväntade "kryphål" för att maximera sin belöning.
Verktyg: En förberedd interaktiv miljö (t.ex. i Google Colab) där en agent ska samla mynt i ett rum.
Instruktioner:
- Öppna den förberedda miljön. I grundscenariot får agenten +10 poäng för varje mynt den plockar upp och -1 poäng för varje steg den tar (för att uppmuntra effektivitet). Kör simulationen och se hur agenten lär sig att effektivt samla mynten.
- Experiment 1: Ta bort straffet för att röra sig.
- Ändra belöningsfunktionen så att agenten fortfarande får +10 för mynt, men nu får 0 poäng för varje steg.
- Träna om agenten. Vad händer med dess beteende? Rör den sig mer slumpmässigt mellan mynten? Varför?
- Experiment 2: Belöna för att undvika fara.
- Lägg till ett "lavahål" i rummet. Återställ belöningen till +10 för mynt och -1 för steg. Lägg till en ny regel: -50 poäng om agenten rör vid lavan.
- Träna om agenten. Lär den sig att undvika lavan?
- Experiment 3: Oväntade konsekvenser (Goodharts Lag).
- Ändra belöningen så att agenten får +1 poäng för varje steg den tar nära ett mynt (utan att behöva plocka upp det). Ta bort belöningen för att faktiskt plocka upp myntet.
- Träna om agenten. Vad gör den nu? Hittar den ett sätt att maximera sin belöning utan att uppfylla det egentliga målet? (Den kommer troligen att lära sig att springa i cirklar runt ett mynt istället för att samla dem).
Reflektionsfrågor
- Vad lärde ni er om vikten av att designa en bra belöningsfunktion?
- "Goodharts Lag" är en princip som säger: "När ett mått blir ett mål, upphör det att vara ett bra mått." Hur är Experiment 3 ett perfekt exempel på detta?
- Hur kan denna övning hjälpa oss att förstå de större utmaningarna med "The Alignment Problem" för mer avancerade AI-system?
Övning 3: Den kreativa maskinen (Diskussion & Reflektion)
Syfte: Att diskutera och reflektera över de filosofiska frågor som AlphaGos "drag 37" väckte.
Genomförande:
- Titta på ett kort videoklipp av "drag 37" från dokumentären AlphaGo (om möjligt).
- Läs avsnittet om AlphaGo i läroboken igen.
- Diskutera följande frågor i en mindre grupp:
Diskussionsfrågor
- Anser ni att AlphaGos drag 37 var genuint kreativt? Varför/varför inte?
- Försök att definiera vad "kreativitet" är. Måste en handling vara medveten eller avsiktlig för att kunna kallas kreativ?
- Lee Sedol beskrev draget som "vackert". Kan en matematisk, statistiskt optimal lösning vara vacker? Vad säger det om vår uppfattning av skönhet?
- Om en AI kan skapa musik som berör oss, konst som fascinerar oss eller vetenskapliga hypoteser som ingen människa tänkt på – spelar det någon roll om den har en inre, medveten upplevelse av det den skapar?
Individuell reflektion
- Skriv en kort, personlig reflektion (ca 150-200 ord) om var du drar gränsen mellan mänsklig och maskinell kreativitet efter att ha diskuterat dessa frågor.