Hoppa till huvudinnehåll

Reinforcement Learning

Övning 1: Träna en RL-agent (visuellt)

Syfte: Att visuellt observera hur en Reinforcement Learning-agent går från slumpmässigt beteende till en intelligent strategi. Vi kommer att använda ett förberett webb-verktyg eller Google Colab-notebook.

Genomförande:

  1. Gå till den länk som din lärare tillhandahåller. Du kommer att se en enkel, simulerad miljö, till exempel:
    • CartPole: En vagn på ett spår med en uppochnedvänd pendel på. Målet är att balansera pendeln så länge som möjligt genom att flytta vagnen åt vänster eller höger.
    • FrozenLake: En agent ska korsa en frusen sjö för att nå ett mål. Vissa isblock är säkra, andra är hål man kan trilla i.
  2. Kör utan träning: Starta simulationen utan någon träning. Observera agentens beteende. Den kommer att agera helt slumpmässigt och misslyckas nästan omedelbart.
  3. Starta träningen: Följ instruktionerna för att starta träningsprocessen. Du kommer att se agenten försöka om och om igen, tusentals gånger i snabb takt. En graf kommer att visa hur dess "belöning" (t.ex. hur länge den lyckas balansera pendeln) sakta men säkert ökar.
  4. Kör efter träning: När träningen är klar, kör simulationen igen. Observera agentens beteende nu.
Reflektionsfrågor
  • Beskriv skillnaden i agentens beteende före och efter träning.
  • Agenten har ingen "förståelse" för fysik eller balans. Hur kan den ändå bli så skicklig på att lösa uppgiften? Förklara med hjälp av begreppen agent, miljö, handling och belöning.
  • Vad säger den här övningen om kraften i trial-and-error i stor skala?

Övning 2: Justera Belöningen - Goodharts Lag i praktiken

Syfte: Att praktiskt uppleva hur kritiskt utformningen av belöningsfunktionen är och hur agenter kan hitta oväntade "kryphål" för att maximera sin belöning.

Verktyg: En förberedd interaktiv miljö (t.ex. i Google Colab) där en agent ska samla mynt i ett rum.

Instruktioner:

  1. Öppna den förberedda miljön. I grundscenariot får agenten +10 poäng för varje mynt den plockar upp och -1 poäng för varje steg den tar (för att uppmuntra effektivitet). Kör simulationen och se hur agenten lär sig att effektivt samla mynten.
  2. Experiment 1: Ta bort straffet för att röra sig.
    • Ändra belöningsfunktionen så att agenten fortfarande får +10 för mynt, men nu får 0 poäng för varje steg.
    • Träna om agenten. Vad händer med dess beteende? Rör den sig mer slumpmässigt mellan mynten? Varför?
  3. Experiment 2: Belöna för att undvika fara.
    • Lägg till ett "lavahål" i rummet. Återställ belöningen till +10 för mynt och -1 för steg. Lägg till en ny regel: -50 poäng om agenten rör vid lavan.
    • Träna om agenten. Lär den sig att undvika lavan?
  4. Experiment 3: Oväntade konsekvenser (Goodharts Lag).
    • Ändra belöningen så att agenten får +1 poäng för varje steg den tar nära ett mynt (utan att behöva plocka upp det). Ta bort belöningen för att faktiskt plocka upp myntet.
    • Träna om agenten. Vad gör den nu? Hittar den ett sätt att maximera sin belöning utan att uppfylla det egentliga målet? (Den kommer troligen att lära sig att springa i cirklar runt ett mynt istället för att samla dem).
Reflektionsfrågor
  • Vad lärde ni er om vikten av att designa en bra belöningsfunktion?
  • "Goodharts Lag" är en princip som säger: "När ett mått blir ett mål, upphör det att vara ett bra mått." Hur är Experiment 3 ett perfekt exempel på detta?
  • Hur kan denna övning hjälpa oss att förstå de större utmaningarna med "The Alignment Problem" för mer avancerade AI-system?

Övning 3: Den kreativa maskinen (Diskussion & Reflektion)

Syfte: Att diskutera och reflektera över de filosofiska frågor som AlphaGos "drag 37" väckte.

Genomförande:

  1. Titta på ett kort videoklipp av "drag 37" från dokumentären AlphaGo (om möjligt).
  2. Läs avsnittet om AlphaGo i läroboken igen.
  3. Diskutera följande frågor i en mindre grupp:
Diskussionsfrågor
  • Anser ni att AlphaGos drag 37 var genuint kreativt? Varför/varför inte?
  • Försök att definiera vad "kreativitet" är. Måste en handling vara medveten eller avsiktlig för att kunna kallas kreativ?
  • Lee Sedol beskrev draget som "vackert". Kan en matematisk, statistiskt optimal lösning vara vacker? Vad säger det om vår uppfattning av skönhet?
  • Om en AI kan skapa musik som berör oss, konst som fascinerar oss eller vetenskapliga hypoteser som ingen människa tänkt på – spelar det någon roll om den har en inre, medveten upplevelse av det den skapar?
Individuell reflektion
  • Skriv en kort, personlig reflektion (ca 150-200 ord) om var du drar gränsen mellan mänsklig och maskinell kreativitet efter att ha diskuterat dessa frågor.