RLHF i LLM:s
Vi har nu sett hur modeller som GPT tränas på enorma mängder text för att bli experter på att förutsäga nästa ord.
En strategi som används för att ständigt förbättra LLM system kommer från Reinforcement Learning.
Metoden kallas RLHF (Reinforcement Learning from Human Feedback) och sker i tre steg:
-
Imitation (Supervised Fine-Tuning): Först visar människor modellen hur en bra dialog ser ut. Mänskliga experter skriver tusentals exempel på frågor och perfekta svar. Modellen tränas på detta (precis som vanligt) för att lära sig "chat-formatet". Draken lär sig sitta fint.
-
Belöningsmodellen (The Reward Model): Nu låter vi modellen svara på nya frågor, och generera flera olika svarsalternativ. En människa får sedan läsa svaren och rangordna dem från bäst till sämst. "Detta svar var hjälpsamt, men det där var otrevligt." Dessa data används för att träna ett nytt, separat neuralt nätverk: en Reward Model. Detta nätverk lär sig att härma människans smak. Den blir en digital domare som kan titta på vilken text som helst och ge den ett betyg (en belöning).
-
Reinforcement Learning (PPO): Nu kopplar vi ihop allt.
- Agenten: Vår språkmodell (LLM).
- Handlingen: Att generera ord.
- Miljön: Chattfönstret.
- Belöningen: Betyget från vår Reward Model.
Modellen får nu generera svar på miljontals frågor. För varje svar får den ett betyg av Reward-modellen. Om betyget är högt (bra svar), justeras modellens vikter för att göra det mer sannolikt att den svarar så igen. Om betyget är lågt (giftigt eller nonsens), justeras vikterna åt andra hållet.
Genom RLHF kunde OpenAI styra modellen bort från att bara vara en statistisk papegoja, till att följa komplexa mänskliga värderingar. Det var detta steg som gjorde AI användbart för massorna. Vi använde RL för att lära agenten att det "vinnande draget" i språkspelet inte bara är att gissa rätt ord, utan att göra användaren nöjd.
insert monolog om vad som händer när vi låter massornas preferenser styra ett system som vi sedan förlitar oss på (något mindre uppmuntrande om vad vi kan generalisera om massornas kollektiva förmåga)