Belöningsbaserad Inl ärning Reinforcement Learning Orjan ... · 2 Känd omgivning Bellmans...

Definition av problemetKand omgivning

Okand omgivningForbattringar

Beloningsbaserad Inlarning

Reinforcement Learning

Orjan Ekeberg Maskininlarning

1 Definition av problemetInlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

2 Kand omgivningBellmans ekvationLosningsmetoder

3 Okand omgivningMonte-Carlo metodenTemporal-DifferenceQ-LearningSarsa-Learning

4 ForbattringarNyttan av att gora felEligibility Trace

InlarningssituationenBeloningens rollForenklande antagandenCentrala begrepp

Beloningsbaserad inlarning

Reinforcement LearningInlarning av ett beteende utan tillgang till facit.

En beloning ger information om hur bra det garBeloningen kommer inte samtidigt som man gor nagot braTemporal credit assignmentBeloningen anger inte vad som var braStructural credit assignment

En beloning ger information om hur bra det gar

Beloningen kommer inte samtidigt som man gor nagot braTemporal credit assignmentBeloningen anger inte vad som var braStructural credit assignment

En beloning ger information om hur bra det garBeloningen kommer inte samtidigt som man gor nagot braTemporal credit assignment

Beloningen anger inte vad som var braStructural credit assignment

En beloning ger information om hur bra det garBeloningen kommer inte samtidigt som man gor nagot braTemporal credit assignmentBeloningen anger inte vad som var braStructural credit assignment

Modell for inlarningssituationen

En agent interagerar med sin omgivningAgenten utfor handlingarHandlingarna paverkar omgivningens tillstandAgenten observerar omgivningens tillstandAgenten far aven en beloning fran omgivningen

Handling

sTillstånd

Omgivning

Belöning r

En agent interagerar med sin omgivning

Agenten utfor handlingarHandlingarna paverkar omgivningens tillstandAgenten observerar omgivningens tillstandAgenten far aven en beloning fran omgivningen

Handling

sTillstånd

Omgivning

Belöning r

En agent interagerar med sin omgivningAgenten utfor handlingar

Handlingarna paverkar omgivningens tillstandAgenten observerar omgivningens tillstandAgenten far aven en beloning fran omgivningen

Handling

sTillstånd

Omgivning

Belöning r

En agent interagerar med sin omgivningAgenten utfor handlingarHandlingarna paverkar omgivningens tillstand

Agenten observerar omgivningens tillstandAgenten far aven en beloning fran omgivningen

Handling

sTillstånd

Omgivning

Belöning r

En agent interagerar med sin omgivningAgenten utfor handlingarHandlingarna paverkar omgivningens tillstandAgenten observerar omgivningens tillstand

Agenten far aven en beloning fran omgivningen

Handling

sTillstånd

Omgivning

Belöning r

Handling

sTillstånd

Omgivning

Belöning r

Handling

sTillstånd

Omgivning

Belöning r

Uppgiften for agentenHitta ett beteende som maximerar den totala beloningen.

Hur lang framtid ska vi ta hansyn till?

Begransad tidshorisont

]Oandlig tidshorisont

[ ∞∑t=0

]Kraver nedskrivning av framtida beloningar (0 < γ < 1)

[ ∞∑t=0

Oandlig tidshorisont

[ ∞∑t=0

Beloningsfunktionen

Beloningsfunktionen styr vilken uppgift som ska losas

Spel (Schack, Backgammon)

Beloning bara i slutet: +1 vid vinst, −1 vid forlust

Undvika misstag (cykla, ramla, ...)

Beloning −1 i slutet (nar man misslyckas)

Hitta kort/snabb/billig vag till malet

Beloning −1 hela tiden

Beloningsfunktionen

Spel (Schack, Backgammon)

Beloning bara i slutet: +1 vid vinst, −1 vid forlustUndvika misstag (cykla, ramla, ...)

Beloningsfunktionen

Spel (Schack, Backgammon)Beloning bara i slutet: +1 vid vinst, −1 vid forlust

Undvika misstag (cykla, ramla, ...)

Beloningsfunktionen

Spel (Schack, Backgammon)Beloning bara i slutet: +1 vid vinst, −1 vid forlustUndvika misstag (cykla, ramla, ...)

Beloning −1 i slutet (nar man misslyckas)Hitta kort/snabb/billig vag till malet

Beloningsfunktionen

Spel (Schack, Backgammon)Beloning bara i slutet: +1 vid vinst, −1 vid forlustUndvika misstag (cykla, ramla, ...)Beloning −1 i slutet (nar man misslyckas)

Beloningsfunktionen

Spel (Schack, Backgammon)Beloning bara i slutet: +1 vid vinst, −1 vid forlustUndvika misstag (cykla, ramla, ...)Beloning −1 i slutet (nar man misslyckas)Hitta kort/snabb/billig vag till malet

Beloningsfunktionen

Spel (Schack, Backgammon)Beloning bara i slutet: +1 vid vinst, −1 vid forlustUndvika misstag (cykla, ramla, ...)Beloning −1 i slutet (nar man misslyckas)Hitta kort/snabb/billig vag till maletBeloning −1 hela tiden

Forenklande antaganden

Diskret tidAndligt antal handlingar ai

ai ∈ a1, a2, a3, . . . , an

Andligt antal tillstand si

si ∈ s1, s2, s3, . . . , sm

Omgivningen ar en konstant MDP(Markov Decision Process)

Beloningen och nasta tillstandberor bara pa s, a och slumpen

Deterministisk eller icke-deterministisk omgivning

Diskret tid

Andligt antal handlingar ai

ai ∈ a1, a2, a3, . . . , an

si ∈ s1, s2, s3, . . . , sm

ai ∈ a1, a2, a3, . . . , an

si ∈ s1, s2, s3, . . . , sm

ai ∈ a1, a2, a3, . . . , an

si ∈ s1, s2, s3, . . . , sm

ai ∈ a1, a2, a3, . . . , an

si ∈ s1, s2, s3, . . . , sm

Beloningen och nasta tillstandberor bara pa s, a och slumpenDeterministisk eller icke-deterministisk omgivning

ai ∈ a1, a2, a3, . . . , an

si ∈ s1, s2, s3, . . . , sm

Omgivningen ar en konstant MDP(Markov Decision Process) Beloningen och nasta tillstandberor bara pa s, a och slumpen

ai ∈ a1, a2, a3, . . . , an

si ∈ s1, s2, s3, . . . , sm

Omgivningen ar en konstant MDP(Markov Decision Process) Beloningen och nasta tillstandberor bara pa s, a och slumpenDeterministisk eller icke-deterministisk omgivning

Agentens interna representation

PolicyDen handling agenten valjer i varje tillstand

π(s) 7→ a

VardefunktionenForvantad framtida beloning fran s nar man foljer policy π

V π(s) 7→ <

π(s) 7→ a

V π(s) 7→ <

π(s) 7→ a

V π(s) 7→ <

Klassiskt modellproblem: Grid World

Varje tillstand representeras av en plats i ett rutnatAgenten handlar genom att ga till andra rutor

GTrivial labyrint

Beloning: −1 i varje stegtills man nar nagot avmaltillstanden (G)

Varje tillstand representeras av en plats i ett rutnat

Agenten handlar genom att ga till andra rutor

GTrivial labyrint

Vardet av ett tillstand beror av aktuell policy.

−1 −2 −3

−1 −2 −3 −2

−2 −3 −2 −1

−3 −2 −1

V vidoptimal policy

−140 −20 −22

−18 −22 −20

−18−22

−22 −20

V vidslumpmassig policy

−1 −2 −3

−1 −2 −3 −2

−2 −3 −2 −1

−3 −2 −1

V vidoptimal policy

−140 −20 −22

−18 −22 −20

−18−22

−22 −20

−1 −2 −3

−1 −2 −3 −2

−2 −3 −2 −1

−3 −2 −1

V vidoptimal policy

−140 −20 −22

−18 −22 −20

−18−22

−22 −20

Bellmans ekvationLosningsmetoder

Modell av omgivningen

Var hamnar vi?

δ(s, a) 7→ s′

Hur mycket beloning far vi?

r(s, a) 7→ <

Vardet av olika tillstand hanger ihopBellmans ekvation: