Apprentissage par renforcement Antoine Cornuéjols ([email protected]) I.I.E. & L.R.I., Université...

54
1 A. Cornuéjols Apprentissage par renforcement Apprentissage par renforcement Antoine Cornuéjols ([email protected]) I.I.E. & L.R.I., Université d’Orsay

description

Apprentissage par renforcement Antoine Cornuéjols ([email protected]) I.I.E. & L.R.I., Université d’Orsay. Plan du cours. 1- Introduction : motivation, problèmes, notions et principes 2- La notion d'utilité 3- Apprentissage des fonctions d'utilité en environnement connu - PowerPoint PPT Presentation

Transcript of Apprentissage par renforcement Antoine Cornuéjols ([email protected]) I.I.E. & L.R.I., Université...

Page 1: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

1A. CornuéjolsApprentissage par renforcement

Apprentissage par renforcement

Antoine Cornuéjols([email protected])

I.I.E.&

L.R.I., Université d’Orsay

Page 2: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

2A. CornuéjolsApprentissage par renforcementPlan du cours

• 1- Introduction : motivation, problèmes, notions et principes

• 2- La notion d'utilité

• 3- Apprentissage des fonctions d'utilité en environnement connu

• 4- Univers inconnu : méthodes de différences temporelles– Principes– Méthode du Q-Learning– Extension à plusieurs pas : le TD-Learning

• 5- La généralisation dans l'apprentissage par renforcement

• 7- Exemples d’applications

• 8- Bilan et perspectives

Page 3: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

3A. CornuéjolsApprentissage par renforcement1.1 Introduction : schéma général

Environnement

Action

Perception

Récompense

Page 4: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

4A. CornuéjolsApprentissage par renforcement1.2 Introduction : Les notations de base

• Temps discret: t

• États : st S

• Actions : at A(st)

• Récompenses : rt R(st)

• L’agent : st at

• L’environnement : (st,at) st+1, rt+1

• Politique : t : S A Avec t(s,a ) = Prob que at = a si st = s

• Les transitions et récompenses ne dépendent que de l’état et de l’action précédents : processus Markovien

, R

Page 5: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

5A. CornuéjolsApprentissage par renforcement1.2 Introduction : Eléments de base• Politique :

ensemble d’associations situation action (une application)

Une simple table ... un algorithme de recherche intensiveEventuellement stochastique

• Fonction de renforcement : Définit implicitement le but poursuivi Une fonction : (état, action) récompense

• Fonction d’évaluation V(s) ou Q(s,a) : Récompense accumulée sur le long-terme

• Modèle de l’environnement : Fonctions TT et RR : (état(t), action) (état(t+1), récompense)

Page 6: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

6A. CornuéjolsApprentissage par renforcement2- La notion d'utilité

Principe :

• Choisir une action sans avoir besoin de faire une exploration (simulée) en avant

• Il faut donc disposer d’une fonction d’évaluation locale résumant une espérance de gain si l’on choisit cette action : fonction d’utilité

• Il faut apprendre cette fonction d’utilité : apprentissage par renforcement

Page 7: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

7A. CornuéjolsApprentissage par renforcement

2- Notion d’utilité. Exemple : Tic-Tac-Toe

X XXO OX

XOX

OXO

X

O

X

XO

X

O

X OXO

X

O

X O

X

} x’s coup

} x’s coup

} o’s coup

} x’s coup

} o’s coup...

...... ...

... ... ... ... ...

x x

x

x o

x

o

xo

x

x

xx

o

o

La fonction d’utilité une fois apprise permet de jouer sans exploration de l’arbre de jeu

V(s1)

V(s2)

V(s3)

Page 8: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

8A. CornuéjolsApprentissage par renforcement

Action-value function for policy π :

Qπ (s,a) =Eπ Rt st =s,at =a{ }=Eπ γkrt+k+1 st =s,at =ak=0

∞∑⎧ ⎨ ⎩ ⎫ ⎬ ⎭

2- Fonctions d'utilité : V(s) et Q(s,a)

State-value function for policy π :

Vπ (s)=Eπ Rt st =s{ }=Eπ γkrt+k+1 st =sk=0

∞∑⎧ ⎨ ⎩ ⎫ ⎬ ⎭

• La valeur d’un état est l’espérance de gain en partant de cet état. Elle dépend de la politique de l’agent :

• La valeur d’une action dans un état sous la politique est l’espérance de gain en partant de cet état, en choisissant cette action et en suivant ensuite la politique :

Page 9: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

9A. CornuéjolsApprentissage par renforcement

2- Fonctions d'utilité : V(s) et Q (s,a)

s

a

s’

r

V(s)

V (s’)

Page 10: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

10A. CornuéjolsApprentissage par renforcement

• Pour les MDPs finis, ! relation d’ordre partiel sur les politiques:

• Il existe toujours au moins une politique (et peut-être plusieurs) meilleure ou égale à toute autre politique. Une telle politique est optimale et notée *.

• Les politiques optimales partagent la même fonction d’utilité optimale sur les états :

• Les politiques optimales partagent aussi la même fonction d’utilité optimale sur les (état-action) :

π ≥ ′ π if and only if Vπ (s) ≥V ′ π (s) for all s∈S

2- Ordre sur les politiques et politique optimale

V∗(s) =maxπ

Vπ (s) for all s∈S

Q∗(s,a)=maxπ

Qπ (s,a) for all s∈S and a∈A(s)

Page 11: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

11A. CornuéjolsApprentissage par renforcement2. Utilisation : avec la fonction d’utilité V*(s)

• Une politique est une application : S A

• Valeur optimale d’un état :

• La fonction de valeur optimale V* est unique

• Une politique stationnaire optimale existe :

V *(s) = maxπ

Vπ (s) = maxπ

Eπ γ t

t = 0

∑ r t ⎛

⎝ ⎜ ⎜

⎠ ⎟ ⎟

Page 12: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

12A. CornuéjolsApprentissage par renforcement2. Utilisation : avec la fonction d’utilité Q*(s,a)

• Fonction d’évaluation d’action Q(s,a)

• Valeur optimale d’une action (dans un état) :

• Théorème :

est une politique optimale *(s ) = arg maxa

Q*(s, a)

Q*(s,a) = maxπ

Qπ (s,a) = E rt+1 +γV*(st+1)st =s,at =a{ }

Page 13: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

13A. CornuéjolsApprentissage par renforcement

Évaluation de politique : Pour une politique donnée , calculer la

fonction d’utilité d’état V(s) :

3-1. Programmation dynamique : Évaluation de politique

State-value function for policy π :

Vπ (s)=Eπ Rt st =s{ }=Eπ γkrt+k+1 st =sk=0

∞∑⎧ ⎨ ⎩ ⎫ ⎬ ⎭

Bellman equation for Vπ :Vπ (s)= π(s,a) Ps ′ s

a Rs ′ s a +γVπ( ′ s )[ ]

′ s ∑

a∑

— a system of S simultaneous linear equations

Rappel :

Page 14: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

14A. CornuéjolsApprentissage par renforcement3-1. PD : Évaluation itérative d’une politique

V0 → V1 → L → Vk → Vk+1 → L → Vπ

Vk+1(s)← π(s,a) Ps ′ s a Rs ′ s

a +γVk( ′ s )[ ]′ s

∑a∑

une “propagation”

Principe : l’équation de point fixe de Bellman peut fournir

en une procédure itérative d’approximation successive procédure itérative d’approximation successive

de la fonction d’utilité V .

Page 15: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

15A. CornuéjolsApprentissage par renforcement3-1. PD : Algorithme d’évaluation itérative d’une politique

Page 16: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

16A. CornuéjolsApprentissage par renforcement

4. Environnement inconnu : Différences temporelles

Qk =r1 +r2 +L rk

k

Soit la méthode d’estimation par moyennage :

Peut-on faire le même calcul incrémentalement ?

Oui : Qk+1 =Qk + 1k +1 rk+1 −Qk[ ]

La moyenne des premiers k renforcementsest (en ignorant la dépendance sur ):

Règle classique d’amélioration :

NouvelleEstimation = AncienneEstimation + Pas[Cible – AncienneEstimation]

a

Page 17: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

17A. CornuéjolsApprentissage par renforcement

4-1. TD learning : évaluation par méthode des différences temporelles

Simple every-visit Monte Carlo method:V(st)← V(st) +α Rt −V(st)[ ]

Évaluation de politique : pour une politique donnée , calculer la fonction d’utilité Vπ

The simplest TD method, TD(0):V(st)← V(st) +α rt+1 +γV(st+1)−V(st)[ ]

cible: le vrai gain sur une durée t

cible: une estimation du gain

Page 18: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

18A. CornuéjolsApprentissage par renforcement4-1. TD learning : Simple Monte Carlo

T T T TT

T T T T T

V(st)← V(st) +α Rt −V(st)[ ]where Rt is the actual return following state st.

st

T T

T T

TT T

T TT

Page 19: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

19A. CornuéjolsApprentissage par renforcement4-1. TD learning : Simplest TD Method

T T T TT

T T T T T

st+1rt+1

st

V(st)← V(st) +α rt+1 +γV(st+1)−V(st)[ ]

TTTTT

T T T T T

On met à jour incrémentalement par ré-estimations

successives et locales

Page 20: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

20A. CornuéjolsApprentissage par renforcement4-1. TD learning : cf. Dynamic Programming

V(st)← Eπ rt+1 +γV(st){ }

T

T T T

st

rt+1st+1

T

TT

T

TT

T

T

T

On calcule l’espérance.Mais il faut connaître l’environnement a priori.

Page 21: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

21A. CornuéjolsApprentissage par renforcement

4-1. TD learning : algo d’évaluation par différences temporelles

Initialisation : politique à évaluer

V une fonction arbitraire d’évaluation

Répéter (pour chaque pas de l’épisode) :a action préconisée par pour s

Faire a; recevoir r; voir état suivant s’

V(s) V(s) + [r + V(s’) - V(s)]

s s’

jusqu’à s terminal

Page 22: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

22A. CornuéjolsApprentissage par renforcement

3-2. PD : Comment améliorer une politique

Relation d’ordre sur les politiques :

Soient et ’ deux politiques déterministes, tq s E :

Alors la politique ’ est au moins aussi bonne que :

Qπ (s,π' (s)) ≥ Vπ (s)

Vπ ' (s) ≥ Vπ (s)

Si l’on trouve une modification ’ de la politique vérifiant l’inégalité (1), alors on obtient une meilleure politique

(1)

Page 23: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

23A. CornuéjolsApprentissage par renforcement

Supposons fait le calcul de pour une politique déterministe .

Il est préférable de choisir l’action a dans l’état s si :

3-3. PD : Amélioration de politique

Pour un état donné s, serait-il meilleur de faire l’action ? a≠π(s)

Qπ (s,a) =Eπ rt+1 +γVπ(st+1) st =s,at =a{ }= Ps ′ s

a

′ s ∑ Rs ′ s

a +γVπ ( ′ s )[ ]

L’utilité de l’action a dans l’état s est :

Qπ (s,a) > Vπ (s)

Page 24: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

24A. CornuéjolsApprentissage par renforcement3-3. PD : Amélioration de politique Cont.

′ π (s) =argmaxa

Qπ (s,a)=argmax

aPs ′ s

a

′ s ∑ Rs ′ s

a +γVπ ( ′ s )[ ]

Il suffit de faire cela pour tous les états pour obtenir une nouvelle

politique ’ qui est gloutonne par rapport à V :

Alors V ≥ V

Page 25: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

25A. CornuéjolsApprentissage par renforcement

3-3. PD : Amélioration de politique (Cont.)

What if V ′ π =Vπ ?i.e., for all s∈S, V ′ π (s) =max

aPs ′ s

a

′ s ∑ Rs ′ s

a +γVπ ( ′ s )[ ] ?

But this is the Bellman Optimality Equation.So V ′ π =V∗ and both π and ′ π are optimal policies.

Page 26: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

26A. CornuéjolsApprentissage par renforcement3-3. PD : Itération de politique

π0 → Vπ0 → π1 → Vπ1 → L π* → V* → π*

Évaluationde politique

Amélioration de politique“gloutonne”

E EA EA A

Page 27: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

27A. CornuéjolsApprentissage par renforcement3-3. Algorithme d’itération de politique

Garantie de convergence vers une politique optimale

Initialisation arbitraire de Faire calcul de la fonction de valeur avec

Amélioration de la politique à chaque état

’ := jusqu’à ce qu’aucune amélioration ne soit possible

V (s)=R(s, (s))+ (s, (s), s')V (s')s'∈S∑

' (s ) ← maxa

R(s, a) + γ T(s, a, s' )Vπ (s' )s' ∈S∑

⎝ ⎜ ⎜

⎠ ⎟ ⎟

Page 28: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

28A. CornuéjolsApprentissage par renforcement3-3. PD : Policy Iteration

Page 29: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

29A. CornuéjolsApprentissage par renforcement3-3. PD : Itération généralisée de politique

Generalized Policy Iteration (GPI): Toute interaction d’étape d’évaluation de politique et d’étape d’amélioration de politique indépendamment de leur granularité :

Métaphore géométrique pour La convergence de GPI :

Page 30: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

30A. CornuéjolsApprentissage par renforcement4-1. TD learning : Learning An Action-Value Function Q(s,a)

Estimate Qπ for the current behavior policy π.

After every transition from a nonterminal state st, do this:Q st,at( ) ← Q st,at( )+α rt+1 +γ Q st+1,at+1( ) −Q st,at( )[ ]If st+1 is terminal, then Q(st+1,at+1) =0.

Page 31: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

31A. CornuéjolsApprentissage par renforcement4-2. TD learning : Q-Learning

One-step Q- learning:Q st,at( ) ← Q st,at( )+α rt+1 +γ max

aQ st+1,a( )−Q st,at( )[ ]

Page 32: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

32A. CornuéjolsApprentissage par renforcement4-2. Rappel : Le dilemme exploitation vs. exploration

Bras A1 Bras A2

Jeton2 4

Quelle politique pour maximiser le gain avec 1000 tirages ?Quelle politique pour maximiser le gain avec 1000 tirages ?

Page 33: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

33A. CornuéjolsApprentissage par renforcement

4-2- Sélection d’action -gloutonne

Sélection d’action gloutonne :

-gloutonne :

at =at* =argmax

aQt(a)

at* with probability 1−ε

random action with probability ε{at =

. . . La manière la plus simple de pondérer l’exploration et l’exploitation

Page 34: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

34A. CornuéjolsApprentissage par renforcement4-2- Sélection d’action Softmax• Softmax action selection methods grade action probs. by estimated

values.

• The most common softmax uses a Gibbs, or Boltzmann, distribution:

Choose action a on play t with probability

eQt (a) τ

eQt (b) τb=1n∑ ,

where τ is the“computational temperature”

Page 35: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

35A. CornuéjolsApprentissage par renforcement4-3. L’apprentissage Q (Q-learning)

• Idée [Watkins,89] : Estimer les valeurs Q “en-ligne”, en trouvant à la

fois la politique et la fonction d’évaluation d’action :

MAJ à chaque fois que l’action a est prise dans s.

• Théorème : Si chaque action est exécutée un nombre infini de fois dans

chaque état, les valeurs Q calculées convergent vers Q*, conduisant à

une politique optimale.

Q(s, a ) ← (1−) Q(s,)+ r + mx'

Q(s',')⎛⎝⎜

⎞⎠⎟

Page 36: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

36A. CornuéjolsApprentissage par renforcement4-3. Exemple(1/4)

• Rq: La dernière étape assure la récompense (jeux, monde des blocs, etc.)

• Tâche: apprendre la meilleure stratégie

But0

0

0

0

0

0

100

0

0

0

0

100

0

r(s,a) récompense immédiate

Page 37: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

37A. CornuéjolsApprentissage par renforcement4-3. Exemple(2/4)

• On définit la récompense cumulée V(st) =

• Le problème: trouver

But90

0

V*(s)=V*(s) récompense cumulée optimale

100

81 90 100

* = argmax( (s))v t

tt

r=

∑0

Page 38: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

38A. CornuéjolsApprentissage par renforcement4-3. Exemple(3/4)• La fonction Q est définit comme étant LA fonction qui résume en

UN nombre toute l’info nécessaire sur le gain cumulé d’une action a, prise dans l’état s.

But81

90

72

81

81

90

100

81

72

90

81

100

0

Q(s,a)

Page 39: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

39A. CornuéjolsApprentissage par renforcement4-3. Exemple(4/4)

63

90 100

81

adroite

63

72 100

81

Q(s,a)^

Q(s,a)^

Q s a r Qa

∧ ∧← +( , ) )

' δmx ( (s,),')

On Prend =1.

{ }}← +0 0 9 63 81100. , ,max

← 90

Page 40: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

40A. CornuéjolsApprentissage par renforcement5. Apprentissage avec généralisation

• Si l’espace S (ou S x A) est trop important pour l’utilisation d’une

table mémorisant les prédictions

• Deux options :

Utilisation d’une technique de généralisation dans l’espace S ou l’espace

S x A (e.g. réseau de neurones, ...)

Utilisation d’une technique de regroupement d’états en classes d’équivalence

(même prédiction et même action générée).

Page 41: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

41A. CornuéjolsApprentissage par renforcement

Maintenant, l'estimation de la fonction d'utilité au temps t, Vt,dépend d'un vecteur de paramètres

r θ t , et seul ce vecteur de

paramètres est mis à jour.

5. Généralisation : Approximation de la fonction V(s)

Comme avant : Évaluation de politique : pour une politique donnée , calculer la fonction d’utilité Vπ

Mais avant, les fonctions d’utilité étaient stockées dans des tables.

e.g.,

r θ t pourrait être le vecteur de poids de

connexions d'un réseau de neurones.

Page 42: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

42A. CornuéjolsApprentissage par renforcement5. Généralisation : Backups as Training Examples

e.g., the TD(0) backup: V(st) ← V(st)+α rt+1 +γV(st+1) −V(st)[ ]

description of st, rt+1 +γV(st+1){ }

As a training example:

input target output

Page 43: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

43A. CornuéjolsApprentissage par renforcement5. Généralisation : n’importe quelle méthode inductive ?

• En principe, oui : Réseaux de neurones artificiels Arbres de décision Méthodes de régression multivariées etc.

• Mais l’App. par R. a des exigences particulières : Apprendre tout en agissant S’adapter à des mondes non stationnaires Autre ?

Page 44: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

44A. CornuéjolsApprentissage par renforcement6. Some Notable RL Applications

• TD-Gammon: Tesauro– world’s best backgammon program

• Elevator Control: Crites & Barto– high performance down-peak elevator controller

• Inventory Management: Van Roy, Bertsekas, Lee&Tsitsiklis– 10–15% improvement over industry standard methods

• Dynamic Channel Assignment: Singh & Bertsekas, Nie & Haykin– high performance assignment of radio channels to mobile telephone calls

Page 45: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

45A. CornuéjolsApprentissage par renforcement6. TD-Gammon

Start with a random network

Play very many games against self

Learn a value function from this simulated experience

This produces arguably the best player in the world

Action selectionby 2–3 ply search

Value

TD errorVt+1 −V t

Tesauro, 1992–1995

Page 46: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

46A. CornuéjolsApprentissage par renforcement

6. Réalisations : TD Gammon

Tesauro 1992, 1994, 1995, ...

• White has just rolled a 5 and a 2 so can move one of his pieces 5 and one (possibly the same) 2 steps

• Objective is to advance all pieces to points 19-24

• Hitting

• Doubling

• 30 pieces, 24 locations implies enormous number of configurations

• Effective branching factor of 400

Page 47: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

47A. CornuéjolsApprentissage par renforcement

6. Réalisations : A Few Details

• Reward: 0 at all times except those in which the game is won, when it is 1

• Episodic (game = episode), undiscounted

• Gradient descent TD() with a multi-layer neural network weights initialized to small random numbers backpropagation of TD error four input units for each point; unary encoding of number of white

pieces, plus other features

• Use of afterstates

• Learning during self-play

Page 48: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

48A. CornuéjolsApprentissage par renforcement6. Réalisations : Multi-layer Neural Network

Page 49: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

49A. CornuéjolsApprentissage par renforcement6. Réalisations : Summary of TD-Gammon Results

Page 50: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

50A. CornuéjolsApprentissage par renforcement7. Bilan : trois idées principales

1. La passage par des fonctions d’utilitéfonctions d’utilité

2.2. La rétro-propagation de ces valeursLa rétro-propagation de ces valeurs le long de trajectoires réelles ou simulées

3.3. Itération généralisée de politiqueItération généralisée de politique : (i) calculer continuellement une estimation de la fonction d’utilité optimale et (ii) chercher une politique optimale grâce à cette estimation, qui, en retour, s’adapte en conséquence

Page 51: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

51A. CornuéjolsApprentissage par renforcement7. Bilan : Frontier Dimensions

• Prove convergence for bootstrapping control methods.

• Trajectory sampling

• Non-Markov case: Partially Observable MDPs (POMDPs)

– Bayesian approach: belief states– construct state from sequence of observations

Try to do the best you can with non-Markov states

• Modularity and hierarchies Learning and planning at several different levels

– Theory of options

Page 52: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

52A. CornuéjolsApprentissage par renforcement7. Bilan : More Frontier Dimensions

• Using more structure factored state spaces: dynamic Bayes nets

factored action spaces

Page 53: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

53A. CornuéjolsApprentissage par renforcement7. Bilan : Still More Frontier Dimensions

• Incorporating prior knowledge advice and hints trainers and teachers shaping Lyapunov functions etc.

Page 54: Apprentissage par renforcement Antoine Cornuéjols (antoine@lri.fr) I.I.E. & L.R.I., Université d’Orsay

54A. CornuéjolsApprentissage par renforcementSources documentaires

• Ouvrages / articles Sutton & Barto (98) : Reinforcement Learning : an introduction. MIT Press,

1998.

Kaelbling L.P. (93) : Learning in embedded systems. MIT Press, 1993.

Kaelbling, Littman & Moore (96) : Reinforcement learning : A survey. Journal of Artificial Intelligence Research, 4:237-285.

• Sites web http://http://www-anw.cs.umass.edu/~rich/RL-FAQ.html

(FAQ maintenue par Rich Sutton et point d’entrée pour de nombreux sites)