Bandits Algo KL-UCB par Garivier
description
Transcript of Bandits Algo KL-UCB par Garivier
![Page 1: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/1.jpg)
L’algorithme KL-UCB pour les bandits bornes, etau dela [arXiv:1102.2490]
Aurelien Garivier et Olivier Cappe
CNRS & Telecom ParisTech
10 juin 2011
![Page 2: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/2.jpg)
Le modele
Plan de l’expose
1 Le modele
2 Une borne inferieure pour le regret
3 KL-UCB : un algorithme optimiste
4 Et au dela...
![Page 3: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/3.jpg)
Le modele
Apprentissage par renforcement
Agent Envir.
Recompense Xt
Action At
Etat St
dilemmeexploration
pexploitation
RL 6= apprentissage classique (notion de recompense)RL 6= theorie des jeux (environnement indifferent)
![Page 4: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/4.jpg)
Le modele
Exemple : essais cliniques sequentiels
Pour fixer les idees, on considere le cas de figure suivant :
probleme : des patients atteints d’une certaine maladies sontdiagnostiques au fil du temps
outils : on dispose de plusieurs traitements mal dontl’efficacite est a priori inconnue
deroulement : on traite chaque patient avec un traitement, et onobserve le resultat (binaire)
objectif : soigner un maximum de patients (et pas connaıtreprecisement l’efficacite de chaque traitement)
![Page 5: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/5.jpg)
Le modele
Le probleme des bandits stochastiques
Environment K bras, parametre θ = (θ1, . . . , θK) ∈ [0, 1]K
L’allocation de bras at ∈ 1, . . . ,K conduit arecompense
Yt = Xat,t
ou Xi,s = 1Us ≤ θi, pour 1 ≤ i ≤ K, s ≥ 1, et
(Us)siid∼ U [0, 1].
Strategie regle d’allocation dynamique : π = (π1, π2, . . . ) tq
At = πt(Y1, . . . , Yt−1)
Nombre de tirages du bras b ∈ 1, . . . ,K :
Nπt (b) =
∑s≤t
1As = b
![Page 6: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/6.jpg)
Le modele
Performance, regret
Recompense cumulee : Sn = Y1 + · · ·+ Yn, n ≥ 1Notre objectif : choisir π de maniere a maximiser
E [Sn] =n∑t=1
K∑b=1
E[E [Yt1At = b|Y1, . . . , Yt−1]
]=
K∑b=1
θbE [Nπn (b)]
Objectif equivalent : minimiser le regret
Rn(θ) = nθ∗ − E [Sn] =∑
b:θb<θ∗
(θ∗ − θb)E [Nπn (b)]
ou θ∗ = maxθb : 1 ≤ b ≤ K.
![Page 7: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/7.jpg)
Une borne inferieure pour le regret
Plan de l’expose
1 Le modele
2 Une borne inferieure pour le regret
3 KL-UCB : un algorithme optimiste
4 Et au dela...
![Page 8: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/8.jpg)
Une borne inferieure pour le regret
Strategie consistante
une strategie π est dite consistante si, pour tout θ ∈ [0, 1]K ,
1n
E[Sn]→ θ∗
c’est-a-dire si elle finit par se concentrer sur le meilleurtraitement
elle est efficace si pour tout θ ∈ [0, 1]K et pour tout a > 0,
Rn(θ) = o(na)
c’est-a-dire si le nombre de mauvais traitements adminsitresest sous-polynomial
on construit assez aisement des strategies efficaces, maismoins facilement des strategies optimales
![Page 9: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/9.jpg)
Une borne inferieure pour le regret
La borne de Lai et Robbins
Theoreme [Lai&Robbins, ’85]
Si π est une strategie efficace, alors pour tout θ ∈ [0, 1]K
lim infn→∞
Rn(θ)log(n)
≥∑
b:θb<θ∗
θ∗ − θbkl(θb, θ∗)
ou
kl(p, q) = p logp
q+ (1− p) log
1− p1− q
designe la divergence de Kullback-Leibler entre la loi B(p) et la loiB(q), 0 ≤ p, q ≤ 1.
![Page 10: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/10.jpg)
KL-UCB : un algorithme optimiste
Plan de l’expose
1 Le modele
2 Une borne inferieure pour le regret
3 KL-UCB : un algorithme optimiste
4 Et au dela...
![Page 11: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/11.jpg)
KL-UCB : un algorithme optimiste
Principe d’optimisme
Algorithmes optimistes : [Lai&Robins ’85 ; Agrawal ’95]
Fais comme si tu te trouvais dans l’environnement qui t’est le plusfavorable parmi tous ceux qui rendent les observations
suffisamment vraisemblables
De facon plutot inattendue, les methodes optimistes se revelentpertinentes dans des cadres tres differents, efficaces, robustes etsimples a mettre en oeuvre
![Page 12: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/12.jpg)
KL-UCB : un algorithme optimiste
Strategies ”Upper Confidence Bound”
UCB [Lai&Robins ’85 ; Auer&al ’02 ; Audibert&al ’07]
Construit une UCB pour chaque bras :
St(a)Nt(a)︸ ︷︷ ︸
recompense moyenne estimee
+
√log(t)2Nt(a)︸ ︷︷ ︸
bonus d’exploration
Choisis le bras qui la plus grande UCB
Avantage : comportement facilement interpretable et “acceptable”Borne sur le regret :
E[Rn] .∑
a:θa<θ∗
12(θ∗ − θa)
log(n)
Politique d’indice : on calcule un indice par bras et on choisit celuiqui est le plus eleve, cf. [Gittins ’79]
![Page 13: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/13.jpg)
KL-UCB : un algorithme optimiste
UCB en action
Debut
![Page 14: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/14.jpg)
KL-UCB : un algorithme optimiste
UCB en action
Debut
![Page 15: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/15.jpg)
KL-UCB : un algorithme optimiste
KL-UCB
Require: n (horizon), K (nb de bras), REWARD (recompenses)1: for t = 1 to K do2: N [t]← 13: S[t]← REWARD(arm = t)4: end for5: for t = K + 1 to n do6:
a← arg max1≤a≤K
maxq ∈ Θ : N [a] kl
(S[a]N [a]
, q
)≤ log(t)
7: r ← REWARD(arm = a)8: N [a]← N [a] + 19: S[a]← S[a] + r
10: end for
![Page 16: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/16.jpg)
KL-UCB : un algorithme optimiste
Region de confiance KL
Si Z1, . . . , Zsiid∼ B(θ0), et si
ps = (Z1 + · · ·+ Zs)/s, alors
P (ps < x) ≤ exp (−s kl(x, θ0))
0
kl(⋅,θ)
θ0
x
−log(α)/s
Autrement dit, si α = exp (−s kl(x, θ0)) :
P (ps < x) = P(
kl(ps, θ0) > − log(α)s
, ps < θ
)≤ α
D’ou une borne de confiance superieure pour p au risque α :
us = supθ > ps : kl(ps, θ) ≤ −
log(α)s
![Page 17: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/17.jpg)
KL-UCB : un algorithme optimiste
Region de confiance KL
Si Z1, . . . , Zsiid∼ B(θ0), et si
ps = (Z1 + · · ·+ Zs)/s, alors
P (ps < x) ≤ exp (−s kl(x, θ0))
0
kl(⋅,θ)
ps
kl(ps,⋅)
us
−log(α)/s
Autrement dit, si α = exp (−s kl(x, θ0)) :
P (ps < x) = P(
kl(ps, θ0) > − log(α)s
, ps < θ
)≤ α
D’ou une borne de confiance superieure pour p au risque α :
us = supθ > ps : kl(ps, θ) ≤ −
log(α)s
![Page 18: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/18.jpg)
KL-UCB : un algorithme optimiste
Borne de regret
Theoreme[G., Cappe ’11] :
Soit θ ∈ [0, 1]K , et soit b ∈ 1, . . . ,K tel que θb < θ∗. Pour toutε > 0 il existe C1, C2(ε) et β(ε) tels que
E[NKL−UCBn (b)] ≤ log(n)
kl(θb, θ∗)(1 + ε) + C1 log(log(n)) +
C2(ε)nβ(ε)
.
Corollaire :
Rn(θ) .∑
b:θb<θ∗
θ∗ − θbkl(θb, θ∗)
log(n)
=⇒ KL-UCB est asymptotiquement optimal, et on dispose d’uneborne pour son regret en temps fini.
![Page 19: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/19.jpg)
KL-UCB : un algorithme optimiste
Ingredient essentiel : deviations auto-normaliseesPour l’analyse, il faut controler les deviations auto-normalisees,mesurees dans la bonne metrique, de la moyenne empirique :TheoremeSoit (Xt)t ≥ 1 une suite de v.a. independantes de loi B(θ) sur(Ω,F ,P). Soit Ft be une suite croissante de tribus de F tq∀t, σ(X1 . . . , Xt) ⊂ Ft et pour s > t, Xs est independante de Ft.Soit(εt)t≥1 une suite previsible de variables de Bernoulli. Ondefinit, pour tout δ > 0 :
S(n) =n∑s=1
εsXs , N(n) =n∑s=1
εs , θ(n) =S(n)N(n)
,
u(n) = maxq > θn : N(n)d
(θ(n), q
)≤ δ.
Alors
P (u(n) < θ) ≤ e dδ log(n)e exp(−δ)P(N(n)d(µ(n), θ) > δ
)≤ 2e dδ log(n)e exp(−δ)
![Page 20: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/20.jpg)
KL-UCB : un algorithme optimiste
Simulations : scenario a deux bras
102
103
104
0
50
100
150
200
250
300
350
400
450
500
n (log scale)
N2(n
)
UCB
MOSS
UCB−Tuned
UCB−V
DMED
KL−UCB
bound
0
500
1000
1500
2000
2500
3000
3500
4000
UCB MOSS UCB−Tuned UCB−V DMED KL−UCB
N2(n
)Fig.: Performance de differents algorithmes dans le scenario a deux brasou θ = (0.9, 0.8). A gauche : nombre moyen de tirages du brassous-optimal en fonction du temps. A droite : distribution du nombre detirages du bras 2 au temps n = 5000. Resultats bases sur 50000experiences independantes.
![Page 21: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/21.jpg)
KL-UCB : un algorithme optimiste
Simulations : scenario a recompenses faibles
0
100
200
300
400
500
102
103
104
Rn
UCB
0
100
200
300
400
500
102
103
104
MOSS
0
100
200
300
400
500
102
103
104
UCB−V
0
100
200
300
400
500
102
103
104
Rn
UCB−Tuned
0
100
200
300
400
500
102
103
104
DMED
0
100
200
300
400
500
102
103
104
KL−UCB
0
100
200
300
400
500
102
103
104
n (log scale)
Rn
CP−UCB
0
100
200
300
400
500
102
103
104
n (log scale)
DMED+
0
100
200
300
400
500
102
103
104
n (log scale)
KL−UCB+
Fig.: Regrets de differents algorithmes en fonction du temps pour unscenario a dix bras ouθ = (0.1, 0.05, 0.05, 0.05, 0.02, 0.02, 0.02, 0.01, 0.01, 0.01). Ligne rougepointillee : borne inferieure de Lai&Robbins. Ligne epaisse : regret moyen.Regions grisees : region centrale a 99% et le quantile a 99, 95%.
![Page 22: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/22.jpg)
Et au dela...
Plan de l’expose
1 Le modele
2 Une borne inferieure pour le regret
3 KL-UCB : un algorithme optimiste
4 Et au dela...
![Page 23: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/23.jpg)
Et au dela...
Recompenses bornees
Il suffit de ramener les recompenses dans [0, 1], et on peut utiliserle meme algorithme KL-UCB et obtenir les memes bornes de regretgrace au
Lemme :
soit X une variable aleatoire a valeur dans [0, 1], et soit µ = E[X].Alors, pour tout λ ∈ R,
E [exp(λX)] ≤ 1− µ+ µ exp(λ) .
KL-UCB fait toujours mieux que UCB : Inegalite de Pinsker
kl(µ1, µ2) ≥ 2(µ1 − µ2)2
Toutefois, il peut y avoir mieux a faire si les distributions desrecompenses ont une faible variance par rapport a la loi deBernoulli correspondante.
![Page 24: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/24.jpg)
Et au dela...
Comparaison UCB vs KL-UCB
0 0.2 0.4 0.6 0.8 1 1.20
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
q
kl(0.7, q)
2(0.7−q)2
![Page 25: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/25.jpg)
Et au dela...
Simulations : exponentielles bornees
102
103
104
0
200
400
600
800
1000
1200
n (log scale)
Rn
UCB
MOSS
UCB−Tuned
UCB−V
KL−UCB
KL−UCB−exp
Fig.: Regret de differentes politiques en fonction du temps, sur lescenario des exponentielles bornees.
![Page 26: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/26.jpg)
Et au dela...
Recompenses dans la famille exponentielle
La meme preuve se generalise directement a des recompensesdont les distributions admettent par rapport a une mesuredominante une densite pouvant s’ecrire
pθa(x) = exp(xθi − b(θa) + c(x)
), 1 ≤ a ≤ K
pour un certain parametre θ ∈ RK
L’algorithme reste le meme, seule la definition de la fonctionkl est modifiee - par exemple, pour des recompenses de loiexponentielle :
kl(x, y) = y − x+ x logx
y
Une inegalite de deviation analogue se prouve alors de lameme facon, et conduit aux meme bornes de regret
![Page 27: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/27.jpg)
Et au dela...
Bandits non stationnaires
On autorise les distributions des recompenses a varierbrutalement au cours du temps
L’objectif est alors de faire poursuivre le meilleur bras
Application : dans un scanner a effet tunel, la qualite del’image depend d’un reglage mais les distributions peuventbrutalement changer en cas de deplacement inopine de lapointe
On etudie alors D-UCB et SW-UCB [G. Moulines ’08],variantes qui incluent un oubli (progressif) du passe
On montre des bornes de regret en O(√n log n), qui sont
(presque) optimales
![Page 28: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/28.jpg)
Et au dela...
Bandits lineaires / lineaires generalises
Modele de bandit avec information contextuelle :
E[Xt|At] = µ(m′Atθ∗)
ou θ∗ ∈ Rd designe un parametre inconnu et ou µ : R→ Rest la fonction de lien dans un modele lineaire generalise
Exemple : pour des recompenses binaires
µ(x) =exp(x)
1 + exp(x)
Application : publicite ciblee sur internet
GLM-UCB [Filippi, Cappe, G. ’10], borne de regret dependantde d et pas du nombre d’actions possibles
![Page 29: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/29.jpg)
Et au dela...
Optimisation stochastique
Objectif : trouver le maximum (ou les quantiles) d’unefonction f : C ⊂ Rd → R observee dans du bruit (ou pas)
Application : exposition aux ondes electro-magnetiques (indiceDAS = SAR)
Modelisation : f est la realisation d’un processus Gaussien, oualors fonction de faible norme dans le RKHS associe au noyaude ce processus
GP-UCB : jouer le point x ∈ C pour lequel l’intervalle deconfiance est le plus haut
![Page 30: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/30.jpg)
Et au dela...
Processus de Decision Markoviens
Le systeme est dans un etat St qui evolue de facon markovienne :
St+1 ∼ P (·;St, At) et Rt = r(St, At) + εt
Exemple / Benchmark : RiverSwim [Strehl&Littman’08]
0.4 0.6 0.6 0.6 0.6 0.6
0.6 0.35 0.350.350.35
0.05 0.05 0.05 0.05 0.4
1 2 3 4 5 6 R=10000R=5
Action 2
Action 1
courant
![Page 31: Bandits Algo KL-UCB par Garivier](https://reader034.fdocuments.us/reader034/viewer/2022052321/55644a85d8b42ad6268b4c0f/html5/thumbnails/31.jpg)
Et au dela...
Optimisme pour les MDP
Le paradigme optimiste conduit a la recherche d’une matrice detransition ”la plus avantageuse” dans un voisinage de sonestimateur de maximum de vraisemblance.
L’utilisation de voisinages de Kullback-Leibler, autorisee par desinegalites de deviations semblables a celles montrees plus haut,conduisent a des algorithmes plus efficaces ayant de meilleuresproprietes