2. Algorithmes stochastiques en optimisation globale2. Algorithmes stochastiques en optimisation...

2. Algorithmesstochastiques en

optimisationglobale

L. Dumas

Formulationmathématique

Algoirthmesstochastiques

Modèlesapprochés

2. Algorithmes stochastiquesen optimisation globale

Laurent Dumas

Laboratoire de Mathématiques de VersaillesUniversité de Versailles Saint Quentin en Yvelines

Ecole d’été Mathématiques et Interactions, Agadir, 17 mai 2011


optimisationglobale

L. Dumas




1 Formulation mathématique

2 Algorithmes stochastiques

3 Modèles approchés


optimisationglobale

L. Dumas




Problème d’optimisation à résoudre

On s’intéresse ici au problème de l’optimisation globale d’unefonction J : O → IR dont le calcul peut éventuellement êtrecomplexe et coûteux.

Dans le cas où O ⊂ IRn, le choix doit se porter vers uneméthode d’optimisation sans gradient.

La plupart des méthodes déterministes existantes (Nelder Mead,NEWUOA, etc...) ne permettent de rechercher qu’un minimumlocal.


optimisationglobale

L. Dumas








optimisationglobale

L. Dumas




Algorithmes stochastiques : historique

Les méthodes de type Monte Carlo et leurs variantes (recuitsimulé) sont les premiers algorithmes stochastiques ayant étéintroduits en optimisation.

Développés plus récemment, les algorithmes évolutionnaires(algorithmes génétiques, stratégies d’évolution, PSO, etc...) sontdes algorithmes stochastiques d’optimisation qui tirent leur nomd’une analogie avec la théorie de l’évolution des espèces deDarwin.

Références : Holland (1976), Goldberg (1989), Cerf (1994),Schoenaueur (1996), Hansen (2001), etc...


optimisationglobale

L. Dumas




Algorithmes stochastiques

On présente ici 4 méthodes (SA, GA, ES, PSO) qui seronttestées sur la fonction de Rastrigin :

Rast(x1, ..., xn) =n∑

i=1

(x2i − cos(2πxi )

)+ n

0

10

20

30

40

50

60

Z

64

20

24

6 X

64

20

24

6Y

Celle-ci possède un grand nombre de minimas locaux (10n sur[−5, 5]) et un seul minimum global.


optimisationglobale

L. Dumas




Principe général du recuit simulé (SA)

Choix d’un élément initial X 1 ∈ Ofor n from 1 to Ngen

Mutation : remplacer X n par Y n, choisi aléatoirement dans unvoisinage.

Evaluation de J(Y n).

si J(Y n) < J(X n), alors X n+1 = Y n.si J(Y n) ≥ J(X n), alors X n+1 = Y n avec une probabilitéexp(− J(Y

n)−J(Xn)T

) et X n+1 = X n sinon.

Mise à jour du paramètre T (T → 0 lentement)end for


optimisationglobale

L. Dumas




Principe général d’un algorithme génétique (GA)

Choix d’une population initiale P1 = {X 1i ∈ O, 1 ≤ i ≤ Np}for n from 1 to Ngen

Evaluation de {J(X ni ), 1 ≤ i ≤ Np}.Creation d’une population de Np individus par :

Selection de (X nα,Xnβ) en fonction de leur facteur de santé.

Croisement : remplacer (X nα,Xnβ) par (Y

nα,Y

nβ ).

Mutation : remplacer (Y nα,Ynβ ) par (Z

nα,Z

nβ).

end for

Generation de la nouvelle population Pn+1.

end for


optimisationglobale

L. Dumas




Principe général d’une stratégie d’évolution (ES)

Choix d’une population initiale de µ parents :P1 = {X 1i ∈ O, 1 ≤ i ≤ µ}for n from 1 to Ngen

Creation d’une population de λ ≥ µ enfants On par :Croisement à ω parents Y ni =

1ω

(∑ω

j=1 Xnj )

Mutation : remplacer Y ni par Zni

Evaluation de {J(Z ni ), 1 ≤ i ≤ λ}Selection des meilleurs µ parents dans la population Pn ∪ On.end for


optimisationglobale

L. Dumas




Principe général d’un essaim de particules (PSO)

Choix d’une population initiale P1 = {(X 1i , v 1i , p1i ), 1 ≤ i ≤ Np}de particules ayant la position actuelle Xi ∈ O, la vitesse vi etune meilleure position pi .

for n from 1 to Ngen

Evaluation de {J(X ni ), 1 ≤ i ≤ Np}.Actualisation de la meilleure position individuelle et globale(png )

Calcul des nouvelles vitesses de chaque particule :

vn+1i = ωvni + c1ρ1(p

ni − xni ) + c2ρ2(png − xni )

Calcul des nouvelles positions de chaque particule :

X n+1i = Xni + v

n+1i

end for


optimisationglobale

L. Dumas




Principaux avantages

Grâce à leur caractère stochastique, il s’agit de méthodesd’optimisation globale.

Grâce à l’utilisation d’une population, il s’agit de méthodesfacilement parallélisables.

Toutes ces méthodes permettent de gérer les contraintes demanière relativement simple et efficace par un principe depénalisation statique ou dynamique ou de stochastic ranking.

La plupart de ces méthodes possèdent une version multi-objectifpermettant de déterminer un front de Pareto.

Ces méthodes sont également très stables par rapport auxerreurs numériques commises sur la fonction J.


optimisationglobale

L. Dumas




Principaux inconvénients

Le principal inconvénient de ces méthodes est leur coût de calculimportant lié au grand nombre d’évaluations de la fonction J àeffectuer.

La vitesse de convergence est également très lente comparée àune méthode déterministe.

Le choix des paramètres est très influent sur la qualité desrésultats obtenus.

Il existe très peu de résultats de convergence théorique de cesméthodes.


optimisationglobale

L. Dumas




Un résultat de convergence pour les ES

La plupart des résultats de convergence concernent des fonctionssphériques : J(x) = g(||x ||2) avec g croissante.Soit par exemple une stratégie d’évolution (1, 1) représentée parla suite de vecteurs aléatoires (Xn) et ayant une mutationgaussienne de variance σ||Xn||. Sous certaines hypothèsestechniques et pour une fonction sphérique, Xn converge presquesurement vers le minimum de J et :

limn→+∞

1

nln

(||Xn||||X0||

)= c < 0


optimisationglobale

L. Dumas








optimisationglobale

L. Dumas




Modèles approchés

Pour rendre plus performants les algorithmes évolutionnaires,l’incorporation d’un modèle approché, affiné au cours desitérations, permet d’améliorer grandement leur efficacité.

De manière générale, l’objectif consiste à construire une fonctionapprochée J̃ (surrogate ou metamodèle) de la fonction exacte Jà partir d’un certain nombre de points (Xi , J(Xi ))1≤i≤N où lafonction exacte est supposée connue.

Références : Giannakoglou (2001), Jin (2005), etc...


optimisationglobale

L. Dumas




Modèles approchés : méthode RBF

Une méthode possible, appelée méthode RBF, est construitecomme une combinaison linéaire de fonctions radiales centréesen chacun des points Xi .

L’approximation de la fonction coût en un point X ∈ IRn s’écritalors :

J̃(X ) =N∑i=1

wih(||X − Xi ||)

où h désigne une fonction r 7→ h(r) dite fonction de base radiale.


optimisationglobale

L. Dumas





Les poids (wi )1≤i≤N sont calculés par résolution de l’équationmatricielle Aw = z traduisant l’exactitude du réseau sur lespoints (Xi )1≤i≤N , où la matrice A ∈MN(R) a pour termegénéral ai,j = h(||Xi − Xj ||) et le second membre a pour termegénéral zi = J(Xi ).

On a donc ici :J̃(X ) = RTA−1z

où R est le vecteur colonne de terme général h(||X − Xi ||).Pour des fonctions h bien choisies, on peut montrer que lamatrice A est toujours inversible voire définie positive.


optimisationglobale

L. Dumas





Une fonction continue f définie sur R∗+ est dite (définie) positivesi pour toute famille de points distincts X1, ...,XN de Rn, laforme quadratique

q(c1, ..., cN) =∑ ∑

1≤i,j≤N

cicj f (||Xi − Xj ||)

est (définie) positive.

Théorème (Schoenberg) : Une fonction f est totalementmonotone sur R∗+ si et seulement si la fonction r → f (r 2) estpositive.

Ainsi, les fonctions r 7→ e−r2 et r 7→ (1 + r 2)−α avec α > 0peuvent être utilisées comme fonctions de base dans les réseauxRBF.


optimisationglobale

L. Dumas





Théorème (Micchelli) : soit h une fonction dérivable sur R+,strictement positive sur R∗+. Si la première dérivée de h esttotalement monotone et non constante sur R∗+, alors pour toutefamille de points distincts X1, ...,XN de Rn :

(−1)N−1det([

h(||Xi − Xj ||2)])> 0

Ainsi, les fonctions r → (c2 + r 2)α avec c ∈ R et 0 < α < 1peuvent être utilisées comme fonction de base radiale dans lesréseaux RBF.


optimisationglobale

L. Dumas





Afin de déterminer les paramètres optimaux des fonctions debase du modèle RBF, une méthode de type ’leave-one out’ peutêtre utilisée.

Cette méthode consiste à entrainer le réseau sur tous les pointssauf un et à tester l’erreur commise sur ce point. En répétant ceprocédé sur tous les points, on aboutit à une erreur globale qu’ils’agit de rendre minimale.


optimisationglobale

L. Dumas





Dans le cas où le nombre de points N est trés grand, la matriceA peut être mal conditionnée. Afin d’éviter ce problème, deuxchoix sont possibles.

Soit un procédé de régularisation de Tychonov est ajoutépermettant de réduire le conditionnement de A. Dans ce cas, laméthode RBF cesse d’être une méthode d’interpolation.

Soit le nombre de points N est réduit à m en ne considérant queles plus proches points du point X à calculer. Dans ce cas, leréseau construit devient local.


optimisationglobale

L. Dumas





Exemple sur la fonction de Rastrigin :

Rast(x1, ..., xn) =n∑

i=1

(x2i − cos(2πxi )

)+ n

0.2 1

2

2

2

2

2

3

3

3

3

3

3

3

3

4

4

4

4

−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0−1.0

−0.8

−0.6

−0.4

−0.2

0.0

0.2

0.4

0.6

0.8

1.0

2

2

2

2

3

3

3

4

−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0−1.0

−0.8

−0.6

−0.4

−0.2

0.0

0.2

0.4

0.6

0.8

1.0

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.2

1

1 2

2

2

2

2

2

3

3 3

3

4

4

−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0−1.0

−0.8

−0.6

−0.4

−0.2

0.0

0.2

0.4

0.6

0.8

1.0

0.2 1

2

2

2

2

2

3

3 3

3

4

4 4

4

−1.0 −0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4 0.6 0.8 1.0−1.0

−0.8

−0.6

−0.4

−0.2

0.0

0.2

0.4

0.6

0.8

1.0

La figure ci-dessus compare les contours de la fonction deRastrigin et trois modèles approchés, construit à partir d’unréseau RBF avec 40 ou 200 points d’exemples.


optimisationglobale

L. Dumas




Incorporation dans un algorithme évolutionnaire

A partir d’un algorithme évolutionnaire de type AlgorithmeGénétique, un algorithme plus performant peut être construit.

Il consiste à introduire le modèle approché de type RBF enl’améliorant au fil des itérations à l’aide de nouveaux pointsd’exemples.

Ces nouveaux points correspondent aux éléments les plusperformants,au sens de la fonction approchée.

Le nombre de nouveaux points d’exemples décroit au cours desgénérations pour ne concerner plus que quelques éléments lorsde la dernière génération de l’algorithme.


optimisationglobale

L. Dumas




Exemple d’utilisation de l’algorithme AGA

Sur la fonction de Rastrigin, le gain comparé à un AG classiquese situe entre un facteur 2 et 10 (pour n = 6 et n = 20représentés ci dessous) :

0 500 1000 1500 2000 2500

0

2

4

6

8

10

12

14

16

18

20

convergence history

Neval

fmin

AGA

GA

0 2000 4000 6000 8000 10000 12000

0

20

40

60

80

100

120

convergence history

Neval

fmin

AGA

GA

Formulation mathématiqueAlgorithmes stochastiquesModèles approchés

2. Algorithmes stochastiques en optimisation globale2. Algorithmes stochastiques en optimisation...

Documents

Transcript of 2. Algorithmes stochastiques en optimisation globale2. Algorithmes stochastiques en optimisation...

Algorithmes évolutionnaires pour l’optimisation ...

Algorithmes et Programmation

Application des algorithmes d apprentissage automatique ...

Complexité et algorithmes paramétrés (2) - Kernelization et ...

OPTIMISATION MULTI-OBJECTIF DES SYSTÈMES ÉNERGÉTIQUES · 2015. 8. 5. · (Visual Basic for Applications) utilise un algorithme d’optimisation basé sur le principe des algorithmes

Commission Romande de Formation Ambulancière Algorithmes d ...

Algorithmes de Génération

UTILISATION DES ALGORITHMES GENETIQUES POUR …

Algorithmes d'approximation et Algorithmes randomisés

Algorithmes sur Open Office

Analyse par éléments finis stochastiques de la propagation ...

Algorithmes pour la décision séquentielle dans l’incertain

Introduction aux algorithmes map reduce

Algorithmes d application destinés aux ambulanciers vaudois

EvalVSN: Outil d’évaluation des Algorithmes de Compression ...

MEOW’18 : Mexico Easter Optimisation Workshop 2018 · 2020-03-27 · MEOW’18 : Mexico Easter Optimisation Workshop 2018 . Analyses de sensibilité . Processus gaussien Algorithmes

Algorithmes Génétiques et autres méthodes d'optimisation ...

Algorithmes pour l'ordonnancement temps réel multiprocesseur

Approches stochastiques et déterministes en biologie ...

Schémas boîte hermitiens-Algorithmes rapides pour la ...