Intelligence Artificielle Développementale

22
Intelligence Artificielle Développementale 1 er Avril 2014 [email protected] r http:// www.oliviergeorgeon.com t oliviergeorgeon.com 1/23

description

Intelligence Artificielle Développementale. 1 er Avril 2014 [email protected] http:// www.oliviergeorgeon.com. t. Plan. Vers de la recherche en robotique. Demos Conclusion du cours. Travaux pratiques Développez votre agent auto-programmant (suite). . - PowerPoint PPT Presentation

Transcript of Intelligence Artificielle Développementale

Prsentation PowerPoint

Intelligence Artificielle Dveloppementale1er Avril [email protected]://www.oliviergeorgeon.com

toliviergeorgeon.com1/231PlanVers de la recherche en robotique.DemosConclusion du cours.

Travaux pratiquesDveloppez votre agent auto-programmant (suite).

oliviergeorgeon.com2/232Recherche en robotiqueoliviergeorgeon.com

Bumper tactile sensorPanoramic cameraGround optic sensorhttp://liris.cnrs.fr/simon.gay/index.php?page=eirl&lang=en

3/23Exprimentationoliviergeorgeon.com

http://liris.cnrs.fr/simon.gay/index.php?page=eirl&lang=en 4/23Conclusion sur lIA dveloppementaleoliviergeorgeon.com5/23Positionnement dans le cadre de lIANewell & Simon (1972) goals drive problem solving; (1976) Physical Symbol Systems.SymboliqueNon symboliqueoliviergeorgeon.com6/23

Lenvironnement passe des symboles lagent en input.Nous codons une smantique des symboles dans lagent.Nous implmentons un moteur de raisonnement.(ne pas confondre symbolique et discret)IA symboliqueoliviergeorgeon.com7/23Cest comme si les tats du monde taient tiquets et quon passait une tiquette lagent.Et quon avait cod la smantique de ses tiquettes sous forme de rglesPar exemple: si comestible alors mangerTous les fruits sont commestiblesUne pomme est un fruit Donc, si je percois une pomme alors je mangeIl ne faut pas confondre symbolique et discret. 7Apprentissage par enregistrement(Georgeon, 2014)Apprentissage par lexpriencePositionnement dans le cadre de lIANewell & Simon (1972) goals drive problem solving; (1976) Physical Symbol Systems.En confondant naivement input et perception (Crowley, 2014)Apprentissage par renforcement. SymbolicNon-symbolicApprentissage dsincarneCognition situe (Clancey 1992)Rseaux de neurones. Machine learning. Perception and action arise together, dialectically forming each other (Clancey, 1992)AEAEoliviergeorgeon.com8/23William Clancey (1992) claims that perception and action arise together, dialectically forming each other (p.5).8Lenvironnement passe des observations en input de lagent.La relation monde -> observation est statistiquement une surjection.Nous implmentons des algorithmes qui supposent quun tat du monde donn induit une observation donne (bien que partielle et bruite).

1

2344

2Apprentissage dsincarnoliviergeorgeon.com9/23On ne peut toujours pas tudier comment lagent modle le monde car on suppose que les observations reprsentent directement le mondeOn ne suppose pas quune observation correspond un seul tat du monde. Mais on suppose quun tat du monde correspond une observation. 9Apprentissage par enregistrement(Georgeon, 2014)Apprentissage par lexpriencePositionnement dans le cadre de lIANewell & Simon (1972) goals drive problem solving; (1976) Physical Symbol Systems.En confondant naivement input et perception (Crowley, 2014)Reinforcement Learning. intrinsic motivation

(Oudeyer et al. 2007)SymbolicNon-symbolicApprentissage dsincarneCognition situe (Clancey 1992)Neural networks. Machine learning. A* etc. Paradigme de validationBehavioral analysis rather than performance measureThoriesImplementationsHorde (Sutton et al., 2011)SMC theory (ORegan & No, 2001)Phenomenology (Dreyfus, 2007)even more Heideggarian AIRadical Interactionism, ECA (Georgeon et al., 2013)perception-action inversion(Pfeifer & Scheier, 1994)Thorie des systmesoliviergeorgeon.com10/23William Clancey (1992) claims that perception and action arise together, dialectically forming each other (p.5).10Ccit au changementoliviergeorgeon.com

http://nivea.psycho.univ-paris5.fr/ 11/23

TimeLenvironnement passe le rsultat dune exprience initie par lagent.Cest contre-intuitif!Nous implmentons des algorithmes qui apprennent maitriser les contingences sensorimotrices (ORegan & No, 2001).Apprentissage par lexprienceoliviergeorgeon.com12/23Accepter cette contre-intuitivitNous avons limpression que le soleil tourne autour de la terre.Impression est trompeuse ! (Copernic, 1519)

Nous avons limpression de recevoir des donnes sur ltat du monde.Impression trompeuse! (Philosophie de la connaissance depuis les lumires, au moins).Comment transcrire cette contre-intuitivit dans les algorithmes?oliviergeorgeon.com

13/23Enjeux: cognition smantiqueAdaptation stimumuls-responseRaisonnement et langageCognition smantiqueApprentissage par renforcement, Rseaux de neurones, machine learning classique.Systmes bases de rgles, Ontologies, IA traditionnelle.Ancrage de la connaissance dans lexprience,Construction de sens.Auto-programmation. oliviergeorgeon.com14/23ConclusionRaisonner en termes dinteractionsPlutt que de sparer perception et action.Raisonner en termes de comportements gnrsPlutt quen termes de donnes apprises.Garder son esprit critiqueInventer de nouvelles approches.oliviergeorgeon.com15/23Inventer de nouvelles approches

Hard problem of AIProblme formalisEtc.oliviergeorgeon.comAEAE16/23Travaux dirigsoliviergeorgeon.com4eme partie (suite).

Salles TP6 et TP7Groupes de 217/2317Environnement 3 modifiSe comporte comme Environnement 0 jusquau cycle 5, puis comme environnement 1 jusquau cycle 10, puis comme environnement 0 . ImplmentationIf (step 10)If (experiment = e1) then result = r1If (experiment = e2) then result = r2ElseIf (experiment = e1) then result = r2If (experiment = e2) then result = r1Step++

oliviergeorgeon.com18/23Agent 3 dans Environnement 3oliviergeorgeon.com0. e1r1,-1,01. e1r1,-1,0learn (e1r1e1r1),-2,1activated (e1r1e1r1),-2,1propose e1,-12. e2r2,1,0learn (e1r1e2r2),0,13. e2r2,1,0learn (e2r2e2r2),2,1activated (e2r2e2r2),2,1propose e2,14. e2r2,1,0activated (e2r2e2r2),2,2propose e2,25. e2r1,-1,0learn (e2r2e2r1),0,16. e2r1,-1,0learn (e2r1e2r1),-2,1activated (e2r1e2r1),-2,1propose e2,-17. e1r2,1,0learn (e2r1e1r2),0,18. e1r2,1,0learn (e1r2e1r2),2,1activated (e1r2e1r2),2,1propose e1,19. e1r2,1,0activated (e1r2e1r2),2,2propose e1,210. e1r1,-1,0learn (e1r2e1r1),0,1activated (e1r1e2r2),0,1activated (e1r1e1r1),-2,1propose e2,1propose e1,-111. e2r2,1,0activated (e2r2e2r1),0,1activated (e2r2e2r2),2,2propose e2,112. e2r2,1,0activated (e2r2e2r1),0,1activated (e2r2e2r2),2,3propose e2,213. e2r2,1,0Environnement 0Environnement 1Environnement 019/23TempsActivi11Proposei11it-3it-2it-4it-1it = i11i11PRESENTFUTURPASSEApprendAGENTit(it-1,it)Activeit-1oliviergeorgeon.comPrincipe de lAgent 3(i11,i12)i12e1ChoisitExecute(i11i11)20/23Environnement 4Retourne rsultat r2 uniquement aprs deux fois la mme exprience. e1 -> r1, e1 -> r2, e1 -> r1, e1-> r1, e1->r1, e2 -> r1, e2->r2, e2 -> r1, , e2 -> r1, e1 -> r1, e1 -> r2, e2 -> r1, e2 -> r2, e1 -> r1, e1 -> r2, If (experiencet-2!=experiencet &&experiencet-1==experiencet)result = r2;elseresult = r1;

oliviergeorgeon.com21/23RapportAgent 1Explications du codeTraces dans les environnements 0 et 1 avec diffrentes motivations.Explications du comportementAgent 2Explications du codeTraces dans les environnements 0 2 avec diffrentes motivations.Explications du comportementAgent 3Explications du codeTraces dans les environnements 0 et 4 avec diffrentes motivations.Explications des comportementConclusionQuelle serait la prochaine tape pour faire lagent 4 capable de sadapter aux environnements 1 4?

oliviergeorgeon.com22/23