Intelligence artificielle sans données ontologiques sur ...€¦ · Mots clés: intelligence...

Post on 04-Oct-2020

13 views 0 download

Transcript of Intelligence artificielle sans données ontologiques sur ...€¦ · Mots clés: intelligence...

HAL Id: hal-01379575https://hal.archives-ouvertes.fr/hal-01379575

Submitted on 11 Oct 2016

HAL is a multi-disciplinary open accessarchive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come fromteaching and research institutions in France orabroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, estdestinée au dépôt et à la diffusion de documentsscientifiques de niveau recherche, publiés ou non,émanant des établissements d’enseignement et derecherche français ou étrangers, des laboratoirespublics ou privés.

Intelligence artificielle sans données ontologiques sur uneréalité présupposée

Olivier Georgeon, Alain Mille, Simon Gay

To cite this version:Olivier Georgeon, Alain Mille, Simon Gay. Intelligence artificielle sans données ontologiques sur uneréalité présupposée. Intellectica - La revue de l’Association pour la Recherche sur les sciences de laCognition (ARCo), Association pour la Recherche sur la Cognition, 2016, New approaches in cognitiverobotics, 65, pp.143-168. �hal-01379575�

1

Artificialintelligencewithoutusingontologicaldataaboutapresupposedreality

Abstract

Thispaperintroducesanoriginalmodeltoprovidesoftwareagentsandrobotswiththecapacityoflearningbyinterpretingregularitiesintheirstreamofsensorimotorexperienceratherthanbyexploitingdatathatwouldgivethemontologicalinformationaboutapredefineddomain.Specifically,thismodelpullsinspirationfrom:a)themovementofembodiedcognition,b)thephilosophyofknowledge,c)constructivistepistemology,andd)thetheoryofenaction.Respectivelytothesefourinfluences:a)Ouragentsdiscovertheirenvironmentthroughtheirbody’sactivecapacityofexperimentation.b)Theydonotknowtheirenvironment“assuch”butonly“astheycanexperienceit”.c)Theyconstructknowledgefromregularitiesofsensorimotorexperience.d)Theyhavesomelevelofconstitutiveautonomy.Technically,thismodeldiffersfromthetraditionalperception/cognition/actionmodelinthatitrestsuponatomicsensorimotorexperiencesratherthanseparatingperceptsfromactions.Wepresentalgorithmsthatimplementthismodel,andwedescribeexperimentstovalidatethesealgorithms.Theseexperimentsshowthattheagentsexhibitacertainformofintelligencethroughtheirbehaviors,astheyconstructproto-ontologicalknowledgeofthephenomenathatappeartothemwhentheyobservepersistentpossibilitiesofsensorimotorexperiencesintimeandspace.Theseresultspromoteatheoryofartificialintelligencewithoutontologicaldataaboutapresupposedreality.Anapplicationincludesamorerobustwayofcreatingrobotscapableofconstructingtheirownknowledgeandgoalsintherealworld,whichcouldbeinitiallyunknowntothemandun-modeledbytheirdesigners.

Keywords:artificialintelligence,embodiedcognition,constructivistlearning,enaction,hierarchicalsequencelearning,trace-basedreasoning,cognitivearchitecture,self-motivation.

Intelligenceartificiellesansdonnéesontologiquessuruneréalitéprésupposée

OlivierGeorgeon1,AlainMille2,etSimonGay3

123UniversitédeLyon,CNRSUniversitéLyon1,LIRIS,UMR5205,F-69622,France.1olivier.georgeon@liris.cnrs.fr,2alain.mille@univ-lyon1.fr,3simon.gay@liris.cnrs.fr

Résumé

Cetarticleproposeunmodèleoriginalpourdoterdesagentsinformatiquesoudesrobotsdelacapacitéd’apprendreeninterprétantdesrégularitésdansleurfluxd’expériences

2

sensorimotricesplutôtqu’enexploitantdesdonnéesquileurapporteraientdesinformationsontologiquessurundomaineprédéfini.Cemodèles’inspireenparticulierde:a)lecourantdelacognitionincarnée,b)laphilosophiedelaconnaissance,c)l’épistémologieconstructiviste,etd)lathéoriedel’énaction.Respectivementàcesquatreinfluences:a)Nosagentsdécouvrentleurenvironnementàtraverslescapacitésexpérimentalesactivesdeleurcorps.b)Ilsneconnaissentpasleurenvironnement«ensoi»maisuniquement«encequ’ilspeuventenfairel’expérience».c)Ilsconstruisentleursconnaissancesàpartirderégularitésd’expériencessensorimotrices.d)Ilsdisposentd’unecertaineautonomieconstitutive.Techniquement,cemodèlesedistinguedumodèleperception/cognition/actionclassiqueparlefaitqu’ilconsidèredesexpériencessensorimotricesatomiquesaulieudeséparerlesperceptsetlesactions.Nousprésentonsdesalgorithmesquiimplémententcemodèle,etdécrivonsdesexpérimentationspermettantdelesvalider.Lesexpérimentationsmontrentquelesagentsexhibentunecertaineformed’intelligencedansleurscomportementsenconstruisantuneconnaissanceproto-ontologiquedesphénomènesquiapparaissentàeuxquandilsconstatentdespossibilitésd’expériencessensorimotricespersistantesdansl’espaceetletemps.Cesrésultatspromeuventunethéoriedel’intelligenceartificiellesansdonnéesontologiquessuruneréalitéprésupposée,avec,commeperspectivesapplicatives,desrobotscapablesdeconstruireleurspropresconnaissancesetobjectifsdanslemonderéel,initialementinconnud’euxetnonmodéliséparleurconcepteur.

Motsclés:intelligenceartificielle,cognitionincarnée,apprentissageconstructiviste,énaction,apprentissageséquentielhiérarchique,raisonnementàpartirdetrace,architecturecognitive,motivationintrinsèque.

1 Introduction

Nousnousintéressonsauproblèmedeconcevoirdesagentsinformatiquescapables,enparallèle,dedécouvrirdesrégularitésdansleurfluxd’expériencessensorimotrices,deconstruiredesconnaissancesquiexpliquentetsynthétisentcesrégularités,etd’exploitercesconnaissancespourgénérerdescomportementsintelligents.Nousdésignonsceproblèmeparl’expressionapprentissageparrégularitésd’expériences.Dansl’énoncédeceproblème,l’expressionagentinformatique(ou,danslasuitedecetarticle,simplementagent)désigneuneentitéprogramméeinteragissantavecunenvironnement,parexempleunrobotdanslemonderéelouunagentartificieldansunmondevirtuel.L’expressionrégularitésd’expériencesdésignedesschémastemporels(ouspatio-temporels)d’activitédel’agentrenduspossiblesdemanièrepersistanteparsoncouplageavecl’environnement.L’expressionconstruiredesconnaissancesdésignelefaitquel’algorithmequicontrôlel’agentconstruitdesstructuresinformationnellesaccompagnéesdemécanismespermettantdelesexploiter.L’expressioncomportementsintelligentsdésignedescomportementsdontdesobservateurshumainspuissentjugerqu’ilsdénotentuneformed’intelligencedelapartdel’agentquileseffectue.

Cetarticleprésentelesmodèlesthéoriquesetlesprincipesdesalgorithmes,enrenvoyantàdesarticlesplustechniquespourplusdedétails.Ilprésentelesexpérimentationsréalisées,etdécritlescomportementsexhibésparlesagents,enexpliquantdansquellemesurecescomportementspeuventêtreconsidéréscommeintelligents.Letermealgorithmedésigneledispositif

3

informatique(programmeetstructuresmémorielles)quicontrôlel’agent.Nousrapportonsiciuniquementdesexpérimentationsquin’impliquentqu’unseulagentinteragissantavecsonenvironnement.

Notreapprochesedémarquedesapprochesd’intelligenceartificiellesymboliqueparlefaitquelesdonnéesd’entréedesalgorithmesneconstituentpasdessymbolesquiseraientinterprétésselondesrèglessémantiquesdonnéesparleconcepteurdel’algorithme.Spécifiquement,nousn’adoptonspasl’hypothèsedessymbolesphysiques(NewelletSimon,1976),selonlaquellel’intelligenceconsisteraitenunmécanismederésolutiondeproblèmeparrecherched’un«étatsolution»dansun«espacedeproblème»1.Nosalgorithmesn’ontpaspourbutd’atteindreunobjectiffinalspécifiésouslaformed’unétatparticulierappartenantàunensembled’étatsprédéfini.Cetteprisededistanceparrapportàl’IAsymboliquenousrapprochedumouvementdelacognitionincarnée(e.g.,Varelaetal.,1991;LakoffetJohnson,1999;Anderson,2003).Cesauteurssuggèrentquelessystèmescognitifsseraientmuspardespréférencescomportementales(«drives»)plutôtquepardesobjectifsfinauxprédéfinis.Danscecadre,lacognitionestvuecommeune«façond’êtredanslemonde»2.Enconformitéaveccetteapproche,nousévaluonsnosagentsparleurcapacitéà«sedébrouillerdanslemonde»(«tocopewiththeworld»,Dreyfus,2007)3plutôtqueparleurperformanceàrésoudreunproblèmeprédéfini.

Nousnousdémarquonségalementdenombreuxtravauxd’intelligenceartificiellenon-symboliquesparlefaitquelesdonnéesd’entréedenosalgorithmesneconstituentpasunereprésentationdel’étatdumonde(pasmêmeunereprésentationpartielleoubruitée,c.f.,Section2).Letermemondeenglobeàlafoisl’environnementetle«corps»del’agent(unrobotphysiqueouuncorpssimulédansunenvironnementvirtuel).Parexemple,notrepositionsedistinguedelapositiondeRusselletNorvigselonlaquelle"theproblemofAIistobuildagentsthatreceiveperceptsfromtheenvironmentandperformactions”(RusselletNorvig,2003,p.iv).AladifférencedesalgorithmesprésentésparRusselletNorvig,nosalgorithmesnetraitentpasleursdonnéesd’entréecommedesperceptsmaiscommedesrésultatsd’expériencesquirésultentd’uneinteractionactiveentrel’agentetl’environnement.Aladifférencedespercepts,

1Aphysicalsymbolsystemexercisesitsintelligenceinproblemsolvingbysearch—thatis,bygeneratingandprogressivelymodifyingsymbolstructuresuntilitproducesasolutionstructure.(Newell&Simon,1976,p.120).

2“ThisshiftinfocusfromDescartes’“thinkingthing”,andthepictureofhumanbeingandsubjectivityitsuggests,toamoreHeideggerianapproachtobeingintheworld,inwhichagencyandinteractivecopingoccupycenterstage,isanextremelyimportantdevelopment,theimplicationsofwhichareonlyjustbeginningtobefathomed.”(Anderson,2003,p.91)

3Whenwesolveproblems,wedosometimesmakeuseofrepresentationalequipmentoutsideourbodies,butHeidegger’scrucialinsightisthatbeing-in-the-worldismorebasicthanthinkingandsolvingproblems;itisnotrepresentationalatall.Thatis,whenwearecopingatourbest,wearedrawninbyaffordancesandresponddirectlytothem,sothatthedistinctionbetweenusandourequipment—betweeninnerandouter—vanishes(Dreyfus,2007,p.1146).

4

cesrésultatsd’expériencen’entretiennentpasunerelationdecorrespondanceavecunmondeprésupposée.L’algorithmeignorecequecesexpériencessignifient.Ilconstruitdesconnaissancesàpartirderégularitésconstatéesdanssonfluxd’expérience.L’algorithmeapprendàconnaîtrel’environnementetl’agententermesdespossibilitésd’interactionquiexistententrelesdeux.

Cetravailviseàlafoisdesobjectifsthéoriquesetpratiquesdansledomainedel’intelligenceartificielle.Surleplanthéorique,ilparticipeàuneffortdelacommunautédel’intelligenceartificiellepourprendreencomptecertainescritiquesphilosophiquesauxquellesnousréféronsiciparlestermesdecritiquekantienneetcritiqueheideggérienne.Nousproposonscetravailcommeunetentativedepriseencomptedelacritiquekantienneselonlaquellelaréaliténouménale—la«choseensoi»—n’existepasouestinconnaissable.Noustraduisonscetteidéephilosophiquedanslesalgorithmesparlefaitquelesdonnéesd’entréedel’algorithmenereprésententpasunmondeprésupposéparleconcepteurdel’algorithme.

Nousproposonségalementcetravailcommetentativedepriseencomptedelacritiqueheideggérienneselonlaquellelacognitionneseréduitpasàunmécanismederésolutiondeproblème,etnécessiteuneévolutiondynamiqueducouplageagent/environnement.Noustraduisonscesidéesphilosophiquesenimplémentantdespréférencescomportementalesquisous-déterminentlescomportementsdel’agent.Dufaitdel’évolutionducouplagealgorithme/monde(Section3),l’agentalapossibilitédedéveloppersapropre«façond’êtredanslemonde»,enfonctiondesonhistoireindividuelle.Nousn’évaluonspasnosagentsparleurcapacitéàrésoudredesproblèmesprédéfinisniàmaximiserunevaleurnumérique,maisparleurcapacitéàgénérerdescomportementsquelelecteurdecetarticleouunobservateurdel’agentpourrajugerintelligent.

Encequiconcernelesobjectifspratiques,nouscherchonsàconstruiredesrobotscapablesd’interagiravecunenvironnementnonmodéliséapriori,parexemplelemonderéel(incluantéventuellementd’autresrobotsetdesacteurshumains).Aufuretàmesuredesprogrèsdanscedomainederecherche,cesrobotsgénérerontdescomportementsqui,dupointdevuedugrandpublicetdel’industrie,pourrontévoquerdescomportementsd’animaux.Celapermettradenouveauxusagesenrobotiquepersonnelle,pédagogique,ouludique.Parcerapprochementavecl’intelligenceanimale,cetteétudes’inscritdansuneapprocheévolutionnistedel’intelligenceartificiellequiconsidèrequelesfacultésderaisonnements’appuientsurdescapacitésd’inférencesensorimotricedéjàprésenteschezcertainsanimaux(e.g.,LakoffetJohnson,1999)4.

4“Reasonisevolutionary,inthatabstractreasonbuildsonandmakesuseofformsofperceptualandmotorinferencepresentin“lower”animals.TheresultisaDarwinismofreason,arationalDarwinism:Reason,eveninitsmostabstractform,makesuseof,ratherthantranscends,ouranimalnature.Thediscoverythatreasonisevolutionaryutterlychangesourrelationtootheranimalsandchangesourconceptionofhumanbeingsasuniquelyrational.Reasonisthusnotanessencethatseparatesusfromotheranimals;rather,itplacesusonacontinuumwiththem.(LakoffandJohnson1999,p.4)

5

2 Dumodèleclassiqueaumodèleexpérientiel

Laplupartdesmodèlesd’intelligenceartificiellesontconstruitssurlabaseducycleperception/cognition/actionillustréenFigure1a.Achaquetourducycle,l’algorithmereçoitunedonnéed’entréeo(souventappeléeobservation)quireprésentel’étatdumonde,etproduitunedonnéedesortieaquireprésenteuneactioneffectuéedanslemonde.Leconcepteurdel’algorithmeconçoitl’observationocommeunereprésentationpartielledel’étatdumonde,ausensétymologiquedutermereprésentation,c’estàdirequel’observationo«rendprésenteànouveau»unecaractéristiquedumondesouslaformed’unedonnéeaccessibleàl’algorithme.Sil’observationoestbruitée,lesalgorithmestypiquementconçusdanslecadredecemodèletententd’extrairel’informationreprésentativedumondeenfiltrantlebruitpardesméthodesstatistiques.

Cetarticleproposedesmodèlesalternatifsquineconsidèrentpaslesdonnéesd’entréedel’algorithmecommedesreprésentationsdumonde.Afindemettreenévidenceleursdifférencesparrapportaumodèleclassique,nousaffichonsdanslesfigureslepointoùlecycled’interactioncommenceetlepointoùilsetermine.Bienquelecycled’interactiontourneindéfiniment,nousvoulonsmontrerquecesdébutsetfinsconceptuellesontleurimportance.LaFigure1breprésentelemodèleclassiqueenmettantenévidencelefaitquelecyclecommenceparl’observation(rondnoir),etsetermineparl’action(trianglenoir),commenousl’avonsexpliquéauparagrapheprécédent.

LaFigure1cprésentenotrepremiermodèlealternatifappelémodèleexpérimentation/résultat(GeorgeonetCordier,2014).Danscemodèle,lecyclecommenceconceptuellementparlefaitquel’algorithmesélectionneuneexpérimentationxdansl’ensembleXdesexpérimentationsàsadisposition.Enretour,l’algorithmereçoitunrésultatrdansl’ensembleRdesrésultatspossibles.Ledéveloppeurdel’algorithmepeutpenserauxdonnéesdesortiecommeàdesexpérimentationsspontanéesausensoùellesnesuiventpasunprotocoleexpérimentalréfléchi.Uneexpérimentationpeutproduireuneffetsurlemonde,toutcommeuneactiondanslemodèleclassique.Ladifférencecrucialeparrapportaumodèleclassiquerésidedanslefaitquelesdonnéesd’entréedel’algorithme(lesrésultatsr)neconstituentPASnécessairementunereprésentationdel’étatdumonde,puisque,dansunétatdumondedonné,rpeutvarierselonl’expérimentationxprécédemmenteffectuée.L’algorithmeestunobservateuractifdumondecarlesdonnéesqu’ilreçoit(lesrésultats)répondentàdes«questionsqu’ilpose»(lesexpérimentations).Lemodèleexpérimentation/résultatoffreunmoyendetraduirelesthéoriesdelacognitionincarnéedanslesalgorithmescarilrendcomptedufaitquel’algorithmenepeutconnaîtrelemondequ’autraversdesexpérimentationseffectuéesparl’agent.Danscemodèle,ledéveloppeurdel’algorithmeconsidèrelaperceptioncommeunestructurededonnéesinterneàl’algorithmeetnoncommesesdonnéesd’entrée.

LemodèleinteractionnelprésentéenFigure1dprolongelalogiquedumodèleexpérimentation/résultatavecladifférencequ’ilsebasesurdesinteractionsdéfiniescommedescouples〈expérimentation,résultat〉.Lesdonnéesdesortieetd’entréedel’algorithmeappartiennentaumêmeensembleX×Rdesinteractionsoffertesparlecouplageagent/environnement.Endébutdecycle,l’algorithmesélectionneuneinteractionintentéei=〈x,r〉∈X×R.Enretour,ilreçoitune

6

interactionénactéee=〈x,r’〉∈X×R.Nousutilisonsl’anglicisme«énacté»pourexprimerlefaitquecetteinteractionaeffectivementétéeffectuéeparl’agentinteragissantavecsonenvironnement.Sil’interactionénactéeeestlamêmequel’interactionintentéei(c’estàdiresir’=r),alorsnousdisonsquelatentatived’énactiondeiaréussi,sinon,cettetentativeaéchoué.Unexempled’interactionpeutêtredonnéparunrobottouchantunobjet(letoucherimpliquedemanièreindissociableunmouvementrelatifetuneperception).Lerobotpeutintentercetteinteraction,etréussiràl’énactersil’objetestprésent,ouéchouersil’objetestabsent,auquelcas,lerobotaénactéuneautreinteractioncorrespondantàbougerdanslevide.Lemodèleinteractionnelpermetdeprédéfinirdespréférencescomportementalesdel’agentenassociantdesvalencesnumériquesauxinteractions.Ensection3,nousprésentonsunalgorithmequichercheàénacterdesinteractionsassociéesàunevalencepositive,etàéviterd’énacterlesinteractionsassociéesàunevalencenégative.Lesagentscontrôlésparcetalgorithmeexhibentuneformedemotivationproprequenousappelonsmotivationinteractionnelle(Georgeonetal.,2012).CescomportementssontdécritsenSection4.

Notonsquecetteapprochepermetégalementd’implémenterdesagents«curieux»sil’algorithmesélectionnedesinteractionsquiontlemoinsététestéesdansuncontextedonné.Ilpermetégalementd’implémenterdesagentsquisemblentaimerêtre«aucontrôle»deleurpropreactivité—uneformedemotivationappeléeprincipeautotéliqueparSteels(2004).Pourcelal’algorithmedoitsélectionnerlesinteractionsdontilanticipequel’énactionréussira.

LemodèleexpérientieldelaFigure1esimplifielemodèleinteractionnelensupprimantlesnotionsd’expérimentationetderésultat,enremplaçantletermeinteractionparletermeexpérience,etenrenommantEl’ensembleX×R.Ledéveloppeurdel’algorithmepeutpenserauxdonnéesdesortieetd’entréecommeàdesexpériencesrespectivementvouluesetvécuesparl’agent.Letermeexpérienceestàcomprendredanslesensanglaisde«toexperiencesomething».Commelemodèleinteractionnel,lemodèleexpérientielcommenceparlefaitquel’algorithmesélectionneuneexpérienceintentéeidansl’ensembleEdesexpériencesoffertesparlecouplageagent/environnement.Enretour,l’algorithmereçoituneexpérienceénactéee∈E.L’expérienceintentéepeutchangerl’étatdumonde.Sie=ialorslatentatived’énactiondeiaréussi,sinonelleaéchoué.L’algorithmeestincarnéetactif:sesdonnéesd’entrée(lesexpériencesénactées)neconstituentpasunereprésentationdel’étatdumonde.Lesexpériencesencapsulentàlafoisunmouvementetunsignalsensoriel;ellespeuventdoncreprésenterdesschèmessensorimoteursquisontlesbriquesdebasedelathéoriedel’apprentissageconstructivistedePiaget(1951).Notonsquelel’expressionschèmesensorimoteurpourraitsuggérerquelesenseurprécéderaitlemoteur.Ici,nousl’utilisonspourdésigneruneexpérienced’interactiondontlesaspectsmoteuretsenseursontsimultanés.

7

Agent&

Environnement&

Observation Action

a) Modèle classique

o ∈ O a ∈ A

Expérimentation Résultat

c) Modèle Expérimentation/Résultat

r ∈ R x ∈ X Algorithme&

Interaction intentée

Interaction enactée

i = 〈x,r〉 ∈ X×R

d) Modèle Interactionnel

Monde&

Monde&

Observation Action

o ∈ O a ∈ A

b) Modèle classique reformulé

Algorithme&

Algorithme&

Monde&

Algorithme&

Expérience intentée

Expérience enactée

e ∈ E i ∈ E

e) Modèle Expérientiel

Monde&

e = 〈x,r’〉 ∈ X×R

Figure1:Dumodèleclassiqueaumodèleexpérientiel.a)Modèleclassique.b)Modèleclassiquereformulé:ledébutconceptuelducycleestmisenévidenceparlepointnoir.c)Modèleexpérimentation/résultat:lecyclecommenceparlefaitquel’algorithmesélectionneuneexpérimentationetfinitparlefaitqu’ilreçoitunrésultat.d)Modèleinteractionnel:l’algorithmesélectionneuneinteractionintentéeicomposéed’uneexpérimentationxetd’unrésultatanticipér.Enretour,ilreçoituneinteractionénactéeecomposéedel’expérimentationxetd’unrésultatr’.e)Modèleexpérientielbasésurunseultypedeprimitives,lesexpériences,queledéveloppeurdel’algorithmepeutconsidérercommedesschèmessensorimoteursoudesexpériencesphénoménologiquesfaitesparl’agent.

Lemodèleexpérientielprésentéenfigure1ctraduituneinversionradicaledupointdevueportésurunagentcognitifparrapportaumodèleclassiquedesfigures1aet1b(GeorgeonetAha,2013).Lemodèleexpérientielinviteleconcepteurdel’algorithmeàraisonnerinitialementsurlefluxd’expériencephénoménologiquedel’agentaulieudeprésupposerlecouplageagent/environnement.Nousattendonsquenosalgorithmesinterprètentlesrégularitésconstatéesdansleurfluxd’expériencecommerésultantesdel’interactionentrel’agentqu’ilscontrôlentetunenvironnementpersistantqu’ilsapprennentprogressivementàobserveretsurlequelilsapprennentprogressivementàagir.Cetteapprocherejointlathéoriedesactionsintentionnellesd’Engeletal.(2013).Commelesactionsintentionnelles,lesexpériencesintentéesincorporentlaprédictionoul’anticipationd’unrésultat5.Parlefaitqu’ilsmanipulentdesschèmessensorimoteurs,nosalgorithmesserapprochentégalementd’autresalgorithmesquisuiventuneapprochesensorimotricedel’intelligenceartificielle(e.g.,Drescher,1991;Brooks,1991;PierceetKuipers,1997).Cependant,nosalgorithmessedifférencientdeceux-ciparlefaitqu’ilseffectuent,enunsens,unprocessusinverse.Eneffet,lesalgorithmesdecesauteursutilisentlesobservationsetlesactionscommeprimitivespourconstruirelesschèmessensorimoteurssouslaformedecouples〈observation,action〉,alorsquenosalgorithmesutilisentdesschèmessensorimoteursprimitifspourconstruiredesactionsintentionnellesetdescatégoriesd’observationsquisontdesstructuressecondaires(Garnieretal.,2013).

Sinousaugmentonslacomplexitédesdonnéesd’entréeetdesortie,lesalgorithmesimplémentésselonlemodèleexpérientielsouffrenttoutautantd’unebaissedeperformanceque

5“Intentionalactions[...]involvepredictionoranticipationofanintendedoutcome”(Engeletal.,2013,p.203).

8

ceuximplémentésaveclemodèleclassique.Cependant,notreobjectifn’estpasdetraiterdesdonnéesd’entréecomplexesmaisdegénérerdescomportementsdeplusenplusintelligentsengardantlacomplexitédesdonnéesd’entréelimitée.Nosalgorithmesnesontpassoumisàlacomplexitéintrinsèqued’unproblèmemodéliséaprioripuisqu’ilsnecherchentpasàatteindreunétatsolution.Surcespoints,notreapprocheestenphaseavec,parexemple,lepointdevueconstructivisteradicaldeRiegler(2007)6.Aucontraire,lemodèleclassiqueaétécritiquéaumotifqu’ilnécessitaitdesobservationsdontlacomplexitésoitproportionnelleàlacomplexitédumondeafindelimiteruneffetdeperceptualaliasing(WhiteheadetBallard,1991).Leperceptualaliasingestliéaufaitquelesobservationssonttraitéescommedesperceptsquireprésententlemonde,cequelemodèleexpérientielévitejustementdefaire.Lefaitdenepasaugmenterinutilementlacomplexitédesexpériencesnenousempêchecependantpasderesterattentifsàlaperformancedenosalgorithmes,commenouslemontronsenfindesection3.

3 Algorithmed’abstractiond’expérience

Nousavonsdéveloppéunalgorithmequiapprenddesrégularitésséquentielleshiérarchiquesàpartirdufluxd’expériencesénactéesparl’agentaucoursdesonexistence.Nousl’avonsinitialementdéveloppésurlabasedumodèleinteractionnel(GeorgeonetRitter,2012),puissimplifiésurlabasedumodèleexpérientiel(Georgeonetal.,2013).Cetalgorithmevisedesobjectifssimilairesauxalgorithmesdehierarchicalsequencelearningréalisés,parexemple,parSutton et al. (1999).Cependant,ils’endifférencieparlefaitqu’ilapprendàpartird’uneséquenced’expériencesqu’ilcontribueactivementàgénérer,àladifférencedesalgorithmesdecesauteursquiapprennentàpartird’uneséquencereçuepassivementoudonnéeapriori.Notrealgorithmeutilisesapositionactivepourtesterdesrégularitéshypothétiques,cequil’aideàfairefaceàlacomplexitédumonde.Unefoisqu’ilaapprisuneséquenced’expériencesquireflèteunerégularitéconfirmée,ilconsidèrecetteséquencecommeuneexpérienceabstraitequ’ilpourratenterd’énacteràsontour.L’apprentissageestrécursifetproduitdesexpériencesdeplusenplusabstraites.LaFigure2illustreceprocessus.

6«Aswecannolongerspeakofinformationinputandthevicissitudeofstimuli,organismsarenolongerexposedtoinformationoverloadasaresultofprocessingtheentirelyavailableinformation.Theynolongerneedtodevotetheircognitiveresourcestofilteroutirrelevantinformationinordertoretainusefulknowledge.Itbecomesclearthateveninsectbrainscanaccomplishnavigationaltasksandsophisticatedcognitivedeedsinnontrivialenvironmentswithoutfallingpreytotheframeproblem.Therefore,cognitiveresearchonperceptionshouldnotfocusonfilteringmechanismsanddatareduction.Informationanxiety(Wurman1990)andcognitiveoverload(Kirsh2000)shouldnotbeconsideredaproblemoftheenvironment,asitisthecasewhentalking,e.g.,abouttheoverloadthatcomeswiththeinformationfloodontheinternet.Perceptionhastobeexploredintermsoftheorganismthatperformstheperceptiveact»(Riegler,2007,p109).

9

Algorithme

Monde

Monde “connu” au temps td

ed ∈ Ed id ∈ Ed

ep1 ip1 ipj ∈ E epj ∈ E

Fonction décisionnelle

Figure2:Énactionrécursived’expériences.E:ensembledesexpériencesprimitivesprédéfinies.Ed:ensembledesexpériencesprimitivesouabstraitesautempsdedécisiontd.Bouclesprimitives(traitspleins):cyclesd’énactiondesexpériencesprimitives.Boucledécisionnelle(traitpointillé):cycled’énactiond’uneexpérienceabstraite.Untourdelaboucledécisionnellegénèreplusieurstoursdelaboucleprimitive.

Lesexpériencespermisesparlecouplageagent/environnement(appartenantàl’ensembleEenfigures1e,et2)sontmaintenantappelésexpériencesprimitives,notéesipouepselonqu’ellessontintentéesouénactées.Leurprocessusd’énaction(impliquantlacommanded’actionneursetlalecturedecapteurs)estprogramméparledéveloppeurdel’agent.Aucoursdutemps,l’algorithmeconstruitdesexpériencesabstraitesquicorrespondentàdesséquences〈ep1,…,epn〉d’expériencesprimitives.Nousqualifionscesexpériencesd’abstraitescarellenepeuventpasêtreénactéesdirectementparl’agentmaisdoiventêtredécomposéesenexpériencesprimitivespourêtreénactées.L’ensembledetouteslesexpériencesconnuesparl’algorithmeautempsdécisionneltd(primitivesouabstraites)estnotéEd.

Tenterd’énacteruneexpérienceabstraiteidconsisteàtenterd’énactersuccessivementlesnexpériencesprimitivesip1,…,ipndeid(bouclesentraitpleindelaFigure2).Sil’énactiondelajèmeexpérienceprimitiveipjéchoue,alorsl’énactiondeidestinterrompue.Alafindelatentatived’énactiondeid(complèteouinterrompue),lafonctiondécisionnelledel’algorithmereçoitl’expérienceabstraiteénactéeedconstruiteàpartirdesjexpériencesprimitivesénactées〈ep1,…,epj〉,j≤n.

Laboucleprimitiveestgéréeparunesous-fonctiondel’algorithmequiestindépendantedelafonctiondécisionnelle,commesilesexpériencesabstraitesétaienténactéesmachinalementsansnécessiterl’attentiondel’algorithmetantqueleurénactionréussit.Decefait,l’apprentissagepeuts’appliquerrécursivement,indépendammentdelalongueurdesexpériencesénactées.Pourlafonctiondécisionnelledel’algorithme,edsembleavoirétéénactéedansunmondeabstrait«connuautempstd»(boucleentraitpointillé).Dufaitquechaqueagentexécutantcetalgorithmeapprenddesexpériencesabstraitesenfonctiondesaproprehistoire,ilconnaitprogressivementlemonded’unefaçonquiluiestpropre.Cettepossibilitéd’évolutiondelabouclecognitiverejointlesprincipesexprimésparFroeseetZiemke(2009).Cesauteurss’appuientsurlaphilosophiedeHeideggeretsurlathéoriedel’énactionpourargumenterquelapossibilitéd’évolutionducouplagestructurelentreunêtrecognitifetsonenvironnementestunepropriétéimportantedessystèmescognitifs.Nousproposonslemodèleexpérientielcommeuneréponseinformatiquepourtraduirecetteattentethéoriquedanslesalgorithmes.

10

Cemodèleparticipeégalementàuneffortdelarechercheenintelligenceartificiellepourconcevoirdesagentscapablesdese«programmereux-mêmes»(e.g.,Thórissonetal.,2013).Parcequelesexpériencesabstraitespeuventêtreénactéesmachinalementcommedesséquencesd’expériencesprimitives,ellesconstituentunesortedecoderé-exécutableappris.L’apprentissageparrégularitéd’expériencegénèredoncuneffetd’auto-programmationdel’agentparsédimentationd’habitudesdebasenhaut—uneexpressionquenousempruntonsàDavidHume(1739)etHusserl(e.g.,citéparDeLooretal.,2010).Nousconsidéronslespropriétésd’évolutionducouplagecognitifetd’auto-programmationcommedeuxpropriétésliéesentreellesquipermettentuneformed’autonomieconstitutivedel’agent(FroeseetZiemke,2009).

Techniquement,l’algorithmeencodelesexpériencesabstraitesed∈Eddemanièrehiérarchiquesousformedecouplescomposésd’unepré-expérienceetd’unepost-expérience:ed=〈epre,epost〉|epre,epost∈Ed.LaFigure3illustrel’apprentissaged’unniveaud’abstractionsupérieuràpartird’unniveaud’abstractiondonné.

〈〈A,B〉,C〉%

A% B% C% D%

Temps%

〈〈A,B〉,C〉%%〈A,〈B,C〉〉%

〈A,B〉% 〈B,C〉%

1% 2% 3% 4% t+1% t+2%

Réac6ve% Propose%

A% B%

〈B,C〉%

t%

C%

…%〈D,E〉%

Niveaux%

supérieurs%

td% td+1%

Temps%décisionnel%

td% td+1%

F%

〈〈D,E〉,F〉%

td+2%

Figure3:Apprentissagehiérarchiqued’expériences.Chaquepasdetempsdécisionnel(td,td+1surlaflèchedetempspointillée)représenteuneexécutiondelafonctiondécisionnelledel’algorithme(untourdelaboucleenpointillédelaFigure2).

Dansl’exempledelaFigure3,uneexpérienceA∈E1esténactéeautemps1,puisuneexpérienceB∈E2autemps2.L’algorithmeenregistreuneexpérienceabstraitedeniveausupérieurcorrespondantàlaséquence〈A,B〉.Sil’expérienceAesténactéeànouveauautempst,l’algorithmeréactiveralaséquence〈A,B〉carsapré-expérience(A)estidentiqueàladernièreexpérienceénactéeautempst.Unefoisactivée,laséquence〈AB〉proposedetenterd’énactersapost-expérience(B)autempst+1.Sicettetentativeréussitsouvent,alorsl’algorithmepeutconsidérerlaséquence〈A,B〉commeunerégularitéd’interactionofferteparlecouplageagent/environnement.LefaitquelestentativesréussissentsouventounonestévaluéparunmécanismedepondérationdesséquencesapprisesdétailléparGeorgeonetRitter(2012).

QuanduneexpérienceCesténactéeautemps3,l’algorithmeenregistrelesséquences〈B,C〉ainsiquelesséquenceshiérarchiques〈〈A,B〉,C〉et〈A,〈B,C〉〉.QuanduneexpérienceDseproduitautemps4,l’algorithmepourraitenregistrertouteslescombinaisonshiérarchiquesdesexpériencesprécédentes.Cecimontrequelenombredeséquencescroitexponentiellementavecletemps,etqu’unmécanismedelimitationdunombredesséquencesapprisesestnécessairepourlimitercettecroissance.

11

Sil’expérienceBesteffectivementénactéeautempst+1,l’algorithmeréactivelaséquence〈B,C〉,ainsiquelaséquence〈〈A,B〉,C〉carsapré-expériences’identifieàlaséquenceénactéededeuxièmeniveau〈A,B〉auxtempstett+1.Cemécanismepermetàl’algorithmedereprésentersoncontextecourantparunensembledeséquencesd’expériencesénactées.Enpratique,l’algorithmepeutréactiveraumêmemomentdeuxséquencesquiproposentdesexpériencesintentionnellesdifférentes.Unmécanismededécisionestdoncnécessairepoursélectionnerlaprochaineexpérienceintentée.Cemécanismededécisiontraduituneformedepréférencedel’agent.Lamotivationinteractionnelle(introduiteenSection2)estimplémentéeparlefaitquel’algorithmechoisitpréférentiellementlesexpériencesquiontlameilleureprobabilitéderéussir(estiméesenfonctiondesexpériencesantérieures)etquiontlesvalenceslesplusélevées,commesil’agenttrouvaitagréabled’énacterlesexpériencespositives,etdésagréabled’énacterlesexpériencesnégatives.Lesvalencesd’expérienceoffrentdoncunmoyendedéfinirdespréférencesinnéessanscontraindrel’agentàdesobjectifsprédéfinis.L’agentdoitconstruiredesconnaissancessurlemondepourmieuxréussiràénacterlesexpériencesquiontunevalencepositiveélevéeetàéviterlesexpériencesquiontunevalencenégative.

Pourlimiterl’explosioncombinatoiredunombred’expériencesabstraitesapprises,l’algorithmelimitel’apprentissageenneconstruisantdesséquencesdeplushautniveauqu’àpartirdeséquencesintentionnellementénactées.Parexemple,autemps3,l’algorithmen’enregistrepaslaséquence〈〈A,B〉,C〉carlasous-séquence〈A,B〉n’apasétédécidéeintentionnellemententantqueséquenceentière.Enrevanche,si,autempsdedécisiontd,l’agentdécided’énacterlaséquence〈DE〉(aucoursdestempstdettd+1),etsi,autempsdécisionneltd+1,l’agenténactel’expérienceF,alorsl’algorithmeenregistrelaséquence〈〈D,E〉,F〉carelleestbaséesurdeuxsous-séquencesénactéesintentionnellement.Cemécanisme,détailléplusprécisémentparGeorgeonetRitter(2012),assurequ’unniveauderégularitéssoitconfirméetutileavantd’apprendredesrégularitésdeplushautniveau.

4 Expérimentations

Cettesectionrapportedeuxexpérimentationsquiillustrentlescomportementsgénéréspardesagentscontrôlésparl’algorithmeprésentéenSection3.Noterquelemêmealgorithmepeutêtreutilisépourcontrôlerdesagentsdontlesexpériencessontdenaturestotalementdifférentespuisquel’algorithmen’exploitepasdeprésupposéssurlasignificationdesexpériences.

4.1 Expérimentation1:robote-puckLaFigure4présenteledispositifexpérimental.Pourplusdedétails,nousrenvoyonslelecteuràl’articledeGeorgeonetal.,(2013),ainsiqu’àunevidéodedémonstrationetàuneexpérimentationinteractivesimilairedisponiblesenligne7.UneanalysepluscomplètedescomportementsgénérésparuneexpérimentationplussophistiquéeenenvironnementsimuléaétéeffectuéeparGeorgeonetMarshall(2013).

7http://youtu.be/t1RO5S4mBEYhttps://youtu.be/LVZ0cPpmSu8

12

Figure4:Gauche:dispositifexpérimental,lerobote-puck(Mondadaetal.,2009)danssonenvironnement.Droite:robote-puckfaceàunmur(vert)etcônesdedétectiondemursàgauche,devant,etàdroite(zonesgrisesdégradées).

Danscetteexpérimentation,lecouplagerobot/environnementoffrelesdixexpérienceslistéesdansletableau1.

Tableau1:Expériencesàladispositiondel’algorithme.Leseuildedétectiondemurestrégléà5cmenviron.Leseuildedétectiondecollisionestrégléà0,5cmenviron.

Expérience Implémentation ValenceSentirunmurdevant

ActiverlaLEDinfrarougefrontaleetmesurerunelumièreréfléchiesupérieureauseuildedétectiondemur.

-1

Sentirunespacevidedevant

ActiverlaLEDinfrarougefrontaleetmesurerunelumièreréfléchieinférieureauseuildedétectiondemur.

-1

Sentirunmuràgauche

ActiverlaLEDinfrarougegaucheetmesurerunelumièreréfléchiesupérieureauseuildedétectiondemur.

-1

Sentirunespacevideàgauche

ActiverlaLEDinfrarougegaucheetmesurerunelumièreréfléchieinférieureauseuildedétectiondemur.

-1

Sentirunmuràdroite

ActiverlaLEDinfrarougedroiteetmesurerunelumièreréfléchiesupérieureauseuildedétectiondemur.

-1

Sentirunespacevideàdroite

ActiverlaLEDinfrarougedroiteetmesurerunelumièreréfléchieinférieureauseuildedétectiondemur.

-1

Avancer ActiverlesdeuxrouesetactiverlaLEDfrontalependantletempsdeparcourirenviron5cm,etlalumièreréfléchienedépassejamaisleseuildecollisiondemur.

5

Cognerunmur ActiverlesdeuxrouesetactiverlaLEDfrontale.Lalumièreréfléchiedépasseleseuildecollisionavantd’avoirparcouru5cm,provoquantlafinanticipéedudéplacement.

-10

Tourneràgauche Activerlarouegaucheenarrièreetlarouedroiteenavantpendantletempsd’avoirtournésurplaced’environ90°àgauche.

-4

Tourneràdroite Activerlarouegaucheenavantetlarouedroiteenarrièrependantletempsd’avoirtournésurplaced’environ90°àdroite.

-4

Lorsquel’algorithmeintenteuneexpérience,nonseulementilignorequellediodeinfrarougeoumoteurilactionne,maisaussilefaitmêmequ’ils’agissed’unediodeoud’unmoteur.Ilignoreégalementl’existencedemurs,ainsiquelefaitqu’ilcontrôleunrobotquisedéplacesurunesurfaceplane.L’algorithmen’apasd’autremoyendeconnaîtrelerobotetsonenvironnementqueparlesrégularitésd’expériencesénactées.Desvalencesnumériquessontassociéesaux

13

expériences:avancer(+5),collision(-10),tourner(-4),sentir(-1).Lesexpériencessentirettournerontdesvalenceslégèrementnégativespourreprésenterl’effortdelesénacter.

Audébut,l’algorithmedoit«babiller»pourapprendreàdonnerdusensauxpossibilitésd’expérienceoffertesparlecouplagerobot/environnement.UneanalyseducomportementobservabledurobotestrapportéeenFigure5.

10 20 30 40 50 60 70 80 90 100

3Tape1

2

Feel left/front/rightempty (-1)

Feel left/front/rightwall (-1)Step forward (5) Bump (-10) Turn right (-3)Turn left (-3) Satisfactions Hierarchical levels Correct Incorrect

Figure5:100premièresexpériencesénactéesparlerobot.Bande1:expériencesprimitivesénactéesaucoursdutemps:avancer(triangleblanc),collision(trianglerouge),tourner(demi-cercles),sentirvide(carréblanc),sentirmur(carrévert).Lespositionsdescarréshaut/milieu/basreprésententlesdirectionsgauche/devant/droite.Bande2:valencedesexpériencesénactéesreprésentéeenbar-graphe(vertpositive,rougenégative).Bande3:Niveauhiérarchiquedesexpériencesintentionnellementénactées(gris:énactionprimitiveréussie;noir:énactionprimitiveéchouée,interrompantl’énactiondel’expérienceabstraite).L’expérienceabstraitesentir_vide_devant–avanceresténactéepourlapremièrefoisauxpas27-28.Auxpas64,74et92,cetteexpérienceabstraiteaétéinterrompue(segmentnoirdesecondniveauenbande3)enraisondufaitquel’expérienceprimitiveintentéesentir_vide_devantarésultéenl’expériencesentir_mur_devant,cequidissuadalerobotd’allerverslemuretleferaplutôttourneràgauche.

L’analysedecomportementsprésentéeenFigure5montrequelerobotapprendàutiliserlesexpériencessentircommeuneperceptionactivepouréviterd’entrerencollisionaveclesmurs(bienquelesexpériencessentiraientunevalencelégèrementnégative).Cetapprentissageneconsistepasseulementànepasavancerquandunmurestsentidevant,mais,plusimportant,àactivementutiliserlesexpériencessentircommeuneperceptionpourévaluerlasituationavantdeprendreunedécision.Danscetteapproche,laperceptionémergedel’activitédurobot,parl’utilisationappropriéedeschèmessensorimoteurs.C’estunedifférenceradicaleaveclesapprochesclassiquesdanslesquelleslaperceptionestprédéfinie.Lefaitquelerobotprennedesdispositionspourpouvoiravancersanssecognerfaitpenseràl’observateurqu’ilaimeavanceretqu’iln’aimepassecogner.Dansuneexpériencepluscomplèteenenvironnementsimulé(e.g.,GeorgeonetMarshall,2013),l’observateurpeutvoirquelerobotapprendàassocierlessensationslatéralesetlesrotationslatérales,c’estàdirequ’ildécouvreimplicitementlastructureàdeuxdimensionsdesonenvironnement.Cettedécouvertedelastructurespatialedumondeàpartirderégularitésd’expériencessensorimotricesrejoint,parexemple,lestravauxdePhilipona et al. (2004).

IlestànoterquelescomportementsrapportésenFigure5reposentsurlefaitquelesseuilsdedétectiondescapteursutilisésparlesexpériencessentirsontrégléspourcorrespondreapproximativementàladistanceparcourueparlesexpériencesavancer(5cm).Sicesdistancessonttropdifférentes,lerobotapprendquelesexpériencessentirsontinutiles;danscecas,ilapprendàavancersansutiliserlesexpériencessentiretn’évitepaslescollisions.Sinousréduisonsle«coût»detourner(e.g.,endonnantauxexpériencestournerlavalence-1),on

14

observequelerobotfinitparapprendreàéviterlescollisionslaplupartdutempsentournantaucentredelaboiteenalternantavancerettourner.

4.2 Expérimentation2:systèmesensorieldistalrudimentaireLaFigure6présenteledispositifexpérimental.Nousrenvoyonslelecteuràl’articledeGeorgeonetal.(2011)pourplusdedétails.Unevidéodedémonstrationestenligne,ainsiqued’autresvidéosdanslesquellesl’agentsedéplacedansunespacecontinu(aulieud’unegrilledecellules)etpoursuitdesciblesmobiles8.

Area%A%

Area%B%

Area%C%

Distal%sensory%field%

Figure6:Dispositifexpérimental.Lapointeorangereprésentel’agentplacédansunegrillede6x7cellules.Lazonedélimitéeparuntraitpleinreprésentesonchampsensorielcouvrant180°,capablededistinguerlesdéplacementsrelatifsdel’objetcible(pointbleu)dansleszonesA,BouC.

L’agentdisposed’unsystèmesensorielrudimentaire(simulantuneformedevisionoud’olfaction)quidétectelesdéplacementsrelatifsd’unobjetcibleimmobilequandl’agentbouge.Cesystèmesensorielrenvoieuneinformationdedirectionsommaire:àdroite,enface,ouàgauche.Lorsquel’agentarrivesurunecellulecontenantlacible,elleestretiréedelagrille,commesil’agentlamangeait.L’expérimentateurpeutinsérerdenouvellesciblesencliquantsurlagrille.Lesexpériencesoffertesparlecouplageagent/environnementsontlistéesdansleTableau2.

Tableau2:Expériencesàladispositiondel’algorithme.Lesexpériencesimpliquantladétectiond’unecibleexistententroisvariantesselonlazonedudéplacementdelacible(A:àgauche,B:enface,ouC:àdroite).L’algorithmeignorequ’ils’agitdevariantesd’unemêmeexpérience.Iltraiteles18expériencesdemanièreinitialementindifférenciée(uneexpérienceparlignedelacolonne"Variantes").

Evénements Variantes Implémentation ValenceAvancersansdétecterdecible

- Avancerd’unecase.Pasdecibledanslechampsensoriel

0

Collisiondemur - Tenterd’avancerd’unecasemaiséchoueràcaused’unmur.

-1

Avancerversunecible

ABC

Avancerd’unecase.UnecibleapparaîtougrossitdanslazoneA,BouC.

1

Avanceravecsortiedelacibleduchamp

AC

Avancerd’unecase.LacibledisparaîtduchampsensorieldepuislazoneAouC.(LavarianteBn’existe

-1

8https://youtu.be/91kKzybt8XYhttps://youtu.be/vSUEoh-sjwU

15

visuel pasdanscecouplageagent/environnement.)Mangerlacible - Avancerd’unecasesurlacible.Lacibleestretiréedela

grille.1

Tournersansvoirdecible

GaucheDroite

L’agenttournede90°àgaucheouàdroite. 0

Tournerversunecible

GaucheAGaucheBGaucheCDroiteADroiteBDroiteC

L’agenttournede90°àdroiteouàgaucheetlacibleapparaîtdanslazoneA,BouC.

1

Tourneravecsortiedelacibleduchampvisuel

GaucheADroiteC

L’agenttournede90°etlacibledisparaitdesonchampvisueldepuislazoneA(tourneàgauche)ouC(tourneàdroite).

-1

Encoreunefois,l’algorithmeignorelasignificationdesexpériences,ainsiquelefaitqu’ilcontrôleunagentquisedéplacedansunegrilleàdeuxdimensionscontenantdesciblesqu’ilpeutdétecteretdesmursqu’ilpeutcogner.Lesvalencesassociéesauxexpériencessontdéfiniesparl’expérimentateurdetellesortequel’agentsembleaimerserapprocherdescibles.

Commepourl’expérimentationprécédente,audébut,l’algorithmesélectionnedesexpériencesarbitrairement,puisilapprendprogressivementdesrégularitésquiconduisentàrapprocherl’agentd’unecible.Letempsnécessairepouratteindrelapremièrecibledépenddelapositioninitialedel’agentetdelaciblemaisestdel’ordred’unecinquantained’expériences.Unefoisquel’agentaapprisàatteindrelapremièrecible,l’expérimentateurintroduitdenouvellesciblesencliquantsurlagrille,enattendantàchaquefoisquel’agentait«mangé»lacibleprécédente.Onobservequ’àpartirdeladeuxièmecible,l’agentreproduitlemêmeschémadecomportementappris,quipeutêtredifférentd’uneexpérimentationàl’autre,enfonctiondesconditionsinitiales.LaFigure7montredeuxcomportementstypiquesobservés.Unefoisqu’unagentaapprisundecescomportements,illerépètesurtouteslesnouvellesciblesintroduitesparl’expérimentateur.

Figure7:Exemplesdecomportementsapprisparl’agentaucoursdedifférentesexécutionsdel’expérimentation.Gauche:comportementconsistantàavancerenescalierjusqu’às’aligneraveclacible.Droite:comportementconsistantàavancerenlignedroitejusqu'àcequelaciblesorteduchampsensoriel,puisrevenirenarrièred’unecellulepours’alignersurlacible.L’agentneperçoitpasladistancedelacible,ilapprendàlalocaliserparlefaitqu’ellesortedesonchampsensoriel.

L’émergencedesdeuxschémasdecomportementsdécritsàlaFigure7montrequechaqueinstanced’agentapprendunestratégieàpartirdesonhistoireindividuelle,aulieud’appliquerunestratégiepré-codée,commec’estsouventlecasaveclestechniquesclassiquesderésolutiondeproblème.Notonsquelesdifférencesdestratégienerésultentpasdechoixaléatoires(l’algorithmenefaitpasappelàlafonctionrandom),maisuniquementdepetitesdifférences

16

danslapositioninitialedel’agent,produisantuneffetd’imprédictibilitédéterministe(e.g.,ZwirnetDelahaye,2013).

Cettefaçond’encoderlesmotivationspropressousformedevalencesassociéesauxexpériencessensorimotricesoffreuneréponseauxdesiderataexprimésparSun(2004)deconsidérerlescomportementscommepremiers9.L’agentestattiréparlesciblesavantmêmed’avoirmangésapremièrecible.

Dupointdevuedel’observateur,lescomportementsreflètentuneindividualitéacquiseàpartirdel’expériencepersonnelledel’agent.Lesagentspeuventapprendredescomportementsdifférentspoursatisfairedesdésirsidentiques.Nouspensonsquecetteapprocheouvrelavoieàlaconceptiond’agentsquipourrontdévelopperunepersonnalitéindividuellepluscomplexeparunprocessusd’individuation(Simondon,2007).Cettepossibilitéd’individuationneprovientpasdufaitquel’agentéchappeàsesdésirsprédéfinis,maisdufaitquesesdésirsprédéfinissous-déterminentsescomportements(needfulfreedom,Jonas,1966).Al’avenir,noussouhaitonsdévelopperdesalgorithmesplussophistiquésdanslesquelsdesdonnéesreprésentantlasituationhoméostatiquedel’agentinterviendraientdanslescritèresdesélectiondesexpériencesintentées.Parexemple,ensituationd’équilibrehoméostatique,l’algorithmesélectionneraitlesexpériencesquiontlemoinsététestéesdanslecontextecourantplutôtquecellesquionlaplushautevalenceattendue.L’observateurd’untelagentpourraitinterprétercescomportementsparlefaitquel’agentestplusjoueuroucurieuxlorsqu’iln’apasfaim.

5 Verslaconstructiondeconnaissancesontologiques

Lesêtrescognitifsnaturels(animaux)existentdansunenvironnement(lemonderéel)quipeutleuroffrirdespossibilitésd’expériencespersistantespendantuncertaintempsetencertainslieux.Parexemple,uneproiepeutoffrirdespossibilitésd’expériencesvisuelles,auditives,tactiles,olfactives,ougustatives.Lapossibilitépersistantedefairecesexpériencesenunecertainerégiondel’espacepeutêtreinterprétéeparlefaitqu’ilexisteuneproiedanscetterégion.Cettesectionexaminecommentconcevoirdesagentscapablesderéalisercetteinterprétation.L’algorithmeneconnaîtpaslaproie«ensoi»maislaproie«encequ’elleoffreàl’agentlapossibilitéd’énactercertainesexpériencesenuncertainlieu».Nousdésignonslesentitésprésentesdansl’environnement«encequ’ellessontexpérimentéesparl’algorithme»parletermedephénomènes.Cetusagedumotphénomènecorrespondàsonsenscourantqui

9«Comportment,accordingtoHeidegger,[…]“precedeseverypossiblemodeofactivityingeneral,”priortoexplicitbeliefs,priortoexplicitknowledge,priortoexplicitconceptualthinking,andevenpriortoexplicitdesire.Comportmentisthusprimary,inexactlythissense.Thetraditionalmistakeofrepresentationalismliesinthefactthattheytreatexplicitknowledgeanditscorrelatesasthemostbasicinstead,andthustheyturnthepriorityupside-down;andinsodoing,“everyactofdirectingoneselftowardsomethingreceives[wrongly]thecharacteristicsofknowing”(Heidegger,1927)»(Sun,2004,p.361);

17

désignelafaçondontlachoseseprésenteàlacognitiond’unagent,paroppositionàlachose«ensoi»désignéeparletermenoumène.

Danslessections3et4nousavonsprésentédesalgorithmescapablesd’interagiravecunseultypedephénomène.L’agentétaitincapabledecatégoriserlesphénomènesprésentsdanssonenvironnementetd’adaptersescomportementsenfonctiondescatégoriesdesphénomènesaveclesquellesilinteragissait.Nousprésentonsmaintenantdesalgorithmesdotésdelacapacitéd’apprendreetdereconnaitredescatégoriesdephénomènesdifférentes.Cesalgorithmesencodentchaquecatégoriedephénomèneapprisesouslaformed’unensemblePd’expériences(P⊂Ed)quiregroupelesexpériencesoffertesparlesphénomènesdecettecatégorie.Nousutilisonsl’expressionexpériencesoffertespourtraduireleterme«afforded»venantdelathéoriedesaffordancesdeGibson(1977).L’algorithmeutiliselesensemblesd’expériencesPcommedesreprésentationsopérativesdephénomènes,c’estàdiredesreprésentationscapablesdeprovoquerdescomportements(e.g.,Weill-Fassinaetal.,1993).

Pourquel’algorithmepuissentencoder,mémoriseretexploiterlescatégoriesdephénomènes(lesensemblesP),nousledotonsdedeuxmémoiressupplémentaires:unemémoireproto-ontologiqueetunemémoiredetravail,quiviennents’ajouteràsamémoireséquentiellehiérarchiqueprésentéeenSection3.Lamémoireproto-ontologiquemémoriselescatégoriesdephénomènesconnusparl’algorithmeàuninstantdonné.Techniquement,c’estl’ensembledesensemblesPconstruitsàl’instantt.Nousqualifionscettemémoiredeproto-ontologiquecarellecontientlesprémicesd’uneontologiedesphénomènesconstruiteparl’algorithme,sanstoutefoisposséderlesmécanismesd’inférencehabituellementprésentsdanslesontologiesinformatiques.

Lamémoiredetravailmémoriselesinstancesdephénomènespersistantesdansl’environnementàuninstantdonné.Techniquement,uneinstancedephénomèneestreprésentéeparunpointeurquirenvoieàsacatégorie(unensemblePparticulier)stockéeenmémoireproto-ontologique.Dansl’expérimentationdelaSection5.1,lamémoiredetravailn’alacapacitédemémoriserqu’uneseuleinstancedephénomèneprésentàuninstantdonné.Dansl’expérimentationdelaSection5.2,lamémoiredetravailconsisteenunemémoirespatialeégocentréequipeutmémoriserplusieursinstancesdephénomènesquicoexistentendifférentslieuxdel’espaceautourdel’agent.

5.1 Inférencedephénomènesàpartirderégularitésd’expérienceDanscetteétude(Georgeonetal.,2015),lamémoiredetravailestencodéesouslaformed’unréseaudePétri.Initialement,ceréseaunecontientaucunarcetunseulnœudnomméétatignorant.Lorsquelejetonestsurcenœud,l’algorithmesélectionnelesexpériencessansfaired’hypothèsesurlephénomèneaveclequell’agentestentraind’interagir.Lorsqu’unenouvellecatégoriedephénomèneestconstruiteenmémoireproto-ontologique,unnouveaunœudcorrespondantàcettecatégorieestajoutéauréseau.Lorsquelejetonestsurcenœud,l’algorithmesélectionnelesexpériencesintentéesenfaisantl’hypothèsequel’agentestentraind’interagiravecuneinstancedephénomènedecettecatégorie.L’algorithmeconstruitunarcversunnœudreprésentantunecatégorielorsqu’ilinfèrequel’agentcommenceàinteragiravecunphénomènedecettecatégorie.Aufuretàmesurequel’algorithmeconstruitleréseaude

18

Pétri,ill’utilisepourévaluerlesconséquencespossiblesdesexpériencesqu’ilpourraitintenter:l’expérienceénactéequirésulteraitd’uneexpérienceintentéeparticulière,ainsiquelephénomèneaveclequell’agentinteragiraitàlasuitedecetteénaction.Lorsqu’uneexpérienceesténactée,l’algorithmedéplacelejetonlelongdel’arcassociéàcetteexpérience.Lescatégoriesdephénomènes(mémoireproto-ontologique)etleréseaudePétri(mémoiredetravail)cessentd’évoluerquandilspermettentàl’algorithmedefairedesanticipationscorrectes.Ladifficultéprovientdufaitquel’algorithmedoitconstruirelecontenudecesdeuxmémoiresenparallèle.

Danscetteexpérimentation,lemondeestcomposéed’unechainede11chiffresarbitrairesinitialiséeàlavaleurC0=[1,7,3,2,9,3,5,6,7,8,9],etd’unentierpdansl’intervalle[0,9],initialiséàp0=0,quireprésentelapositiondel’agentsurlesdixpremierschiffresdecettechaine.Ct(p)désignelechiffreàlapositionpdel’agentautempst.L’agentpeutsedéplacerdanslachaineversladroite.Quandl’agentarrivesurledixièmechiffreCt(9),unnouveaudéplacementversladroiteleramènesurlepremierchiffreCt+1(0).LesexpériencessontlistéesdansleTableau3.

Tableau3:Expériencesdontdisposel’algorithme.Ct(p)désignelechiffreàlapositionpautempst.

Expériences Implémentation ValenceSentirsupérieur Ct(p+1)≥Ct(p) 0Sentirinférieur Ct(p+1)<Ct(p) 0Avancerverssupérieur Ct(p+1)≥Ct(p);If(p<9)thenp←p+1elsep←0; 1Avancerversinférieur Ct(p+1)<Ct(p);If(p<9)thenp←p+1elsep←0; -1Permuterverssupérieur Ct+1(p+1)←Ct(p)|Ct+1(p)←Ct(p+1);Ct+1(p+1)≥Ct+1(p) 0Permuterversinférieur Ct+1(p+1)←Ct(p)|Ct+1(p)←Ct(p+1);Ct+1(p+1)<Ct+1(p) 0

Rappelonsquel’algorithmeignoreleseffetsproduitsparlesexpériences,ainsiquelefaitmêmequ’ilcontrôleunagentlocaliséàl’emplacementpdansunechainedechiffres.Lesvalencesdesexpériencessontinitialiséespoursimulerunagentquisembleraitaimeravancerversunchiffresupérieurouégalàceluisurlequelilestàl’instantt,etnepasaimeravancerversunchiffreinférieur.

Cecouplageagent/environnementoffredeuxcatégoriesdephénomènesquisontintéressantesàdécouvrirpourl’algorithme—catégoriesquenousdésignonsarbitrairementparmontéeetdescente.L’algorithmedoitdécouvrirqu’ilpeututiliserlesexpériencessentirpourobserverl’instancedephénomèneaveclequell’agentinteragitàl’instantt,etconnaîtresacatégorie.Ildoitégalementdécouvrirqu’ilpeututiliserlesexpériencespermuterpourtransformeruneinstancedephénomèned’unecertainecatégorieenuneinstancedephénomèned’uneautrecatégorie.Cesphénomènessontdoncbiendes«façonsdontlemondeseprésenteàl’algorithme».Lachainedechiffres,quantàelle,constitue«lemondeensoi,inconnudel’algorithme»,quipourraitdoncêtreappelé,entermesphilosophiques,lemondenouménaldecettesimulation.

Nousavonsimplémentéunalgorithmequis’inspiredetechniquesdeprocessmining(e.g.,VanderAalst,etal.2003).Leprocessminingestunedisciplinequiviseàconstruiredemanièrenonsuperviséeunmodèlecausald’unsystème,àpartird’unetraced’activitégénéréeparce

19

système.LaFigure8montreleréseaudePétriconstruitparl’algorithmeaprèsenviron70expériences.L’algorithmeaapprislesdeuxcatégoriesdephénomèneP1etP2quenous(observateurs)connaissonspourêtrelescatégoriesmontéeetdescenteainsiquelesdifférentesexpériencesquipermettentàl’agentdechangersasituation(arcsduréseaudePétri).

Ignorant(

P2(

Sen-er(supérieur(

Sen-r(inférieur(

Avancer(vers(supérieur(

Avancer(vers(inférieur(

Permuter(vers(inférieur(

Permuter(vers(supérieur(

P1(

P1(=({((((((,(((((((,((((((}(

P2(=({((((((,(((((((,((((((}(

Figure8:Laproto-ontologie(gauche)etleréseaudePétri(centre)représentantlesystèmedeconnaissanceconstruitparl’algorithme(adaptédeGeorgeonetal.,2015).LescatégoriesdephénomènesmontéeetdescentesontreprésentéesparlesensemblesP1etP2desexpériencesoffertesparlesphénomènesdechaquecatégorie.LesnœudsduréseaudePétrireprésententdesétatsdeconnaissancesquel’algorithmepeutavoirsurl’étatdumonde:agentinteragissantavecunphénomènemontée(gauche),avecunphénomènedescente(droite),ouignorantduphénomènecourant(bas).Lesarcsdugraphemontrentlesexpériencesquifontpasserl’algorithmed’unétatdeconnaissanceàunautre,pourrefléterleschangementsdumondeprovoquésparl’énactiondesexpériencesattachéesàcesarcs.

UnefoisqueleréseaudePétriestconstruit,l’algorithmel’exploitedanslebutd’énacterdesexpériencespositivesetd’éviterlesexpériencesnégatives.Dupointdevuedel’observateur,l’agentsemblecomprendreprogressivementcommentilpeutobserversasituationetcommentilpeutlatransformeràsonavantage.Quandilestdansl’étatignorant,ilintenteuneexpériencesentirpourconnaitrelacatégorieduphénomèneaveclequelilestentraind’interagir.Quandilsembleserendrecomptequ’ilestconfrontéàunphénomènedelacatégoriemontée,ilénactel’expérienceavancerverssupérieur.Quandilestconfrontéàunphénomènedelacatégoriedescente,ilénactesuccessivementlesexpériencespermuterverssupérieurpuisavancerverssupérieur.

Bienentendu,ledéveloppeurdel’algorithmepourraitfacilementprogrammerdirectementcescomportementsens’appuyantsursaconnaissancedeseffetsdesexpériences.Cependant,pourl’observateur,l’agentsembleraitconnaîtrelastructuredumondedèsledépart.Aucontraire,dansnotreexpérience,l’observateurvoitl’agentapprendreprogressivementcommes’ilparvenaitàcomprendredelui-mêmelastructuredesonenvironnement.Nousconstatonsquel’observateurestdavantageenclinàattribueruneintelligenceàl’agentquandilesttémoindeceprocessusd’apprentissage(sinon,l’observateurpenseque«l’agentestseulementunautomatequiexécuteuncomportementpréprogrammé»).L’articledeGeorgeonetal.(2015)présenteuneanalyseapprofondieducomportementd’apprentissageenanalysantunetraced’activité.

Notonsquecetteexpérimentationillustreaussilefaitquel’algorithmeneparvientpasàconstruireuneconnaissancephénoménalequirendeexactementcomptedelastructuredumondenouménal.Eneffet,danslasituationrareoulechiffrecourantestégalauchiffresuivant(Ct(p)=Ct(p+1)),sil’agenténactel’expériencepermuterilresteconfrontéàunphénomènedela

20

catégoriemontée,contrairementàcequeleréseaudePétrilaisseanticiper.Pourcomprendrecequisepassedanscettesituation,ilfaudraitquel’agentpuisseconstruirelatroisièmecatégoriedephénomènes«horizontal»,cequ’ilestincapabledefairedansl’étatactueldel’algorithme.Unedesdifficultésprovientdufaitquelescatégoriesdephénomènesneseraientalorsplusreprésentéespardesensemblesd’expériencesdisjoints.Nouscontinuonsàtravaillersurdesalgorithmescapablesdegérercettedifficulté.

5.2 ArchitecturecognitiveCettesectionexamineuneextensiondumodèleexpérientiel(Figure1d)quipermetàl’algorithmed’apprendredesrégularitésd’expériencesspatio-séquentielleseffectuéesparunagentévoluantdansunespaceeuclidien.LaFigure9présentecetteextensionappeléemodèleexpérientielspatial.Achaquetourducycled’interaction,l’algorithmepeuttraiterplusieursexpériencesquisonténactéessimultanément,etpeutsuivrelesdéplacementsspatiauxducorpsdel’agent.

Algorithme+ Expériences Intentées I ⊂ Σ

Expériences enactées

E ⊂ Σ

Monde+

Déplacement spatial

!

Figure9:Modèleexpérientielspatial.L’ensembledesexpérienceslocaliséesquepeuttraiterl’algorithmeestnotéΣ.Achaquecycled’interaction,l’algorithmeintenteunensembled’expérienceslocaliséesintentéesI⊂Σ.Enretour,ilreçoitunensembled’expérienceslocaliséesénactéesE⊂Σetuneinformationdedéplacementspatial𝜏.

LemodèleexpérientielspatialprésentéenFigure9permetdemodéliserdesagentscapablesdelocaliserapproximativementleursexpériencesdansl’espace,ainsiquedepercevoirleurspropresdéplacements.Cemodèlefaitl’hypothèsequel’agentdisposed’undispositifsensorielluiapportantcesinformations.Cettehypothèses’appuiesurdesétudesquimontrent,parexemple,queleshumainsutilisentdescapteurskinesthésiquespourlocaliserleursexpériencestactiles,laconvergenceoculairepourlocaliserleursexpériencesvisuelles,etledéphasageinterauralpourlocaliserleursexpériencesauditives.Ilsutilisentleursystèmevestibulaireetlefluxoptiquepourconnaîtreleursdéplacementsdansl’espace(e.g.,GrossetGraziano,1995).Cemodèlefaitégalementl’hypothèsequel’agentdisposed’unemémoirespatialeprédéfinie.Cettemémoireestinspiréeducolliculussupérieurducerveaudesmammifères.Dansd’autrestravaux,nousétudionscommentcettemémoirespatialepourraitêtreconstruiteàpartirderégularitésd’expériencessensorimotrices(Gayetal.,àparaître).

Danslemodèleexpérientielspatial,l’ensembleΣdesexpériencescontientdesexpérienceslocalisées.Uneexpériencelocaliséeestuneexpériencesimilaireauxexpériencesdumodèleexpérientielprécédent,àlaquellesontrattachéesdespropriétésdelocalisationspatialeparrapportàunréférentielcentrésurlecorpsdel’agent.Parexemple,appliquéàl’expérimentationdelaSection4.2,lemodèleexpérientielspatialpermetdetraiterlestroistypesd’expérience

21

avancerversuneciblecommeunseultyped’expérienceauquelestrattachél’informationdelocalisationspatialeA,B,ouC.

L’algorithmereçoitégalementuneinformationτreprésentantledéplacementspatialeffectuéparl’agentpendantlecycled’interaction.Sil’environnementpossèdeunestructured’espaceeuclidienàndimensions(e.g.,unespacesimuléàdeuxdimensionsoulemonderéelàtroisdimensions),etsilecorpsdel’agentestunblocindéformable,alorsledéveloppeurdel’algorithmepeutencoderτcommeunefonctiondetranslationetderotationeuclidiennededimensionnreprésentantlemouvementdel’agentdansl’espace(Georgeonetal.2013).Cemodèlenesupposepasquelesinformationsdelocalisationetdedéplacementsoienttrèsprécises.Nousn’avonspasencoreétudiécommentl’agentpourrait,delui-même,calibreretraffinercesystèmesensoriel.

L’algorithmeestmaintenantorganisésouslaformedel’architecturecognitivereprésentéeenFigure10.

Ligne&de&temps&d’expérience&

Mémoire&spa4ale&&égocentrique&

Mémoire&séquen4elle&hiérarchique&

Sélec4on&&comportement&

Intente&

Prop

ose&

Propose&

Apprend/&suit&

Proto>ontologie&

Evoq

ue&

Construit&

Enacte&

ALGORITHME&

Figure10:Architecturecognitivepourl’apprentissagederégularitésspatio-séquentielles.Fluxd’expérience(bas):expériencesprimitives(petitscarrésetparallélogrammes)énactéesaucoursdutemps,similaireàlaFigure2.Mémoireséquentiellehiérarchique(haut):lesystèmed’abstractiond’expériencesprésentéenSection3.Mémoirespatialeégocentrique(MSE,centre):mémoirespatialeàcourttermedesexpériencesénactéeslocaliséesdansl’espacerelativementàl’agentetmiseàjourenfonctiondesdéplacementsdel’agent(flèche«suit»).Proto-ontologie(gauche):mémoiredescatégoriesdephénomènesapprisesparexpérience.Lescatégoriesdephénomènes(représentéesparlerondbleu,letrianglerouge,etletrianglevert)sontdéfiniesparl’ensembledesexpériencesoffertesparlesphénomènesdecettecatégorie.LesexpériencesenMSEpeuventactiverdescatégoriesdephénomènesmémoriséesdanslaproto-ontologiequiproposentlesexpériencesquecesphénomènesoffrent(flèche«évoque»).Lesexpériencessontproposéesenfonctionducontextespatio-séquentiel(flèches«propose»),avantd’êtrechoisiescommefuturesexpériencesàtenterd’énacter(basàdroite).

L’architecturecognitiveprésentéeenFigure10utiliselesinformationsspatialesattachéesauxexpériencesénactéespourlesplacerenmémoirespatialeégocentrique(MSE).Elleutiliselesdéplacements𝜏 pour mettre à jour la MSE à chaque cycle d’interaction. Par exemple, si l’agent effectue une rotation vers la gauche, l’algorithme fait pivoter les expériencesprécédemment énactées de l’angle opposé (vers la droite) en MSE pour refléter ce déplacement. La MSE est une

22

mémoire à court terme ; elle ne vise pas à construire une carte de l’environnement ; nous ne considérons pas que les informations spatiales disponibles soient suffisamment précises pour permettre cela. En revanche, elle permet à l’algorithme de détecter des recouvrements spatiaux des expériencesénactées sur le court terme. Lorsque des expériencessont énactées dans des endroits proches, l’algorithme infère l’existence d’un phénomène qui offre ces expériences à cet endroit. Par exemple, en Figure10,leparallélogrammevertetlecarrébleureprésententdesexpériencesénactéesàdifférentsinstantsdanslamêmezonedel’espace,révélantlaprésenced’unphénomènequioffrecesexpériences(rondbleu).

Unefoisquel’agentaconstruitdescatégoriespermettantdeclasserlesphénomènesqu’ilrencontre,etdesséquencesd’expériencesadaptéesauxcatégoriesdephénomènes,ilpeuteffectuerdessimulationsspatio-temporellesinternesdeséquencesd’expérienceadaptéesàsasituationcourante.LaMSEpermetdessimulationsdecomportementsdansunréférentielégocentré.Al’avenir,noussouhaitonsimplémenterd’autresstructuresmémoriellespermettantdessimulationsspatio-temporellesdansunréférentielallocentré,parexempleinspiréesdel’hippocampe.Cetteapproches’inscritdanslecadredel’hypothèseformuléeparcertainschercheurs(e.g.,Hesslow,2002;Buzsáki,2013)selonlaquellel’intelligence«dehautniveau»(raisonnementlogique,langage)pourraitreposersurdesmécanismesdesimulationspatio-temporelledefluxd’expériencedéjàprésentsdanslacognitionanimale.

6 Conclusion

Nousavonsprésentéquatremodèlespourconcevoirdesalgorithmesquiapprennentàpartirderégularitésd’expériencessensorimotrices:lemodèleexpérimentation/résultat,lemodèleinteractionnel,lemodèleexpérientiel,etlemodèleexpérientielspatial.Cesmodèless’inspirentdethéoriescognitivesquiremettentenquestionlecycleperception/cognition/actionclassique(e.g.,PfeiferetScheier,1994;Hurley,1998),ouquiproposentuneconceptionactivedelaperception(e.g.,O’ReganetNoë,2001;FindlayetGilchrist,2003).Danscesmodèles,l’absencededonnéesontologiquessuruneréalitéprésupposéesetraduitenévitantd’assimilerleprocessusdegénérationdesdonnéesd’entréeàunefonctionmathématiquedéfiniesurl’ensembledesétatspossiblesdumonde:lemêmeétatdumondepeutproduiredifférentesdonnéesd’entréeselonl’expérienceintentée.Lesalgorithmesn’effectuentpasunerecherched’unétatsolutiondansunensembled’étatsprédéfinis.Lesagentsnesontpasévaluésparleurcapacitéàatteindreunbutprédéfininiàmaximiserunevaleurnumérique.

Nosobjectifssontdedévelopperdesagentsquigénèrentdescomportementssusceptiblesd’êtrejugésintelligentspardesobservateurs.Cesobjectifsrejoignentceuxd’autresauteursquitravaillentsurlamotivationintrinsèqued’agentsinformatiques(e.g.,Steels,2004;Oudeyeretal.,2007)etl’apprentissagedéveloppemental(e.g.,Lungarellaetal.,2003).Pourprogresserdanscedomainederecherche,ilconvientdes’accordersurdescritèrespartagésparlacommunautéscientifiquepourévaluerl’intelligenced’uncomportement.Ennousinspirantdeméthodesutiliséesenéthologiepourévaluerl’intelligenceanimale(e.g.,MartinetBateson,1993),noussuggéronsdeproduiredesdémonstrationsdecomportementsintelligentsbaséssurlestracesd’activitédel’agent.Unetraced’activitéestunfluxdedonnéesreprésentantl’activitédel’agent

23

(e.g.,Figure5etFigure7)quipermetàunobservateurhumaindejugerduniveaud’intelligencedescomportements.Nousgardonsl’idéeproposéeparTuring(1950)d’uneévaluationbaséesurlejugementd’observateurshumains,pourproposercequenouspourrionsappeleruntestdeTuringdescomportements.UnagentartificielréussiraituntestdeTuringdescomportementssiungrouped’observateurs(pouvantéventuellementinteragiravecl’agent)s’avéraitincapabledediresilestracesontétégénéréesparl’agentouparunanimal.Enimaginantcegenredetestsintermédiaires,nousespéronsfavoriserunerechercheincrémentalequipasseraitparl’implémentationdedifférentsniveauxd’intelligencesensorimotricepourprogresserversl’implémentationd’uneintelligenceartificiellecapabledemanipulerunlangagequiseraitancrédansl’expériencedel’agent.

Cestravauxsoulèventdenombreusesquestionsquirestentàrésoudrepourprogresserdanslaconceptiond’agentsquiexhibentdescomportementsdeplusenplusintelligents.Cesquestionsincluent:commentcatégoriserdesphénomènesquioffrentcertainesexpériencesencommunmaisdiffèrentpard’autres,commentl’agentpeut-ilrévisersescatégoriesdephénomènes,commentpermettreàl’agentdecalibreretaffinerlalocalisationspatialedesesexpériences,commentapprendre,encoder,etsimulerdesrégularitésspatio-temporellescomplexes,commentétendrel’effetd’apprentissagerécursif(présentéenFigure2)aumodèleexpérientielspatial(présentéenFigure9)afindepermettrel’évolutionducouplagecognitifdanslecadredumodèleexpérientielspatial.

7 Références

AndersonM.(2003).Embodiedcognition:Afieldguide.ArtificialIntelligence,V,149,91–130.BrooksR.A.(1991).NewApproachestoRobotics.Science,V,253,1227–1232.BuzsákiG.(2013).Time,spaceandmemory.Nature,V,497,568-569.DeLoorP.,Manac’hK.,&TisseauJ.(2010).Enaction-BasedArtificialIntelligence:TowardCo-evolutionwithHumansintheLoop.MindsandMachine,V,19,319–343.

DreyfusH.(2007).WhyHeideggerianAIfailedandhowfixingitwouldrequiremakingitmoreHeideggerian.Artificialintelligence,V,171,1137–1160.

DrescherG.L.(1991).Made-upminds,aconstructivistapproachtoartificialintelligence.Cambridge,MA:MITPress.

EngelA.K.,MayeM.,KurthenM.,&KönigP.(2013).Where’stheaction?thepragmaticturnincognitivescience.TrendsinCognitiveSciences,V,17,202–209.

FroeseT.&ZiemkeT.(2009).Enactiveartificialintelligence:Investigatingthesystemicorganizationoflifeandmind.ArtificialIntelligence,V,173(3-4),466–500.

FindlayJ.,&GilchristI.(2003).ActiveVision:ThePsychologyofLookingandSeeing.USA:OxfordUniversityPress.

GayS.,MilleA.,GeorgeonO.,DutechA.(àparaitre).Autonomousconstructionandexploitationofaspatialmemorybyaself-motivatedagent.CognitiveSystemsResearch.

GarnierJ.,GeorgeonO.,&CordierA.(2013).Inferringactionsandobservationsfrominteractions.ProceedingsoftheGoalDrivenAutonomyWorkshop(GDA)atAdvancedCognitiveSystems(ACS2013),Baltimore(pp.26–35).

GeorgeonO.,MarshallJ.,&GayS.(2012).Interactionalmotivationinartificialsystems:betweenextrinsicandintrinsicmotivation.ProceedingsoftheSecondInternationalConferenceon

24

DevelopmentandLearningandonEpigeneticRobotics(ICDL-EPIROB2012),SanDiego(pp.1-2).

GeorgeonO.&AhaD.(2013).TheRadicalInteractionismConceptualCommitment.JournalofArtificialGeneralIntelligence,V,4(2),31–36.

GeorgeonO.&RitterF.(2012).Anintrinsically-motivatedschemamechanismtomodelandsimulateemergentcognition.CognitiveSystemsResearch,V,15-16,73–92.

GeorgeonO.&MarshallJ.(2013).Demonstratingsensemakingemergenceinartificialagents:Amethodandanexample.InternationalJournalofMachineConsciousness,V,5(2),131–144.

GeorgeonO.,MarshallJ.,&ManzottiR.(2013).ECA:Anenactivistcognitivearchitecturebasedonsensorimotormodeling.BiologicallyInspiredCognitiveArchitectures,V,6,46–57.

GeorgeonO.,WolfC.,&GayS.(2013).AnEnactiveApproachtoAutonomousAgentandRobotLearning.ProceedingsoftheThirdJointInternationalConferenceonDevelopmentandLearningandonEpigeneticRobotics,Osaka(pp.1–6).

GeorgeonO.&CordierA.(2014).Invertingtheinteractioncycletomodelembodiedagents.ProcediaComputerScience,V,41,243–248.ProceedingsofthetheFifthinternationalconferenceonBiologicallyInspiredCognitiveArchitecture,Boston,MA.

GeorgeonO.,BernardF.,&CordierA.(2015).ConstructingPhenomenalKnowledgeinanUnknownNoumenalReality.ProcediaComputerScience,V,71,11–16.ProceedingsoftheSixthintenationalconferenceonBiologicallyInspiredCognitiveArchitectures,Lyon,France.

GibsonJ.(1977).Thetheoryofaffordances.InR.E.Shaw&J.Bransford(éds.),Perceiving,acting,andknowing.Hillsdale,NJ:LawrenceErlbaumAssociates.

GrossC.&GrazianoM.(1995).Multiplerepresentationsofspaceinthebrain.TheNeuroscientist,V,1(1),43–50.

HesslowG.(2002).Consciousthoughtassimulationofbehaviorandperception.TrendsinCognitiveSciences,V,6(6),242–247.

HumeD.(1739).Atreatiseofhumannature.OxfordUniversityPress.HurleyS.(1998).Consciousnessinaction.Cambridge,MA:HarvardUniversityPress.JonasH.(1966).ThePhenomenonofLife:TowardaPhilosophicalBiology.Evanston,Illinois:NorthwesternUniversityPress.

Kant(1781).CritiqueofPureReason(KritikderreinenVernunft).LakoffG.,JohnsonM.(1999).PhilosophyintheFlesh:TheEmbodiedMindandItsChallengetoWesternThought.NewYork:BasicBooks.

LungarellaM.,MettaG.,PfeiferR.,&SandiniG.(2003).Developmentalrobotics:Asurvey.ConnectionScience,V,15(4),151–190.

MartinP.&BatesonP.(1993).Measuringbehavior,Anintroductoryguide.CambridgeUniversityPress.

MondadaF.,BonaniM.,RaemyX.,PughJ.,CianciC.,KlaptoczA.,MagnenatS.,ZuffereyJ.-C.,FloreanoD.,MartinoliA.(2009).Thee-puck,arobotdesignedforeducationinengineering.Proceedingsofthe9thConferenceonAutonomousRobotSystemsandCompetitions(pp.59–65).

NewellA.&SimonH.(1976).Computerscienceasempiricalinquiry:Symbolsandsearch.CommunicationsoftheACM,V,19(3),113–126.

O'ReganJ.K.,NoëA.(2001).Asensorimotoraccountofvisionandvisualconsciousness.BehavioralandBrainSciences,V,24,939–1031.

OudeyerP.-Y.,KaplanF.,&HafnerV.(2007).Intrinsicmotivationsystemsforautonomousmentaldevelopment.IEEETransactionsonEvolutionaryComputation,V,11(2),265–286.

PfeiferR.&Scheier,C.(1994).Fromperceptiontoaction:Therightdirection?InP.GaussierandJ.-D.Nicoud(éds.),FromPerceptiontoAction(pp.1–11).IEEEComputerSocietyPress.

25

Philipona D., O'Regan J.K., & Nadal J.-P. (2004). Perception of the structure of the physical world using unknown sensors and effectors. Advances in Neural Information Processing Systems, V, 16, 945–952.

Piaget J. (1951). The psychology of intelligence. London: Routledge and Kegan Paul. PierceD.&KuipersB.(1997).Maplearningwithuninterpretedsensorsandeffectors.ArtificialIntelligence,V,92,169–227.

RieglerA.(2007).Theradicalconstructivistdynamicsofcognition.In:B.Wallace(éd.)TheMind,theBodyandtheWorld:PsychologyAfterCognitivism?(pp.91–115).Imprint:London.

RussellS.,&NorvigP.(2003).ArtificialIntelligence,AModernApproach.PrenticeHall.Simondon G. (2007). L’individuation psychique et collective : à la lumière des notions de forme,

information, potentiel et métastabilite. Paris: Aubier. SteelsL.(2004).TheAutotelicPrinciple.InI.Fumiya,R.Pfeifer,L.Steels,&K.Kunyoshi(éds),EmbodiedArtificialIntelligence(pp.231-242),SpringerVerlag.

SunR.(2004).Desiderataforcognitivearchitectures.PhilosophicalPsychology,V,17(3),341–373.

Sutton R., Precup D., & Singh S. (1999). Between MDPs and semi- MDPs: A framework for temporal abstraction in reinforcement learning. Artificial Intelligence, V, 112, 181–211.

ThórissonK.,NivelE.,SanzR.,WangP.(2013).ApproachesandAssumptionsofSelf-ProgramminginAchievingArtificialGeneralIntelligence.JournalofArtificialGeneralIntelligence,V,3(3),1–10.

TuringA.(1950).Computingmachineryandintelligence.Mind,V,59(236),433–460.OxfordUniversityPress.

VanderAalstW.,VanDongenB.,HerbstJ.,MarusterL.,SchimmG.,&Wei-jtersA.(2003).Workflowmining:Asurveyofissuesandapproaches.Data&KnowledgeEngineering,V,47(2),237–267.

VarelaF.,ThompsonE.,&RoschE.(1991).Theembodiedmind:Cognitivescienceandhumanexperience.Cambridge:MITPress.

Weill-FassinaA.,RabardelP.,&DuboisD.(1993)Représentationspourl'action.Toulouse:Octares.

WhiteheadS.D.&BallardD.H.(1991).Learningtoperceiveandactbytrialanderror.MachineLearning,V,7(1),45–83.

ZwirnH.&DelahayeJ.-P.(2013)Unpredictabilityandcomputationalirreducibility.InH.Zenil(éd.),IrreducibilityandComputationalEquivalence:10YearsAfterWolfram'sANewKindofScience(Emergence,ComplexityandComputation)(pp.273–295).Springer.