A reinforcement learning scheme for a multi-agent card game: het leren van een POMDP

A reinforcement learning schemefor a multi-agent card game:het leren van een POMDP

Hajime Fujita, Yoichiro Matsuno, and Shin Ishii1. Nara Institute of Science and Technology2. Ricoh Co. Ltd.3. CREST, Japan Science and Technology Corporation

Met aanpassingen door L. Schomaker tbv KI2

1 2 1,3

23/04/19 2003 IEEE International Conference on SMC 2

Contents Introduction Preparation

Card game “Hearts” Outline of our RL scheme

Proposed method State transition on the observation

state Mean-field approximation Action control Action predictor

Computer simulation results Summary

Background Games are well-defined test-beds for studying reinforce

ment learning (RL) schemes in various multi-agent environments

Black Jack (A.Perez-Uribe and A.Sanchez, 1998) Othello (T.Yoshioka, S.Ishii and M.Ito, 1999) Backgammon (G.Tesauro, 1994) ook: het spel GO, afstudeerproject Reindert-Jan Ekker

Completely observable problems

Background Games are well-defined test-beds for studying reinforce

ment learning (RL) schemes in various multi-agent environments

Black Jack (A.Perez-Uribe and A.Sanchez, 1998) Othello (T.Yoshioka, S.Ishii and M.Ito, 1999) Backgammon (G.Tesauro, 1994)

What about partially observable problems? estimate missing information? predict environmental behaviors?

Completely observable problems

Research field: Reinf. Learning RL scheme applicable to a multi-agent environment which

is partially observablepartially observable The card game “Hearts” (Hartenjagen)

Multi-agent (four players) environment Objective is well-defined

Partially Observable Markov Decision Process (POMDP) Cards in opponents’ hands are unobservable

Realistic problem Huge state space Number of unobservable variables is large. Competitive game with four agents

Challenging study

Card game “Hearts” Hearts is a 4-player game (multi-agent

environment). Each player has 13 cards at the beginning of the

game (partially observable) Each player plays a card clock-wise Particular cards have penalty points

Object : to score as few points as possible. Players must contrive strategies to avoid these

penalty cards (competitive situation)

13 penalty points 1 penalty point

Outline of learning scheme Agent (player) predicts opponents’ actions using

acquired environmental model

The next player will probably not discard a spade. So my best action

is …

Computable by brute force?

is …

Computable by brute force? No! size of search space

unknown utility of actions unknown opponent strategies

is …

Outline of Reinf. Learning scheme Agent (player) predicts opponents’ actions using

Predicted using acquired environmental model

is …

Outline of our RL scheme Agent (player) predicts opponents’ actions using

Predicted using acquired environmental model

.. (how?).. estimate unobservable part, reinforcement learning, simulated game training

is …

Proposed method

State transition on the observation state Mean-field approximation Action control Action predictor

State transition on the observation state

State transition on the observation state in the game can be calculated by:

321 ),,(

11 ),,,|(),|(),,,|(

tttttt Saaa ii

Ssttttt KHxaPKHsPKHaxP

),,,|( 1 KHaxP ttt

x observation (cards in hand+cards on table)a action (card to be played)s state (all observable and onobservable cards)Ф strategies of each of the opponents Ht history of all x and a until time tK knowledge of the game

Voorbeelden a: “harten-2 opgooien” s:

[niet observeerbaar deel] Oost heeft kaarten u,v,w,…,z West heeft kaarten a,b,… Noord heeft kaarten r,s,…

[observeerbaar deel= x] Ik heb kaarten f,g,… op tafel liggen kaarten k,l,…

Ht: {{s0,a0}west,{s1,a1}noord

,…,{st,at}oost }

321 ),,(

11 ),,,|(),|(),,,|(

tttttt Saaa it

De kans op een bepaalde hand en uitgegooide kaarten op t+1 is:het produkt van de {som van de kans op alle mogelijke kaartverdelingen gegeven de historie op t en spelkennis K} met de {som van de producten van de kansen op alle mogelijke acties voor opponenten 1-3, gegeven elk hun strategie en de historie)

321 ),,(

11 ),,,|(),|(),,,|(

tttttt Saaa it

De kans op een bepaalde hand en uitgegooide kaarten op t+1 is:het produkt van de {som van de kans op alle mogelijke kaartverdelingen gegeven de historie op t en spelkennis K} met de {som van de producten van de kansen op alle mogelijke acties voor opponenten 1-3, gegeven elk hun strategie en de historie)

State transition on the observation state can be calculated by:

Calculation is intractable Hearts has very huge state space. About states !2710

Need approximation

321 ),,(

11 ),,,|(),|(),,,|(

tttttt Saaa ii

Summation of all states … (?)….

State transition on the observation state about game of Hearts can be calculated by:

Calculation is intractable Hearts has very huge state space. About states ! 2710

Need approximation

321 ),,(

11 ),,,|(),|(),,,|(

tttttt Saaa ii

Summation of all states … (?)….aantal manieren om 52 kaarten over 4 spelers te verdelen zodat elk 13 kaarten heeft

Mean-field approximation Calculate mean estimated observation state for the oppon

ent agent.

Een geschatte observatietoestand voor een opponent i is een gewogen som van de kans op observaties xt, gegeven een actie, een historie (en spelkennis K)

de (deel)kansen worden bekend gedurende het spel

it KHaxPyKHay ),,|(),,(ˆ

Mean-field approximation Calculate mean estimated observation state for

the opponent agent.

Transition probability is approximated as

321 ),,(

11 ),,,|(),|(),,,|(

tttttt Saaa ii

321 ),,(

11 )ˆ),,,(ˆ|(),,,|(

tttt Saaa i

itttt KHayaPKHaxP

mean observation state

Mean-field approximation Calculate mean estimated observation state for

the opponent agent.

Transition probability is approximated as

zodat de kansverdeling van de voorwaardelijke kans op een actie door opponent i kan worden bepaald, dwz: gegeven diens geschatte “unobservable state”

321 ),,(

11 )ˆ),,,(ˆ|(),,,|(

tttt Saaa i

itttt KHayaPKHaxP

mean observation state

Action control: TD Reinforcement Learning

An action is selected based on the expected TD error

Using the expected TD error, action selection probability is given by

)()()( 11 ttttttt xVaxVaxRa

)(),,,|()( 111

txtttttt xfKHaxPaxf

)exp()|(

Action prediction

We use a function approximator (NGnet) for the utility function which is likely to be non-linear

Function approximators can be trained by using past games

321 ),,(

11 )ˆ),,,(ˆ|(),,,|(

tttt Saaa i

itttt KHayaPKHaxP

TaKHayU

TaKHayUKHayaP

))),,,(ˆ(exp(

))),,,(ˆ(exp()),,,(ˆ|(

Summary of proposed method

RL scheme based on Estimation of unobservable state variables Prediction of opponent agents’ actions

・・・

・・・・・・

・・・

)ˆ),,,(ˆ|( itt

it KHayaP

Estimation of unobservable state variables by mean-field approximation Learning agent determines its action based on prediction by environmental behaviors

Computer simulations

Rule-based agent Single agent learning in a stationary

environment Learning by multiple agents in a multi-agent

environment

Computer simulations Three experiments to evaluate learning agent by using a ru

le-based agent Single agent learning in a stationary environment

(A) learning agent, rule-based agent x3 Learning by multiple agents in a multi-agent environment

(B) learning agent, actor-critic agent, rule-based agent x2 (C) learning agent x2, rule-based agent x2

A rule-based agent has more than 50 rules, and it is an “experienced” level Hearts player.

Proposed RL agent

Rule-based agent x3

Number of games

better player

23/04/19 2003 IEEE International Conference on SMC 29Number of games

Proposed RL agent

Rule-based agent x2

Actor-critic agent

better player

Number of games

Rule-based agent x2

Proposed RL agent x2

better player

Summary We proposed a RL scheme for making an

autonomous learning agent that plays the multi-player card game “Hearts”.

Our RL agent estimates unobservable state variables using mean-field approximation, learns and predicts environmental behaviors.

Computer simulations showed our method is applicable to a realistic multi-agent problem.

NAra Institute of Science and Technology (NAIST)Hajime FUJITA

hajime-f@is.aist-nara.ac.jphttp://hawaii.aist-nara.ac.jp/~hajime-f/

A reinforcement learning scheme for a multi-agent card game: het leren van een POMDP

Documents

Transcript of A reinforcement learning scheme for a multi-agent card game: het leren van een POMDP

Leren met ict - Het digitaliseren van leren - Jurgen Marechal, OSH 2015

Cursus Motorisch Leren

WEDERKERIG LEREN onderzoek naar georganiseerde ... · PDF fileWEDERKERIG LEREN onderzoek naar georganiseerde leerondersteuning voor mensen met een verstandelijke beperking en professionals

Curriculum ontwerp: het Overbruggen van het “Gat” tussen ... · competentiegericht leren delen een constructivistische visie op leren gebaseerd op het idee dat de lerende actief

ERASMUS+:YIA - BAisb.colo.ba.be/doc/Pres/TD2016/TSP16_08_EUenSport_JINT.pdf · leren kennen door middel van activiteiten (kan sport zijn) • Zenden van een groep Vlaamse jongeren

Personalized Robot Tutoring using the Assistive Tutor POMDP … · 2019-12-20 · Personalized Robot Tutoring using the Assistive Tutor POMDP (AT-POMDP) Aditi Ramachandran*, Sarah

Eindrapportage vZnS Het Oog van de Meester...Voor een positief effect van de observaties is een open, op leren gerichte cultuur nodig en feedback gericht op het verbeteren van vaardigheden

De Meerwaarde van Tussentijdse Reflectie tijdens het Leren met … · 2017-09-04 · De Meerwaarde van Tussentijdse Reflectie tijdens het Leren met een Logistieke Simulator 4 Summary

Met het oog op het leren van rekenen-wiskunde in het digitale … · 2009-03-16 · Ik geef hiervan een voorbeeld van buiten de wiskunde. Laten we daarvoor kijken naar een van de

Symbolic Perseus: a Generic POMDP Algorithm with ...ppoupart/publications/...2 Outline • Dynamic Pricing as a POMDP • Symbolic Perseus – Generic POMDP solver – Point-based

Leren lezen : behoefte aan hulp van buitenaf? · direate correatie van zelfstandig geproduaeerde antwoorden. LEREN LEZEN EN LEESMETHODEN Slechts een enkeling is in staat zichzelf

Leren in Eindhoven 2030...door innovatie in onderwijs in de breedste betekenis. Een van de speerpunten van de gemeente Eindhoven in 2013 is ‘innovatie en educatie’. Dit is een

University of Groningen Leren is ondernemen – Draagvlak ...€¦ · heeft en over welke ondernemerschapskwaliteiten een student beschikt, kan hij/zij het 1 De verwachting is dat

Wil je Nederlands leren? Wil je een inburgeringscursus...Wil je Nederlands leren? Wil je een inburgeringscursus volgen? Londerzeel Meise Merchtem Opwijk Grimbergen Zemst Boort-meerbeek

Approximate POMDP Algorithms

Denken en gewoon doen. Leren is eerder het vuur aansteken dan een emmer vullen.

POMDP Seminar Backup3

UvA-DARE (Digital Academic Repository) Leren vooruitspelen ... · patiënten, ook een plek in een complex- dynamische ‘buitenwereld’. Het is een voortdurend veranderend extern

‘Het verhaal achter de cijfers’ - Leren Zichtbaar Maken · In deze workshop krijg je een korte uitleg van de SOLO taxonomie. Dan duiken we de praktijk in: we bereiden een les,

Leren van Educatieve Games door Feedbackessay.utwente.nl/64023/1/Elshoff,_I.G.M._-_s1011235...voor educatieve games dat gamen een zeer populaire vrijetijdsbesteding is, er groeiende