Decision generalisation from game logs in no limit

Post on 27-Jun-2015

67 views 2 download

Tags:

Transcript of Decision generalisation from game logs in no limit

Decision Generalisation from Game Logs in No Limit Texas Hold’em (2013, IJCAI)

Jonathan Rubin and IanWatson

東京大学工学系研究科システム創成学専攻大橋・鳥海研究室

梶原健吾とりらぼ輪読会

背景• 2008 年,リミット・テキサスホールデムで 人間 vs ポーカー AI(Polaris) Polaris⇒ の勝利

• 研究対象:リミット⇒ノーリミット– ノーリミットはベット額の上限無し– AAAI or IJCAI で毎年ノーリミットのエージェン

ト大会が開催

背景• ノーリミットでは勝てない– リミット:取りうる行動が fold,call,raise のみ– ノーリミット:レイズ額を指定可能⇒行動の

多様性

• 本論文は 2012 年の大会にて 5 位に入賞したエージェントに用いた理論の紹介である.

本エージェントの主な特徴• Case-base の学習– 過去に行われたゲームから事例の抽出

• 行動の抽象化 (action abstraction)– 無数に存在するベット額⇒離散的に捉える

• 抽象⇔具体 の変換 (translation)– 実際のベット⇒ Abstract action

Case-base の構築• 過去のゲームから特徴を抽出

Action Abstraction の説明• ノーリミット:レイズ額が自由 →そのままだと case-base が膨大

• 行動を 10 種類に抽象化– フォールド– コール– 額の異なるレイズ (8 種類 )• ポットの 1/4, 1/2, 3/4, 1, 2, 5, 10 倍とオールイン

Translation の説明• 実際のベットから Abstract action へ変換

• 2 種類の変換方法– ハードトランスレーション– ソフトトランスレーション

ハードトランスレーション• 同じベット⇒必ず同じ Abstract action に変換– ポットの 3 倍のベット⇒ポットの 2 倍のベット

へ変換

• 相手にベット額をコントロールされ得る

      b: 実際のベット      a, c : Abstract action (a < b < c)

ソフトトランスレーション• 確率的に Abstrac t action に変換– ポットの 3 倍のベット  ⇒ 4/7 の確率でポットの 2 倍に変換     3/7 の確率でポットの 5 倍に変換

各 Translation の用途• Case-base の構築時– ハードトランスレーションを使用– 学習用のデータ⇒操られる心配無し

• 実際の対戦時– ソフトトランスレーションを使用– 観測する行動を確率的に変化させる

状況の類似度• 現状は case-base のどの case に近いか

• Hand Strength Bucket, Stack Commitment, Betting Sequence, Board Texture, それぞれの類似度の合計で評価

Hand Strength Bucket の類似度• ハンドの強さを [1, T] で表し,その差分で

類似度を表す

– f1,f2 :ハンドの強さ– k :定数– T=50

Stack Commitment の類似度• Stack Commitment を [1, N] で表し,その差

分で類似度を表す

– f1, f2 : Stack Commitment– N=4

Betting Sequence の類似度• Fold, call, raise の 3 種類の並びが同じもの• 8 つのレイズを 1,2,…,8 で表し,類似度を計

– S1,i ,S2,j :各レイズを表す自然数 (1~8)– α :定数

Board Texture の類似度• 説明無し

行動の決定• Case-base Abstract action⇒– ( 詳しい手法は説明無し… )

• Abstract action⇒ 実際のベット– 誤差項を付け加えてベット

結論• 複雑な不完全情報ゲームにおいて扱う

データを抽象化  ⇒過去のプレイを元にプレイすることが可能

• ポーカーの AI の大会 (ACPC) にて, 5 位入賞

感想• トランスレーションと類似度の考え方は人狼にも

応用出来るかも?– 人狼の場合は確率的にプレイヤーを選択しても,論理

だった嘘はつけない.嘘のシナリオを確率的に選択するとか.

• プレイヤー個人の性質を無視していいのか– 初めてオールインした相手と,毎回オールインしてる相

手を同じ扱い?

• 5 位入賞…と言いつつ参加者 11 人.微妙な