強化学習 - cloud.aitc.jpcloud.aitc.jp/20180224_OpenLab/強化学習.pdf ·...

強化学習

本日お話しすること

Deep Q-Network

本日お話しすること

Deep Q-Network

強化学習

Chapter

Deep Q-Network 強化学習強化学習

前半後半

Chapter

前半後半

DQNで使われている技術

DQN 強化学習ニューラルネットワーク α

• Experience Replay • Target Q-Network • Clipping

後半 “Deep Q-Network” で説明

強化学習とは？ • エージェントが環境との相互作用を通して最適な方策を得る手法

環境

行動

観測

学習

エージェント

○ ○

強化学習とは？ • エージェントが環境との相互作用を通して最適な方策を得る手法

環境

行動

観測

学習

エージェント

○ ○

状態の観測

行動

学習

行動による状態変化

現在の状態を返す

教師あり学習では… •与えられた正解に基づいて学習

これは「1」

これは「7」

これは「5」

これは「3」

・・・

分類機学習

これは「1」

これは「7」

これは「5」

これは「3」

・・・

分類機

これは？

学習

これは「1」

これは「7」

これは「5」

これは「3」

・・・

分類機

これは？

学習

これは「5」

強化学習では •明確な正解が与えられない

与えられるのは

• 行動の選択肢 • 行動の良さの見込み

+1pt -1pt

正解ではない

行動の良さの見込みとは？ • (例) 迷路

• 何手か動かして正解がわかる

ゴール・・・

報酬+10 報酬0 報酬0 報酬0

良さ伝搬良さ伝搬良さ伝搬良さ伝搬

Q学習では良さはQ値と呼ばれ、下式で更新される

学習率 (主に0.1～1)

割引率 (主に0.9～0.99)

Q値の更新を眺めてみる

Qiita http://qiita.com/hogefugabar/items/74bed2851a84e978b61c

Youtube https://www.youtube.com/watch?v=-JXxYZ5HB8U

行動の種類

探索をしすぎると…

良い行動がわかっているのにその行動を選ばない

活用をしすぎると…

より良い行動に気付かない

バンディットアルゴリズム

探索と活用のトレードオフを解決

ε-greedy法 •確率εで活用、確率(1-ε)で探索をする

epsilon = 0.1 while True: x = random(0, 1) if epsilon > x: randomAction() else: bestAction()

epsilon = 1 while True: x = random(0, 1) if epsilon > x: randomAction() else: bestAction() epsilon -= 0.0001

DQNでよく使われるパターン

Chapter

前半後半

Deep Learningで何が変わったのか • ざっくりいうと、”特徴量を細かく設定する必要がなくなった”

特徴抽出 • 特徴抽出器 • 人手設計

学習器

Deep Learning

生データ答え

従来手法

Deep Learning

ニューラルネットワーク • A Neural Network Playground

A Neural Network Playground http://playground.tensorflow.org/

なにがすごい？ •世界の仕組みを細かく教えなくてよい

エージェント

○ ○

• ボールが落ちたら-1 • ブロックを崩したら+1 • それ以外の状態は0

このあたりだけ注目しておけば大丈夫だ！

Experience Replayのイメージ •経験(状態、行動、報酬、遷移)をメモリーに蓄積し、メモリーからランダムサンプリングして学習する

メモリー

経験1

エージェント

メモリー

経験1 経験1

経験2

エージェント

メモリー

経験1

経験2

経験1

経験2

経験3

エージェント

メモリー

学習ランダムサンプリング

経験1

経験2

経験3

経験1

経験2

経験3

エージェント

Experience Replayで何がうれしいか? •バッチ学習となっている

経験する順番の影響が小さく

安定した学習が期待できる

Experience Replayで何がうれしいか? •バッチ学習となっている

経験する順番の影響が小さく

安定した学習が期待できる

A B C B A C

学習結果学習結果

逐次学習の場合

Target Q-Networkのイメージ •予測のQ関数(ネットワーク)と目的のQ関数(ネットワーク)を別々に作り、一定間隔で同期する。

デ｜タ

入力データは同じ

正解

予測

デ｜タ

別々のニューラルネットワークただし一定周期で同期する

正解

予測

デ｜タ

正解

学習

予測

なぜTarget Q-Networkが必要か • 1つのネットワークで学習を行った場合、価値関数の更新で方策がコロコロ変わってしまう

デ｜タ

正解

予測

なぜTarget Q-Networkが必要か • 1つのネットワークで学習を行った場合、価値関数の更新で方策がコロコロ変わってしまう

デ｜タ

正解

予測

1つ前の重みに依存

Clipping •報酬のClipping

• Atariなどのゲームは種類によって報酬(スコアのレンジ)が+1や+20などまちまちなので、報酬が負だったら-1、正だったら1、0はそのままにする。

• 汎用性が高くなる。

• 報酬の大小を区別できなくなるデメリットもある。

よくある勘違い • エージェントは環境の変化に対応する

• 経験の範囲で環境の変化に対応する(⇒十分な経験が必要)

• Q値=報酬 • 報酬は状態(結果)の良さ、Q値はとる行動の良さ

• Experience Replayは過去の経験を繰り返し学習することで少ない経験でも高い精度を得ることができる工夫である • バッチ学習による安定した学習のため

強化学習 - cloud.aitc.jpcloud.aitc.jp/20180224_OpenLab/強化学習.pdf ·...

Documents

Transcript of 強化学習 - cloud.aitc.jpcloud.aitc.jp/20180224_OpenLab/強化学習.pdf ·...

人材力強化のためのETSS - IPApage 1 人材力強化のためのETSS入門 ー技術とスキルを動的に捉えるスキル標準ETSSの構造とはー IPA/SEC リサーチフェロー

iOS 9 ビジネス向け機能強化ポイント解説 - i³ Systems · 2015-11-25 · 1. iOS 9 のビジネス向け機能強化一覧 5 iOS 9 では、以下一覧のように、ビジネス向けに多種多様な機能強化が行われました。

BeWell-Booklet Combined CHINESE-v6.pdf Comb… · • 解決社區內的飢餓問題 • 支持養成終身健康的飲食習慣 • 提高學生的學習成績 • 加強社區跨文化交流

ホイールローダ - Hitachi Kenki...Nモード L・Sモード 高 高 4 5 新強化型エンジン 高出力化に対応するために強化された新エ ンジンを搭載。耐久性の向上と振動の低減

強化顧客關係管理增加經營效益 - cnfi.org.t · 強化顧客關係管理增加經營效益 講師：林漢明 大仁科技大學餐旅系主任

2016 年3 月 非賣品 - cys.org.hk · 靜觀(Mindfulness)與大腦健康 研究指出: 1. 靜觀練習能強化身體覺知，活化前額葉活動(提升專注力、強化記憶力等

PowerPoint 簡報 · 2019-02-12 · 策略： 全面建構人文學習環境 全力推動產業化、e 化、國際化 方法： 推動 教學品保 系統

Microsoft® Office 2013...7 互換性への対応強化 新しい Office は、互換性への対応を大きく強化しました。 クイック実行による新旧バージョンの共存

公部門數位學習應用趨勢 - dgpa.gov.tw · 專輯 34 2011.08.16 第52卷第8期 312 公部門數位學習應用趨勢 壹 前言 公務人力資源發展係指透過強化公務

New 新学習指導要領への 対応について - Niiza · 2019. 12. 17. · 1 学習指導要領改訂の背景 情報化やグローバル化など、急激な社会の変化の

Evolution ofEIectronicCommerceSystemforDistributionlndustry · 非関税障壁の改善 消費者保護の強化 労働環境の改善 環境規制の強化 技術の変化 情報基盤の整備と発展

ERPのインフラをHitachi Cloudへ移行 BCP対策の強化とコス …...SAP® ERPのインフラをHitachi Cloudへ移行 BCP対策の強化とコストの平準化を実現

ネットワーク ディスカバリの強化 - Cisco...42-2 FireSIGHT システム ユーザ ガイド 第 42 章 ネットワーク ディスカバリの強化 検出戦略の評価

New プロメンテ （オプション）...450mmグローサシュー 600mmグローサシュー 450mm一体式ゴムシュー 450mm強化型分割式ゴムクローラー ロワーアンダーカバー

2014年度通期決算説明会 - LawsonSCM 改革 既存店ネヺデ強化 新FC 契約前倒し 毎日食べるもの、 毎日使うもの 安全、安心な野菜 住宅立地強化

屏山文化遺產與傳統習俗之旅 - ymca.org.hkymca.org.hk/eshl/attachment/download/1452826179NjOCf.pdf · 屏山文化遺產與傳統習俗之旅 延伸閱讀 國家級「非遺」考察

淺談應用系統開發之安全強化 - FISC...16 財金資訊季刊 / No.88 / 2017.03 本期企劃〡淺談應用系統開發之安全強化 化( Tokenization )、資料遮罩(

2006.03.16 第1回LIDS勉強会 TOMOYO Linux - OSDN · 2006.03.16 第1回LIDS勉強会 TOMOYO Linux ～デモ編～ TOMOYO Linuxが得意とする「アクセス許可 の自動学習」と、TOMOYO

GLASS 355テンパックス強化ガラス 耐熱温度 常用使用温度：260 最高使用温度：290 テンパックスに強化処理（焼入れ処理）を施すことにより、未強化品に比べ耐圧強度、熱衝撃性が2倍程度高くなります。

多層NNの教師なし学習 コンピュータビジョン勉強会＠関東 2014/5/26

人材力強化のためのETSS - IPApage 1 人材力強化のためのETSS入門ー技術とスキルを動的に捉えるスキル標準ETSSの構造とはー IPA/SEC リサーチフェロー

ホイールローダ - Hitachi Kenki...Nモード L・Sモード高高 4 5 新強化型エンジン高出力化に対応するために強化された新エンジンを搭載。耐久性の向上と振動の低減

強化顧客關係管理增加經營效益 - cnfi.org.t · 強化顧客關係管理增加經營效益講師：林漢明大仁科技大學餐旅系主任

2016 年3 月非賣品 - cys.org.hk · 靜觀(Mindfulness)與大腦健康研究指出: 1. 靜觀練習能強化身體覺知，活化前額葉活動(提升專注力、強化記憶力等

PowerPoint 簡報 · 2019-02-12 · 策略：全面建構人文學習環境全力推動產業化、e 化、國際化方法：推動教學品保系統

Microsoft® Office 2013...7 互換性への対応強化新しい Office は、互換性への対応を大きく強化しました。クイック実行による新旧バージョンの共存

公部門數位學習應用趨勢 - dgpa.gov.tw · 專輯 34 2011.08.16 第52卷第8期 312 公部門數位學習應用趨勢壹前言公務人力資源發展係指透過強化公務

New 新学習指導要領への対応について - Niiza · 2019. 12. 17. · 1 学習指導要領改訂の背景情報化やグローバル化など、急激な社会の変化の

Evolution ofEIectronicCommerceSystemforDistributionlndustry · 非関税障壁の改善消費者保護の強化労働環境の改善環境規制の強化技術の変化情報基盤の整備と発展

ネットワークディスカバリの強化 - Cisco...42-2 FireSIGHT システムユーザガイド第 42 章ネットワークディスカバリの強化検出戦略の評価

New プロメンテ（オプション）...450mmグローサシュー 600mmグローサシュー 450mm一体式ゴムシュー 450mm強化型分割式ゴムクローラーロワーアンダーカバー

2014年度通期決算説明会 - LawsonSCM 改革既存店ネヺデ強化新FC 契約前倒し毎日食べるもの、毎日使うもの安全、安心な野菜住宅立地強化

屏山文化遺產與傳統習俗之旅 - ymca.org.hkymca.org.hk/eshl/attachment/download/1452826179NjOCf.pdf · 屏山文化遺產與傳統習俗之旅延伸閱讀國家級「非遺」考察

淺談應用系統開發之安全強化 - FISC...16 財金資訊季刊 / No.88 / 2017.03 本期企劃〡淺談應用系統開發之安全強化化( Tokenization )、資料遮罩(

2006.03.16 第1回LIDS勉強会 TOMOYO Linux - OSDN · 2006.03.16 第1回LIDS勉強会 TOMOYO Linux ～デモ編～ TOMOYO Linuxが得意とする「アクセス許可の自動学習」と、TOMOYO

GLASS 355テンパックス強化ガラス耐熱温度常用使用温度：260 最高使用温度：290 テンパックスに強化処理（焼入れ処理）を施すことにより、未強化品に比べ耐圧強度、熱衝撃性が2倍程度高くなります。

多層NNの教師なし学習コンピュータビジョン勉強会＠関東 2014/5/26