Download - Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Transcript

Page 1: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models

Kurtland Chua, Roberto Calandra, Rowan McAllister, Sergey LevineUniversity of California, Berkeley

Page 2: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

How Long Does Learning Take?

~800,000 grasp

attempts

~21 million games

~50 million frames

[Mnih et al. 2015]

[Silver et al. 2017]

[Levine et al. 2017]

Page 3: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Can we speed this up?

Page 4: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Model-Based Reinforcement Learning

OptimizePolicy

ExecutePolicy

Train Dynamics Model

Page 5: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Comparative Performance on HalfCheetah

Page 6: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Comparative Performance on HalfCheetah

Page 7: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Deterministic Neural Nets as Models

Page 8: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Deterministic Neural Nets as Models

Page 9: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Deterministic Neural Nets as Models

Page 10: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Deterministic Neural Nets as Models

Page 11: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Deterministic Neural Nets as Models

Page 12: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Probabilistic Neural Nets as Models

Page 13: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Probabilistic Ensembles as Models

Page 14: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Probabilistic Ensembles as Models

Page 15: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 16: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 17: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 18: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 19: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 20: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 21: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 22: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 23: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 24: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 25: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Experimental Results

Page 26: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

https://github.com/kchua/handful-of-trialshttps://sites.google.com/view/drl-in-a-handful-of-trials

Code:Website:

Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models

Kurtland Chua Roberto Calandra Rowan McAllister Sergey Levine

Data efficientCompetitive asymptotic

performanceEasy to implement

Poster #165

Top Related

Jane Passy a Handful of Sounds

Jane Passy a Handful of Sounds

a mighty handful - full score

a mighty handful - full score

A Handful of Hell (Book Preview)

A Handful of Hell (Book Preview)

A Handful of Coins - 1

A Handful of Coins - 1

Schedules of reinforcement. Schedules of Reinforcement Continuous reinforcement refers to reinforcement being administered to each instance of a response.

Schedules of reinforcement. Schedules of Reinforcement Continuous reinforcement refers to reinforcement being administered to each instance of a response.

Inverse Reinforcement Learning CS885 Reinforcement ...

Inverse Reinforcement Learning CS885 Reinforcement ...

Deep Reinforcement Learning in a Handful of Trials using ...€¦ · smooth dynamics that are often present in robotics [Fu et al., 2016, Mordatch et al., 2016, Nagabandi et al.,

Deep Reinforcement Learning in a Handful of Trials using ...€¦ · smooth dynamics that are often present in robotics [Fu et al., 2016, Mordatch et al., 2016, Nagabandi et al.,

Guide to Historical Reinforcement - SRIA Concrete 2017 Historical Reinforcement... · Guide to Historical Reinforcement ... reinforcement material properties to use when checking

Guide to Historical Reinforcement - SRIA Concrete 2017 Historical Reinforcement... · Guide to Historical Reinforcement ... reinforcement material properties to use when checking

Languages

Pages

Legal

Copyright © 2022 FDOCUMENTS