Efficient Policy Gradient Optimization/Learning of Feedback Controllers Chris Atkeson.

Efficient Policy GradientOptimization/Learning of Feedback

Controllers

Chris Atkeson

Punchlines

• Optimize and learn policies. Switch from “value iteration” to “policy

iteration”.• This is a big switch from optimizing and

learning value functions.• Use gradient-based policy optimization.

Motivations

• Efficiently design nonlinear policies• Make policy-gradient reinforcement

learning practical.

Model-Based Policy Optimization• Simulate policy u = π(x,p) from some initial

states x0 to find policy cost.• Use favorite local or global optimizer to

optimize simulated policy cost.• If gradients are used, they are typically

numerically estimated.• Δp = -ε ∑x0w(x0)Vp 1st order gradient

• Δp = -(∑x0w(x0)Vpp)-1 ∑x0w(x0)Vp 2nd order

Can we make model-based policy gradient more efficient?

Analytic Gradients• Deterministic policy: u = π(x,p) • Policy Iteration (Bellman Equation): Vk-1(x,p) = L(x,π(x,p)) + V(f(x,π(x,p)),p)• Linear models: f(x,u) = f0 + fxΔx + fuΔu

L(x,u) = L0 + LxΔx + LuΔu

π(x,p) = π0 + πxΔx + πpΔp

V(x,p) = V0 + VxΔx + VpΔp• Policy Gradient: Vx

k-1 = Lx + Luπx + Vx(fx + fuπx)

Vpk-1 = (Lu + Vxfu)πp + Vp

Handling Constraints

• Lagrange multiplier approach, with constraint violation value function.

Vpp: Second Order Models

Regularization

LQBR: Linear (dynamics) Quadratic (cost) Bilinear (policy) Regulator

Timing Test

Antecedents

• Optimizing control “parameters” in DDP: Dyer and McReynolds 1970.

• Optimal output feedback design (1960s-1970s)

• Multiple model adaptive control (MMAC)• Policy gradient reinforcement learning• Adaptive critics, Werbos: HDP, DHP, GDHP,

ADHDP, ADDHP

When Will LQBR Work?

• Initial stabilizing policy is known (“output stabilizable”)

• Luu is positive definite.

• Lxx is positive semi-definite and (sqrt(Lxx),Fx) is detectable.

• Measurement matrix C has full row rank.

Locally Linear Policies

Local Policies

Cost Of One Gradient Calculation

Continuous Time

Other Issues

• Model Following• Stochastic Plants• Receding Horizon Control/MPC• Adaptive RHC/MPC• Combine with Dynamic Programming• Dynamic Policies -> Learn State Estimator

Optimize Policies

• Policy Iteration, with gradient-based policy improvement step.

• Analytic gradients are easy.• Non-overlapping sub-policies make second

order gradient calculations fast.• Big problem: How choose policy structure?

Efficient Policy Gradient Optimization/Learning of Feedback Controllers Chris Atkeson.

Documents

Transcript of Efficient Policy Gradient Optimization/Learning of Feedback Controllers Chris Atkeson.

refrigeration controllers - RESLUK.COMcarel.com controllers for refrigeration and retail refrigeration controllers easy cool & easy freeze electronic controllers for plug-in showcases

ACADEMIC and ADMINISTRATIVE APPOINTMENTSpolisci.unm.edu/people/faculty/profile/cvs/atkeson-cv-2019.pdf · Atkeson, Lonna Rae, R. Michael Alvarez, Andrew Sinclair, Thad E. Hall. 2014.

AtkesonCVcurrent - University of New Mexicoatkeson/assets/atkeson-cv-082114.pdf · 2016. 8. 25. · Title: AtkesonCVcurrent Author: Lonna Atkeson Created Date: 8/20/2014 10:27:02

Map Work: Relief, Gradient & Cross Section · 2018-09-09 · Gradient Example Gradient of slope A-B 1. Gradient = VERTICAL DIFFERENCE HORIZONTAL DISTANCE 2. Gradient = 900m-400m 2km

Ranking Policy Gradient - arXiv · Ranking Policy Gradient Ranking Policy Gradient Kaixiang Lin linkaixi@msu.edu DepartmentofComputerScienceandEngineering MichiganStateUniversity

A Dynamic Theory of Optimal Capital Structure and ...colehl/pdf/Atkeson-Cole.pdf · A Dynamic Theory of Optimal Capital Structure and Executive Compensation Andrew Atkeson University

Exponentiated Gradient versus Gradient Descent for Linear ...manfred/pubs/J36.pdf · Exponentiated Gradient versus Gradient Descent for Linear Predictors* Jyrki Kivinen-Department

Kevin Forbes Optimizing Flocking Controllers using Gradient Descent.

2020 EDITORIAL CALENDAR - Putman Media · Robotics Controllers & Systems programmable controllers, safety controllers embedded controls, loop controllers, power supplies, relays,

Gradient method - PKUbicmr.pku.edu.cn/~wenzw/opt2015/lect-gm.pdf · gradient method, line search subgradient, proximal gradient methods accelerated (proximal) gradient methods decomposition

Two options: 1) no pressure gradient; 2) pressure gradient

UCF REU: Weeks 1 & 2. Gradient Code Gradient Direction of the Gradient: Calculating theta.

a dynamic theory of optimal capital structure_.andrew atkeson

Ray Atkeson Photo Exhibit Graces Kimball Art Center

gradient 1 gradient 2 gradient 3 gradient 4 ECDIS buyers · PDF file11 Type-specific ECDIS training 11 Technical training 11 Where should training take place? ... gradient 1 gradient

gradient 1 gradient 2 gradient 3 gradient 4 ECDIS … Buyers Guide v2 0 19...ECDIS buyers guide gradient 1 gradient 2 gradient 3 gradient 4 gradient 1 gradient 2 gradient 3 gradient

· 1 Standard controllers – Standalone heating controllers – Communicating heating controllers – Standalone district heating controllers – Communicating district heating

CompactLogix Controllers Specifications - Elit · CompactLogix Controllers Specifications CompactLogix 5370 Controllers CompactLogix 5370 controllers provide scalable controller soluti

Fuji Integrated Controllers Programmable Controllers

Tuning for PID Controllers - Faculty Web Server …faculty.mercer.edu/jenkins_he/documents/TuningforPIDControllers.pdfTuning for PID Controllers . PID Controllers • PID Controllers