TP 2: Situationsabhaengiges Verstaerkungslernen FNW/IBIO

TP 2: Situationsabhaengiges Verstaerkungslernen

FNW/IBIO

Jochen Braun, [email protected] Hamid, [email protected] Houtkamp, [email protected]

mailto:[email protected]



Experimenteller Teil:

Dokumentiere Verstaerkungslernen visuomotorischer Assoziationen

Dokumentiere Situationsabhaengigkeit

Korreliere Reizstatistik mit Lernerfolg

Visuelle Objekte

Fraktale Objekte sind

• unvertraut• einpraegsam• unterscheidbar

Motorische Assoziationen

Zwei motorische Antworten (links und rechts)

• keine Assoziationen mit Objekten

• Antwort durch Tastendruck

• Verstaerkung durch Farbaenderung (gruen fuer ‘richtig’, rot fuer ‘falsch’)

Erlernen Visuomotorischer Assoziationen

Experimenter defines two lists of (arbitrary) target objects: members of first list call for response a (e.g., top, left), members of second list for response B (e.g., bottom, right).

Naive subjects attempt to learn these associations by trial and error.

Situationsabhaengikeit A

Target and distractor objects reverse roles every 60 trials or so, necessitating relearning of visuomotor associations.

Retention of initial visuomotor associations becomes evident after second reversal.

Zielreize

Distraktor-reize

~60 Darbietungen

1st reversal 2nd reversal

Situationsabhaengigkeit B: Zeitliche Abfolge

0 1 1 1

1 0 1 1

1 1 0 0

1 1 1 0

1 1 1 0

2 1 0 0

0 1 0 2

0 0 2 1

Uebergaenge gleichverteilt

Keine Wiederholungen

Bestimmte Uebergaenge gehaeuft

Einige Wiederholungen

Unabhaengige Variablen

• Haeufung der Uebergaenge• Zahl der Wiederholungen

Abhaengige Variablen

• Lerngeschwindigkeit• Geschwindigkeit der Reakti- vierung nach 2. Umkehr

Objektsequenz, -statistik

Lernmodell

Nimitek

Theoretischer Teil:

Model of Yu & Dayan (2005)

Erweiterung auf Situationsabhaengigkeit

Uncertainty and Attention

Angela Yu, Peter Dayan

The Experiment• 5- Arrows

• Trial: target after cue

• Subject: report target

• Block1: T-1 trials, blue is relevant, prediction probability:

•Block2: from trial T on, blue not relevant any more, for instance red with new

Mathematical Analysis

The Ideal Learner Algorithm

Zt is the normalizing constant for the distribution

• Iterative method for computing the joint posterior• Integration is expensive

Erweiterung von Yu und Dayan

0 1 0 00 0.7 0 0

1 1 1 0

2 1 0 0

0 1 0 2

0 0 2 1

Bedeutsamkeit undZuverlaessigkeit der Einzelobjekte

Bedeutsamkeit und Zuverlaessigkeitder Objektuebergange

TP 2: Situationsabhaengiges Verstaerkungslernen FNW/IBIO

Documents

Transcript of TP 2: Situationsabhaengiges Verstaerkungslernen FNW/IBIO