Logistische Regression - · PDF fileLogistische Regression Christian Herta ... wobei im obigen...

download Logistische Regression - · PDF fileLogistische Regression Christian Herta ... wobei im obigen Fall, der linearen Regression, der squared error loss verwendet wurde: loss (h (x );y

If you can't read please download the document

Transcript of Logistische Regression - · PDF fileLogistische Regression Christian Herta ... wobei im obigen...

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Logistische Regression

    Christian Herta

    August, 2013

    1 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Lernziele

    Logistische Regression

    Konzepte des maschinellen Lernens (insb. der Klassikation)

    Entscheidungsgrenze, Lineare Separabilitt(konvexe) KostenfunktionZweiklassenproblem / Mehrklassenproblem

    2 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Outline

    1 Klassikation

    2 Logistische Regression

    3 Entscheidungsgrenze

    4 Kosten

    5 Gradientenabstieg

    6 Mehrklassen

    3 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Klassikation

    Zwei-Klassenproblemy {0, 1}

    y = 1: positive Klasse, z.B. Email: Spam

    y = 0: negative Klasse, z.B. Email: kein Spam

    4 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Vorhersage mit linearer Regression

    Lineare Funktion

    h(~x) = ~T~x

    Schwellwert frKlassikation

    h(~x) 0.5 positive Klasseh(~x) < 0.5 negative Klasse

    5 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Vorhersage mit linearer Regression

    Lineare Regression ungeeignet fr Klassikationsproblem.Beachte auch: h(~x) kann grer oder kleiner 1 sein.

    6 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Outline

    1 Klassikation

    2 Logistische Regression

    3 Entscheidungsgrenze

    4 Kosten

    5 Gradientenabstieg

    6 Mehrklassen

    7 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Logistische Funktion

    0 g(z) 1

    Gilt fr die logistischenFunktion (sigmoide Funktion):

    g(z) =1

    1 + exp(z)

    Beachte:

    1

    1 + exp(0)=

    1

    2

    8 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Logistische Regression

    h(~x) = g(~T~x)

    Einsetzen der logistischen Funktion g(z):

    h(~x) =1

    1 + exp(~T~x)

    9 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Name Logistische Regression

    Namensanteil logistische wegen der Benutzung derlogistischen Funktion.

    Namensanteil Regression hat historische Grnde. Es handeltsich nicht um Regression, sondern um Klassikation!

    10 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Wahrscheinlichkeitsinterpretation

    Interpretation:h(~x) = p(y |x,)

    Wahrscheinlichkeit von y = 1 gegeben x und den Parametern z.B. h(x) = 0.8: Wahrscheinlichkeit fr einen bsartigen Tumorist 80%.

    Vorhersage (prediction) gem Wahrscheinlichkeiten:

    h(x) 0.5 y = 1h(x) < 0.5 y = 0

    11 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Outline

    1 Klassikation

    2 Logistische Regression

    3 Entscheidungsgrenze

    4 Kosten

    5 Gradientenabstieg

    6 Mehrklassen

    12 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Entscheidungsgrenze

    ~T ~x 0 h(x) 0.5 ypredicted = 1~T ~x < 0 h(x) < 0.5 ypredicted = 0

    Beispiel 1:

    ~T~x = 0 + 1x1 = 6.+6

    5x1

    Entscheidungsgrenze:~T~x = 0 x1 = 5Vorhersage:x1 5 ypredict = 1x1 < 5 ypredict = 0

    13 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Entscheidungsgrenze: Plot Beispiel 1

    14 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Entscheidungsgrenze: Beispiel 2 (Iris Dataset)

    Klassen: Iris-Versicolour (rot) Iris-Virginica (blau)

    Features: x1: sepal length (cm) x2: petal length (cm)

    15 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Entscheidungsgrenze: Beispiel 2

    16 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Contourplot: Beispiel 2

    17 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Entscheidungsgrenze Beispiel 3

    Beispiel 2:

    ~T~x = 0 + 1x1 + 2x2 = 3 x1 x2

    Entscheidungsgrenze:~T~x = 0 x2 = 3 x1Vorhersage:x1 + x2 3 ypredict = 1x1 + x2 < 3 ypredict = 0

    18 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Entscheidungsgrenze: Plot Beispiel 3

    19 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Entscheidungsgrenze: 3d-Beispielplot

    Beachte unter Hinzunahme der x0-Dimension geht dieEntscheidungsgrenze durch den Ursprung.Entscheidungsgrenze (Decision Boundary) ist eine (Hyper-)Ebene.

    20 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Lineare Separabilitt

    Denition ((nicht-formal): Linear Separabel)

    Lassen sich die Datenpunkte eines n-dimensionalen Raums mit einer(n-1 dimensionalen) Hyperebene trennen, so bezeichnet man dasProblem als linear separabel.

    21 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Nicht linear separabel Daten

    Die beiden Klassen lassensich nicht durch eine Gerade(Hyperebene in 2D) trennen.

    22 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Nicht linear separabel Daten

    Die beiden Klassen lassensich nicht durch eine Gerade(Hyperebene in 2D) trennen.

    Ideen, wie das Modellerweitert werden kann?

    22 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Nicht linear separabel Daten

    Die beiden Klassen lassensich nicht durch eine Gerade(Hyperebene in 2D) trennen.

    Einfhren nicht-linearerBasisfunktionen (x)!

    22 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Nicht linear separabel - Entscheidungsgrenze

    Durch welche Gleichung wird derKreis mathematisch beschrieben?

    23 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Nicht linear separabel - Entscheidungsgrenze

    Kreisgleichung: x21

    + x22

    = 1

    23 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Nicht linear separabel - Entscheidungsgrenze

    Kreisgleichung: x21

    + x22

    = 1

    Basisfunktionen:

    1(x) = x2

    1

    2(x) = x2

    2

    23 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Nicht linear separabel - Entscheidungsgrenze

    Kreisgleichung: x21

    + x22

    = 1

    Basisfunktionen:

    1(x) = x2

    1

    2(x) = x2

    2

    h(x) = g(0+11(x)+22(x))

    h(x) = g(1 + x21 + x22 )

    23 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Feature Space

    Transformation der x1, x2-Werte in (nicht-linearen) Feature Space 1, 2 linear separables Problem im Feature Space

    Bemerkung: Im Gegensatz zu diesem Beispiel ist der Feature-Raum in der Regel hher-dimensional als

    der Raum der Orginaldaten.

    24 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Nicht linear separable Probleme

    Durch Wahl geeigneter Basisfunktionen lassen sich auch komplexenicht linear separable Probleme lsen.

    25 von 45 Christian Herta Logistische Regression

  • Klassikation Logistische Regression Entscheidungsgrenze Kosten Gradientenabstieg Mehrklassen

    Outline

    1 Klassikation

    2 Logistische Regression

    3 Entscheidungsgrenze

    4 Kosten

    5 Gradientenabstieg

    6 Mehrklassen

    26 von 45 Christian