Download - Neural networks - Université de Sherbrooke

Neural networksFeedforward neural network - capacity of single neuron

ARTIFICIAL NEURON2

Topics: connection weights, bias, activation function

2Reseaux de neurones

-1 1

-1

1

11

1 1

.5

-1.5

.7-.4-1

x1 x2

x1

x2

z=+1

z=-1

z=-1

0

1-1

0

1

-1

0

1

-1

0

1-1

0

1

-1

0

1

-1

0

1-1

0

1

-1

0

1

-1

R2

R2

R1

y1 y2

z

zk

wkj

wji

x1

x2

x1

x2

x1

x2

y1 y2

sortie k

entree i

cachee jbiais

(from Pascal Vincent’s slides)

Feedforward neural network

Hugo LarochelleD

´

epartement d’informatique

Universit

´

e de Sherbrooke

[email protected]

September 6, 2012

Abstract

Math for my slides “Feedforward neural network”.

• a(x) = biP

i wixi = bi +w

>x

• h(x) = g(a(x)) = g(biP

i wixi)

• w

1


Hugo LarochelleD

´


Universit

´

e de Sherbrooke

[email protected]

September 6, 2012

Abstract


• a(x) = biP

i wixi = bi +w

>x

• h(x) = g(a(x)) = g(biP

i wixi)

• w

• {

1

range determined by

bias only changes the position of the riff


Hugo LarochelleD

´


Universit

´

e de Sherbrooke

[email protected]

September 6, 2012

Abstract


• a(x) = b+P

i wixi = b+w

>x

• h(x) = g(a(x)) = g(b+P

i wixi)

• w

• {

• g(·) b

1


Hugo LarochelleD

´


Universit

´

e de Sherbrooke

[email protected]

September 6, 2012

Abstract


• a(x) = b+P

i wixi = b+w

>x

• h(x) = g(a(x)) = g(b+P

i wixi)

• w

• {

• g(·) b

1

ARTIFICIAL NEURON3

Topics: capacity, decision boundary of neuron• Could do binary classification:‣ with sigmoid, can interpret neuron as estimating

‣ also known as logistic regression classifier

‣ if greater than 0.5,predict class 1

‣ otherwise, predictclass 0

(similar idea can apply with tanh)

(from Pascal Vincent’s slides)

7Reseaux de neurones

• La puissance expressive des reseaux de neurones

x1 x2

x1

x2

...

x1 x2

R1

R2

R1

R2

R2

R1

x2

x1

deux couches

trois couches

decision boundary is linear


Hugo LarochelleD

´


Universit

´

e de Sherbrooke

[email protected]

September 6, 2012

AbstractMath for my slides “Feedforward neural network”.

• a(x) = b+

Pi wixi = b+w

>x

• h(x) = g(a(x)) = g(b+

Pi wixi)

• x

1

xd b w

1

wd

• w

• {

• g(a) = a

• g(a) = sigm(a) =

1

1+exp(�a)

• g(a) = tanh(a) =

exp(a)�exp(�a)exp(a)+exp(�a) =

exp(2a)�1

exp(2a)+1

• g(a) = max(0, a)

• g(a) = reclin(a) = max(0, a)

• p(y = 1|x)

• g(·) b

• W

(1)

i,j b

(1)

i xj h(x)i w

(2)

i b

(2)

• h(x) = g(a(x))

• a(x) = b

(1)

+W

(1)

x

⇣a(x)i = b

(1)

i +

Pj W

(1)

i,j xj

⌘

• f(x) = o

⇣b

(2)

+w

(2)

>x

⌘

• p(y = c|x)

• o(a) = softmax(a) =

hexp(a1)Pc exp(ac)

. . .

exp(aC)Pc exp(ac)

i>

1

ARTIFICIAL NEURON4

Topics: capacity of single neuron• Can solve linearly separable problems 21

0 1

0 1 0 1 0 1

0

1

0

1

0

1

0

1

?

XOR (x1, x2)

OR (x1, x2) AND (x1, x2) AND (x1, x2)

(x1

(x1

,x

2)

0 1

0

1

XOR (x1, x2)

AND (x1, x2)

AN

D(x

1,x

2)

,x

2)

,x

2)

(x1 (x1

,x

2)

Figure 1.8 – Exemple de modélisation de XOR par un réseau à une couche cachée. Enhaut, de gauche à droite, illustration des fonctions booléennesOR(x1, x2),AND (x1, x2)et AND (x1, x2). En bas, on présente l’illustration de la fonction XOR(x1, x2) en fonc-tion des valeurs de x1 et x2 (à gauche), puis de AND (x1, x2) et AND (x1, x2) (à droite).Les points représentés par un cercle ou par un triangle appartiennent à la classe 0 ou1, respectivement. On observe que, bien qu’un classifieur linéaire soit en mesure de ré-soudre le problème de classification associé aux fonctions OR et AND, il ne l’est pasdans le cas du problème de XOR. Cependant, on utilisant les valeurs de AND (x1, x2)et AND (x1, x2) comme nouvelle représentation de l’entrée (x1, x2), le problème declassification XOR peut alors être résolu linéairement. À noter que dans ce derniercas, il n’existe que trois valeurs possibles de cette nouvelle représentation, puisqueAND (x1, x2) et AND (x1, x2) ne peuvent être toutes les deux vraies pour une mêmeentrée.

ont été entraînés dans le cadre des travaux de cette thèse contiennent quelques milliers

de neurones cachés. Ainsi, la tâche de l’algorithme d’apprentissage est de modifier lesparamètres du réseau afin de trouver la nature des caractéristiques de l’entrée que chaque

neurone doit extraire pour résoudre le problème de classification. Idéalement, ces carac-

ARTIFICIAL NEURON5

Topics: capacity of single neuron• Can’t solve non linearly separable problems...

• ... unless the input is transformed in a better representation

21

0 1

0 1 0 1 0 1

0

1

0

1

0

1

0

1

?

XOR (x1, x2)

OR (x1, x2) AND (x1, x2) AND (x1, x2)

(x1

(x1

,x

2)

0 1

0

1

XOR (x1, x2)

AND (x1, x2)

AN

D(x

1,x

2)

,x

2)

,x

2)

(x1 (x1

,x

2)

Figure 1.8 – Exemple de modélisation de XOR par un réseau à une couche cachée. Enhaut, de gauche à droite, illustration des fonctions booléennesOR(x1, x2),AND (x1, x2)et AND (x1, x2). En bas, on présente l’illustration de la fonction XOR(x1, x2) en fonc-tion des valeurs de x1 et x2 (à gauche), puis de AND (x1, x2) et AND (x1, x2) (à droite).Les points représentés par un cercle ou par un triangle appartiennent à la classe 0 ou1, respectivement. On observe que, bien qu’un classifieur linéaire soit en mesure de ré-soudre le problème de classification associé aux fonctions OR et AND, il ne l’est pasdans le cas du problème de XOR. Cependant, on utilisant les valeurs de AND (x1, x2)et AND (x1, x2) comme nouvelle représentation de l’entrée (x1, x2), le problème declassification XOR peut alors être résolu linéairement. À noter que dans ce derniercas, il n’existe que trois valeurs possibles de cette nouvelle représentation, puisqueAND (x1, x2) et AND (x1, x2) ne peuvent être toutes les deux vraies pour une mêmeentrée.

ont été entraînés dans le cadre des travaux de cette thèse contiennent quelques milliers

de neurones cachés. Ainsi, la tâche de l’algorithme d’apprentissage est de modifier lesparamètres du réseau afin de trouver la nature des caractéristiques de l’entrée que chaque

neurone doit extraire pour résoudre le problème de classification. Idéalement, ces carac-