Bases Formales de Computación Redes de...

Post on 16-Aug-2020

1 views 0 download

Transcript of Bases Formales de Computación Redes de...

Introduction

Bases Formales de ComputacionRedes de Bayes

Camilo Rueda 1

1Universidad Javeriana-Cali

PUJ 2008

Introduction Definitions

Razonamiento bajo incertidumbre

Incertidumbre:Cualidad o estado de serno conocido con claridad

Razonar (probabilısticamente) bajo incertidumbre:razonar con conocimiento incompleto de probabilidades:

logica probabilıstica

idear representacion de distribucion probabilısticacompleta de historias de estados:

redes de Bayes

Introduction Definitions

Redes de Bayes

Razonamiento Bayesiano:

Inferencia probabilıstica basada en combinacionde informacion a priori con datos observados

Redes de Bayes:

Lenguaje grafico para especificardistribuciones probabilıticas complejasen razonamiento Bayesiano

Introduction Definitions

Redes de Bayes: un ejemplo

Hay o no hay robo en la casa(esto no depende de otras cosas en el modelo)Hay o no hay terremoto(esto no depende de otras cosas en el modelo)La alarma puede dispararse por robo o por terremotoEl vecino hace una llamada basado en si oye la alarmael reporte del radio depende de si hubo un terremoto

Cuales son las rtelaciones causales?

Introduction Definitions

Redes de Bayes: causalidad

Expresar causalidad

TerremotoRobo

Radio Alarma

Llamada

Introduction Definitions

Notacion

“ Probabilidad de A dado que se conoce (con exactitud) B”:P(A|B)

P(X |Y ) : tabla 2-D con todos los valores:P(X = xi |Y = yj)

Probabilidadess condicionales pueden definirse enterminos de probabildades incondicionales:

P(X |Y ) =P(X ,Y )

P(Y )

Por consiguiente la regla de la cadena:P(X ,Y ) = P(X |Y )P(Y )

y teorema de Bayes:P(X ,Y ) = P(X |Y )P(Y ) = P(Y |X )P(X )P(X |Y ) = P(Y |X )P(X )/P(Y )

Introduction Definitions

Especificar distribucion de probabilidad en RB

Probabilidades a priori de todo nodo raizProbs condicionales de nodos internos,dada toda combinacion de predecesores directos

TerremotoRobo

Radio Alarma

Llamada

t0 t1

0.995 0.005

P(T)

h0 h1

0.99 0.01

P(H)

r0 r1

0.99999 0.00001

P(R | T)

t0t1 0.65 0.35

l0 l1

0.95 0.05

P(L | A)

a0a1 0.3 0.7

a0 a1

0.999 0.001

P(A | H,T)

h0,t0h1,t1 0.7 0.3

0.2 0.8h1,t0h1,t1 0.05 0.95

Introduction Definitions

Distribucion conjunta

distribucion conjunta:distribucion probabilıstica sobre todos los datos posibles

Si hay n variables, la DC requiere 2n valoresSean las variables: gripa(g), alergia(a), sinusitis(s),

g a s 0,027g a s 0,003g a s 0,162g a s 0,108g a s 0,014g a s 0,056g a s 0,0063g a s 0,6237

Introduction Definitions

Definicion formal de Red de Bayes

una Red de Bayes B = (G, θ) sobre X1, . . .Xn es un grafo G enel que:

cada nodo Xi esta asociado con una tabla de probabilidadcondicional (TPC): P(Xi ,Padres(Xi))

TPC: distribucion sobre Xi para cada combinacion devalores de los padres de Xi

B representa la distribucion conjunta sobre X1 . . .Xnmediante la regla de la cadena para RB:

P(x1, . . . , xn) =∏

i P(xi | Padres(Xi))

Introduction Definitions

Calculo de probabilidades a partir de DC

Sea la red de BayesG→ S ← A

y las TPC:

g 0,3g 0,7

a 0,1a 0,9

ga ga ga gas 0,9 0,6 0,2 0,01s 0,1 0,4 0,8 0,99

entonces:P(g, a, s) = P(g)P(a)P(s | g, a) = 0,3× 0,9× 0,6 = 0,162P(a | s,g) = P(a, s,g)/P(s,g)P(s,g) = P(g, a, s) + P(g,a, s)

Introduction Definitions

Tipos de razonamiento

causal ( “hacia abajo”)de diagnostico o evidencial ( “hacia arriba”)cuales son las razones mas probables de una observacionintercausal ( “explicar descarte de hipotesis”)

Introduction Definitions

Tipos de razonamiento

causal ( “hacia abajo”)

probabilidad a priori de robo P(h) = 0,01probabilidad a priori de terremoto P(t) = 0,005probabilidad de que el vecino llame P(l) es 0,0568que tan confiable es el vecino en detectar robos (i.e.P(l | h)) ?

de diagnostico o evidencial ( “hacia arriba”)cuales son las razones mas probables de una observacionintercausal ( “explicar descarte de hipotesis”)

Introduction Definitions

Tipos de razonamiento

causal ( “hacia abajo”)de diagnostico o evidencial ( “hacia arriba”)cuales son las razones mas probables de una observacion

suponer que el vecino llamala probabilidad de robo sube P(h | l) = 0,325la probabilidad de terremoto tambien sube P(t | l) = 0,1034

intercausal ( “explicar descarte de hipotesis”)

Introduction Definitions

Tipos de razonamiento

causal ( “hacia abajo”)de diagnostico o evidencial ( “hacia arriba”)cuales son las razones mas probables de una observacionintercausal ( “explicar descarte de hipotesis”)supongamos que el radio reporta terremoto.Como afecta esto las creencias?

la probabilidad de terremoto sube sustancialmenteP(t | l , r) = 0,9993(mientras que P(t | l) = 0,021)la probabilidad de robo baja P(h | l , r) = 0,0268

robo y terremoto son independientes peroel reporte del radio explica la llamada

Introduction Definitions

Reduccion de parametros en RB

Numero de parametros independientes para 5 variables es25 − 1 = 31En la RB hay 10 parametros independientes.que permite hacer esto?

Introduction Definitions

Reduccion de parametros en RB

Numero de parametros independientes para 5 variables es25 − 1 = 31En la RB hay 10 parametros independientes.que permite hacer esto?

No toda distribucion es representable en RBSolo las que cumplen los supuestos de independencia condicional

La estructura de la RB permite identificar variablescondicionalmente independientes

Introduction Definitions

Independencia condicional

Sean X,Y,Z conjuntos de variables y P una distribucion.

X es independiente de Y dado Z en P (escrito, I(X,Y | Z) ) si

para toda asignacion de valores x,y, z a X,Y,ZP(x | z,y) = P(x | z)

o sea,

P(X | Y,Z) = P(X | Z)P(X,Y | Z) = P(X | Z)P(Y | Z)

Introduction Definitions

Independencia condicional (2)

Como “fluye ” la influencia de variables en una RB?Cuando el observar el valor de X cambia nuestra creenciasobre el valor de Y?

Introduction Definitions

Independencia condicional (2)

Como “fluye ” la influencia de variables en una RB?Cuando el observar el valor de X cambia nuestra creenciasobre el valor de Y?

Caso obvio: cuando X es padre de Y y tambien cuando Xes hijo de Y :

dos nodos directamente conectados estan correlacionados

cuando X es ancestro o descendiente de Y ?

Introduction Definitions

Independencia condicional (2)

Como “fluye ” la influencia de variables en una RB?Cuando el observar el valor de X cambia nuestra creenciasobre el valor de Y?

Caso obvio: cuando X es padre de Y y tambien cuando Xes hijo de Y :

dos nodos directamente conectados estan correlacionados

cuando X es ancestro o descendiente de Y ? si.Cuando observamos robo, la probabilidad de alarma subepor consiguiente, tambien la de llamada

Introduction Definitions

Independencia condicional: otros casos

si se dispara la alarma, la probabilidad de terremoto aumenta:P(t | a) > P(t)luego tambien sube la de reporte en el radio.

Introduction Definitions

Independencia condicional: otros casos

Nodos en camino de un arco hacia arriba y luego hacia abajoestan correlacionados

Introduction Definitions

Independencia condicional: otros casos

Nodos en camino de un arco hacia arriba y luego hacia abajoestan correlacionados

y en camino de uno hacia abajo y luego hacia arriba?p.ej. observar robo, cambia la probabilidad de terremoto?

Introduction Definitions

Independencia condicional: otros casos

Nodos en camino de un arco hacia arriba y luego hacia abajoestan correlacionados

Nodos en camino en forma de V , NO estan correlacionados.I(H,T | ∅)

Introduction Definitions

Independencia condicional: otros casos

si la alarma se dispara, la probabilidad de llamada aumenta:(P(l | a) > P(l))si ademas hubo un robo, cambia esto la probabilidad dellamada?

Introduction Definitions

Independencia condicional: otros casos

si la alarma se dispara, la probabilidad de llamada aumenta:(P(l | a) > P(l))si ademas hubo un robo, cambia esto la probabilidad dellamada? no!P(l | a,h) = P(l | a). O sea, I(H,L | A)

Introduction Definitions

Independencia condicional: otros casos

Nodos en camino de dependencia, pero con evidenciade nodos intermedios NO estan correlacionados

p.ej. H y L dado A, o tambien A y R dado T

Introduction Definitions

Independencia condicional: otros casos

Los nodos T y H son independientes. Pero, si se sabe A?

Introduction Definitions

Independencia condicional: otros casos

Los nodos T y H son independientes. Pero, si se sabe A? sevuelven dependientes!

Introduction Definitions

Independencia condicional: otros casos

Nodos en camino de un arco hacia arriba y luego hacia abajoestan correlacionados

Nodos en camino en forma de V , NO estan correlacionados.I(H,T | ∅)

Nodos en camino de dependencia, pero con evidenciade nodos intermedios NO estan correlacionados

p.ej. H y L dado A, o tambien A y R dado T

Nodos en camino en V , pero con evidencia de nodosintermedios (o de sucesores) se vuelven correlacionados

Introduction Definitions

Caminos activos

caminos activos implican correlacion (de X con Y )

X Z Y

Caso 1: activo ssi Z no es 1

X Z Y

Caso 2: activo ssi Z no es 1

X Z Y

Caso 3: activo ssi Z no es 1

X Z Y

Caso 4: activo ssi Z o uno de sus descendientes es 1

Introduction Definitions

Camino activo: definicion general

Un camino X1, . . . ,Xn es activo dado Z sicuando existe el camino Xi−1 → Xi ← Xi + 1, entonces Xio uno de sus descendientes esta en Zningun otro nodo en el camino esta en Z

Dos nodos X , Y estan d−separados dado Zsi no hay caminos activos entre ellos.

Cuando X , Y estan d−separados dado Zentonces I(X ,Y | Z )

Introduction Definitions

Inferencia en RB

A→ B:P(B) = P(a)P(B | a) + P(a)P(B | a)en general: P(B) =

∑A P(A)P(B | A)

(componentes en TPC)A→ B → C:P(c) =

∑b P(b)P(c | b) (valido ssi I(A,C | B))

(componentes en TPC o ya calculados)generalizable a cualquier cadena

Complejidad para n variables y tablas de k valores: O(nk2)

Introduction Definitions

Algoritmo de Inferencia en RB: la idea

Por que no es necesario calcular toda probabilidad conjunta?

p(d) =∑

a,b,c P(a,b, c,d)

=∑

a,b,c P(a)P(b | a)P(c | b)P(d | c)

=∑

a∑

b∑

c P(a)P(b | a)P(c | b)P(d | c)

=∑

c∑

b∑

a P(a)P(b | a)P(c | b)P(d | c)

=∑

c P(d | c)∑

b P(c | b)∑

a P(a)P(b | a)

Introduction Definitions

Algoritmo de Inferencia en RB: la idea (2)

Calcular “factores” sucesivamentefA(b) =

∑a P(a)P(b | a) que corresponde a P(B)

luego fB(c) =∑

b fA(b)P(c | b), etc. ( programacion dinamica)

cubierto

lluvia rociar

pasto mojado

P(m) =∑

l,r ,c P(m | l , r)P(l | c)P(r | c)P(c)

=∑

l,r P(m | l , r)∑

c P(l | c)P(c)

definimos fC(l , r) =∑

c P(l | c)P(r | c)P(c) y luego,∑l,r P(m | l , r)f1(l , r)

Introduction Definitions

Algoritmo de Inferencia en RB: eliminacion devariables

el algoritmo opera sobre factores o tablasfactor f sobre Y1, . . . ,Yn: funcion f (Y1, . . . ,Yn) ∈ Rfactores pueden sumarse y multiplicarse

Introduction Definitions

Algoritmo de Inferencia en RB: eliminacion devariables

el algoritmo opera sobre factores o tablasfactor f sobre Y1, . . . ,Yn: funcion f (Y1, . . . ,Yn) ∈ Rejemplo:

una DC P(H,T ,A,R,L) es factor sobre H,T ,A,R,Luna TPC P(A | H,T ) es factor sobre H,T

factores pueden sumarse y multiplicarse

Introduction Definitions

Algoritmo de Inferencia en RB: eliminacion devariables

el algoritmo opera sobre factores o tablasfactor f sobre Y1, . . . ,Yn: funcion f (Y1, . . . ,Yn) ∈ Rejemplo:

una DC P(H,T ,A,R,L) es factor sobre H,T ,A,R,Luna TPC P(A | H,T ) es factor sobre H,T

factores pueden sumarse y multiplicarsef ′(C,L,R) = f1(C)× f2(L,C)× f3(R,C)equivalente a P(C,L,R) = P(C)P(L | C)P(R | C)f ′′(L,R) =

∑C f ′(C,L,R))

equivalente a P(l , r) =∑

c P(c, l , r)

Introduction Definitions

Algoritmo de eliminacion de variables

procedure eliminar-variables(Grafo sobre X1, . . . ,Xn, // estructura de la RBP(Xi | padres(Xi)), // TPC de nodos RBY1, . . . ,Yk // variables de query)Sea F el conjunto de factores {P(Xi | padres(Xi)) : i = 1 . . . n}Sea {Z1, . . . ,Zm} = X− Ypara i = 1, . . . ,m

Extraiga de F todo factor f1, . . . , fr que mencione a ZiSea f ′ =

∏j fj

sea f ′′ =∑

Zif ′

Inserte f ′′ en Fretorne(

∏f∈F f )

Introduction Definitions

Algoritmo: un ejemplo

fumar

tuberculosiscancer pulmón

Visita Asia

rayos X dispnea

anormalidaden el pecho

bronquitis

V F

T

C

B

D

A

X

Introduction Definitions

Algoritmo: un ejemplo (2)

calcular

P(D) =∑

A,B,C,T ,F ,X ,V P(V )P(T | V )P(F )P(C | F )

P(B | F )P(A |P,T )P(X | A)P(D | A,B)

eliminar V : fV (T ) =∑

V P(T | V )P(V )

eliminar F : fF (B,C) =∑

F P(B | F )P(C | F )P(F )

eliminar X :∑

X P(X | A)

calcular probabilidad de C: fB(C) =∑

B fF (B,C)

eliminar T : fT (A,C) =∑

T P(A | T ,C)fV (T )fB(C)

eliminar C: fP(A,B) =∑

C fF (B,C)× fT (A,C)

eliminar A,B:∑

A,B P(D | A,B)fP(A,B)