Post on 16-Aug-2020
Introduction
Bases Formales de ComputacionRedes de Bayes
Camilo Rueda 1
1Universidad Javeriana-Cali
PUJ 2008
Introduction Definitions
Razonamiento bajo incertidumbre
Incertidumbre:Cualidad o estado de serno conocido con claridad
Razonar (probabilısticamente) bajo incertidumbre:razonar con conocimiento incompleto de probabilidades:
logica probabilıstica
idear representacion de distribucion probabilısticacompleta de historias de estados:
redes de Bayes
Introduction Definitions
Redes de Bayes
Razonamiento Bayesiano:
Inferencia probabilıstica basada en combinacionde informacion a priori con datos observados
Redes de Bayes:
Lenguaje grafico para especificardistribuciones probabilıticas complejasen razonamiento Bayesiano
Introduction Definitions
Redes de Bayes: un ejemplo
Hay o no hay robo en la casa(esto no depende de otras cosas en el modelo)Hay o no hay terremoto(esto no depende de otras cosas en el modelo)La alarma puede dispararse por robo o por terremotoEl vecino hace una llamada basado en si oye la alarmael reporte del radio depende de si hubo un terremoto
Cuales son las rtelaciones causales?
Introduction Definitions
Redes de Bayes: causalidad
Expresar causalidad
TerremotoRobo
Radio Alarma
Llamada
Introduction Definitions
Notacion
“ Probabilidad de A dado que se conoce (con exactitud) B”:P(A|B)
P(X |Y ) : tabla 2-D con todos los valores:P(X = xi |Y = yj)
Probabilidadess condicionales pueden definirse enterminos de probabildades incondicionales:
P(X |Y ) =P(X ,Y )
P(Y )
Por consiguiente la regla de la cadena:P(X ,Y ) = P(X |Y )P(Y )
y teorema de Bayes:P(X ,Y ) = P(X |Y )P(Y ) = P(Y |X )P(X )P(X |Y ) = P(Y |X )P(X )/P(Y )
Introduction Definitions
Especificar distribucion de probabilidad en RB
Probabilidades a priori de todo nodo raizProbs condicionales de nodos internos,dada toda combinacion de predecesores directos
TerremotoRobo
Radio Alarma
Llamada
t0 t1
0.995 0.005
P(T)
h0 h1
0.99 0.01
P(H)
r0 r1
0.99999 0.00001
P(R | T)
t0t1 0.65 0.35
l0 l1
0.95 0.05
P(L | A)
a0a1 0.3 0.7
a0 a1
0.999 0.001
P(A | H,T)
h0,t0h1,t1 0.7 0.3
0.2 0.8h1,t0h1,t1 0.05 0.95
Introduction Definitions
Distribucion conjunta
distribucion conjunta:distribucion probabilıstica sobre todos los datos posibles
Si hay n variables, la DC requiere 2n valoresSean las variables: gripa(g), alergia(a), sinusitis(s),
g a s 0,027g a s 0,003g a s 0,162g a s 0,108g a s 0,014g a s 0,056g a s 0,0063g a s 0,6237
Introduction Definitions
Definicion formal de Red de Bayes
una Red de Bayes B = (G, θ) sobre X1, . . .Xn es un grafo G enel que:
cada nodo Xi esta asociado con una tabla de probabilidadcondicional (TPC): P(Xi ,Padres(Xi))
TPC: distribucion sobre Xi para cada combinacion devalores de los padres de Xi
B representa la distribucion conjunta sobre X1 . . .Xnmediante la regla de la cadena para RB:
P(x1, . . . , xn) =∏
i P(xi | Padres(Xi))
Introduction Definitions
Calculo de probabilidades a partir de DC
Sea la red de BayesG→ S ← A
y las TPC:
g 0,3g 0,7
a 0,1a 0,9
ga ga ga gas 0,9 0,6 0,2 0,01s 0,1 0,4 0,8 0,99
entonces:P(g, a, s) = P(g)P(a)P(s | g, a) = 0,3× 0,9× 0,6 = 0,162P(a | s,g) = P(a, s,g)/P(s,g)P(s,g) = P(g, a, s) + P(g,a, s)
Introduction Definitions
Tipos de razonamiento
causal ( “hacia abajo”)de diagnostico o evidencial ( “hacia arriba”)cuales son las razones mas probables de una observacionintercausal ( “explicar descarte de hipotesis”)
Introduction Definitions
Tipos de razonamiento
causal ( “hacia abajo”)
probabilidad a priori de robo P(h) = 0,01probabilidad a priori de terremoto P(t) = 0,005probabilidad de que el vecino llame P(l) es 0,0568que tan confiable es el vecino en detectar robos (i.e.P(l | h)) ?
de diagnostico o evidencial ( “hacia arriba”)cuales son las razones mas probables de una observacionintercausal ( “explicar descarte de hipotesis”)
Introduction Definitions
Tipos de razonamiento
causal ( “hacia abajo”)de diagnostico o evidencial ( “hacia arriba”)cuales son las razones mas probables de una observacion
suponer que el vecino llamala probabilidad de robo sube P(h | l) = 0,325la probabilidad de terremoto tambien sube P(t | l) = 0,1034
intercausal ( “explicar descarte de hipotesis”)
Introduction Definitions
Tipos de razonamiento
causal ( “hacia abajo”)de diagnostico o evidencial ( “hacia arriba”)cuales son las razones mas probables de una observacionintercausal ( “explicar descarte de hipotesis”)supongamos que el radio reporta terremoto.Como afecta esto las creencias?
la probabilidad de terremoto sube sustancialmenteP(t | l , r) = 0,9993(mientras que P(t | l) = 0,021)la probabilidad de robo baja P(h | l , r) = 0,0268
robo y terremoto son independientes peroel reporte del radio explica la llamada
Introduction Definitions
Reduccion de parametros en RB
Numero de parametros independientes para 5 variables es25 − 1 = 31En la RB hay 10 parametros independientes.que permite hacer esto?
Introduction Definitions
Reduccion de parametros en RB
Numero de parametros independientes para 5 variables es25 − 1 = 31En la RB hay 10 parametros independientes.que permite hacer esto?
No toda distribucion es representable en RBSolo las que cumplen los supuestos de independencia condicional
La estructura de la RB permite identificar variablescondicionalmente independientes
Introduction Definitions
Independencia condicional
Sean X,Y,Z conjuntos de variables y P una distribucion.
X es independiente de Y dado Z en P (escrito, I(X,Y | Z) ) si
para toda asignacion de valores x,y, z a X,Y,ZP(x | z,y) = P(x | z)
o sea,
P(X | Y,Z) = P(X | Z)P(X,Y | Z) = P(X | Z)P(Y | Z)
Introduction Definitions
Independencia condicional (2)
Como “fluye ” la influencia de variables en una RB?Cuando el observar el valor de X cambia nuestra creenciasobre el valor de Y?
Introduction Definitions
Independencia condicional (2)
Como “fluye ” la influencia de variables en una RB?Cuando el observar el valor de X cambia nuestra creenciasobre el valor de Y?
Caso obvio: cuando X es padre de Y y tambien cuando Xes hijo de Y :
dos nodos directamente conectados estan correlacionados
cuando X es ancestro o descendiente de Y ?
Introduction Definitions
Independencia condicional (2)
Como “fluye ” la influencia de variables en una RB?Cuando el observar el valor de X cambia nuestra creenciasobre el valor de Y?
Caso obvio: cuando X es padre de Y y tambien cuando Xes hijo de Y :
dos nodos directamente conectados estan correlacionados
cuando X es ancestro o descendiente de Y ? si.Cuando observamos robo, la probabilidad de alarma subepor consiguiente, tambien la de llamada
Introduction Definitions
Independencia condicional: otros casos
si se dispara la alarma, la probabilidad de terremoto aumenta:P(t | a) > P(t)luego tambien sube la de reporte en el radio.
Introduction Definitions
Independencia condicional: otros casos
Nodos en camino de un arco hacia arriba y luego hacia abajoestan correlacionados
Introduction Definitions
Independencia condicional: otros casos
Nodos en camino de un arco hacia arriba y luego hacia abajoestan correlacionados
y en camino de uno hacia abajo y luego hacia arriba?p.ej. observar robo, cambia la probabilidad de terremoto?
Introduction Definitions
Independencia condicional: otros casos
Nodos en camino de un arco hacia arriba y luego hacia abajoestan correlacionados
Nodos en camino en forma de V , NO estan correlacionados.I(H,T | ∅)
Introduction Definitions
Independencia condicional: otros casos
si la alarma se dispara, la probabilidad de llamada aumenta:(P(l | a) > P(l))si ademas hubo un robo, cambia esto la probabilidad dellamada?
Introduction Definitions
Independencia condicional: otros casos
si la alarma se dispara, la probabilidad de llamada aumenta:(P(l | a) > P(l))si ademas hubo un robo, cambia esto la probabilidad dellamada? no!P(l | a,h) = P(l | a). O sea, I(H,L | A)
Introduction Definitions
Independencia condicional: otros casos
Nodos en camino de dependencia, pero con evidenciade nodos intermedios NO estan correlacionados
p.ej. H y L dado A, o tambien A y R dado T
Introduction Definitions
Independencia condicional: otros casos
Los nodos T y H son independientes. Pero, si se sabe A?
Introduction Definitions
Independencia condicional: otros casos
Los nodos T y H son independientes. Pero, si se sabe A? sevuelven dependientes!
Introduction Definitions
Independencia condicional: otros casos
Nodos en camino de un arco hacia arriba y luego hacia abajoestan correlacionados
Nodos en camino en forma de V , NO estan correlacionados.I(H,T | ∅)
Nodos en camino de dependencia, pero con evidenciade nodos intermedios NO estan correlacionados
p.ej. H y L dado A, o tambien A y R dado T
Nodos en camino en V , pero con evidencia de nodosintermedios (o de sucesores) se vuelven correlacionados
Introduction Definitions
Caminos activos
caminos activos implican correlacion (de X con Y )
X Z Y
Caso 1: activo ssi Z no es 1
X Z Y
Caso 2: activo ssi Z no es 1
X Z Y
Caso 3: activo ssi Z no es 1
X Z Y
Caso 4: activo ssi Z o uno de sus descendientes es 1
Introduction Definitions
Camino activo: definicion general
Un camino X1, . . . ,Xn es activo dado Z sicuando existe el camino Xi−1 → Xi ← Xi + 1, entonces Xio uno de sus descendientes esta en Zningun otro nodo en el camino esta en Z
Dos nodos X , Y estan d−separados dado Zsi no hay caminos activos entre ellos.
Cuando X , Y estan d−separados dado Zentonces I(X ,Y | Z )
Introduction Definitions
Inferencia en RB
A→ B:P(B) = P(a)P(B | a) + P(a)P(B | a)en general: P(B) =
∑A P(A)P(B | A)
(componentes en TPC)A→ B → C:P(c) =
∑b P(b)P(c | b) (valido ssi I(A,C | B))
(componentes en TPC o ya calculados)generalizable a cualquier cadena
Complejidad para n variables y tablas de k valores: O(nk2)
Introduction Definitions
Algoritmo de Inferencia en RB: la idea
Por que no es necesario calcular toda probabilidad conjunta?
p(d) =∑
a,b,c P(a,b, c,d)
=∑
a,b,c P(a)P(b | a)P(c | b)P(d | c)
=∑
a∑
b∑
c P(a)P(b | a)P(c | b)P(d | c)
=∑
c∑
b∑
a P(a)P(b | a)P(c | b)P(d | c)
=∑
c P(d | c)∑
b P(c | b)∑
a P(a)P(b | a)
Introduction Definitions
Algoritmo de Inferencia en RB: la idea (2)
Calcular “factores” sucesivamentefA(b) =
∑a P(a)P(b | a) que corresponde a P(B)
luego fB(c) =∑
b fA(b)P(c | b), etc. ( programacion dinamica)
cubierto
lluvia rociar
pasto mojado
P(m) =∑
l,r ,c P(m | l , r)P(l | c)P(r | c)P(c)
=∑
l,r P(m | l , r)∑
c P(l | c)P(c)
definimos fC(l , r) =∑
c P(l | c)P(r | c)P(c) y luego,∑l,r P(m | l , r)f1(l , r)
Introduction Definitions
Algoritmo de Inferencia en RB: eliminacion devariables
el algoritmo opera sobre factores o tablasfactor f sobre Y1, . . . ,Yn: funcion f (Y1, . . . ,Yn) ∈ Rfactores pueden sumarse y multiplicarse
Introduction Definitions
Algoritmo de Inferencia en RB: eliminacion devariables
el algoritmo opera sobre factores o tablasfactor f sobre Y1, . . . ,Yn: funcion f (Y1, . . . ,Yn) ∈ Rejemplo:
una DC P(H,T ,A,R,L) es factor sobre H,T ,A,R,Luna TPC P(A | H,T ) es factor sobre H,T
factores pueden sumarse y multiplicarse
Introduction Definitions
Algoritmo de Inferencia en RB: eliminacion devariables
el algoritmo opera sobre factores o tablasfactor f sobre Y1, . . . ,Yn: funcion f (Y1, . . . ,Yn) ∈ Rejemplo:
una DC P(H,T ,A,R,L) es factor sobre H,T ,A,R,Luna TPC P(A | H,T ) es factor sobre H,T
factores pueden sumarse y multiplicarsef ′(C,L,R) = f1(C)× f2(L,C)× f3(R,C)equivalente a P(C,L,R) = P(C)P(L | C)P(R | C)f ′′(L,R) =
∑C f ′(C,L,R))
equivalente a P(l , r) =∑
c P(c, l , r)
Introduction Definitions
Algoritmo de eliminacion de variables
procedure eliminar-variables(Grafo sobre X1, . . . ,Xn, // estructura de la RBP(Xi | padres(Xi)), // TPC de nodos RBY1, . . . ,Yk // variables de query)Sea F el conjunto de factores {P(Xi | padres(Xi)) : i = 1 . . . n}Sea {Z1, . . . ,Zm} = X− Ypara i = 1, . . . ,m
Extraiga de F todo factor f1, . . . , fr que mencione a ZiSea f ′ =
∏j fj
sea f ′′ =∑
Zif ′
Inserte f ′′ en Fretorne(
∏f∈F f )
Introduction Definitions
Algoritmo: un ejemplo
fumar
tuberculosiscancer pulmón
Visita Asia
rayos X dispnea
anormalidaden el pecho
bronquitis
V F
T
C
B
D
A
X
Introduction Definitions
Algoritmo: un ejemplo (2)
calcular
P(D) =∑
A,B,C,T ,F ,X ,V P(V )P(T | V )P(F )P(C | F )
P(B | F )P(A |P,T )P(X | A)P(D | A,B)
eliminar V : fV (T ) =∑
V P(T | V )P(V )
eliminar F : fF (B,C) =∑
F P(B | F )P(C | F )P(F )
eliminar X :∑
X P(X | A)
calcular probabilidad de C: fB(C) =∑
B fF (B,C)
eliminar T : fT (A,C) =∑
T P(A | T ,C)fV (T )fB(C)
eliminar C: fP(A,B) =∑
C fF (B,C)× fT (A,C)
eliminar A,B:∑
A,B P(D | A,B)fP(A,B)