Bayesovo učenje (Bayesian Learning)

Bayesovo učenjeBayesovo učenje(Bayesian Learning)(Bayesian Learning)

Petar Djerasimović

Sadržaj prezentacijeSadržaj prezentacije

Bayesov teoremBayesov teorem Učenje koncepata Brute-Force Učenje koncepata Brute-Force

algoritmomalgoritmom ML i metode kvadratne pogreškeML i metode kvadratne pogreške MDL (Minimum Description Length) MDL (Minimum Description Length)

PrinciplePrinciple Bayes Optimal ClassifierBayes Optimal Classifier Naive Bayes ClassifierNaive Bayes Classifier Bayesian Belief NetworksBayesian Belief Networks

Dva razloga za Bayesov pristup:Dva razloga za Bayesov pristup:

Algoritmi bazirani na računju eksplicitnih Algoritmi bazirani na računju eksplicitnih vjerojatnosti hipoteza su najpraktičniji u vjerojatnosti hipoteza su najpraktičniji u primjeni za rješavanje nekih problemaprimjeni za rješavanje nekih problema

Bayesove metode omogučavaju Bayesove metode omogučavaju razumijevanje i usporedbu mnogih razumijevanje i usporedbu mnogih algoritama koji ne rade direktno s algoritama koji ne rade direktno s vjerojatnostima hipotezavjerojatnostima hipoteza

Bayesov TeoremBayesov Teorem

Uz oznake:Uz oznake:P(h) – a priori vjerojatnost da hipoteza h drži (tj da P(h) – a priori vjerojatnost da hipoteza h drži (tj da je je upravo hipoteza h ciljni koncept)upravo hipoteza h ciljni koncept)

P(D) – vjerojatnost opažanja primjera DP(D) – vjerojatnost opažanja primjera D

P(D|h) – vjerojatnost opažanja primjera D ako je P(D|h) – vjerojatnost opažanja primjera D ako je ispunjena hipoteza hispunjena hipoteza h

P(h|D) – a posteriori vjerojatnost da hipoteza h držiP(h|D) – a posteriori vjerojatnost da hipoteza h drži

P(D)

P(h)h)|P(DD)|P(h

Brute Force Bayes Brute Force Bayes LearningLearning

Osnovna shema zaključivanja:Osnovna shema zaključivanja:učenik promatra skup H mogućih hipoteza i traži učenik promatra skup H mogućih hipoteza i traži najvjerojatniju (ili skup najvjerojatnijih) uz dani skup najvjerojatniju (ili skup najvjerojatnijih) uz dani skup primjera Dprimjera D

Takve se hipoteze nazivaju MAP (maximum a Takve se hipoteze nazivaju MAP (maximum a posteriori) hipotezeposteriori) hipoteze

P(D)

h)P(h)|P(DargmaxD)|P(hargmaxh

HhHhMAP

Zahtjevi za računalnim resursima su očit nedostatak za praktičnu primjenu

Koje vrijednosti koristiti?

Pretpostavke:1. Primjeri za učenje D ne sadrže šum2. Ciljni koncept je sadržan u prostoru hipoteza H3. Sve su hipoteze jednako vjerojatne

P(h) = 1/|H| za svaki h iz H - zbog (3) i jer im suma mora biti jednaka jedinici

P(D|h) = 1 za di=h(xi) za sve di u D 0 inače

- zbog (1)

P(D) = 1/|VSH,D| ako je h konzistentna sa D 0 inače

A posteriori vjerojatnost je dakle

P(h|D) = 1/|VSH,D| ako je h konzistentna s D 0 inače

Gore korištena vrijednost za P(D) dobiva se iz teorema totalne vjerojatnosti i pretpostavke da su hipoteze međusobno isključive:

HDiHDi VShVSh |H|

1*0

|H|

1*1

Hh

ii

i

))P(hh|P(DP(D)

|H|

|VS|

|H|

1 DH,

VSh HDi

Hipoteze konzistentne s primjerima za učenje: 0<Pi<1, Pi=Pj

nekonzistentne: Pi=0Algoritam uz gornje pretpostavke na P(h) i P(D|h) daje kao rezultat prostor inačica VSH,D

–isti rezultat kao i CE algoritam za učenje koncepata

Uz pretpostavku distribucije koja favorizira specifičnije hipoteze nad općenitijima (tj p(hi)>p(hj) za hi<hj), algoritam daje najspecifičniju hipotezu konzistentnu s primjerima za učenje– isto kao i FS algoritam

Bayesovim algoritmom može se opisati rad algoritama za učenje, a odabirom P(h) i P(D|h) mogu se opisati pretpostavke o traženom konceptu koje ti algoritmi implicitno sadrže

ML i metode kvadratne ML i metode kvadratne pogreškepogreške

ML (maximum likelihood) je hipoteza za koju vrijedi:ML (maximum likelihood) je hipoteza za koju vrijedi:

hhMLML = argmax = argmaxheHheH p(D|h) p(D|h)

D=(dD=(d11,...,d,...,dmm) gdje je d) gdje je dii=f(x=f(xii)+e)+eii – niz ciljnih vrijednosti – niz ciljnih vrijednosti primjera za učenje, uz greške eprimjera za učenje, uz greške eii koje su Normalno koje su Normalno distribuirane uz varijancu distribuirane uz varijancu 22 i srednju vrijednost 0 i srednju vrijednost 0

Pretpostavka: primjeri su uz danu h međusobno Pretpostavka: primjeri su uz danu h međusobno neovisni, pa je p(D|h)=p(dneovisni, pa je p(D|h)=p(d11|h)*...*p(d|h)*...*p(dmm|h)|h)

Dakle hDakle hMLML = argmax = argmax iip(dp(dii|h)|h)

Šum – varijanca =2, srednja =0 di – varijanca =2, srednja =f(xi) p(di|h) – Normalna distribucija uz 2, =f(xi¸)=h(xi)

m

i

xhda

m

i

da

ML

ii

i

e

eh

1

))((2

1

2Hh

1

)(2

1

2Hh

22

22

2

1argmax

2

1argmax

m

iii

Hh

m

iii

HhML

m

iii

m

iiiML

xhd

xhda

h

xhda

xhdaπσ

h

1

2

1

22

1

22

Hh

1

222Hh

))((minarg

))((2

1argmin

))((2

1argmax

))((2

1

2

1lnargmax

hML je upravo ona hipoteza koja minimizira sumu kvadrata pogrešaka ciljnih vrijednosti di u odnosu na vrijednosti koje daje sama hipoteza

Vrijedi uz pretpostavke postavljene na vrijednosti di: da su generirane uz dodavanje slučajnog iznosa šuma na ciljnu vrijednost

Vidljivo je da kvadratna vrijednost pogreške slijedi direktno iz izraza za Normalnu razdiobu - za druge razdiobe dobivaju se na sličan način druge vrijednosti grešaka za minimizaciju

Minimum Description Minimum Description Length PrincipleLength Principle

)()|(argmax hPhDPhHh

MAP

)(log)|(logargmax 22 hPhDPhHh

MAP

)(log)|(logargmin 22 hPhDPhHh

MAP

Može se tumačiti kao preferiranje kraćih hipoteza (uz određene uvijete), slično Occamovoj britvi

Naime u problemu odabira optimalnog koda za slanje slučajno odabranih poruka s vjerojatnostima pi su Shannon i Weaver 1949. pokazali da takav kod opisuje svaku poruku sa log2pi bitova, pa se izrazi u gornjoj jednadžbi mogu interpretirati kao:log2P(h) je duljina od h uz optimalno kodiranje prostora Hlog2P(D|h) je duljina podataka za učenje D uz hipotezu h (optimalno kodiranje ako i pošiljatelj i primatelj znaju h)

MDL princip glasi:Bira se ona hipoteza hMDL za koju je ispunjeno:

hMDL=argminLC1(h)+LC2(D|h)

LC(i) - broj bitova potrebnih za kodiranje poruke i korištenjem koda C

očito je potrebno prvo izabrati kodove C1 i C2hMDL = hMAP ako se izaberu C1 i C2 takvi da

optimalno kodiraju h i D uz poznati h, respektivno

Ovime naravno nije dokazana prirodna ispravnost ideje Occamove britve (što je filozofsko pitanje - iliti neće ni biti odgovora), već samo: ako se izabere prezentacija hipoteza H, tako da duljina hipoteze h iznosi –log2P(h) i ako se izabere prezentacija ciljnih vrijednosti D uz poznat h tako da je duljina od d –log2P(D|h), tada MDL princip daje MAP hipotezu

Bayes Optimal ClassifierBayes Optimal Classifier

Dosadašnji pristup – pronaći najvjerojatniju Dosadašnji pristup – pronaći najvjerojatniju hipotezu uz dane primjerehipotezu uz dane primjere

Bolje od toga – pronaći najbolju klasifikaciju Bolje od toga – pronaći najbolju klasifikaciju novog objekta uzevši u obzir primjere za novog objekta uzevši u obzir primjere za učenjeučenje

primjer: primjer:

Prostor H sadrži 3 hipoteze: h1, h2 i h3 s Prostor H sadrži 3 hipoteze: h1, h2 i h3 s aposteriornim vjerojatnostima .4, .3, .3. Novi aposteriornim vjerojatnostima .4, .3, .3. Novi primjer x negativno je klasificiran od hipoteze primjer x negativno je klasificiran od hipoteze h1, a pozitivno od h2 i h3. h1, a pozitivno od h2 i h3.

Prema dosadašnjim razmatranjima – MAP hipoteza klasificira primjer kao negativan

Uzevši sve hipoteze u obzir: ne - 0.4; da - 0.6

Općenito ako novi primjer poprima neku vrijednost vj iz skupa vrijednosti V, najvjerojatnija klasifikacija je:

P(vj|D) = P(vj|hi)P(hi|D)

Kombiniraju se sve hipoteze, utežene svojim a posteriori vjerojatnostima

Bayes Optimal Classifier:

argmaxvjeVhieHP(vj|hi)P(hi|D)

Nijedna druga metoda klasifikacije ne može nadmašiti Bayesov optimalni klasifikator uz isti prostor hipoteza i prethodno (a priori) znanje

Svojstvo BOC-a je da klasifikacije koje dodjeljuje na cjelovitom skupu X ne mora odgovarati niti jednoj hipotezi iz H, tj BOC de facto promatra prostor H’ koji sadrži linearne kombinacije hipoteza iz H

Gibbs AlgorithmGibbs Algorithm

Računska cijena BOC-a je ekstremno visoka Računska cijena BOC-a je ekstremno visoka (računaju se aposteriori vjerojatnosti za sve h iz (računaju se aposteriori vjerojatnosti za sve h iz H)H)

Manje zahtjevna alternativa je Gibbsov algoritam:Manje zahtjevna alternativa je Gibbsov algoritam:

1.1. Biraj h iz H slučajno, ravnajući se po distribuciji Biraj h iz H slučajno, ravnajući se po distribuciji a posteriori vjerojatnostia posteriori vjerojatnosti

2.2. Koristi h za predviđanje slijedećeg primjera xKoristi h za predviđanje slijedećeg primjera x

Uz neke uvjete na pretpostavljenu i stvarnu Uz neke uvjete na pretpostavljenu i stvarnu distribuciju vjerojatnosti, pokazuje se da je distribuciju vjerojatnosti, pokazuje se da je greška ovakvog algoritma najviše dva puta veća greška ovakvog algoritma najviše dva puta veća nego BOC-anego BOC-a

Naive Bayes ClassifierNaive Bayes Classifier

Vrlo praktičan i efikasan algoritam Vrlo praktičan i efikasan algoritam

(u nekim primjenama usporediv s NN)(u nekim primjenama usporediv s NN)

Koristi se u primjenama gdje su Koristi se u primjenama gdje su primjeri opisani konjunkcijom primjeri opisani konjunkcijom vrijednosti atributa, a ciljna funkcija vrijednosti atributa, a ciljna funkcija poprima vrijednosti iz konačnog poprima vrijednosti iz konačnog skupaskupa

Bayesovom pristup će novom primjeru dodijeliti najvjerojatniju ciljnu vrijednost na temelju niza (a1,...an) atributa promatranog primjera:vMAP=argmaxvjeVP(vj|a1,...an)

Sto je ekvivalentno (po Bayesovoj formuli):vMAP=P(a1,...an|vj)P(vj)

P(vj) – lako procijeniti pebrajanjem kroz primjereP(a1,...an|vj) teško procijniti osim za jako velik skup za učenje (velik broj mogućih vrijednosti)

NBC pretpostavlja da su vrijednosti atributa i međusobno neovisne, uz danu ciljnu vrijednost primjera, odnosno vrijedi pravilo množenja:

P(a1,a2,...,an|vj)=iP(ai|vj)

Pa je Naive Bayes Clasifier:

vNB= argmaxvjeVP(vj)iP(ai|vj)

Ukupan broj izraza P(ai|vj) koji se mora procijeniti na temelju skupa za učenje je broj različitih vrijednosti atributa množen s brojem različitih ciljnih vrijednosti

Ako je pretpostavka o međusobnoj neovisnosti vrijednosti atributa ispunjena, NBC daje MAP hipotezu

NBC ne pretražuje prostor mogućih hipoteza (za razliku od dosadašnjih algoritama), veš samo procjenjuje vrijednosti na temelju frekvencija u skupu za učenje

Bayesian Belief NetworksBayesian Belief Networks Uzima u obzir postojanje nekih Uzima u obzir postojanje nekih

međuovisnosti među podskupovima međuovisnosti među podskupovima varijabli (atributa)varijabli (atributa)

Međurješenje između NBC-a koji sve Međurješenje između NBC-a koji sve varijable tretira međusobno uvjetno varijable tretira međusobno uvjetno neovisnima i općenitog slučaja BOC-aneovisnima i općenitog slučaja BOC-a

DefinicijaDefinicijaVarijabla X je uvjetno neovisna od Y uz datu Varijabla X je uvjetno neovisna od Y uz datu

Z ako vrijediZ ako vrijedi

čćčćxxii, y, yjj, z, zkk)P(X=x)P(X=xii|Y=y|Y=yjj,Z=Z,Z=Zkk)=P(X=x)=P(X=xii, Y=Y, Y=Yjj))

Zaključivanje u BBNZaključivanje u BBN

Uz poznate vrijednosti ostalih čvorova Uz poznate vrijednosti ostalih čvorova (roditelja) trivijalno(roditelja) trivijalno

Za zaključivanje vjerojatnosne raspodjele Za zaključivanje vjerojatnosne raspodjele ciljne varijable uz poznate samo neke ciljne varijable uz poznate samo neke čvorove:čvorove:

mnogo metoda predloženo i u mnogo metoda predloženo i u istraživanju,istraživanju,

uključujući egzaktne i uključujući egzaktne i aproksimativne (npr. aproksimativne (npr. Monte Carlo Monte Carlo metode)metode)

Gradient ascent training of Gradient ascent training of BBFBBF

Pretražuje prostor hipoteza koji je Pretražuje prostor hipoteza koji je skup svih mogućih kombinacija skup svih mogućih kombinacija vrijednosti u tablicama uvjetnih vrijednosti u tablicama uvjetnih vjerojatnostivjerojatnosti

Maksimizira se vjerojatnost P(D|h) Maksimizira se vjerojatnost P(D|h) dobivenih podataka D uz dobivenih podataka D uz pretpostavljenu hipotezu h, što pretpostavljenu hipotezu h, što odgovara traženju ML hipoteze za odgovara traženju ML hipoteze za vrijednosti u tablicivrijednosti u tablici

EM algoritamEM algoritam

Može se koristiti i za varijable čije Može se koristiti i za varijable čije vrijednosti nisu u potpunosti utvrđene, vrijednosti nisu u potpunosti utvrđene, već im je poznata samo vjerojatnosna već im je poznata samo vjerojatnosna distribucijadistribucija

Radi u ciklusima od dva koraka: procjena Radi u ciklusima od dva koraka: procjena i maksimizacijai maksimizacija

Radi s funkcijom Q(h’|h) :=E[lnRadi s funkcijom Q(h’|h) :=E[lnpp(Y|h’),X] (Y|h’),X] koja se računa za svaku moguću hipotezu koja se računa za svaku moguću hipotezu (korak 1) i potom bira ona hipoteza koja (korak 1) i potom bira ona hipoteza koja maksimira tu funkciju (korak 2)maksimira tu funkciju (korak 2)

Bayesovo učenje (Bayesian Learning)

Documents

Transcript of Bayesovo učenje (Bayesian Learning)