Bayesovo učenje (Bayesian Learning)
description
Transcript of Bayesovo učenje (Bayesian Learning)
Bayesovo učenjeBayesovo učenje(Bayesian Learning)(Bayesian Learning)
Petar Djerasimović
Sadržaj prezentacijeSadržaj prezentacije
Bayesov teoremBayesov teorem Učenje koncepata Brute-Force Učenje koncepata Brute-Force
algoritmomalgoritmom ML i metode kvadratne pogreškeML i metode kvadratne pogreške MDL (Minimum Description Length) MDL (Minimum Description Length)
PrinciplePrinciple Bayes Optimal ClassifierBayes Optimal Classifier Naive Bayes ClassifierNaive Bayes Classifier Bayesian Belief NetworksBayesian Belief Networks
Dva razloga za Bayesov pristup:Dva razloga za Bayesov pristup:
Algoritmi bazirani na računju eksplicitnih Algoritmi bazirani na računju eksplicitnih vjerojatnosti hipoteza su najpraktičniji u vjerojatnosti hipoteza su najpraktičniji u primjeni za rješavanje nekih problemaprimjeni za rješavanje nekih problema
Bayesove metode omogučavaju Bayesove metode omogučavaju razumijevanje i usporedbu mnogih razumijevanje i usporedbu mnogih algoritama koji ne rade direktno s algoritama koji ne rade direktno s vjerojatnostima hipotezavjerojatnostima hipoteza
Bayesov TeoremBayesov Teorem
Uz oznake:Uz oznake:P(h) – a priori vjerojatnost da hipoteza h drži (tj da P(h) – a priori vjerojatnost da hipoteza h drži (tj da je je upravo hipoteza h ciljni koncept)upravo hipoteza h ciljni koncept)
P(D) – vjerojatnost opažanja primjera DP(D) – vjerojatnost opažanja primjera D
P(D|h) – vjerojatnost opažanja primjera D ako je P(D|h) – vjerojatnost opažanja primjera D ako je ispunjena hipoteza hispunjena hipoteza h
P(h|D) – a posteriori vjerojatnost da hipoteza h držiP(h|D) – a posteriori vjerojatnost da hipoteza h drži
P(D)
P(h)h)|P(DD)|P(h
Brute Force Bayes Brute Force Bayes LearningLearning
Osnovna shema zaključivanja:Osnovna shema zaključivanja:učenik promatra skup H mogućih hipoteza i traži učenik promatra skup H mogućih hipoteza i traži najvjerojatniju (ili skup najvjerojatnijih) uz dani skup najvjerojatniju (ili skup najvjerojatnijih) uz dani skup primjera Dprimjera D
Takve se hipoteze nazivaju MAP (maximum a Takve se hipoteze nazivaju MAP (maximum a posteriori) hipotezeposteriori) hipoteze
P(D)
h)P(h)|P(DargmaxD)|P(hargmaxh
HhHhMAP
Zahtjevi za računalnim resursima su očit nedostatak za praktičnu primjenu
Koje vrijednosti koristiti?
Pretpostavke:1. Primjeri za učenje D ne sadrže šum2. Ciljni koncept je sadržan u prostoru hipoteza H3. Sve su hipoteze jednako vjerojatne
P(h) = 1/|H| za svaki h iz H - zbog (3) i jer im suma mora biti jednaka jedinici
P(D|h) = 1 za di=h(xi) za sve di u D 0 inače
- zbog (1)
P(D) = 1/|VSH,D| ako je h konzistentna sa D 0 inače
A posteriori vjerojatnost je dakle
P(h|D) = 1/|VSH,D| ako je h konzistentna s D 0 inače
Gore korištena vrijednost za P(D) dobiva se iz teorema totalne vjerojatnosti i pretpostavke da su hipoteze međusobno isključive:
HDiHDi VShVSh |H|
1*0
|H|
1*1
Hh
ii
i
))P(hh|P(DP(D)
|H|
|VS|
|H|
1 DH,
VSh HDi
Hipoteze konzistentne s primjerima za učenje: 0<Pi<1, Pi=Pj
nekonzistentne: Pi=0Algoritam uz gornje pretpostavke na P(h) i P(D|h) daje kao rezultat prostor inačica VSH,D
–isti rezultat kao i CE algoritam za učenje koncepata
Uz pretpostavku distribucije koja favorizira specifičnije hipoteze nad općenitijima (tj p(hi)>p(hj) za hi<hj), algoritam daje najspecifičniju hipotezu konzistentnu s primjerima za učenje– isto kao i FS algoritam
Bayesovim algoritmom može se opisati rad algoritama za učenje, a odabirom P(h) i P(D|h) mogu se opisati pretpostavke o traženom konceptu koje ti algoritmi implicitno sadrže
ML i metode kvadratne ML i metode kvadratne pogreškepogreške
ML (maximum likelihood) je hipoteza za koju vrijedi:ML (maximum likelihood) je hipoteza za koju vrijedi:
hhMLML = argmax = argmaxheHheH p(D|h) p(D|h)
D=(dD=(d11,...,d,...,dmm) gdje je d) gdje je dii=f(x=f(xii)+e)+eii – niz ciljnih vrijednosti – niz ciljnih vrijednosti primjera za učenje, uz greške eprimjera za učenje, uz greške eii koje su Normalno koje su Normalno distribuirane uz varijancu distribuirane uz varijancu 22 i srednju vrijednost 0 i srednju vrijednost 0
Pretpostavka: primjeri su uz danu h međusobno Pretpostavka: primjeri su uz danu h međusobno neovisni, pa je p(D|h)=p(dneovisni, pa je p(D|h)=p(d11|h)*...*p(d|h)*...*p(dmm|h)|h)
Dakle hDakle hMLML = argmax = argmax iip(dp(dii|h)|h)
Šum – varijanca =2, srednja =0 di – varijanca =2, srednja =f(xi) p(di|h) – Normalna distribucija uz 2, =f(xi¸)=h(xi)
m
i
xhda
m
i
da
ML
ii
i
e
eh
1
))((2
1
2Hh
1
)(2
1
2Hh
22
22
2
1argmax
2
1argmax
m
iii
Hh
m
iii
HhML
m
iii
m
iiiML
xhd
xhda
h
xhda
xhdaπσ
h
1
2
1
22
1
22
Hh
1
222Hh
))((minarg
))((2
1argmin
))((2
1argmax
))((2
1
2
1lnargmax
hML je upravo ona hipoteza koja minimizira sumu kvadrata pogrešaka ciljnih vrijednosti di u odnosu na vrijednosti koje daje sama hipoteza
Vrijedi uz pretpostavke postavljene na vrijednosti di: da su generirane uz dodavanje slučajnog iznosa šuma na ciljnu vrijednost
Vidljivo je da kvadratna vrijednost pogreške slijedi direktno iz izraza za Normalnu razdiobu - za druge razdiobe dobivaju se na sličan način druge vrijednosti grešaka za minimizaciju
Minimum Description Minimum Description Length PrincipleLength Principle
)()|(argmax hPhDPhHh
MAP
)(log)|(logargmax 22 hPhDPhHh
MAP
)(log)|(logargmin 22 hPhDPhHh
MAP
Može se tumačiti kao preferiranje kraćih hipoteza (uz određene uvijete), slično Occamovoj britvi
Naime u problemu odabira optimalnog koda za slanje slučajno odabranih poruka s vjerojatnostima pi su Shannon i Weaver 1949. pokazali da takav kod opisuje svaku poruku sa log2pi bitova, pa se izrazi u gornjoj jednadžbi mogu interpretirati kao:log2P(h) je duljina od h uz optimalno kodiranje prostora Hlog2P(D|h) je duljina podataka za učenje D uz hipotezu h (optimalno kodiranje ako i pošiljatelj i primatelj znaju h)
MDL princip glasi:Bira se ona hipoteza hMDL za koju je ispunjeno:
hMDL=argminLC1(h)+LC2(D|h)
LC(i) - broj bitova potrebnih za kodiranje poruke i korištenjem koda C
očito je potrebno prvo izabrati kodove C1 i C2hMDL = hMAP ako se izaberu C1 i C2 takvi da
optimalno kodiraju h i D uz poznati h, respektivno
Ovime naravno nije dokazana prirodna ispravnost ideje Occamove britve (što je filozofsko pitanje - iliti neće ni biti odgovora), već samo: ako se izabere prezentacija hipoteza H, tako da duljina hipoteze h iznosi –log2P(h) i ako se izabere prezentacija ciljnih vrijednosti D uz poznat h tako da je duljina od d –log2P(D|h), tada MDL princip daje MAP hipotezu
Bayes Optimal ClassifierBayes Optimal Classifier
Dosadašnji pristup – pronaći najvjerojatniju Dosadašnji pristup – pronaći najvjerojatniju hipotezu uz dane primjerehipotezu uz dane primjere
Bolje od toga – pronaći najbolju klasifikaciju Bolje od toga – pronaći najbolju klasifikaciju novog objekta uzevši u obzir primjere za novog objekta uzevši u obzir primjere za učenjeučenje
primjer: primjer:
Prostor H sadrži 3 hipoteze: h1, h2 i h3 s Prostor H sadrži 3 hipoteze: h1, h2 i h3 s aposteriornim vjerojatnostima .4, .3, .3. Novi aposteriornim vjerojatnostima .4, .3, .3. Novi primjer x negativno je klasificiran od hipoteze primjer x negativno je klasificiran od hipoteze h1, a pozitivno od h2 i h3. h1, a pozitivno od h2 i h3.
Prema dosadašnjim razmatranjima – MAP hipoteza klasificira primjer kao negativan
Uzevši sve hipoteze u obzir: ne - 0.4; da - 0.6
Općenito ako novi primjer poprima neku vrijednost vj iz skupa vrijednosti V, najvjerojatnija klasifikacija je:
P(vj|D) = P(vj|hi)P(hi|D)
Kombiniraju se sve hipoteze, utežene svojim a posteriori vjerojatnostima
Bayes Optimal Classifier:
argmaxvjeVhieHP(vj|hi)P(hi|D)
Nijedna druga metoda klasifikacije ne može nadmašiti Bayesov optimalni klasifikator uz isti prostor hipoteza i prethodno (a priori) znanje
Svojstvo BOC-a je da klasifikacije koje dodjeljuje na cjelovitom skupu X ne mora odgovarati niti jednoj hipotezi iz H, tj BOC de facto promatra prostor H’ koji sadrži linearne kombinacije hipoteza iz H
Gibbs AlgorithmGibbs Algorithm
Računska cijena BOC-a je ekstremno visoka Računska cijena BOC-a je ekstremno visoka (računaju se aposteriori vjerojatnosti za sve h iz (računaju se aposteriori vjerojatnosti za sve h iz H)H)
Manje zahtjevna alternativa je Gibbsov algoritam:Manje zahtjevna alternativa je Gibbsov algoritam:
1.1. Biraj h iz H slučajno, ravnajući se po distribuciji Biraj h iz H slučajno, ravnajući se po distribuciji a posteriori vjerojatnostia posteriori vjerojatnosti
2.2. Koristi h za predviđanje slijedećeg primjera xKoristi h za predviđanje slijedećeg primjera x
Uz neke uvjete na pretpostavljenu i stvarnu Uz neke uvjete na pretpostavljenu i stvarnu distribuciju vjerojatnosti, pokazuje se da je distribuciju vjerojatnosti, pokazuje se da je greška ovakvog algoritma najviše dva puta veća greška ovakvog algoritma najviše dva puta veća nego BOC-anego BOC-a
Naive Bayes ClassifierNaive Bayes Classifier
Vrlo praktičan i efikasan algoritam Vrlo praktičan i efikasan algoritam
(u nekim primjenama usporediv s NN)(u nekim primjenama usporediv s NN)
Koristi se u primjenama gdje su Koristi se u primjenama gdje su primjeri opisani konjunkcijom primjeri opisani konjunkcijom vrijednosti atributa, a ciljna funkcija vrijednosti atributa, a ciljna funkcija poprima vrijednosti iz konačnog poprima vrijednosti iz konačnog skupaskupa
Bayesovom pristup će novom primjeru dodijeliti najvjerojatniju ciljnu vrijednost na temelju niza (a1,...an) atributa promatranog primjera:vMAP=argmaxvjeVP(vj|a1,...an)
Sto je ekvivalentno (po Bayesovoj formuli):vMAP=P(a1,...an|vj)P(vj)
P(vj) – lako procijeniti pebrajanjem kroz primjereP(a1,...an|vj) teško procijniti osim za jako velik skup za učenje (velik broj mogućih vrijednosti)
NBC pretpostavlja da su vrijednosti atributa i međusobno neovisne, uz danu ciljnu vrijednost primjera, odnosno vrijedi pravilo množenja:
P(a1,a2,...,an|vj)=iP(ai|vj)
Pa je Naive Bayes Clasifier:
vNB= argmaxvjeVP(vj)iP(ai|vj)
Ukupan broj izraza P(ai|vj) koji se mora procijeniti na temelju skupa za učenje je broj različitih vrijednosti atributa množen s brojem različitih ciljnih vrijednosti
Ako je pretpostavka o međusobnoj neovisnosti vrijednosti atributa ispunjena, NBC daje MAP hipotezu
NBC ne pretražuje prostor mogućih hipoteza (za razliku od dosadašnjih algoritama), veš samo procjenjuje vrijednosti na temelju frekvencija u skupu za učenje
Bayesian Belief NetworksBayesian Belief Networks Uzima u obzir postojanje nekih Uzima u obzir postojanje nekih
međuovisnosti među podskupovima međuovisnosti među podskupovima varijabli (atributa)varijabli (atributa)
Međurješenje između NBC-a koji sve Međurješenje između NBC-a koji sve varijable tretira međusobno uvjetno varijable tretira međusobno uvjetno neovisnima i općenitog slučaja BOC-aneovisnima i općenitog slučaja BOC-a
DefinicijaDefinicijaVarijabla X je uvjetno neovisna od Y uz datu Varijabla X je uvjetno neovisna od Y uz datu
Z ako vrijediZ ako vrijedi
čćčćxxii, y, yjj, z, zkk)P(X=x)P(X=xii|Y=y|Y=yjj,Z=Z,Z=Zkk)=P(X=x)=P(X=xii, Y=Y, Y=Yjj))
Zaključivanje u BBNZaključivanje u BBN
Uz poznate vrijednosti ostalih čvorova Uz poznate vrijednosti ostalih čvorova (roditelja) trivijalno(roditelja) trivijalno
Za zaključivanje vjerojatnosne raspodjele Za zaključivanje vjerojatnosne raspodjele ciljne varijable uz poznate samo neke ciljne varijable uz poznate samo neke čvorove:čvorove:
mnogo metoda predloženo i u mnogo metoda predloženo i u istraživanju,istraživanju,
uključujući egzaktne i uključujući egzaktne i aproksimativne (npr. aproksimativne (npr. Monte Carlo Monte Carlo metode)metode)
Gradient ascent training of Gradient ascent training of BBFBBF
Pretražuje prostor hipoteza koji je Pretražuje prostor hipoteza koji je skup svih mogućih kombinacija skup svih mogućih kombinacija vrijednosti u tablicama uvjetnih vrijednosti u tablicama uvjetnih vjerojatnostivjerojatnosti
Maksimizira se vjerojatnost P(D|h) Maksimizira se vjerojatnost P(D|h) dobivenih podataka D uz dobivenih podataka D uz pretpostavljenu hipotezu h, što pretpostavljenu hipotezu h, što odgovara traženju ML hipoteze za odgovara traženju ML hipoteze za vrijednosti u tablicivrijednosti u tablici
EM algoritamEM algoritam
Može se koristiti i za varijable čije Može se koristiti i za varijable čije vrijednosti nisu u potpunosti utvrđene, vrijednosti nisu u potpunosti utvrđene, već im je poznata samo vjerojatnosna već im je poznata samo vjerojatnosna distribucijadistribucija
Radi u ciklusima od dva koraka: procjena Radi u ciklusima od dva koraka: procjena i maksimizacijai maksimizacija
Radi s funkcijom Q(h’|h) :=E[lnRadi s funkcijom Q(h’|h) :=E[lnpp(Y|h’),X] (Y|h’),X] koja se računa za svaku moguću hipotezu koja se računa za svaku moguću hipotezu (korak 1) i potom bira ona hipoteza koja (korak 1) i potom bira ona hipoteza koja maksimira tu funkciju (korak 2)maksimira tu funkciju (korak 2)