Naïve Bayes Classifier

NaïveBayesClassifier

PradeepRavikumar

Co-instructor:Ziv Bar-Joseph

MachineLearning10-701

Classification

SportsScienceNews

Features,X Labels,Y

ProbabilityofError

OptimalClassificationOptimalpredictor:(Bayes classifier)

• EventheoptimalclassifiermakesmistakesR(f*)>0• Optimalclassifierdependsonunknown distribution

Bayes risk

OptimalClassifier

Bayes Rule:

Optimalclassifier:

Classconditionaldensity

Classprior

Wecannowconsiderappropriatemodelsforthetwoterms

ClassprobabilityP(Y=y),ClassconditionaldistributionoffeaturesP(X=x|Y=y)

Classconditionaldistribution

Classprobability

ModelbasedApproach

= θ = 1 − θ

ModelingClassprobabilityP(Y=y)=Bernoulli(θ)

Likeacoinflip

ModelingClassConditionalDistributionofFeatures

• Gaussianclassconditionaldensities(1-dimension/feature)

6DecisionBoundary

• Gaussianclassconditionaldensities (2-dimensions/features)

ModelingClassConditionalDistributionofFeatures

DecisionBoundary

Handwrittendigitrecognition

8Note:8digits shownoutof10(0,1,…,9);

Axesareobtainedbynonlineardimensionality reduction (laterincourse)

φ2(X)

φ1(X)

Multi-classclassification

Handwrittendigitrecognition

TrainingData:

GaussianBayesmodel:

P(Y=y)=py forallyin0,1,2,…,9 p0,p1,…,p9 (sumto1)

P(X=x|Y =y)~N(μy,Σy)foreachy μy – d-dimvectorΣy - dxd matrix

…ngreyscaleimages

…nlabels

Input,X

Label,Y

Eachimagerepresentedasavectorofintensityvaluesatthedpixels(features)

. . .Xd

GaussianBayesclassifier

1p(2⇡)d|⌃y|

• Binaryclassificationwithcontinuousfeaturesdecisionboundaryissetofpointsx:P(Y=1|X=x)=P(Y=0|X=x)

IfclassconditionalfeaturedistributionP(X=x|Y=y)is2-dimGaussianN(μy,Σy)

DecisionBoundaryofGaussianBayes

P (Y = 1|X = x)

P (Y = 0|X = x)=

P (X = x|Y = 1)P (Y = 1)

P (X = x|Y = 0)P (Y = 0)

s|⌃0||⌃1|

✓��(x� µ1)⌃

�11 (x� µ1)0

(x� µ0)⌃�10 (x� µ0)0

◆✓

1� ✓

Note:Ingeneral,thisimpliesaquadraticequationinx.ButifΣ1=Σ0,thenquadraticpartcancelsoutandequationislinear.

GaussianBayesclassifier

Howtolearnparameterspy,μy,Σy fromdata?

Howmanyparametersdoweneedtolearn?

Kd +Kd(d+1)/2=O(Kd2) ifdfeatures

Quadraticindimensiond!Ifd=256x256pixels,~21.5billionparameters!

Classprobability:

Classconditionaldistributionoffeatures:

K-1ifKlabels

Whataboutdiscretefeatures?

TrainingData:

DiscreteBayesmodel:

P(X=x|Y =y)~Foreachlabely,maintainprobabilitytablewith2d-1entries

…nblack-whiteimages

…nlabels

Input,X

Label,Y

Eachimagerepresentedasavectorofdbinaryfeatures(black1orwhite0)

. . .Xd

Howmanyparametersdoweneedtolearn?

Classprobability:

Classconditionaldistributionoffeatures:

P(X=x|Y =y)~Foreachlabely,maintainprobabilitytablewith2d-1entries

K-1ifKlabels

K(2d – 1)ifdbinaryfeatures

Exponentialindimensiond!

What’swrongwithtoomanyparameters?

• Howmanytrainingdataneededtolearnoneparameter(biasofacoin)?

• Needlotsoftrainingdatatolearntheparameters!– Trainingdata>numberofparameters

• BayesClassifierwithadditional“naïve”assumption:– Featuresareindependentgivenclass:

– Moregenerally:

• Ifconditionalindependenceassumptionholds,NBisoptimalclassifier!Butworseotherwise.

. . .Xd

775X =

ConditionalIndependence

• Xisconditionallyindependent ofYgivenZ:probabilitydistributiongoverningXisindependentofthevalueofY,giventhevalueofZ

• Equivalentto:

• e.g.,Note: doesNOTmeanThunderisindependentofRain

Conditionalvs.MarginalIndependence

Wearingcoatsisindependentofaccidentsconditionedonthefactthatitrained

• Howmanyparametersnow?

Handwrittendigitrecognition(continuousfeatures)

TrainingData:

Howmanyparameters?

ClassprobabilityP(Y=y)=py forally

Classconditionaldistributionoffeatures(usingNaïveBayesassumption)

P(Xi =xi|Y =y)~N(μ(y)i,σ2i(y))foreachyandeachpixeli

K-1ifKlabels

…ngreyscaleimageswithdpixels

…nlabels

. . .Xd

May not hold

LinearinsteadofQuadraticind!

Handwrittendigitrecognition(discretefeatures)

TrainingData:

Howmanyparameters?

ClassprobabilityP(Y=y)=py forally

Classconditionaldistributionoffeatures(usingNaïveBayesassumption)

P(Xi =xi|Y =y)– oneprobabilityvalueforeachy,pixeli

K-1ifKlabels

…nblack-white(1/0)imageswithdpixels

…nlabels

. . .Xd

May not hold

LinearinsteadofExponentialind!

• Hasfewerparameters,andhencerequiresfewertrainingdata,eventhoughassumptionmaybeviolatedinpractice

NaïveBayes Algo – Discretefeatures

• TrainingData

• MaximumLikelihoodEstimates– ForClassprobability

– Forclassconditionaldistribution

• NBPredictionfortestdata

IssueswithNaïveBayes

• Issue1: Usually,featuresarenotconditionallyindependent:

Nonetheless,NBisthesinglemostusedclassifierparticularlywhendataislimited,workswell

• Issue2: TypicallyuseMAPestimatesinsteadofMLEsinceinsufficientdatamaycauseMLEtobezero.

InsufficientdataforMLE

• WhatifyouneverseeatraininginstancewhereX1=awhenY=b?– e.g.,b={SpamEmail},a={‘Earn’}– P(X1=a|Y=b)=0

• Thus,nomatterwhatthevaluesX2,…,Xd take:

• Whatnow???

NaïveBayes Algo – Discretefeatures

• TrainingData

• MaximumAPosteriori(MAP)Estimates– addm“virtual”datapts

Assumegivensomepriordistribution(typicallyuniform):

MAPEstimate

Now,evenifyouneverobserveaclass/featureposteriorprobabilityneverzero.

#virtualexampleswithY=b

CaseStudy:TextClassification

• Classifye-mails– Y={Spam,NotSpam}

• Classifynewsarticles– Y={whatisthetopicofthearticle?}

• Classifywebpages– Y={Student,professor,project,…}

• WhataboutthefeaturesX?– Thetext!

Bagofwordsapproach

aardvark 0

about 2

Africa 1

apple 0

anxious 0

Zaire 0

NBforTextClassification

• FeaturesX arethecountofhowmanytimeseachwordinthevocabularyappearsindocument

• ProbabilitytableforP(X|Y)ishuge!!!

• NBassumptionhelpsalot!!!

• Bagofwords+NaïveBayesassumptionimplyP(X|Y=y)isjusttheproduct ofprobabilityofeachword,raisedtoitscount, inadocumentontopicy

Bagofwordsmodel

• Typicaladditionalassumption– Positionindocumentdoesn’tmatter– “Bagofwords”model– orderofwordsonthepageignored– Soundsreallysilly,butoftenworksverywell!

inislecturelecture nextoverpersonrememberroomsittingthethe the toto upwakewhenyou

Bagofwordsmodel

• Typicaladditionalassumption– Positionindocumentdoesn’tmatter– “Bagofwords”model– orderofwordsonthepageignored– Soundsreallysilly,butoftenworksverywell!

Whenthelectureisover,remembertowakeupthepersonsittingnexttoyouinthelectureroom.

NBwithBagofWordsfortextclassification

• Learningphase:– ClassPriorP(Y):fraction oftimestopicYappearsinthecollectionofdocuments

– P(w|Y):fractionoftimesword wappearsindocumentswithtopicY

• Testphase:– Foreachdocument

• UseBagofwords+naïveBayesdecisionrule

Twentynewsgroupsresults

Whatiffeaturesarecontinuous?

Eg.,characterrecognition:Xi isintensityatith pixel

GaussianNaïveBayes (GNB):

Differentmeanandvarianceforeachclasskandeachpixeli.

Sometimesassumevariance• isindependentofY(i.e.,σi),• orindependentofXi (i.e.,σk)• orboth(i.e.,σ)

Estimatingparameters:Ydiscrete,Xi continuous

Maximumlikelihoodestimates:

jth trainingimageith pixelin

jth trainingimage

kth class

Example:GNBforclassifyingmentalstates

~1mmresolution

~2imagespersec.

15,000voxels/image

non-invasive,safe

measuresBloodOxygenLevelDependent(BOLD)response

[Mitchelletal.]

GaussianNaïveBayes:Learnedµvoxel,word

[Mitchelletal.]

15,000voxelsorfeatures

10trainingexamplesorsubjectsperclass(12wordcategories)

LearnedNaïveBayes Models–MeansforP(BrainActivity |WordCategory)

AnimalwordsPeoplewordsPairwise classificationaccuracy:85% [Mitchelletal.]

Whatyoushouldknow…

• OptimaldecisionusingBayes Classifier• NaïveBayes classifier

– What’stheassumption– Whyweuseit– Howdowelearnit– WhyisMAPestimationimportant

• Textclassification– Bagofwordsmodel

• GaussianNB– Featuresarestillconditionallyindependent– EachfeaturehasaGaussiandistributiongivenclass

GaussianNaïveBayes vs.LogisticRegression

• Representationequivalence(bothyieldlineardecisionboundaries)– Butonlyinaspecialcase!!!(GNBwithclass-independentvariances)

– LRmakesnoassumptionsabout P(X|Y)inlearning!!!– Optimizedifferentfunctions(MLE/MCLE)or(MAP/MCAP)! Obtaindifferentsolutions

SetofGaussianNaïveBayes parameters

(featurevarianceindependentofclasslabel)

SetofLogisticRegressionparameters

Discriminativevs GenerativeClassifiers

Generative(Modelbased)approach:e.g.NaïveBayes• AssumesomeprobabilitymodelforP(Y)andP(X|Y)• Estimateparametersofprobabilitymodelsfromtrainingdata

Discriminative(Modelfree)approach:e.g.LogisticregressionWhynotlearnP(Y|X)directly?Orbetteryet,whynotlearnthedecisionboundarydirectly?• AssumesomefunctionalformforP(Y|X)orforthedecisionboundary• Estimateparametersoffunctionalformdirectlyfromtrainingdata

OptimalClassifier:

Naïve Bayes Classifier · Naïve Bayes Classifier 17 • Bayes Classifier with additional...

Documents

Transcript of Naïve Bayes Classifier · Naïve Bayes Classifier 17 • Bayes Classifier with additional...

DESIGN AND DEVELOPMENT OF NAÏVE BAYES CLASSIFIER

Learning: Naïve Bayes Classifier

Application of k-NN and Naïve Bayes Algorithm in Banking ...ijcsi.org/papers/IJCSI-13-5-69-75.pdf2.2 Naïve Bayes Classifier Naive Bayes is a classification technique which supported

Naïve Bayes Classifier. Bayes Classifier l A probabilistic framework for classification problems l Often appropriate because the world is noisy and also.

Enhanced Smoothing Methods Using Na ve Bayes Classifier ... · III Naïve Bayes classifier A Naive Bayes classifier is a simple probabilistic classifier which is based on applying

Bayes Classifier and Naïve Bayes - Oregon State …classes.engr.oregonstate.edu/eecs/winter2011/cs434/notes/bayes-6.pdfBayes Classifier and Naïve Bayes ... Probabilistic Classification

Data Classification Preprocessing Naïve Bayes Classifierrjohns15/cse40647.sp14/www/content/lectures/… · Data Preprocessing Classification & Regression Naïve Bayes Classifier

COMP24111 Machine Learning Naïve Bayes Classifier Ke Chen.

Lecture 13: Naive Bayes classifier - University of Pittsburghnaraehan/ling1330/Lecture13.pdf · Lecture 13: Naïve Bayes Classifier LING 1330/2330: Introduction to Computational Linguistics

Naïve Bayes - unibas.ch · •Bayes classifier with the assumption of independent features •Probabilistic, generative classifier •Easy-to-estimate likelihoods: Product of feature

23: Naïve Bayes - Stanford Universityweb.stanford.edu/.../lectures/23_naive_bayes_blank.pdf21 “Brute Force Bayes” 24b_brute_force_bayes 32 Naïve Bayes Classifier 24c_naive_bayes

Bayes optimal classifier Naïve Bayesguestrin/Class/15781/slides/epxing_naive... · 2007. 9. 16. · 1 ©Carlos Guestrin 2005-2007 Bayes optimal classifier Naïve Bayes Machine Learning

Last lecture summary Naïve Bayes Classifier

Learning: Naïve Bayes Classifierce.sharif.edu/courses/98-99/1/ce417-1/resources/root/Slides/Learnin… · Learning: Naïve Bayes Classifier CE417: Introduction to Artificial Intelligence

NAÏVE BAYES CLASSIFIER - UoPvclass.uop.gr/modules/document/file.php/ITCOM664/Naive-Bayes (1… · = 0,05 x 0,05 x 0,992 = 0,00248 21 Naïve Bayes 22 • Algorithm: Continuous-valued

Data Classification Preprocessing Naïve Bayes Classifierrjohns15/cse40647.sp14/www/content/lectures/20 - Nai… · Data Preprocessing Classification & Regression Naïve Bayes Classifier

Tool wear monitoring using naïve Bayes classifiers · 3 Naïve Bayes classifier for tool condition monitoring Intoolconditionmonitoring,theuncertainvariableofinterest is the state

23: Naïve Bayes€¦ · Lisa Yan, CS109, 2020 Quick slide reference 2 3 Intro: Machine Learning 23a_intro 21 “Brute Force Bayes” 24b_brute_force_bayes 32 Naïve Bayes Classifier

The Naïve Bayes Classifier