EE269 Signal Processing for Machine Learning - Lecture...

Transcript of EE269 Signal Processing for Machine Learning - Lecture...

EE269Signal Processing for Machine Learning

Lecture 6

Instructor : Mert Pilanci

Stanford University

Jan 9 2019
Bayes classifiers

Given Pxy joint probability distribution of (x[n], y) what is thebest classifier ?

I signal classifier function f(x[n]) : RN → {1, ..., k}I best classifier depends on the performance measure

I risk (probability of error):

R(f) = Pxy(f(x) 6= y)
Bayes risk R∗

I Bayes risk is R∗ the smallest risk of any classifier

If R(f) = R∗, then f is a Bayes classifier

πk := Py(y = k) prior class probabilities

gk(x) := Px|y=k class conditional distribution

I define posterior class probabilities:

ηk(x) = Py=k|x(y = k|x)

note that∑K

k=1 ηk(x) = 1
Bayes risk R∗

I Bayes risk is R∗ the smallest risk of any classifier

If R(f) = R∗, then f is a Bayes classifier



I define posterior class probabilities:

ηk(x) = Py=k|x(y = k|x)

note that∑K

k=1 ηk(x) = 1
Example: x[n] = x ∈ R

I Suppose x|y is Gaussian, y ∈ {−1,+1}

x|y = −1 ∼ N(µ−, σ2−) and x|y = +1 ∼ N(µ+, σ2+)

η1(x) = P (y = 1|x) = P (x|y=1)P (y=1)P (x) (Bayes rule)
Bayes classifier



ηk(x) = Py=k|x(y = k|x) posterior class probabilities

Theorem: The classifier

f∗(x) = arg maxk=1,...,K

ηk(x)

= arg maxk=1,...,K

πkgk(x)

is a Bayes classifier
Detecting a constant signal in Gaussian noise

I x[n] = [x1, ...xN ] ∼ N(0, σ2) i.i.d. for y = 1 (noise)I x[n] = [x1, ...xN ] ∼ N(µ, σ2) i.i.d. for y = 2 (signal+noise)I P (y = 1) = π1 and P (y = 2) = π2

Assume µ is known

g1(x) := Px|y=1 =∏Ni=1

1√2πσ2

e−1

2σ2(xi)

2

g2(x) := Px|y=2 =∏Ni=1

1√2πσ2

e−1

2σ2(xi−µ)2

Bayes classifier:

Classify as signal+noise if π1g1(x) < π2g2(x)

µ

N∑i=1

xi > σ2 log(

π1π2

) +Nµ2/2


Assume µ is known

g1(x) := Px|y=1 =∏Ni=1

1√2πσ2

e−1

2σ2(xi)

2

g2(x) := Px|y=2 =∏Ni=1

1√2πσ2

e−1

2σ2(xi−µ)2

Bayes classifier:


µ

N∑i=1

xi > σ2 log(

π1π2

) +Nµ2/2


Assume µ is known

g1(x) := Px|y=1 =∏Ni=1

1√2πσ2

e−1

2σ2(xi)

2

g2(x) := Px|y=2 =∏Ni=1

1√2πσ2

e−1

2σ2(xi−µ)2

Bayes classifier:


µ

N∑i=1

xi > σ2 log(

π1π2

) +Nµ2/2
Detecting a change in variance

I x[n] = [x1, ...xN ] ∼ N(0, σ21) i.i.d. for y = 1 (noise)I x[n] = [x1, ...xN ] ∼ N(0, σ22) i.i.d. for y = 2 (signal+noise)I P (y = 1) = π1 and P (y = 2) = π2

Assume σ1 and σ2 is known

g1(x) := Px|y=1 =∏Ni=1

1√2πσ21

e− 1

2σ21(xi)

2

g2(x) := Px|y=2 =∏Ni=1

1√2πσ22

e− 1

2σ22(xi)

2

Bayes classifier:

Classify as class 2 if π1g1(x) < π2g2(x)(1

2σ21− 1

2σ22

) N∑i=1

x2i > log(π1π2

)− N2

log(σ21σ22

)



g1(x) := Px|y=1 =∏Ni=1

1√2πσ21

e− 1

2σ21(xi)

2

g2(x) := Px|y=2 =∏Ni=1

1√2πσ22

e− 1

2σ22(xi)

2

Bayes classifier:


2σ21− 1

2σ22

) N∑i=1

x2i > log(π1π2

)− N2

log(σ21σ22

)



g1(x) := Px|y=1 =∏Ni=1

1√2πσ21

e− 1

2σ21(xi)

2

g2(x) := Px|y=2 =∏Ni=1

1√2πσ22

e− 1

2σ22(xi)

2

Bayes classifier:


2σ21− 1

2σ22

) N∑i=1

x2i > log(π1π2

)− N2

log(σ21σ22

)
Detecting a known waveformI s[n] ∈ RN known waveformI x[n] = [x1, ...xN ] ∼ N(0, σ2) i.i.d. for y = 1 (noise)I x[n] = [s1, ...sN ] +N(0, σ2) i.i.d. for y = 2 (signal+noise)I P (y = 1) = π1 and P (y = 2) = π2

Assume µ is known

g1(x) := Px|y=1 =∏Ni=1

1√2πσ2

e−1

2σ2(xi)

2

g2(x) := Px|y=2 =∏Ni=1

1√2πσ2

e−1

2σ2(xi−si)2

Bayes classifier:


N∑i=1

xisi > σ2 log(

π1π2

) +1

2

N∑i=1

|si|2

〈x, s〉 > σ2 log(π1π2

) +1

2||s||22

I matched filter (e.g., face detector, DFT basis)

Assume µ is known

g1(x) := Px|y=1 =∏Ni=1

1√2πσ2

e−1

2σ2(xi)

2

g2(x) := Px|y=2 =∏Ni=1

1√2πσ2

e−1

2σ2(xi−si)2

Bayes classifier:


N∑i=1

xisi > σ2 log(

π1π2

) +1

2

N∑i=1

|si|2


) +1

2||s||22


Assume µ is known

g1(x) := Px|y=1 =∏Ni=1

1√2πσ2

e−1

2σ2(xi)

2

g2(x) := Px|y=2 =∏Ni=1

1√2πσ2

e−1

2σ2(xi−si)2

Bayes classifier:


N∑i=1

xisi > σ2 log(

π1π2

) +1

2

N∑i=1

|si|2


) +1

2||s||22


Assume µ is known

g1(x) := Px|y=1 =∏Ni=1

1√2πσ2

e−1

2σ2(xi)

2

g2(x) := Px|y=2 =∏Ni=1

1√2πσ2

e−1

2σ2(xi−si)2

Bayes classifier:


N∑i=1

xisi > σ2 log(

π1π2

) +1

2

N∑i=1

|si|2


) +1

2||s||22

Multivariate Gaussianx1, ...xn ∼ i.i.d. N(µ,Σ)

P (x1, ...xn;µ,Σ) =1

(2π)N2 |Σ|

12

e−12

(x−µ)TΣ−1(x−µ)
Detecting a correlated signal

I [x1, ...xN ] ∼ N(0, σ2In) for y = 1 (noise)I [x1, ...xN ] ∼ N(0,Σ) +N(0, σ2In) for y = 2 (signal+noise)I P (y = 1) = π1 and P (y = 2) = π2

Assume σ and Σ are known

g1(x) := Px|y=1 =1

(2πσ2)N2e−

12xT (σ2In)−1x

g2(x) := Px|y=2 =1

(2π)N2 |Σ|

12e−

12xT (Σ+σ2In)−1x

Bayes classifier:


log(π1)−1

2x(σ2In)

−1x < −12x(Σ+σ2In)

−1x+log π2+constant



g1(x) := Px|y=1 =1

(2πσ2)N2e−

12xT (σ2In)−1x

g2(x) := Px|y=2 =1

(2π)N2 |Σ|

12e−


Bayes classifier:


log(π1)−1

2x(σ2In)

−1x < −12x(Σ+σ2In)




g1(x) := Px|y=1 =1

(2πσ2)N2e−

12xT (σ2In)−1x

g2(x) := Px|y=2 =1

(2π)N2 |Σ|

12e−


Bayes classifier:


log(π1)−1

2x(σ2In)

−1x < −12x(Σ+σ2In)


I [x1, ...xN ] ∼ N(0, σ2In) for y = 1 (noise)I [x1, ...xN ] ∼ N(0,Σ) +N(0, σ2In) for y = 2 (signal+noise)

log(π1)−1

2xT (σ2In)

−1x < −12xT (Σ+σ2In)


I Matrix inversion lemma (A invertible)(A+B)−1 = A−1 −A−1(I +BA−1)−1BA−1

I (σ2In)−1 − (Σ + σ2In)−1 = 1σ2 (σ2In + Σ)

−1Σ

I Classify as signal whenxT (σ2In + Σ)

−1Σx > σ2 log π1π2 + constant


log(π1)−1

2xT (σ2In)

−1x < −12xT (Σ+σ2In)



I (σ2In)−1 − (Σ + σ2In)−1 = 1σ2 (σ2In + Σ)

−1Σ




log(π1)−1

2xT (σ2In)

−1x < −12xT (Σ+σ2In)



I (σ2In)−1 − (Σ + σ2In)−1 = 1σ2 (σ2In + Σ)

−1Σ



[x1, ...xN ] ∼ N(0, σ2In) for y = 1 (noise)[x1, ...xN ] ∼ N(0,Σ) +N(0, σ2In) for y = 2 (signal+noise)Classify as signal whenxT (σ2In + Σ)


I Eigenvalue Decomposition: Σ = UΛUT =∑n

i=1 λiuiuTi

xT (σ2In + UΛUT )−1UΛUTx

= xTU(σ2In + Λ)−1ΛUTx

I Change of basis: y = UTx

I yT (σ2In + Λ)−1Λy =∑N−1

n=0λn

λn+σ2|y[n]|2

yfiltered[n] =√

λnλn+σ2

y[n]




i=1 λiuiuTi





n=0λn

λn+σ2|y[n]|2

yfiltered[n] =√

λnλn+σ2

y[n]




i=1 λiuiuTi





n=0λn

λn+σ2|y[n]|2

yfiltered[n] =√

λnλn+σ2

y[n]
Optimality of filtering for circulant covariances

xTU(σ2In + Λ)−1ΛUTx > σ2 log

π1π2

I Symmetric circulant covariances

Σ =

s[0] s[1] s[2] . . . s[2] s[1]s[1] s[0] s[1] . . . s[3] s[2]

......

.... . .

......

s[2] s[3] s[4] . . . s[0] s[1]s[1] s[2] s[3] . . . s[1] s[0]

I Σij = ΣjiI s[N − n] = s[n]

Fourier basis: wk[n] =1√Nej

2πNnk

wHk Σ = S[k]wHk
Optimality of filtering for circulant covariances

xTU(σ2In + Λ)−1ΛUTx > σ2 log

π1π2

I Symmetric circulant covariances

Σ =

s[0] s[1] s[2] . . . s[2] s[1]s[1] s[0] s[1] . . . s[3] s[2]

......

.... . .

......

s[2] s[3] s[4] . . . s[0] s[1]s[1] s[2] s[3] . . . s[1] s[0]

I Σij = ΣjiI s[N − n] = s[n]

Fourier basis: wk[n] =1√Nej

2πNnk

wHk Σ = S[k]wHk

EE269 Signal Processing for Machine Learning - Lecture...

Documents

Transcript of EE269 Signal Processing for Machine Learning - Lecture...

Array Signal Processing - OpenStax CNX · Chapter 1 Array Signal Processing: An Introduction 1 1.1 Introduction and Abstract Array signal processing is a part of signal processing

Digital Signal Processing 2/ Advanced Digital Signal ... · PDF fileDigital Signal Processing 2/ Advanced Digital Signal Processing/ Audio-Video Signalverarbeitung Lecture 1, ... We

What is Signal Processing? Alex Acero President, IEEE Signal Processing.

IEEE Signal Processing Society Conference Organizer Guidelines · IEEE Signal Processing Society . Conference Organizer Guidelines . ... IEEE Signal Processing Society . Conference

Digital Signal Processing:Digital Signal Processingfeihu.eng.ua.edu/NSF_TUES/w7_1.pdf · Digital Signal Processing:Digital Signal Processing: ... – Speech & Audio processing –

SAM Signal Processing Examples Statistical Signal Processing for Radar

Signal Processing

ECE 6560 Multirate Signal Processing Chapter 1bazuinb/ECE6560/Chap_01.pdf · ECE 6560 Multirate Signal Processing Chapter 1 ... • In digital signal processing, ... Signal Processing

ECE-V-DIGITAL SIGNAL PROCESSING [10EC52] …vtusolution.in/.../digital-signal-processing-10ec52.pdfDigital vtusolution.in Signal Processing 10EC52 TEXT BOOK: 1. DIGITAL SIGNAL PROCESSING

Signal Processing -

Spectral Analysis __ Statistical Signal Processing (Signal Processing Toolbox™)

Lecture 13 Instructor : Mert Pilanciweb.stanford.edu/class/ee269/Lecture13.pdfEE269 Signal Processing for Machine Learning Lecture 13 Instructor : Mert Pilanci Stanford University

Signal processing for electronic nose, Signal processing ...

Chapter 9 Basic Signal Processing - cs.princeton.edu 9 Basic Signal Processing ... Digital Signal Processing ... The key to understanding signal processing is to learn to think in

Genomic signal processing - IEEE Signal Processing Magazine

Mapping Signal ProcessingMapping Signal Processing ...

Signal Processing Examples With C64x Digital Signal Processing ...

Graph Signal Processing - Data Science Reading Group 1 Graph Signal Processing Background 2 Graph Signal Processing Frameworks Laplacian Based Discrete Signal Processing on Graphs

EE482: Digital Signal Processing Applicationsb1morris/ee482/docs/slides14_quiz04.pdf · EE482: Digital Signal Processing Applications ... •Speech Signal Processing LPC, CELP, ...

Signal Processing for Spatial Sound Control · Digital Signal Processing Rapid Prototyping with Matlab ... video signal processing, signal processing for radio communications, medical