Statistical learning Strumenti quantitativi per la gestionetaufer/Slide-pdf/Statistical...

2/23/2015 Statistical learning (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/2_Statistical_Learning.html#(1) 1/42

Statistical learning

Strumenti quantitativi per la gestioneEmanuele Taufer



VenditeSupponiamo di voler capire come migliorare le vendite di undeterminato prodotto.

Il Set di dati Advertising consiste nelle vendite del prodotto in 200diversi mercati, insieme ai budget pubblicitari per il prodotto inciascuno di quei mercati per tre diversi media: TV, radio, e giornali.

Non è possibile aumentare direttamente le vendite del prodotto.

D’altra parte, si può controllare la pubblicità in ciascuno dei tre media.Pertanto, se stabiliamo che vi è un’associazione tra pubblicità evendite, allora possiamo agire sul budget pubblicitario, e quindi,indirettamente sulle vendite.

In altre parole, l’obiettivo è quello di sviluppare un modello accuratoutilizzabile per prevedere le vendite sulla base dei budget per i tremedia.



Tre regressioni separate (linea blu) Vendite su pubblicità TV,Radio e Giornali

Possiamo prevedere le vendite utilizzando questi tre?

Forse possiamo fare meglio utilizzando un modello

Vendite ∼ f(TV, Radio, Giornali)



SimbologiaNell’esempio, Vendite è la variabile risposta o dipendente o obbiettivo chedesideriamo prevedere. Genericamente indicata con .

TV è una variabile indipendente o input o predittore. Chiamiamola .Analogamente definiamo Radio come e così via.

Possiamo fare riferimento genericamente al vettore input

A questo punto possiamo riscrivere il nostro modello come

dove è un termine d’errore casuale, che è indipendente da e hamedia zero. In questa formulazione rappresenta l’informazionesistematica che fornisce su .

Y

X1X2

X = ( , ,X1 X2 X3)T

Y = f(X) + ε

ε Xf

X Y



Reddito

Come altro esempio, si consideri la relazione tra reddito e anni dieducazione per 30 persone nel set di dati sul reddito (income).

Il grafico suggerisce che si potrebbe essere in grado di prevedere ilreddito con gli anni di educazione.

Tuttavia, la funzione che collega la variabile input alla variabile outputè sconosciuta in generale.

In questa situazione si deve stimare basandosi sui punti osservati.

f

f



Statistical learningIn sostanza, il termine Statistical learning si riferisce ad una serie diapprocci per la stima di .

In questa prima lezione si delineano alcuni dei principali concettiteorici che si presentano nella stima di , nonché gli strumenti pervalutare la bontà delle stime ottenute.

f

f



A cosa ci serve ?Due ragioni principali

1 Previsione

Con una buona possiamo fare previsioni di in base a nuovipunti

2 Inferenza

Possiamo capire quali componenti di sonoimportanti per spiegare , e quali sono irrilevanti.

Ad esempio Anzianità e Anni di Educazione hanno un grande impatto sulreddito, ma Stato civile di solito no.

A seconda della complessità di , potremmo essere in grado dicapire come ogni componente di agisce su .

f

f Y

X = x

X = ( , , … , )X1 X2 Xp

Y

f

X Y



PrevisioneIn molte situazioni, un insieme di input è prontamente disponibile,ma l’output non può essere facilmente ottenuto.

In questa situazione, siamo in grado di prevedere con

dove rappresenta la nostra stima per , e rappresenta laprevisione risultante per .

In questo approccio, è spesso trattato come una scatola nera, nelsenso che, tipicamente, non ci interessa la forma esatta di , purchéfornisca previsioni accurate per .

XY

Y

= (X)Y f

f f YY

f

fY



Errore riducibile e errore irriducibile

L’accuratezza di come previsione per dipende da due quantità;l’errore riducibile e l’errore irriducibile.

Errore riducibile

generalmente non è una stima perfetta per , e questo introduce qualcheerrore. Questo errore è riducibile perché possiamo potenzialmente migliorarel’accuratezza di utilizzando tecniche via via migliori di Statistical learningper stimare .

Errore irriducibile

è anche una funzione di che, per definizione, non può essere previstocon .

la variabilità associato a influisce sull’accuratezza delle nostre previsioni.

può contenere variabili non misurate che sono utili nel predire :

può contenere variazione intrinseca al fenomeno.

Y Y

f f

f

f

Y ε

X

ε

ε Y

ε

^



Si consideri una data stima e un insieme di predittori , cheproducono la previsione . Supponiamo per un momentoche sia che siano fissi. Si ha

rappresenta la media, o valore atteso, delquadrato della differenza tra il valore previsto e effettivo di ,

la varianza associata all’errore .Questo valore è quasisempre sconosciuto in pratica.

f X

= (X)Y ff X

E(Y − Y )2 = E[f(X) + ε − (X)f ]2

= +[f(X) − (X)f ]2 errore riducibile

V ar(ε) errore irriducibile

E(Y − Y )2

Y

V ar(ε) ε



InferenzaIn questo caso è importante capire la relazione tra e , o piùspecificamente, comprendere come cambia in funzione di

.

Quali fattori predittivi sono associati con la risposta?

È spesso il caso che solo una piccola frazione dei predittori disponibili sianosostanzialmente associati a . Identificare i pochi predittori importanti puòessere estremamente utile.

Qual è la relazione tra la risposta e ogni predittore?

Alcuni predittori possono avere un rapporto positivo con , nel senso cheaumentando il predittore aumenta anche . Altri predittori possono avereuna relazione opposta. Il rapporto tra la risposta e un dato predittore puòdipendere anche i valori degli altri predittori.

Il rapporto tra e è lineare? O è più complicato?

Storicamente, la maggior parte dei metodi per stimare hanno preso formalineare. In alcune situazioni, tale ipotesi è ragionevole o auspicabile. Maspesso il vero rapporto è più complicato.

X YY

, … , XpX1

Y

Y

Y

Y X

f



Esempi

Si consideri una società che è interessata a condurre unacampagna di direct marketing. L’obiettivo è quello diidentificare le persone che risponderanno positivamente a unamail, sulla base di osservazioni di variabili demografichemisurata su ogni singola unità.

Si consideri il problema relativo al set di dati Advertising checonsiste nelle vendite del prodotto in 200 diversi mercati,insieme con budget pubblicitari per il prodotto in ciascuno diquei mercati per tre diversi media: TV, radio, e giornali.

In un contesto immobiliare, si può cercare di legare il valoredelle case per input quali il tasso di criminalità, la zonizzazione,la distanza da un fiume, la qualità dell’aria, presenza di scuole,livello di reddito della comunità, le dimensioni delle case, e cosìvia.

In alternativa, si può semplicemente essere interessati a predireil valore di una casa date le sue caratteristiche



Come stimare - una panoramicaSimbologia

Abbiamo a disposizione una serie di casi, i dati osservati, cheuseremo per stimare . Indicheremo sempre con il numerodi unità osservate. I dati usati per stimare vengono definititraining data.

rappresenta il valore del predittore , o input, perl’osservazione , dove e .

Corrispondentemente, rappresenta la variabile di rispostaper l’osservazione -esima.

I cd training data sono dunque

Vogliamo trovare una funzione tale che per ogniosservazione .

In linea di massima, la maggior parte dei metodi di statistical learningpossono essere classificati in

parametrici

nonparametrici

f

f n

f

xij j

i i = 1, 2, … , n j = 1, 2, … , p

yi

i

{( , ), ( , ), … , ( , )}, dove = ( , , … ,x1 y1 x2 y2 xn yn xi xi1 xi2 xip)T

f Y ∼ (X)f

(X, Y )



Metodi parametriciI metodi parametrici implicano un approccio in due fasi:

1. In primo luogo, si fa una supposizione circa la formafunzionale, o la forma di .

2. Dopo aver selezionato un modello ( ), abbiamo bisogno diuna procedura di stima di che utilizza i training data.

Per esempio, una semplice ipotesi è che sia lineare in :

in questo caso il problema della stima di è notevolmente semplificato. Unodeve solo stimare coefficienti .

Anche se non è quasi mai corretto, un modello lineare è spesso una buona,ed interpretabile, approssimazione a .

f

f

f

f X

f(X) = + + + ⋯ + .β0 β1X1 β2X2 βpXp

f

p + 1 , , … ,β0 β1 βp

f(X)



Il potenziale svantaggio di un approccio parametrico è che ilmodello che scegliamo di solito non corrisponde alla vera . Seil modello scelto è troppo lontano da , allora la nostra stimasarà povera (o fuorviante).

Possiamo cercare di risolvere questo problema scegliendomodelli flessibili che possono adattarsi a diverse formefunzionali possibili per .

In generale, adattando un modello più flessibile richiede lastima di un maggior numero di parametri.

Modelli troppo complessi possono portare ad un fenomenonoto come overfitting dei dati. In sostanza il modello segue glierrori, o rumore, troppo da vicino.

f

f

f



Metodi non parametrici

I metodi non parametrici non fanno ipotesi esplicite circa laforma funzionale di .

Invece cercano una stima di che sia il più vicino possibile aipunti dati

Tali approcci possono avere un grande vantaggio rispetto agliapprocci parametrici: evitando l’assunzione di una formafunzionale particolare , hanno il potenziale per adattarsi conprecisione una gamma più ampia di possibili forme per .

Ma gli approcci non parametrici soffrono di un inconveniente:poiché non riducono il problema della stima di a quello di unpiccolo numero di parametri ( ) di solito un numero diosservazioni ( ) elevato è richiesto per ottenere una stimaaccurata di .

f

f

f

f

f

p + 1n

f



Esempio: Income dataNei grafici seguenti, proviamo a confrontare diverse soluzioni di stimadi per il problema

I grafici 2.3 -2.6 seguenti mostrano:

la vera sottostante ai dati (generati al computer)

il modello parametrico

un modello thin-plate spline (non parametrico)

con basso grado di adattamento

con elevato grado di adattamento

f

Income = f(Years of education, Seniority)

f

income ∼ + × education + × seniority.β0 β1 β2



2.3 - Vera f



2.4 - Modello lineare



2.5 - Thin-plate spline - bassoadattamento



2.6 - Thin-plate spline - altoadattamento



Trade-off flessibilità-interpretabilitàTra i molti metodi disponibili, alcuni sono meno flessibili, o piùrestrittivi, nel senso che possono produrre solo relativamente piccolagamma di forme per stimare .

Se siamo interessati all’inferenza, modelli restrittivi sono piùinterpretabili

Se siamo interessati alla previsione la precisione del modellodiventa fondamentale

f



Supervised e unsupervised StatisticalLearning

Molti problemi di Statistical learning rientrano in una delle duecategorie: supervised e unsupervised.

Nel Supervised learning abbiamo sia variabili input ( ) che output ().

regressione lineare, regressione logistica, modelli additivi generalizzati, etc.

Nell’unsupervised learning, tipicamente, non è osservata la variabilerisposta .

cluster analysis: ad esempio raggruppare consumatori in base acaratteristiche demografiche osservate sperando che queste possano essereassociate ad abitudini di consumo.

X

Y

Y



Problemi di regressione e diclassificazione

Le variabili possono essere caratterizzate come

Quantitative (misurate su scala numerica)

Qualitative (Classificano l’unità in una di classi differenti)

Tipicamente se la è quantitativa si parla di regressione

Se la è qualitativa si parla di classificazione

In entrambi i casi possiamo avere variabili input, , sia di tipoqualitativo che quantitativo.

K

Y

Y

X



Valutazione della bontà del modelloUna delle misure più usate per la valutazione dei modelli è l’errorequadratico medio o MSE (mean squared error) nell’acronimo inglese:

L’MSE sarà piccolo se i valori previsti, sono molto vicini ai valoriosservati ; viceversa tenderà a crescere tanto più sono le differenzeprevisti-osservati che differiscono sostanzialmente.

L’MSE definito sopra è calcolato utilizzando i training data

Tuttavia, si è più interessati alla precisione delle predizioni cheotteniamo quando applichiamo a dati nuovi, i cd test data.

MSE = ( − ( )1n

∑i=1

n

yi f xi )2

( )f xi

yi

f



Test MSE e training MSEDati i training data può essererelativamente semplice trovare un modello con training MSE moltobasso.

Invece, vogliamo sapere se è approssimativamente uguale a ,dove è un’osservazione nuova, non presente nei training data.Vogliamo scegliere il metodo che dà un test MSE molto basso.

Se abbiamo un gran numero di osservazioni test, potremmo calcolare

dove Ave sta per media (average). Ossia l’errore quadratico medio diprevisione per le osservazioni test .

In altre parole, vorremmo selezionare il modello per il quale, il testMSE sia il più piccolo possibile.

{( , ), ( , ), … , ( , )}x1 y1 x2 y2 xn yn

( )f x0 y0( , )x0 y0

Ave( − ( ) ,y0 f x0 )2

( , )X0 Y0



Tipicamente test MSE e training MSE possono differire sostanzialmente.

Se uno ha a disposizione due set di dati, training e test può provare adadattare diversi modelli ai training data e scegliere quello che presentatest MSE più basso.

Se questo non è il caso si può ricorrere ad altre tecniche, ad esempiola cross-validazione, che discuteremo nelle prossime lezioni.



Esempio 1: non lineare

La figura sopra mostra:

A sinistra: i dati simulati da (in nero) e tre possibili stime:regressione lineare (arancio); smoothing splines (blu e verde)

A destra: test MSE (rosso) e training MSE (grigio)

La flessibilità è misurata in termini di parametri (più parametri - piùflessibilità)

la regressione lineare in questo caso ha due parametri (intercetta ependenza)

L’andamento a del test MSE è molto tipico e mostra che unoverfitting dei dati è spesso fuorviante

f

f

U



Esempio 2: linearef



Esempio 3: non linearef



Bias-Variance trade-offLa forma a U osservata nel Test MSE è il risultato di duecaratteristiche, spesso in contrasto tra loro, delle tecniche di statisticallearning: la varianza ed il bias ( o distorsione)

Il valore atteso del test MSE può essere scritto

misura il cambiamento atteso di se la sua stimaavviene attraverso un training data diverso. Diversi training datainfatti ottengono diverse . In generale, più elevata laflessibilità del metodo di stima, maggiore è la variabilità di .

si riferisce all’erroreintrodotto approssimando un problema reale, che può essereestremamente complicato, con un modello semplice.

Ad esempio, la regressione lineare presuppone che vi sia un rapporto linearetra e . E’ improbabile che sia così in realtà e quindi l’usodella regressione lineare indurrà distrosione nella stima di

E( − ( ) = V ar( ( )) + [Bias( ( )) + V ar(ε)y0 f x0 )2 f x0 f x0 ]2

V ar( ))f f

f

f

Bias( ( )) = E( ( ) − f( ))f x0 f x0 x0

Y , X2, … ,X1 Xp

f



Scomposizione Bias-Var Esempi1,2,3

Di regola, più è flessibile il metodo che si usa, più la varianzatenderà ad aumentare ed il bias a diminuire. Il tasso relativo divariazione di queste due quantità determina se il test MSEaumenta o diminuisce.

Tuttavia, ad un certo punto, l’aumento della flessibilità ha pocoimpatto sul bias, ma inizia ad aumentare significativamente lavarianza. Quando questo accade il test MSE aumenta.



ClassificazioneMolti dei concetti discussi finora, quale il bias-variance trade-off,valgono anche nel caso della classificazione con modifiche minimedovute al fatto che non è più numerica.

Supponiamo di stimare sulla base dei training data , dove ora sono qualitative

L’approccio più comune per quantificare la bontà della stima è iltasso di errore per i training data

dove è la classe prevista per la -esima unità da .

è un indicatore, ossia è uguale a 0 se , uguale a 1 se

La formula calcola la frazione di classificazioni scorrette.

Y

f{( , ), … , ( , )}x1 y1 xn yn , … ,y1 yn

f

I( ≠ )1n

∑i=1

n

yi y i

y i i f

I( ≠ )yi y i =yi y i

≠yi y i



Tasso di errore training e testAnalogamente a quanto discusso per il contesto della regressione, si èdi solito più interessati alla performance di nel caso di unità nonpresenti nei training data

Definiamo allora il tasso di errore test (test error rate) associato ad unset di osservazioni test del tipo :

Una buona è quella per cui il test error rate è il più basso possibile.

f

( , )x0 y0

Ave(I( ≠ ))yi y i

f



Il classificatore di BayesE’ possibile dimostrare che il test error rate definito sopra è minimo, inmedia, quando la procedura di classificazione è fatta usando unasemplicissima regola che assegna l’unità alla classe più probabile datal’informazione dei predittori.

Il classificatore di Bayes assegna l’osservazione test, con predittore ,alla classe , ( ), per la quale

è massima.

è una probabilità condizionata: la probabilità che data l’informazione fornita da .

Il classificatore di Bayes produce il minor test error rate possibile,definito Bayes error rate.

In pratica non riusciamo mai a calcolare il classificatore di Bayes poichènon c’è informazione a sufficienza.

x0j j = 1, 2, … K

P(Y = j|X = )x0

P( = j|X = )Y0 x0Y = j x0



Classificatore KNNDato un intero positivo e un’osservazione test , il classificatoreKNN ( -nearest neighbors)

identifica i punti più vicini a , rappresentati da .

stima la probabilità condizionale per classe come frazione dipunti in la cui risposta è uguale a :

Infine, KNN applica la regola di Bayes e classifica l’osservazionetest nella classe con il maggior probabilità.

K x0K

K x0 N0

j

N0 j

Pr(Y = j|X = ) = I( = j)x01K

∑i∈N0

yi

x0



Esempio K=3



Esempio 1



Error rates



Riferimenti bibliograficiAn Introduction to Statistical Learning, with applications in R"(Springer, 2013)

Alcune delle figure in questa presentazione sono tratte dal testo con ilpermesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani "

Statistical learning Strumenti quantitativi per la gestionetaufer/Slide-pdf/Statistical...

Documents

Transcript of Statistical learning Strumenti quantitativi per la gestionetaufer/Slide-pdf/Statistical...