Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento...

33
Slides by Botta, Saitta, Malerba Tecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino [email protected] Slides by Botta, Saitta, Malerba Knowledge Discovery in Databases e Data Mining KDD Termine derivato dal titolo di un workshop organizzato da Piatetsky-Shapiro nell’ambito del Machine Learning (Detroit, 1989) “Knowledge discovery in databases is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data” “Knowledge is in the eye of the beholder” [Fayyad, 1996] DM Termine usato inizialmente in Statistica (“data fishing”) per denotare l’analisi esplorativa di dati in assenza di ipotesi a priori

Transcript of Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento...

Page 1: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Tecnologie di Riferimento per ilData Mining

Marco Botta

Dipartimento di InformaticaUniversità di Torino

[email protected]

Slides by Botta, Saitta, Malerba

Knowledge Discovery in Databases e Data Mining

KDD → Termine derivato dal titolo di un workshop organizzato da Piatetsky-Shapiro nell’ambito del Machine Learning (Detroit, 1989)

“Knowledge discovery in databases is the non-trivial process of identifying valid, novel,

potentially useful, and ultimately understandable patterns in data”

“Knowledge is in the eye of the beholder” [Fayyad, 1996]

DM → Termine usato inizialmente in Statistica (“data fishing”)per denotare l’analisi esplorativa di dati in assenza di ipotesi a priori

Page 2: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Knowledge Discovery in Databases and Data Mining

Data Collection

Data Pre-processing

Data Mining

ResultInterpretation

“Knowledge discovery in databases is the non-trivial process of identifying valid, novel,

potentially useful, and ultimately understandable patterns in data”

[Fayyad, 1996]

“Knowledge is in the eye of the beholder”

[Fayyad, 1996]

Slides by Botta, Saitta, Malerba

Le quattro caratteristiche del KDD

_ Linguaggio di alto livello_ la conoscenza scoperta è rappresentata in un linguaggio di alto

livello, in modo che possa essere compresa dall’utente umano_ Accuratezza

_ ciò che si scopre deve rispecchiare accuratamente il contenuto della base dati. Misure di incertezza esprimono il livello di attendibilità della conoscenza estratta

_ Risultati interessanti_ la conoscenza scoperta è interessante rispetto a criteri espressi

dall’utente. In particolare, questo implica che i pattern sono nuovi e utili e il processo di scoperta è non babale

_ Efficienza_ il processo di scoperta è efficiente. I tempi di risposta sono

predicibili e accettabili

Page 3: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

The “Value Chain”

Data• Stile di vita• Punto di vendita• Dati demografici• Dati geografici

Information• X vive in Z• S ha Y anni• X ed S hanno traslocato• W ha del denaro in Z

Conoscenza• Una quantità Y del prodotto

A è usata per lo più nellaregione Z

• I clienti di classe Y usanox% di C durante il periodo D

Decisione• Promuoviamo il prodotto A

nei negozi della regione Z• Spediamo i cataloghi alle

famiglie di profilo P• Offriamo dei servizi addizionali

ai clienti C

Slides by Botta, Saitta, Malerba

Natura degli Approcci

Ogni forma di analisi cerca di ridurre una grande massa di dati grezzi e informi a pochi concetti e relazioni chiari e facilmente interpretabili

• Approcci “Verification-Driven” Top-Down

Analisi “passiva”, atta a verificare se un certo modello (ipotesi) è coerente con i dati a disposizione. L’ipotesi o il modello sono formulati dall’utente sulla base della sua esperienza

• Approcci “Discovery-Driven” Bottom-Up

Analisi “attiva”, in cui i dati stessi suggeriscono possibili ipotesi sul significatodel loro contenuto. Individuazione di fatti significativi, relazioni, tendenze, pattern, associazioni, eccezioni e anomalie, che sfuggono all’analisi manuale per la loro complessità

Page 4: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Approcci “Verification-Driven”

• “Query & Reporting”

• Foglio Elettronico

• Analisi multidimensionale

• Analisi statistica• Raccolta dei dati

• Generazione di una ipotesi• Formulazione di una domanda• Interpretazione dei risultati e revisione dell’ipotesi

...... finchè non emerge un “pattern” interessante

Slides by Botta, Saitta, Malerba

Approcci “Discovery-Driven”

• Riconoscimento di Forme

• Intelligenza Artificiale

• Metodologie integrate

• Visualizzazione

Apprendimento Modello

Nuovi DatiDati

Storici

Conoscenzadel dominio

Apprendimento automatico simbolico

Reti neuraliAlgoritmi GeneticiReti Bayesiane

Page 5: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Approcci “Verification-Driven” : Query & Reporting e Foglio Elettronico

KDD Query : Più o meno sofisticati linguaggi SQL

“Di quali prodotti si sono venduti più di 400 esemplari in regioni dell’Italia Meridionale?

PRODOTTI MERCATI VENDITELetti Calabria 123Armadi Lazio 892Divani Basilicata 453Cucine Calabria 562Letti Lazio 457Armadi Basilicata 321Divani Calabria 676Cucine Lazio 231Letti Basilicata 256Armadi Calabria 324Divani Lazio 787Cucine Basilicata 426

PRODOTTI MERCATI VENDITEDivani Basilicata 453Cucine Calabria 562Divani Calabria 676Cucine Basilicata 426

Il foglio elettronico presenta informazioni in forma tabulare e offre una grande quantità di funzioni analitiche e descrittive

Slides by Botta, Saitta, Malerba

Approcci “Verification-Driven”: Analisi Multidimensionale

PRODOTT I

P1

P2

P3

P4

P5

P6

P7

P8

DATE

d1 d2 d3 d4 d5 d6 d7

C ITT

A

C1

C2

C3

C4C5

18

VENDITE ⇒ Dimensioni : PRODOTTI, CITTA’, DATE

Aggregazioni

Industria Stato Anno

Categoria Regione Trimestre

Prodotto Città Mese Settimana

Data

L’analisi multidimensionale supporta l’interattività

(Drill-Down / Roll-Up)

Page 6: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Approcci “Verification-Driven”: Analisi Multidimensionale

PRODOTTI MERCATI VENDITELetti Calabria 123Armadi Lazio 892Divani Basilicata 453Cucine Calabria 562Letti Lazio 457Armadi Basilicata 321Divani Calabria 676Cucine Lazio 231Letti Basilicata 256Armadi Calabria 324Divani Lazio 787Cucine Basilicata 426

MERCATIPRODOTTI Calabria Lazio Basilicata

Letti 123 457 256Armadi 324 892 321Divani 676 787 453

Dimensioni nelle MDDB: Celle con valori numerici o “ null”Variabili nelle MDDB : Indipendenti o derivate

PRODOTTI Calabria Lazio Basilicata TotaleLetti 123 457 256 836

Armadi 324 892 321 1537Divani 676 787 453 1916Cucine 562 231 426 1219Totale 1685 2367 1456 5508

MERCATI

ConsolidamentoPre-aggregazione dei dati e memorizzazione dei risultati

Slides by Botta, Saitta, Malerba

Approcci “Verification-Driven”: Analisi Statistica

✿ Progetto di Esperimenti e Campionamento✿ Statistica Grafica✿ Riduzione della dimensionalità

✿ Aggregazione✿ Analisi delle componenti principali✿ Analisi fattoriale

✿ Test di ipotesi✿ “Model ranking”✿ Modellizzazione (Classificazione, Regressione)✿ “Esploratory Data Analysis”

✿ Individuare caratteristiche di insieme dei dati✿ Individuare “outlier”✿ Generazione di Ipotesi (Clustering)

Scelta dei datiVisualizzazione

Validazione del modello

Calibrazione del modello

Costruzione del modello

Selezione e costruzione di feature

Confronto di modelli

Page 7: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Ambiente di Sviluppo del KDD

• Pre-Processing• Data cleaning• Selezione degli attributi• Discretizzazione attributi numerici• Setting dei parametri

• Integrazione stretta con le metodologie delle Basi di Dati• Estensione del linguaggio SQL

• Visualizzazione• Rotazione delle “2-D Views”• Metodi di grafica sofisticata

Slides by Botta, Saitta, Malerba

Pre-Processing

Tecniche di Pre-processing

Trasformazione dei dati

Raccolta di ulteriori informazioni

Generazione di nuova informazione

• Filtraggio

• Ordinamento

• Editing

• Modello delrumore

• Visualizzazione

• Eliminazione di dati

• Selezione di dati

• PCA

• Sampling

• Aggiunta di feature

• Costruzione di feature

• Fusione di dati

• Simulazione

• Analisi dimensionale

Page 8: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Pre-Processing

Problemi nei Dati

Troppi dati Troppo pochi dati Dati frammentati

• Dati rumorosi

• Dati irrilevanti

• Dati di grande dimensionalità

• Dati numerici continui

• Valori mancanti

• Attributi mancanti

• Pochi dati

• Dati incompatibili

• Sorgenti multiple

• Granularità diversa

Slides by Botta, Saitta, Malerba

Feature Selection

• Trovare il miglior sottoinsieme di attributi è un problema esponenziale

• Metodo di ricerca• C ompleta• Euristica (“greedy”)

• Aggiunta di attributi (Increasing)• Eliminazione di attributi (Decreasing)

• Approccio• “Wrapper” (dipende dall’algoritmo di apprendimento)• “Filter” (non dipende dall’algoritmo apprendimento)

• Costruzione di nuove feature

Page 9: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Task di Data Mining

✿ Classificazione

✿ Clustering / Segmentazione

✿ Riassunto / Caratterizzazione

✿ Dipendenze funzionali / Regressione

✿ Scoperta di Associazioni / Causalità

✿ Individuazione di Anomalie

✿ Analisi di Serie Temporali

Slides by Botta, Saitta, Malerba

Classificazione

No prestito

Prestito

Problemi tipici affrontati

Individuazione di frodiConcessione di crediti

Reddito

Debito

x

xx

xx

x

x x

x

x

oo

o

o

o

oo

o

oo

o

o

o

Page 10: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Clustering

Distanza

••

• ••••

••

•• •

••

•••

• • •• ••• •

••

• •••

• ••

••••• •

••

••

••

••

•• ••

•••

• • •• •• ••• •••

• • •• ••

•••

• ••••••

• •• ••

••• •

Densità

Forma(“Gestalt”)

• • • • • • • •

••••• • • • •

••••••

Slides by Botta, Saitta, Malerba

Segmentazione

La segmentazione consiste nell’analizzare attuali o potenziali gruppi di clienti(“segmenti”) per scoprirne caratteristiche e comportamenti che possano essere sfruttati nel mercato.

La segmentazione porta una organizzazione a vedere, al limite, ognuno dei suoi clienticome un “segmento unitario” (“segment of one”), al fine di stabilire con esso una relazione altamente personalizzata.

Due problemi basilari del marketing

✿ Capire le cause dell’abbandono dei clienti (“customer attrition”)

✿ Individuare nuove fette di mercato (“target marketing” e “cross selling”)

Page 11: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Riassunto / Caratterizzazione

••

• ••••

••

•• •

••

•••

• • •• ••• •

••

• •••

• ••

••••• •

•••

• ••

•••

• • ••• •

•• •

•• ••••

••

•••

••

•• •

•••

• •• ••

••

• •••

• ••

••••• •

• ••• • •

•• ••• •

•• ••••

• • ••• •

•••

D1 D2 D3

Perché sono stati raggruppati?

Che cosa hanno in comune?C1

C2

C3

Slides by Botta, Saitta, Malerba

Riassunto / Caratterizzazione

Descrizione compatta di un insieme di dati

MediaDeviazione standard

x

y

Età

Anni di Studio

••

•••

••

••

+ +

+++++

+

+

+

10 30 4020 5000

5

10

15

20

• Persone di mezza età e istruzione universitaria+ Ragazzi con basso livello di istruzione

Frequent flyers

Skate-boarders

Page 12: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Dipendenze funzionali / Regressione

Individuazione di legami funzionali tra variabili che occorrono in una base di dati

Dato un insieme E = {e1, ... , en}, di elementi descrivibili mediante i valori degli attributi A = {x1, ... , xk}, il task di regressioneassegna ad ogni elemento ei dell’insieme E un valore di una variabile continua f

DM -> Inferisce una “funzione di regressione” direttamente da un sottoinsieme dei dati (“esempi di apprendimento”)

∀ ei : f = f(x1, ... , xk)

x = Reddito

y = Debito

x

xx

xx

x

xx

xi

x

xx

x

x

xx

x

xx

x

x

x

y i

xi

y (xi)

+

++ ++

++

++ +

++

+

++

+

++

+

+

+

+

+ +

++

+

+

x

y

[y i ] − f r p (xi )]2

i =1

n∑

Slides by Botta, Saitta, Malerba

Scoperta di Associazioni

Scoperta di associazioni tra fatti, proprietà o valori di variabili (“Link analysis”)

Il 72% degli acquirenti di insalata verde, acquista anche un condimento

Problema tipicoMarket Basket Analysis

… … ... {Pane, Pesche}

1/7/99

Pane

Pesche

Uova

Spaghetti

… ...

2/7/99

Riso

Pane

Carne

Pesche

… ...

scontrino scontrino

Page 13: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Individuazione di Eccezioni

Individuazione di valori devianti dai “normali”(Eccezioni, Casi particolari, Errori)

••

• ••

••

••

•••

•••

• • •• ••• •

••

• •••

• ••

••••• •

•••

• ••

•••

• •••• •

•• •

•• ••••

Nn

n << N

• • •

•• •• ••• •

•• •••

• ••

•••• •

• • •

Età

I.Q. Test score

Slides by Botta, Saitta, Malerba

Individuazione di Anomalie

Individuazione di valori devianti dai “normali”

Età

Anni di Studio

••

•••

••

••

+ +

+++++

+

+

+

10 30 4020 5000

5

10

15

20 +

Età

Anni di Studio

••

••••

••

+ +

+++++

+

+

+

10 30 4020 5000

5

10

15

20 ++

+ +•

•••+

+

+++

+

Occorre definire che cosa vuol dire “normale”

Page 14: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Analisi di Serie Temporali

✿ Individuazione di conformazioni o episodi interessanti ✿ Analisi di tendenze✿ Scoperta di periodicità o fenomeni “stagionali”

Volume di vendite di Giacche a vento

5

15

10

20

0Gen Feb Mar Apr Mag Giu Lug Ag Set Ott Nov Dic

Mesi

Gen Feb Mar Apr Mag Giu Lug Ag Set Ott Nov Dic

PeriodicitàTrend

Episodio

Tempo

Slides by Botta, Saitta, Malerba

Discipline Rilevanti per il Data Mining

✿ Statistica✿ Riconoscimento di Forme✿ Intelligenza Artificiale

✿ Apprendimento Automatico ✿ Reti Bayesiane✿ Agenti Intelligenti

✿ Basi di Dati✿ Query and Reporting✿ “Data Warehousing” → OLAP

✿ Visualizzazione✿ Grafica✿ Ambienti multi-mediali

✿ Scienze Cognitive

Page 15: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Relazioni tra Discipline

Machine Learning Statistica

Task condivisi

Goal condivisi

y

xa

bx = Progetto di esperimenti

y = Apprendimento di piani

a = Stima dell’errore

b = Classificazione

Slides by Botta, Saitta, Malerba

Analisi Statistica: Analisi Discriminante

Funzione discriminante

Reddito

Debito

x

xx

xx

x

x x

x

x

oo

o

o

o

oo

o

oo

o

o

o+

o+ o+

o+

o+ +

o+

+

oo

+

+o

o

o

+

o

+ o

+o

+

o

x

y

LinearePrestito : y - a x - b < 0

Non LineareClasse A : y - a x2 - b > 0

No prestito

Prestito

Classe A

Classe B

Page 16: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Analisi Statistica: Clustering

Algoritmo k-MeansIl numero K di cluster desiderato deve essere fornito dall’utenteFunzione distanzaFunzione obbiettivo da ottimizzare :

Massimizza la distanza inter-cluster e minimizza la distanza intra-cluster

+ ++

+++

++

++ ++

++

++

++ +

++

+ +++

++

++++

+

+

+

++

+

++

++

+

+

++

+

+++

+

++ ++

+

+ ++

+

+

+

+++

+

++ ++++

+

++

+++

++

+

++++

+

+

++ +

++

++ +

+ +

++++

+++

+

++

+

+ ++

+++

++

++ ++

+

++

+

++ +

++

+ +++

++

++++

+

+

++

+

++

++

+

+

++

+

+++

+

++ ++

+

+ ++

+

+

+

+++

+

++ ++++

+

++

+++++

+

++++

+

+

++ +

++

++ +

+ +

++++

+++

+

++

+

+ ++

+

++

++

++ ++

+ ++

+

++ +

+

++ +

++++

++++

+

+

+

++

+

++

++

+

+

+ +

+

+++

+

++

+

+

+

+ ++

+

+

+

+++

+

++ ++++

+

++

+++

++

+

++++

+

+

++ +

++

++ +

+ +

++++

++

+

+

++

+

Slides by Botta, Saitta, Malerba

Riconoscimento di Forme: Classificazione

Approccio StatisticoFunzione di discriminazione probabilisticaClassificatore BayesianoClassificatore di Massima Verosimiglianza

+o+ o+

o+

o+ +

o+

+

oo

+

+ oo

o

+

o

+ o

+o

+

o

+++ + +

A

B

Pr{A | r x } =

Pr{r x | A} P(A)Pr{r x | A} P(A) + Pr{r x | B} P(B)

Pr{B | r x } =

Pr{r x | B} P(B)Pr{r x | A} P(A) + Pr{r x | B} P(B)

Pr{A | r x } = Pr{B | r x }

Pr{A | r x } P(A) = Pr{B | r x } P(B)

Page 17: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Riconoscimento di Forme: Classificazione

Approccio Basato su Casi “Case-Based”

k-Nearest Neighbours

Reddito

Debito

x

xx

xx

x

x x

x

x

oo

o

o

o

oo

o

oo

o

o

o

No prestito

Prestitox

Slides by Botta, Saitta, Malerba

Reti Neurali

Una rete neurale è una struttura composita, formata da elementi computazionali semplici, connessi secondo una topologia “a strati” => Approssimatori universali di funzioni

Unità di ingresso Unità Nascoste Unità di Uscita

Page 18: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Reti Neurali: Funzioni Elementari

Σy

x1

x2

x3

w1

w3

w2 σ

σ

Ingresso

Uscita

Σ i (xi wi)x =

Slides by Botta, Saitta, Malerba

Reti Neurali: Addestramento

Algoritmo di “Backpropagation”Minimizza l’errore quadratico totaleSe la rete è a più strati, l’errore viene propagato “indietro”

xk

x1

xn

Rete (W) y

E =12

(t k − yk )2

k=1

n

∑ wj = − η∂E

∂w j

η = Velocità di apprendimento

Page 19: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Intelligenza Artificiale: Apprendimento Automatico Simbolico

✿ Alberi di Decisione

✿ Regole di Produzione

✿ Reti Bayesiane

✿ Gerarchie Concettuali

Slides by Botta, Saitta, Malerba

Alberi di Decisione

S(p,n)

A

S SS(p , n ) i i i r1 (p , n ) r r(p , n ) 1 1 ....... .......

....... .......a aa1 i r

Date due classi P ed NDati p ed n esempi di apprendimentoDato un insieme di Attributi AGenerare una partizione dello spazio dei possibili esempi, usando un criterio euristicodi qualità

Page 20: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Alberi di Decisione : Esempio

AttributesColor = {Red, Blue, Green, White}Shaded = {Yes, No}Shape = {Square, Triangle, Circle, Oval}Size = {Small, Large}

(NEG)

ab

c d e f

g h

i

(POS)

m

np

q r

st

Slides by Botta, Saitta, Malerba

Alberi di Decisione: Apprendimento

{a-i} Color

BlueRed Green

White

{ m-t} {a-i}

{ b,g}{ m,t}

{ d,e,f,h}{ n,q}

{ c }{ p,r,s }

{ a,i } Shape

• • • • • •

{e}

Square OvalCircle

{d,h} { n} Size{f}{ q}

Triangle

Shaded{f}{ q}

Small Large

{f}

Yes No

{ q}

Page 21: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Alberi di Decisione: Esempio (Classificazione)

{a-i} Color

BlueRed Green

White

{ m-t} {a-i}

{ b,g}{ m,t}

{ d,e,f,h}{ n,q}

{ c }{ p,r,s }

{ a,i } Shape

{e}

TriangleSquare Oval

Circle

{f}{ q}

{d,h} { n}

• • • • • •

Size

SmallLarge

Shaded

{f}

Yes No

{ q}

{f}{ q}

Nuovi Esempi

e1 (-):

e2 ?:

Slides by Botta, Saitta, Malerba

Regole di Produzione

(forma = quadrato ∨ triangolo) ∧ (dimensione = piccolo) ⇒ POS

(forma = triangolo) ∧ (tratteggiato = SI) ⇒ NEG

Regole di decisione espresse in forma logica: Calcolo Proposizionale o Calcolo dei Predicati

Classificazione

POS POS, NEG

?

e e e e1 2 3 4

NEG

Page 22: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Reti Bayesiane

Rete Bayesiana = Modello grafico di relazioni probabilistiche tra un insieme di variabiliMetodo per rappresentare l’incertezza nel ragionamento

Gioielli

Frode Età Sesso

Benzina

Pr{frode} = 0.00001 Pr{età < 30} = 0.25Pr{30 < età < 50} = 0.40 Pr{maschio} = 0.50

Pr{acq. benzina| frode} = 0.2Pr{acq. benzina| ¬ frode} = 0.01

Pr{acq. gioielli| frode, età =*, sesso=*} = 0.05Pr{acq. gioielli|¬ frode, età < 30, maschio} = 0.0001Pr{acq. gioielli| ¬ frode, 30 < età < 50 , maschio} = 0.0004Pr{acq. gioielli|¬ frode, età > 50, maschio} = 0.0002Pr{acq. gioielli|¬ frode, età < 30, femmina} = 0.0005Pr{acq. gioielli| ¬ frode, 30 < età < 50 , femmina} = 0.0002Pr{acq. gioielli|¬ frode, età > 50, femmina} = 0.001

Frodi nell’uso di Carte di Credito

Slides by Botta, Saitta, Malerba

DM con le Reti Bayesiane

• Codifica della conoscenza dell’esperto mediante una Rete Bayesiana

• Uso della base di dati per aggiornare questa rete, eventualmente creandone di nuove

• Le probabilità si possono apprendere dai dati mediante statistica Bayesiana

• Uso delle reti ottenute simile a quello delle reti neurali

• Metodo robusto rispetto ad errori nella conoscenza iniziale• Conoscenza interpretabile• Utile per sfruttare conoscenza a priori

Page 23: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Gerarchie Concettuali

Clustering Concettuale Root

Brown

Student:Faculty = 5:1 (2%) SAT-Verbal = 637.5 % Financial Aid = 45 % Admittance = 25 % Enrolled = 55 Social = 3.5 out of 5 No. Student < 5,000 Location = Urban Expenses > 10,000 $ Academics = 5 out of 5 Control = Private

Harvard, Columbia

% Financial Aid = 45 (2%) % Admittance = 25 Social = 3.5 out of 5 Quality of life = 3.5 out of 5 Academic Emphasis = History Academic Emphasis = Arts Male;Female = 65:35 Student:Faculty = 7:1 SAT-Math = 675 Expenses > 10,000 $ Academics = 5 out of 5 % Enrolled = 55 Control = Private

MITMale;Female = 75:25 % Financial Aid = 55 No. of Applicants = 4,000-7,000 Quality of Life = 3 out of 5

Slides by Botta, Saitta, Malerba

Algoritmi Genetici

✿ Gli Algoritmi Genetici sono un metodo generale di ricerca stocastica✿ Essi si ispirano ai concetti dell’Evoluzione Darwiniana✿ Possono essere usati nell’ambito di approcci sia simbolici che neurali

Ingredienti

✿ Popolazione di soluzioni (Cromosomi)✿ Funzione di “Fitness”✿ Operatori genetici (“Crossover” e Mutazione)

Ciclo di Base

✿ Si selezionano dalla popolazione, in numero proporzionale alla loro fitness, gli individui che devono riprodursi

✿ Gli individui selezionati si accoppiano e generano due figli, mediante l’applicazione dell’operatore di crossover

✿ Ai figli si applica l’operatore di mutazione✿ La popolazione viene rinnovata

Page 24: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Algoritmi Genetici: Idea di base

La popolazione di potenziali soluzioni al problema migliora nelle generazioni successive

Problema “Problem solver”

Popolazione disoluzioni potenziali

Prestazioni

Slides by Botta, Saitta, Malerba

Algoritmi Genetici: Selezione

:

:

:

:

::

:

:

:

:

:

:

::

:

:

::

:

:

:

:

:

:

:

:

:

::

::

:

::

::

:

:

:

:

Selezione

Page 25: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Algoritmi Genetici: Riproduzione

:

:

:

:

:

:

:

::

::

:

::

::

:

:

:

:

:

:

:

:

:

:

:

::

::

:

::

::

:

:

:

:

Riproduzione

Slides by Botta, Saitta, Malerba

Algoritmi Genetici: Valutazione

:

:

:

:

:

:

:

::

::

:

::

::

:

:

:

:

:

:

:

:

::

::

:

:

:

::

:

:

::

:

:

Valutazione

Page 26: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Algoritmi Genetici: Operatori Genetici

Crossover

Mutation

0 1 1 0 1 0 0

0 1 1 0 1 0 1

0 1 1 0 1 01 1 1 1 1 1 0 0

0 1 1 0 1 0 0 0 1 1 0 1 1 0

Slides by Botta, Saitta, Malerba

Regole di Associazione

Sia I un insieme di items

Sia D un insieme di record, ognuno contenente un sottoinsiemedi I

Regola di associazione:

r: X => Y

X e Y sono sottonsiemi disgiunti di I

Supporto di un sottoinsieme Z di I: supp(Z) = |D(Z)|/|D|

Confidenza di una regola: conf(r) = supp(X or Y)/supp(X)

Page 27: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Regole di Associazione: Algoritmo Apriori

• Algoritmo Apriori• Fase 1 => Ricerca di tutti gli insiemi frequenti

• Costruzione incrementale a partire dalla cardinalità 1• Generazione dei candidati di cardinalità k a partire dagli insiemi

frequenti di cardinalità (k-1)• Eliminazione dei candidati spuri

• Fase 2 => Ricerca di tutte le regole possibili per ogni insieme frequente

• Ottimizzazione del metodo di calcolo del supporto

• Ricerca di regole ottimizzate rispetto la supporto o rispetto alla confidenza => Regioni rettilineari

Slides by Botta, Saitta, Malerba

Scoperta di Associazioni / Causalità

La scoperta di associazioni tra variabili è solo il primo passo di analisi. Occorre cercare una spiegazione

• Causalità tra A e BUna variazione della variabile A “causa” una variazione della variabile B

A = Aumento di dipendenti “a tempo”B = Aumento delle spese per stipendi

• Risposta comuneUna variazione delle variabili A e B è causata dalla variazione di una terza variabile C

A = TemporaleB = Abbassamento della colonnina di mercurio del barometroC = Arrivo di un’onda di bassa pressione

• MascheramentoUna variazione della variabile B è causata sia da una variazione di A che da una variazione di una terza variabile C

A = Spese per promuovere un prodottoB = Ricavo dalle venditeC = Numero di responsabili delle vendite che seguono i clienti

Page 28: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Evoluzione nella Memorizzazione dei Dati

✿ Situazione storica✿ Memorizzazione centralizzata per analisi in supporto alle decisioni✿ Risposta a domande estemporanee di responsabili aziendali, per ottenere dati

con alto grado di aggregazione✿ Problemi attuali

✿ Esplosione della quantità di dati da memorizzare -> Datawarehousing• Architetture client/server -> architetture “multi-tier”

✿ Complessità crescente delle informazioni da gestire• Dati + Conoscenza

✿ Prospettive future✿ Datawarehouse centralizzata -> “Data-mart” distribuiti e interconnessi

• Architetture e componenti multi-livello• Server per applicazioni specializzate (OLAP, Data Mining, ...)• Gestori di meta-dati• Front-end per Reti Intranet ed Extranet

✿ Sistemi integrati e distributi per la gestione della conoscenza aziendale• DBMS (Data Base Management System) -> DKMS (Distributed Knowledge

Management System)

Slides by Botta, Saitta, Malerba

Evoluzione nel Tipo di Requisiti

Passato Presente

Tecniche “verification-driven”Tutto l’onere sull’esperto umanoNon si potevano scoprire shift o nuove ipotesiEsperto di StatisticaAnalisi “esterna”

Tecniche “discovery-driven”Analisi AutomaticaRuolo importante dell’utente finaleAnalisi “interna”

Prestazioni: Criteri quantitativi, quali Profitto, Utilità, Misura di certezza, Errore di predizione, ...

PrestazioniComprensibilità

“Comprehensibility” Postulate “Humanization loop”Semplicità (Rasoio di Occam)

“Interesse” e Novità

Page 29: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Evoluzione del Tipo di Approccio

Verification-driven Discovery-drivenNumerico Numerico / LogicoProcedurale Esplorativo (ricerca)Stand-alone InterattivoOrientato allo specialista Orientato all’utenteEfficace ComprensibileCentrato sulla computazione Centrato sull’ambienteAttenzione ai risultati Attenzione ai risultati e

alla loro presentazioneDati in memoria centrale Dati in Basi di Dati

Slides by Botta, Saitta, Malerba

Intelligenza Artificiale: Disinformazione

“ These products {AI and advanced analytical tool} employ extremely complex algorithms and approaches to develop and refine new insights into previously collected data. In this category we include neural nets and other advanced approaches.”

[R. Mattison, Data Warehousing, 1996]

Page 30: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Scelta del Metodo o dell’Algoritmo di Data Mining

✿ L’algoritmo scelto deve non solo essere adeguato al task, ma anche rispettare i fini e i requisiti imposti dall’utente

✿ Quanti esempi può trattare in una sola volta?

✿ Che tipo di dati tratta? Quanto pre-processing è necessario per portare i dati nel formato richiesto?

✿ Può operare “top-donw” (accettando ipotesi suggerite dall’utente) o lavora solo “bottom-up” (producendo solo ipotesi sue proprie)?

✿ Che grandezza fornisce in uscita? In che tipo di rappresentazione?

✿ E’ incrementale?

✿ E’ veloce?

✿ Quanto è facile da usare?

Slides by Botta, Saitta, Malerba

Nuova Metodologia?

Non c’è nulla di particolarmente nuovo nelle metodologie usate nel Data Mining

Quello che è nuovo:

Confluenza di metodologie disparate, coordinate per il raggiungimento di un fine comune approccio essenzialmente multidisciplinare

Applicazione di queste metodologie integrate a problemi del mondo reale

Page 31: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Problemi di Ricerca a Livello di Metodo

✿ Dati Strutturati✿ Uso di conoscenza del dominio ✿ Interazione efficace con l’utente e Comprensibilità dei pattern✿ Costruzione di nuovi descrittori (“feature construction”) e Astrazione ✿ Dati e conoscenza variabili nel tempo✿ Dati mancanti e presenza di rumore nei dati✿ Overfitting e Significatività Statistica✿ Scalabilità

✿ Parallelismo✿ Algoritmi più efficaci✿ Basi di Dati più estese✿ Filtraggio di possibili soluzioni (imperfette) per l’utente✿ Boosting✿ “Windowing”✿ Dimensionalità più elevata

Slides by Botta, Saitta, Malerba

Problemi di Ricerca a Livello di Sistema

✿ Integrazione flessibile di approcci diversi ✿ Integrazione multimediale (dati in formato vario)✿ Integrazione con altri sistemi (sensori, multimedia, attuatori, ...)✿ Implementazione su Intra (Extra, Inter) Net

✿ Gestione di sistemi distributi✿ Decisioni collaborative e interattive✿ Tecnologie ad “agenti”✿ Sicurezza

Page 32: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Evoluzione dei Sistemi

✿ I sistemi di prima generazione erano “research-driven” ✿ Orientati all’esperto✿ Richiedevano una comprensione profonda del funzionamento

✿ I sistemi di seconda generazione erano “vendor-driven” ✿ Includevano una varietà di strumenti in un solo sistema✿ Orientati ad un uso autonomo

✿ I sistemi di terza generazione stanno diventando “application-specific”

✿ Forniscono uno “shell” che l’utente può adattare ai suoi scopi particolari

[Piatetsky-Shapiro, 1997]

Slides by Botta, Saitta, Malerba

Settori Particolarmente Adatti a Metodi di IA

✿ Biologia Molecolare (“Cybergenetics”)

✿ “Text Mining” e “Information Extraction”

✿ WWW

✿ “Business Intelligence”

✿ Scoperta Scientifica

Page 33: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it

Slides by Botta, Saitta, Malerba

Visione Futura

In futuro, una query KDD deve poter attivare una procedura di classificazione, di scoperta di regole o di clustering a run-time

QueryEta' Citta' 55 NY 60 LA 40 Seattle

Citta' Popol NY > 1 Mll LA > 1 Ml Seattle 500.000

If Diagnosi(x, Problemi cardiaci) and Sesso(x, Maschio) Then Eta(x, t > 50) { 1200, 0.70}

If Diagnosi(x, Problemi cardiaci) and Sesso(x, Maschio) and Citta(x, α) and Popolazione(α, p > 500.000) Then Eta(x, t > 40) { 600, 0.80}

Slides by Botta, Saitta, Malerba

✿ performance system (inetgration)✿ representation✿ Subfield of ML✿ diagrams dall’altro talk sulla sovrapposizione✿ (soar, EBL, boosting, relational learning, learning in planning✿ reinforcement learning)