Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento...

Slides by Botta, Saitta, Malerba

Tecnologie di Riferimento per ilData Mining

Marco Botta

Dipartimento di InformaticaUniversità di Torino

[email protected]


Knowledge Discovery in Databases e Data Mining

KDD → Termine derivato dal titolo di un workshop organizzato da Piatetsky-Shapiro nell’ambito del Machine Learning (Detroit, 1989)

“Knowledge discovery in databases is the non-trivial process of identifying valid, novel,

potentially useful, and ultimately understandable patterns in data”

“Knowledge is in the eye of the beholder” [Fayyad, 1996]

DM → Termine usato inizialmente in Statistica (“data fishing”)per denotare l’analisi esplorativa di dati in assenza di ipotesi a priori


Knowledge Discovery in Databases and Data Mining

Data Collection

Data Pre-processing

Data Mining

ResultInterpretation

“Knowledge discovery in databases is the non-trivial process of identifying valid, novel,

potentially useful, and ultimately understandable patterns in data”

[Fayyad, 1996]

“Knowledge is in the eye of the beholder”

[Fayyad, 1996]


Le quattro caratteristiche del KDD

_ Linguaggio di alto livello_ la conoscenza scoperta è rappresentata in un linguaggio di alto

livello, in modo che possa essere compresa dall’utente umano_ Accuratezza

_ ciò che si scopre deve rispecchiare accuratamente il contenuto della base dati. Misure di incertezza esprimono il livello di attendibilità della conoscenza estratta

_ Risultati interessanti_ la conoscenza scoperta è interessante rispetto a criteri espressi

dall’utente. In particolare, questo implica che i pattern sono nuovi e utili e il processo di scoperta è non babale

_ Efficienza_ il processo di scoperta è efficiente. I tempi di risposta sono

predicibili e accettabili


The “Value Chain”

Data• Stile di vita• Punto di vendita• Dati demografici• Dati geografici

Information• X vive in Z• S ha Y anni• X ed S hanno traslocato• W ha del denaro in Z

Conoscenza• Una quantità Y del prodotto

A è usata per lo più nellaregione Z

• I clienti di classe Y usanox% di C durante il periodo D

Decisione• Promuoviamo il prodotto A

nei negozi della regione Z• Spediamo i cataloghi alle

famiglie di profilo P• Offriamo dei servizi addizionali

ai clienti C


Natura degli Approcci

Ogni forma di analisi cerca di ridurre una grande massa di dati grezzi e informi a pochi concetti e relazioni chiari e facilmente interpretabili

• Approcci “Verification-Driven” Top-Down

Analisi “passiva”, atta a verificare se un certo modello (ipotesi) è coerente con i dati a disposizione. L’ipotesi o il modello sono formulati dall’utente sulla base della sua esperienza

• Approcci “Discovery-Driven” Bottom-Up

Analisi “attiva”, in cui i dati stessi suggeriscono possibili ipotesi sul significatodel loro contenuto. Individuazione di fatti significativi, relazioni, tendenze, pattern, associazioni, eccezioni e anomalie, che sfuggono all’analisi manuale per la loro complessità


Approcci “Verification-Driven”

• “Query & Reporting”

• Foglio Elettronico

• Analisi multidimensionale

• Analisi statistica• Raccolta dei dati

• Generazione di una ipotesi• Formulazione di una domanda• Interpretazione dei risultati e revisione dell’ipotesi

...... finchè non emerge un “pattern” interessante


Approcci “Discovery-Driven”

• Riconoscimento di Forme

• Intelligenza Artificiale

• Metodologie integrate

• Visualizzazione

Apprendimento Modello

Nuovi DatiDati

Storici

Conoscenzadel dominio

Apprendimento automatico simbolico

Reti neuraliAlgoritmi GeneticiReti Bayesiane


Approcci “Verification-Driven” : Query & Reporting e Foglio Elettronico

KDD Query : Più o meno sofisticati linguaggi SQL

“Di quali prodotti si sono venduti più di 400 esemplari in regioni dell’Italia Meridionale?

PRODOTTI MERCATI VENDITELetti Calabria 123Armadi Lazio 892Divani Basilicata 453Cucine Calabria 562Letti Lazio 457Armadi Basilicata 321Divani Calabria 676Cucine Lazio 231Letti Basilicata 256Armadi Calabria 324Divani Lazio 787Cucine Basilicata 426

PRODOTTI MERCATI VENDITEDivani Basilicata 453Cucine Calabria 562Divani Calabria 676Cucine Basilicata 426

Il foglio elettronico presenta informazioni in forma tabulare e offre una grande quantità di funzioni analitiche e descrittive


Approcci “Verification-Driven”: Analisi Multidimensionale

PRODOTT I

P1

P2

P3

P4

P5

P6

P7

P8

DATE

d1 d2 d3 d4 d5 d6 d7

C ITT

A

C1

C2

C3

C4C5

18

VENDITE ⇒ Dimensioni : PRODOTTI, CITTA’, DATE

Aggregazioni

Industria Stato Anno

Categoria Regione Trimestre

Prodotto Città Mese Settimana

Data

L’analisi multidimensionale supporta l’interattività

(Drill-Down / Roll-Up)


Approcci “Verification-Driven”: Analisi Multidimensionale

PRODOTTI MERCATI VENDITELetti Calabria 123Armadi Lazio 892Divani Basilicata 453Cucine Calabria 562Letti Lazio 457Armadi Basilicata 321Divani Calabria 676Cucine Lazio 231Letti Basilicata 256Armadi Calabria 324Divani Lazio 787Cucine Basilicata 426

MERCATIPRODOTTI Calabria Lazio Basilicata

Letti 123 457 256Armadi 324 892 321Divani 676 787 453

Dimensioni nelle MDDB: Celle con valori numerici o “ null”Variabili nelle MDDB : Indipendenti o derivate

PRODOTTI Calabria Lazio Basilicata TotaleLetti 123 457 256 836

Armadi 324 892 321 1537Divani 676 787 453 1916Cucine 562 231 426 1219Totale 1685 2367 1456 5508

MERCATI

ConsolidamentoPre-aggregazione dei dati e memorizzazione dei risultati


Approcci “Verification-Driven”: Analisi Statistica

✿ Progetto di Esperimenti e Campionamento✿ Statistica Grafica✿ Riduzione della dimensionalità

✿ Aggregazione✿ Analisi delle componenti principali✿ Analisi fattoriale

✿ Test di ipotesi✿ “Model ranking”✿ Modellizzazione (Classificazione, Regressione)✿ “Esploratory Data Analysis”

✿ Individuare caratteristiche di insieme dei dati✿ Individuare “outlier”✿ Generazione di Ipotesi (Clustering)

Scelta dei datiVisualizzazione

Validazione del modello

Calibrazione del modello

Costruzione del modello

Selezione e costruzione di feature

Confronto di modelli


Ambiente di Sviluppo del KDD

• Pre-Processing• Data cleaning• Selezione degli attributi• Discretizzazione attributi numerici• Setting dei parametri

• Integrazione stretta con le metodologie delle Basi di Dati• Estensione del linguaggio SQL

• Visualizzazione• Rotazione delle “2-D Views”• Metodi di grafica sofisticata


Pre-Processing

Tecniche di Pre-processing

Trasformazione dei dati

Raccolta di ulteriori informazioni

Generazione di nuova informazione

• Filtraggio

• Ordinamento

• Editing

• Modello delrumore

• Visualizzazione

• Eliminazione di dati

• Selezione di dati

• PCA

• Sampling

• Aggiunta di feature

• Costruzione di feature

• Fusione di dati

• Simulazione

• Analisi dimensionale


Pre-Processing

Problemi nei Dati

Troppi dati Troppo pochi dati Dati frammentati

• Dati rumorosi

• Dati irrilevanti

• Dati di grande dimensionalità

• Dati numerici continui

• Valori mancanti

• Attributi mancanti

• Pochi dati

• Dati incompatibili

• Sorgenti multiple

• Granularità diversa


Feature Selection

• Trovare il miglior sottoinsieme di attributi è un problema esponenziale

• Metodo di ricerca• C ompleta• Euristica (“greedy”)

• Aggiunta di attributi (Increasing)• Eliminazione di attributi (Decreasing)

• Approccio• “Wrapper” (dipende dall’algoritmo di apprendimento)• “Filter” (non dipende dall’algoritmo apprendimento)

• Costruzione di nuove feature


Task di Data Mining

✿ Classificazione

✿ Clustering / Segmentazione

✿ Riassunto / Caratterizzazione

✿ Dipendenze funzionali / Regressione

✿ Scoperta di Associazioni / Causalità

✿ Individuazione di Anomalie

✿ Analisi di Serie Temporali


Classificazione

No prestito

Prestito

Problemi tipici affrontati

Individuazione di frodiConcessione di crediti

Reddito

Debito

x

xx

xx

x

x x

x

x

oo

o

o

o

oo

o

oo

o

o

o


Clustering

Distanza

••

• ••••

•

••

•• •

••

•••

• • •• ••• •

••

• •••

• ••

••••• •

••

••

•

•

••

•

••

•• ••

•

•••

• • •• •• ••• •••

• • •• ••

•

•••

• ••••••

•

• •• ••

••• •

Densità

Forma(“Gestalt”)

• • • • • • • •

••••• • • • •

••••••


Segmentazione

La segmentazione consiste nell’analizzare attuali o potenziali gruppi di clienti(“segmenti”) per scoprirne caratteristiche e comportamenti che possano essere sfruttati nel mercato.

La segmentazione porta una organizzazione a vedere, al limite, ognuno dei suoi clienticome un “segmento unitario” (“segment of one”), al fine di stabilire con esso una relazione altamente personalizzata.

Due problemi basilari del marketing

✿ Capire le cause dell’abbandono dei clienti (“customer attrition”)

✿ Individuare nuove fette di mercato (“target marketing” e “cross selling”)


Riassunto / Caratterizzazione

••

• ••••

•

••

•• •

••

•••

• • •• ••• •

••

• •••

• ••

••••• •

•••

• ••

•••

• • ••• •

•• •

•• ••••

••

•••

•

••

•• •

•

•••

• •• ••

••

• •••

• ••

••••• •

• ••• • •

•• ••• •

•• ••••

• • ••• •

•••

D1 D2 D3

Perché sono stati raggruppati?

Che cosa hanno in comune?C1

C2

C3


Riassunto / Caratterizzazione

Descrizione compatta di un insieme di dati

MediaDeviazione standard

x

y

Età

Anni di Studio

••

•••

••

••

•

+ +

+++++

+

+

+

10 30 4020 5000

5

10

15

20

• Persone di mezza età e istruzione universitaria+ Ragazzi con basso livello di istruzione

Frequent flyers

Skate-boarders


Dipendenze funzionali / Regressione

Individuazione di legami funzionali tra variabili che occorrono in una base di dati

Dato un insieme E = {e1, ... , en}, di elementi descrivibili mediante i valori degli attributi A = {x1, ... , xk}, il task di regressioneassegna ad ogni elemento ei dell’insieme E un valore di una variabile continua f

DM -> Inferisce una “funzione di regressione” direttamente da un sottoinsieme dei dati (“esempi di apprendimento”)

∀ ei : f = f(x1, ... , xk)

x = Reddito

y = Debito

x

xx

xx

x

xx

xi

x

xx

x

x

xx

x

xx

x

x

x

y i

xi

y (xi)

+

++ ++

++

++ +

++

+

++

+

++

+

+

+

+

+ +

++

+

+

x

y

[y i ] − f r p (xi )]2

i =1

n∑


Scoperta di Associazioni

Scoperta di associazioni tra fatti, proprietà o valori di variabili (“Link analysis”)

Il 72% degli acquirenti di insalata verde, acquista anche un condimento

Problema tipicoMarket Basket Analysis

… … ... {Pane, Pesche}

1/7/99

Pane

Pesche

Uova

Spaghetti

… ...

2/7/99

Riso

Pane

Carne

Pesche

… ...

scontrino scontrino


Individuazione di Eccezioni

Individuazione di valori devianti dai “normali”(Eccezioni, Casi particolari, Errori)

••

• ••

••

•

••

•••

•

•

•••

• • •• ••• •

••

• •••

• ••

••••• •

•••

• ••

•••

• •••• •

•• •

•• ••••

Nn

n << N

•

• • •

•

•• •• ••• •

•• •••

• ••

•••• •

• • •

Età

I.Q. Test score

✕


Individuazione di Anomalie

Individuazione di valori devianti dai “normali”

Età

Anni di Studio

••

•••

••

••

•

+ +

+++++

+

+

+

10 30 4020 5000

5

10

15

20 +

Età

Anni di Studio

••

••••

••

•

•

+ +

+++++

+

+

+

10 30 4020 5000

5

10

15

20 ++

+ +•

•••+

+

+++

+

Occorre definire che cosa vuol dire “normale”

•


Analisi di Serie Temporali

✿ Individuazione di conformazioni o episodi interessanti ✿ Analisi di tendenze✿ Scoperta di periodicità o fenomeni “stagionali”

Volume di vendite di Giacche a vento

5

15

10

20

0Gen Feb Mar Apr Mag Giu Lug Ag Set Ott Nov Dic

Mesi

Gen Feb Mar Apr Mag Giu Lug Ag Set Ott Nov Dic

PeriodicitàTrend

Episodio

Tempo


Discipline Rilevanti per il Data Mining

✿ Statistica✿ Riconoscimento di Forme✿ Intelligenza Artificiale

✿ Apprendimento Automatico ✿ Reti Bayesiane✿ Agenti Intelligenti

✿ Basi di Dati✿ Query and Reporting✿ “Data Warehousing” → OLAP

✿ Visualizzazione✿ Grafica✿ Ambienti multi-mediali

✿ Scienze Cognitive


Relazioni tra Discipline

Machine Learning Statistica

Task condivisi

Goal condivisi

y

xa

bx = Progetto di esperimenti

y = Apprendimento di piani

a = Stima dell’errore

b = Classificazione


Analisi Statistica: Analisi Discriminante

Funzione discriminante

Reddito

Debito

x

xx

xx

x

x x

x

x

oo

o

o

o

oo

o

oo

o

o

o+

o+ o+

o+

o+ +

o+

+

oo

+

+o

o

o

+

o

+ o

+o

+

o

x

y

LinearePrestito : y - a x - b < 0

Non LineareClasse A : y - a x2 - b > 0

No prestito

Prestito

Classe A

Classe B


Analisi Statistica: Clustering

Algoritmo k-MeansIl numero K di cluster desiderato deve essere fornito dall’utenteFunzione distanzaFunzione obbiettivo da ottimizzare :

Massimizza la distanza inter-cluster e minimizza la distanza intra-cluster

+ ++

+++

++

++ ++

++

++

++ +

++

+ +++

++

++++

+

+

+

++

+

++

++

+

+

++

+

+++

+

++ ++

+

+ ++

+

+

+

+++

+

++ ++++

+

++

+++

++

+

++++

+

+

++ +

++

++ +

+ +

++++

+++

+

++

+

+ ++

+++

++

++ ++

+

++

+

++ +

++

+ +++

++

++++

+

+

++

+

++

++

+

+

++

+

+++

+

++ ++

+

+ ++

+

+

+

+++

+

++ ++++

+

++

+++++

+

++++

+

+

++ +

++

++ +

+ +

++++

+++

+

++

+

+ ++

+

++

++

++ ++

+ ++

+

++ +

+

++ +

++++

++++

+

+

+

++

+

++

++

+

+

+ +

+

+++

+

++

+

+

+

+ ++

+

+

+

+++

+

++ ++++

+

++

+++

++

+

++++

+

+

++ +

++

++ +

+ +

++++

++

+

+

++

+


Riconoscimento di Forme: Classificazione

Approccio StatisticoFunzione di discriminazione probabilisticaClassificatore BayesianoClassificatore di Massima Verosimiglianza

+o+ o+

o+

o+ +

o+

+

oo

+

+ oo

o

+

o

+ o

+o

+

o

+++ + +

A

B

Pr{A | r x } =

Pr{r x | A} P(A)Pr{r x | A} P(A) + Pr{r x | B} P(B)

Pr{B | r x } =

Pr{r x | B} P(B)Pr{r x | A} P(A) + Pr{r x | B} P(B)

Pr{A | r x } = Pr{B | r x }

Pr{A | r x } P(A) = Pr{B | r x } P(B)


Riconoscimento di Forme: Classificazione

Approccio Basato su Casi “Case-Based”

k-Nearest Neighbours

Reddito

Debito

x

xx

xx

x

x x

x

x

oo

o

o

o

oo

o

oo

o

o

o

No prestito

Prestitox


Reti Neurali

Una rete neurale è una struttura composita, formata da elementi computazionali semplici, connessi secondo una topologia “a strati” => Approssimatori universali di funzioni

Unità di ingresso Unità Nascoste Unità di Uscita


Reti Neurali: Funzioni Elementari

Σy

x1

x2

x3

w1

w3

w2 σ

σ

Ingresso

Uscita

Σ i (xi wi)x =


Reti Neurali: Addestramento

Algoritmo di “Backpropagation”Minimizza l’errore quadratico totaleSe la rete è a più strati, l’errore viene propagato “indietro”

xk

x1

xn

Rete (W) y

E =12

(t k − yk )2

k=1

n

∑ wj = − η∂E

∂w j

η = Velocità di apprendimento


Intelligenza Artificiale: Apprendimento Automatico Simbolico

✿ Alberi di Decisione

✿ Regole di Produzione

✿ Reti Bayesiane

✿ Gerarchie Concettuali


Alberi di Decisione

S(p,n)

A

S SS(p , n ) i i i r1 (p , n ) r r(p , n ) 1 1 ....... .......

....... .......a aa1 i r

Date due classi P ed NDati p ed n esempi di apprendimentoDato un insieme di Attributi AGenerare una partizione dello spazio dei possibili esempi, usando un criterio euristicodi qualità


Alberi di Decisione : Esempio

AttributesColor = {Red, Blue, Green, White}Shaded = {Yes, No}Shape = {Square, Triangle, Circle, Oval}Size = {Small, Large}

(NEG)

ab

c d e f

g h

i

(POS)

m

np

q r

st


Alberi di Decisione: Apprendimento

{a-i} Color

BlueRed Green

White

{ m-t} {a-i}

{ b,g}{ m,t}

{ d,e,f,h}{ n,q}

{ c }{ p,r,s }

{ a,i } Shape

• • • • • •

{e}

Square OvalCircle

{d,h} { n} Size{f}{ q}

Triangle

Shaded{f}{ q}

Small Large

{f}

Yes No

{ q}


Alberi di Decisione: Esempio (Classificazione)

{a-i} Color

BlueRed Green

White

{ m-t} {a-i}

{ b,g}{ m,t}

{ d,e,f,h}{ n,q}

{ c }{ p,r,s }

{ a,i } Shape

{e}

TriangleSquare Oval

Circle

{f}{ q}

{d,h} { n}

• • • • • •

Size

SmallLarge

Shaded

{f}

Yes No

{ q}

{f}{ q}

Nuovi Esempi

e1 (-):

e2 ?:


Regole di Produzione

(forma = quadrato ∨ triangolo) ∧ (dimensione = piccolo) ⇒ POS

(forma = triangolo) ∧ (tratteggiato = SI) ⇒ NEG

Regole di decisione espresse in forma logica: Calcolo Proposizionale o Calcolo dei Predicati

Classificazione

POS POS, NEG

?

e e e e1 2 3 4

NEG


Reti Bayesiane

Rete Bayesiana = Modello grafico di relazioni probabilistiche tra un insieme di variabiliMetodo per rappresentare l’incertezza nel ragionamento

Gioielli

Frode Età Sesso

Benzina

Pr{frode} = 0.00001 Pr{età < 30} = 0.25Pr{30 < età < 50} = 0.40 Pr{maschio} = 0.50

Pr{acq. benzina| frode} = 0.2Pr{acq. benzina| ¬ frode} = 0.01

Pr{acq. gioielli| frode, età =*, sesso=*} = 0.05Pr{acq. gioielli|¬ frode, età < 30, maschio} = 0.0001Pr{acq. gioielli| ¬ frode, 30 < età < 50 , maschio} = 0.0004Pr{acq. gioielli|¬ frode, età > 50, maschio} = 0.0002Pr{acq. gioielli|¬ frode, età < 30, femmina} = 0.0005Pr{acq. gioielli| ¬ frode, 30 < età < 50 , femmina} = 0.0002Pr{acq. gioielli|¬ frode, età > 50, femmina} = 0.001

Frodi nell’uso di Carte di Credito


DM con le Reti Bayesiane

• Codifica della conoscenza dell’esperto mediante una Rete Bayesiana

• Uso della base di dati per aggiornare questa rete, eventualmente creandone di nuove

• Le probabilità si possono apprendere dai dati mediante statistica Bayesiana

• Uso delle reti ottenute simile a quello delle reti neurali

• Metodo robusto rispetto ad errori nella conoscenza iniziale• Conoscenza interpretabile• Utile per sfruttare conoscenza a priori


Gerarchie Concettuali

Clustering Concettuale Root

Brown

Student:Faculty = 5:1 (2%) SAT-Verbal = 637.5 % Financial Aid = 45 % Admittance = 25 % Enrolled = 55 Social = 3.5 out of 5 No. Student < 5,000 Location = Urban Expenses > 10,000 $ Academics = 5 out of 5 Control = Private

Harvard, Columbia

% Financial Aid = 45 (2%) % Admittance = 25 Social = 3.5 out of 5 Quality of life = 3.5 out of 5 Academic Emphasis = History Academic Emphasis = Arts Male;Female = 65:35 Student:Faculty = 7:1 SAT-Math = 675 Expenses > 10,000 $ Academics = 5 out of 5 % Enrolled = 55 Control = Private

MITMale;Female = 75:25 % Financial Aid = 55 No. of Applicants = 4,000-7,000 Quality of Life = 3 out of 5


Algoritmi Genetici

✿ Gli Algoritmi Genetici sono un metodo generale di ricerca stocastica✿ Essi si ispirano ai concetti dell’Evoluzione Darwiniana✿ Possono essere usati nell’ambito di approcci sia simbolici che neurali

Ingredienti

✿ Popolazione di soluzioni (Cromosomi)✿ Funzione di “Fitness”✿ Operatori genetici (“Crossover” e Mutazione)

Ciclo di Base

✿ Si selezionano dalla popolazione, in numero proporzionale alla loro fitness, gli individui che devono riprodursi

✿ Gli individui selezionati si accoppiano e generano due figli, mediante l’applicazione dell’operatore di crossover

✿ Ai figli si applica l’operatore di mutazione✿ La popolazione viene rinnovata


Algoritmi Genetici: Idea di base

La popolazione di potenziali soluzioni al problema migliora nelle generazioni successive

Problema “Problem solver”

Popolazione disoluzioni potenziali

Prestazioni


Algoritmi Genetici: Selezione

:

:

:

:

::

:

:

:

:

:

:

::

:

:

::

:

:

:

:

:

:

:

:

:

::

::

:

::

::

:

:

:

:

Selezione


Algoritmi Genetici: Riproduzione

:

:

:

:

:

:

:

::

::

:

::

::

:

:

:

:

:

:

:

:

:

:

:

::

::

:

::

::

:

:

:

:

Riproduzione


Algoritmi Genetici: Valutazione

:

:

:

:

:

:

:

::

::

:

::

::

:

:

:

:

:

:

:

:

::

::

:

:

:

::

:

:

::

:

:

Valutazione


Algoritmi Genetici: Operatori Genetici

Crossover

Mutation

0 1 1 0 1 0 0

0 1 1 0 1 0 1

0 1 1 0 1 01 1 1 1 1 1 0 0

0 1 1 0 1 0 0 0 1 1 0 1 1 0


Regole di Associazione

Sia I un insieme di items

Sia D un insieme di record, ognuno contenente un sottoinsiemedi I

Regola di associazione:

r: X => Y

X e Y sono sottonsiemi disgiunti di I

Supporto di un sottoinsieme Z di I: supp(Z) = |D(Z)|/|D|

Confidenza di una regola: conf(r) = supp(X or Y)/supp(X)


Regole di Associazione: Algoritmo Apriori

• Algoritmo Apriori• Fase 1 => Ricerca di tutti gli insiemi frequenti

• Costruzione incrementale a partire dalla cardinalità 1• Generazione dei candidati di cardinalità k a partire dagli insiemi

frequenti di cardinalità (k-1)• Eliminazione dei candidati spuri

• Fase 2 => Ricerca di tutte le regole possibili per ogni insieme frequente

• Ottimizzazione del metodo di calcolo del supporto

• Ricerca di regole ottimizzate rispetto la supporto o rispetto alla confidenza => Regioni rettilineari


Scoperta di Associazioni / Causalità

La scoperta di associazioni tra variabili è solo il primo passo di analisi. Occorre cercare una spiegazione

• Causalità tra A e BUna variazione della variabile A “causa” una variazione della variabile B

A = Aumento di dipendenti “a tempo”B = Aumento delle spese per stipendi

• Risposta comuneUna variazione delle variabili A e B è causata dalla variazione di una terza variabile C

A = TemporaleB = Abbassamento della colonnina di mercurio del barometroC = Arrivo di un’onda di bassa pressione

• MascheramentoUna variazione della variabile B è causata sia da una variazione di A che da una variazione di una terza variabile C

A = Spese per promuovere un prodottoB = Ricavo dalle venditeC = Numero di responsabili delle vendite che seguono i clienti


Evoluzione nella Memorizzazione dei Dati

✿ Situazione storica✿ Memorizzazione centralizzata per analisi in supporto alle decisioni✿ Risposta a domande estemporanee di responsabili aziendali, per ottenere dati

con alto grado di aggregazione✿ Problemi attuali

✿ Esplosione della quantità di dati da memorizzare -> Datawarehousing• Architetture client/server -> architetture “multi-tier”

✿ Complessità crescente delle informazioni da gestire• Dati + Conoscenza

✿ Prospettive future✿ Datawarehouse centralizzata -> “Data-mart” distribuiti e interconnessi

• Architetture e componenti multi-livello• Server per applicazioni specializzate (OLAP, Data Mining, ...)• Gestori di meta-dati• Front-end per Reti Intranet ed Extranet

✿ Sistemi integrati e distributi per la gestione della conoscenza aziendale• DBMS (Data Base Management System) -> DKMS (Distributed Knowledge

Management System)


Evoluzione nel Tipo di Requisiti

Passato Presente

Tecniche “verification-driven”Tutto l’onere sull’esperto umanoNon si potevano scoprire shift o nuove ipotesiEsperto di StatisticaAnalisi “esterna”

Tecniche “discovery-driven”Analisi AutomaticaRuolo importante dell’utente finaleAnalisi “interna”

Prestazioni: Criteri quantitativi, quali Profitto, Utilità, Misura di certezza, Errore di predizione, ...

PrestazioniComprensibilità

“Comprehensibility” Postulate “Humanization loop”Semplicità (Rasoio di Occam)

“Interesse” e Novità


Evoluzione del Tipo di Approccio

Verification-driven Discovery-drivenNumerico Numerico / LogicoProcedurale Esplorativo (ricerca)Stand-alone InterattivoOrientato allo specialista Orientato all’utenteEfficace ComprensibileCentrato sulla computazione Centrato sull’ambienteAttenzione ai risultati Attenzione ai risultati e

alla loro presentazioneDati in memoria centrale Dati in Basi di Dati


Intelligenza Artificiale: Disinformazione

“ These products {AI and advanced analytical tool} employ extremely complex algorithms and approaches to develop and refine new insights into previously collected data. In this category we include neural nets and other advanced approaches.”

[R. Mattison, Data Warehousing, 1996]


Scelta del Metodo o dell’Algoritmo di Data Mining

✿ L’algoritmo scelto deve non solo essere adeguato al task, ma anche rispettare i fini e i requisiti imposti dall’utente

✿ Quanti esempi può trattare in una sola volta?

✿ Che tipo di dati tratta? Quanto pre-processing è necessario per portare i dati nel formato richiesto?

✿ Può operare “top-donw” (accettando ipotesi suggerite dall’utente) o lavora solo “bottom-up” (producendo solo ipotesi sue proprie)?

✿ Che grandezza fornisce in uscita? In che tipo di rappresentazione?

✿ E’ incrementale?

✿ E’ veloce?

✿ Quanto è facile da usare?


Nuova Metodologia?

Non c’è nulla di particolarmente nuovo nelle metodologie usate nel Data Mining

Quello che è nuovo:

Confluenza di metodologie disparate, coordinate per il raggiungimento di un fine comune approccio essenzialmente multidisciplinare

Applicazione di queste metodologie integrate a problemi del mondo reale


Problemi di Ricerca a Livello di Metodo

✿ Dati Strutturati✿ Uso di conoscenza del dominio ✿ Interazione efficace con l’utente e Comprensibilità dei pattern✿ Costruzione di nuovi descrittori (“feature construction”) e Astrazione ✿ Dati e conoscenza variabili nel tempo✿ Dati mancanti e presenza di rumore nei dati✿ Overfitting e Significatività Statistica✿ Scalabilità

✿ Parallelismo✿ Algoritmi più efficaci✿ Basi di Dati più estese✿ Filtraggio di possibili soluzioni (imperfette) per l’utente✿ Boosting✿ “Windowing”✿ Dimensionalità più elevata


Problemi di Ricerca a Livello di Sistema

✿ Integrazione flessibile di approcci diversi ✿ Integrazione multimediale (dati in formato vario)✿ Integrazione con altri sistemi (sensori, multimedia, attuatori, ...)✿ Implementazione su Intra (Extra, Inter) Net

✿ Gestione di sistemi distributi✿ Decisioni collaborative e interattive✿ Tecnologie ad “agenti”✿ Sicurezza


Evoluzione dei Sistemi

✿ I sistemi di prima generazione erano “research-driven” ✿ Orientati all’esperto✿ Richiedevano una comprensione profonda del funzionamento

✿ I sistemi di seconda generazione erano “vendor-driven” ✿ Includevano una varietà di strumenti in un solo sistema✿ Orientati ad un uso autonomo

✿ I sistemi di terza generazione stanno diventando “application-specific”

✿ Forniscono uno “shell” che l’utente può adattare ai suoi scopi particolari

[Piatetsky-Shapiro, 1997]


Settori Particolarmente Adatti a Metodi di IA

✿ Biologia Molecolare (“Cybergenetics”)

✿ “Text Mining” e “Information Extraction”

✿ WWW

✿ “Business Intelligence”

✿ Scoperta Scientifica


Visione Futura

In futuro, una query KDD deve poter attivare una procedura di classificazione, di scoperta di regole o di clustering a run-time

QueryEta' Citta' 55 NY 60 LA 40 Seattle

Citta' Popol NY > 1 Mll LA > 1 Ml Seattle 500.000

If Diagnosi(x, Problemi cardiaci) and Sesso(x, Maschio) Then Eta(x, t > 50) { 1200, 0.70}

If Diagnosi(x, Problemi cardiaci) and Sesso(x, Maschio) and Citta(x, α) and Popolazione(α, p > 500.000) Then Eta(x, t > 40) { 600, 0.80}


✿ performance system (inetgration)✿ representation✿ Subfield of ML✿ diagrams dall’altro talk sulla sovrapposizione✿ (soar, EBL, boosting, relational learning, learning in planning✿ reinforcement learning)

Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento...

Documents

Transcript of Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento...