Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento...
Transcript of Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento...
![Page 1: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/1.jpg)
Slides by Botta, Saitta, Malerba
Tecnologie di Riferimento per ilData Mining
Marco Botta
Dipartimento di InformaticaUniversità di Torino
Slides by Botta, Saitta, Malerba
Knowledge Discovery in Databases e Data Mining
KDD → Termine derivato dal titolo di un workshop organizzato da Piatetsky-Shapiro nell’ambito del Machine Learning (Detroit, 1989)
“Knowledge discovery in databases is the non-trivial process of identifying valid, novel,
potentially useful, and ultimately understandable patterns in data”
“Knowledge is in the eye of the beholder” [Fayyad, 1996]
DM → Termine usato inizialmente in Statistica (“data fishing”)per denotare l’analisi esplorativa di dati in assenza di ipotesi a priori
![Page 2: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/2.jpg)
Slides by Botta, Saitta, Malerba
Knowledge Discovery in Databases and Data Mining
Data Collection
Data Pre-processing
Data Mining
ResultInterpretation
“Knowledge discovery in databases is the non-trivial process of identifying valid, novel,
potentially useful, and ultimately understandable patterns in data”
[Fayyad, 1996]
“Knowledge is in the eye of the beholder”
[Fayyad, 1996]
Slides by Botta, Saitta, Malerba
Le quattro caratteristiche del KDD
_ Linguaggio di alto livello_ la conoscenza scoperta è rappresentata in un linguaggio di alto
livello, in modo che possa essere compresa dall’utente umano_ Accuratezza
_ ciò che si scopre deve rispecchiare accuratamente il contenuto della base dati. Misure di incertezza esprimono il livello di attendibilità della conoscenza estratta
_ Risultati interessanti_ la conoscenza scoperta è interessante rispetto a criteri espressi
dall’utente. In particolare, questo implica che i pattern sono nuovi e utili e il processo di scoperta è non babale
_ Efficienza_ il processo di scoperta è efficiente. I tempi di risposta sono
predicibili e accettabili
![Page 3: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/3.jpg)
Slides by Botta, Saitta, Malerba
The “Value Chain”
Data• Stile di vita• Punto di vendita• Dati demografici• Dati geografici
Information• X vive in Z• S ha Y anni• X ed S hanno traslocato• W ha del denaro in Z
Conoscenza• Una quantità Y del prodotto
A è usata per lo più nellaregione Z
• I clienti di classe Y usanox% di C durante il periodo D
Decisione• Promuoviamo il prodotto A
nei negozi della regione Z• Spediamo i cataloghi alle
famiglie di profilo P• Offriamo dei servizi addizionali
ai clienti C
Slides by Botta, Saitta, Malerba
Natura degli Approcci
Ogni forma di analisi cerca di ridurre una grande massa di dati grezzi e informi a pochi concetti e relazioni chiari e facilmente interpretabili
• Approcci “Verification-Driven” Top-Down
Analisi “passiva”, atta a verificare se un certo modello (ipotesi) è coerente con i dati a disposizione. L’ipotesi o il modello sono formulati dall’utente sulla base della sua esperienza
• Approcci “Discovery-Driven” Bottom-Up
Analisi “attiva”, in cui i dati stessi suggeriscono possibili ipotesi sul significatodel loro contenuto. Individuazione di fatti significativi, relazioni, tendenze, pattern, associazioni, eccezioni e anomalie, che sfuggono all’analisi manuale per la loro complessità
![Page 4: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/4.jpg)
Slides by Botta, Saitta, Malerba
Approcci “Verification-Driven”
• “Query & Reporting”
• Foglio Elettronico
• Analisi multidimensionale
• Analisi statistica• Raccolta dei dati
• Generazione di una ipotesi• Formulazione di una domanda• Interpretazione dei risultati e revisione dell’ipotesi
...... finchè non emerge un “pattern” interessante
Slides by Botta, Saitta, Malerba
Approcci “Discovery-Driven”
• Riconoscimento di Forme
• Intelligenza Artificiale
• Metodologie integrate
• Visualizzazione
Apprendimento Modello
Nuovi DatiDati
Storici
Conoscenzadel dominio
Apprendimento automatico simbolico
Reti neuraliAlgoritmi GeneticiReti Bayesiane
![Page 5: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/5.jpg)
Slides by Botta, Saitta, Malerba
Approcci “Verification-Driven” : Query & Reporting e Foglio Elettronico
KDD Query : Più o meno sofisticati linguaggi SQL
“Di quali prodotti si sono venduti più di 400 esemplari in regioni dell’Italia Meridionale?
PRODOTTI MERCATI VENDITELetti Calabria 123Armadi Lazio 892Divani Basilicata 453Cucine Calabria 562Letti Lazio 457Armadi Basilicata 321Divani Calabria 676Cucine Lazio 231Letti Basilicata 256Armadi Calabria 324Divani Lazio 787Cucine Basilicata 426
PRODOTTI MERCATI VENDITEDivani Basilicata 453Cucine Calabria 562Divani Calabria 676Cucine Basilicata 426
Il foglio elettronico presenta informazioni in forma tabulare e offre una grande quantità di funzioni analitiche e descrittive
Slides by Botta, Saitta, Malerba
Approcci “Verification-Driven”: Analisi Multidimensionale
PRODOTT I
P1
P2
P3
P4
P5
P6
P7
P8
DATE
d1 d2 d3 d4 d5 d6 d7
C ITT
A
C1
C2
C3
C4C5
18
VENDITE ⇒ Dimensioni : PRODOTTI, CITTA’, DATE
Aggregazioni
Industria Stato Anno
Categoria Regione Trimestre
Prodotto Città Mese Settimana
Data
L’analisi multidimensionale supporta l’interattività
(Drill-Down / Roll-Up)
![Page 6: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/6.jpg)
Slides by Botta, Saitta, Malerba
Approcci “Verification-Driven”: Analisi Multidimensionale
PRODOTTI MERCATI VENDITELetti Calabria 123Armadi Lazio 892Divani Basilicata 453Cucine Calabria 562Letti Lazio 457Armadi Basilicata 321Divani Calabria 676Cucine Lazio 231Letti Basilicata 256Armadi Calabria 324Divani Lazio 787Cucine Basilicata 426
MERCATIPRODOTTI Calabria Lazio Basilicata
Letti 123 457 256Armadi 324 892 321Divani 676 787 453
Dimensioni nelle MDDB: Celle con valori numerici o “ null”Variabili nelle MDDB : Indipendenti o derivate
PRODOTTI Calabria Lazio Basilicata TotaleLetti 123 457 256 836
Armadi 324 892 321 1537Divani 676 787 453 1916Cucine 562 231 426 1219Totale 1685 2367 1456 5508
MERCATI
ConsolidamentoPre-aggregazione dei dati e memorizzazione dei risultati
Slides by Botta, Saitta, Malerba
Approcci “Verification-Driven”: Analisi Statistica
✿ Progetto di Esperimenti e Campionamento✿ Statistica Grafica✿ Riduzione della dimensionalità
✿ Aggregazione✿ Analisi delle componenti principali✿ Analisi fattoriale
✿ Test di ipotesi✿ “Model ranking”✿ Modellizzazione (Classificazione, Regressione)✿ “Esploratory Data Analysis”
✿ Individuare caratteristiche di insieme dei dati✿ Individuare “outlier”✿ Generazione di Ipotesi (Clustering)
Scelta dei datiVisualizzazione
Validazione del modello
Calibrazione del modello
Costruzione del modello
Selezione e costruzione di feature
Confronto di modelli
![Page 7: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/7.jpg)
Slides by Botta, Saitta, Malerba
Ambiente di Sviluppo del KDD
• Pre-Processing• Data cleaning• Selezione degli attributi• Discretizzazione attributi numerici• Setting dei parametri
• Integrazione stretta con le metodologie delle Basi di Dati• Estensione del linguaggio SQL
• Visualizzazione• Rotazione delle “2-D Views”• Metodi di grafica sofisticata
Slides by Botta, Saitta, Malerba
Pre-Processing
Tecniche di Pre-processing
Trasformazione dei dati
Raccolta di ulteriori informazioni
Generazione di nuova informazione
• Filtraggio
• Ordinamento
• Editing
• Modello delrumore
• Visualizzazione
• Eliminazione di dati
• Selezione di dati
• PCA
• Sampling
• Aggiunta di feature
• Costruzione di feature
• Fusione di dati
• Simulazione
• Analisi dimensionale
![Page 8: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/8.jpg)
Slides by Botta, Saitta, Malerba
Pre-Processing
Problemi nei Dati
Troppi dati Troppo pochi dati Dati frammentati
• Dati rumorosi
• Dati irrilevanti
• Dati di grande dimensionalità
• Dati numerici continui
• Valori mancanti
• Attributi mancanti
• Pochi dati
• Dati incompatibili
• Sorgenti multiple
• Granularità diversa
Slides by Botta, Saitta, Malerba
Feature Selection
• Trovare il miglior sottoinsieme di attributi è un problema esponenziale
• Metodo di ricerca• C ompleta• Euristica (“greedy”)
• Aggiunta di attributi (Increasing)• Eliminazione di attributi (Decreasing)
• Approccio• “Wrapper” (dipende dall’algoritmo di apprendimento)• “Filter” (non dipende dall’algoritmo apprendimento)
• Costruzione di nuove feature
![Page 9: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/9.jpg)
Slides by Botta, Saitta, Malerba
Task di Data Mining
✿ Classificazione
✿ Clustering / Segmentazione
✿ Riassunto / Caratterizzazione
✿ Dipendenze funzionali / Regressione
✿ Scoperta di Associazioni / Causalità
✿ Individuazione di Anomalie
✿ Analisi di Serie Temporali
Slides by Botta, Saitta, Malerba
Classificazione
No prestito
Prestito
Problemi tipici affrontati
Individuazione di frodiConcessione di crediti
Reddito
Debito
x
xx
xx
x
x x
x
x
oo
o
o
o
oo
o
oo
o
o
o
![Page 10: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/10.jpg)
Slides by Botta, Saitta, Malerba
Clustering
Distanza
••
• ••••
•
••
•• •
••
•••
• • •• ••• •
••
• •••
• ••
••••• •
••
••
•
•
••
•
••
•• ••
•
•••
• • •• •• ••• •••
• • •• ••
•
•••
• ••••••
•
• •• ••
••• •
Densità
Forma(“Gestalt”)
• • • • • • • •
••••• • • • •
••••••
Slides by Botta, Saitta, Malerba
Segmentazione
La segmentazione consiste nell’analizzare attuali o potenziali gruppi di clienti(“segmenti”) per scoprirne caratteristiche e comportamenti che possano essere sfruttati nel mercato.
La segmentazione porta una organizzazione a vedere, al limite, ognuno dei suoi clienticome un “segmento unitario” (“segment of one”), al fine di stabilire con esso una relazione altamente personalizzata.
Due problemi basilari del marketing
✿ Capire le cause dell’abbandono dei clienti (“customer attrition”)
✿ Individuare nuove fette di mercato (“target marketing” e “cross selling”)
![Page 11: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/11.jpg)
Slides by Botta, Saitta, Malerba
Riassunto / Caratterizzazione
••
• ••••
•
••
•• •
••
•••
• • •• ••• •
••
• •••
• ••
••••• •
•••
• ••
•••
• • ••• •
•• •
•• ••••
••
•••
•
••
•• •
•
•••
• •• ••
••
• •••
• ••
••••• •
• ••• • •
•• ••• •
•• ••••
• • ••• •
•••
D1 D2 D3
Perché sono stati raggruppati?
Che cosa hanno in comune?C1
C2
C3
Slides by Botta, Saitta, Malerba
Riassunto / Caratterizzazione
Descrizione compatta di un insieme di dati
MediaDeviazione standard
x
y
Età
Anni di Studio
••
•••
••
••
•
+ +
+++++
+
+
+
10 30 4020 5000
5
10
15
20
• Persone di mezza età e istruzione universitaria+ Ragazzi con basso livello di istruzione
Frequent flyers
Skate-boarders
![Page 12: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/12.jpg)
Slides by Botta, Saitta, Malerba
Dipendenze funzionali / Regressione
Individuazione di legami funzionali tra variabili che occorrono in una base di dati
Dato un insieme E = {e1, ... , en}, di elementi descrivibili mediante i valori degli attributi A = {x1, ... , xk}, il task di regressioneassegna ad ogni elemento ei dell’insieme E un valore di una variabile continua f
DM -> Inferisce una “funzione di regressione” direttamente da un sottoinsieme dei dati (“esempi di apprendimento”)
∀ ei : f = f(x1, ... , xk)
x = Reddito
y = Debito
x
xx
xx
x
xx
xi
x
xx
x
x
xx
x
xx
x
x
x
y i
xi
y (xi)
+
++ ++
++
++ +
++
+
++
+
++
+
+
+
+
+ +
++
+
+
x
y
[y i ] − f r p (xi )]2
i =1
n∑
Slides by Botta, Saitta, Malerba
Scoperta di Associazioni
Scoperta di associazioni tra fatti, proprietà o valori di variabili (“Link analysis”)
Il 72% degli acquirenti di insalata verde, acquista anche un condimento
Problema tipicoMarket Basket Analysis
… … ... {Pane, Pesche}
1/7/99
Pane
Pesche
Uova
Spaghetti
… ...
2/7/99
Riso
Pane
Carne
Pesche
… ...
scontrino scontrino
![Page 13: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/13.jpg)
Slides by Botta, Saitta, Malerba
Individuazione di Eccezioni
Individuazione di valori devianti dai “normali”(Eccezioni, Casi particolari, Errori)
••
• ••
••
•
••
•••
•
•
•••
• • •• ••• •
••
• •••
• ••
••••• •
•••
• ••
•••
• •••• •
•• •
•• ••••
Nn
n << N
•
• • •
•
•• •• ••• •
•• •••
• ••
•••• •
• • •
Età
I.Q. Test score
✕
Slides by Botta, Saitta, Malerba
Individuazione di Anomalie
Individuazione di valori devianti dai “normali”
Età
Anni di Studio
••
•••
••
••
•
+ +
+++++
+
+
+
10 30 4020 5000
5
10
15
20 +
Età
Anni di Studio
••
••••
••
•
•
+ +
+++++
+
+
+
10 30 4020 5000
5
10
15
20 ++
+ +•
•••+
+
+++
+
Occorre definire che cosa vuol dire “normale”
•
![Page 14: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/14.jpg)
Slides by Botta, Saitta, Malerba
Analisi di Serie Temporali
✿ Individuazione di conformazioni o episodi interessanti ✿ Analisi di tendenze✿ Scoperta di periodicità o fenomeni “stagionali”
Volume di vendite di Giacche a vento
5
15
10
20
0Gen Feb Mar Apr Mag Giu Lug Ag Set Ott Nov Dic
Mesi
Gen Feb Mar Apr Mag Giu Lug Ag Set Ott Nov Dic
PeriodicitàTrend
Episodio
Tempo
Slides by Botta, Saitta, Malerba
Discipline Rilevanti per il Data Mining
✿ Statistica✿ Riconoscimento di Forme✿ Intelligenza Artificiale
✿ Apprendimento Automatico ✿ Reti Bayesiane✿ Agenti Intelligenti
✿ Basi di Dati✿ Query and Reporting✿ “Data Warehousing” → OLAP
✿ Visualizzazione✿ Grafica✿ Ambienti multi-mediali
✿ Scienze Cognitive
![Page 15: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/15.jpg)
Slides by Botta, Saitta, Malerba
Relazioni tra Discipline
Machine Learning Statistica
Task condivisi
Goal condivisi
y
xa
bx = Progetto di esperimenti
y = Apprendimento di piani
a = Stima dell’errore
b = Classificazione
Slides by Botta, Saitta, Malerba
Analisi Statistica: Analisi Discriminante
Funzione discriminante
Reddito
Debito
x
xx
xx
x
x x
x
x
oo
o
o
o
oo
o
oo
o
o
o+
o+ o+
o+
o+ +
o+
+
oo
+
+o
o
o
+
o
+ o
+o
+
o
x
y
LinearePrestito : y - a x - b < 0
Non LineareClasse A : y - a x2 - b > 0
No prestito
Prestito
Classe A
Classe B
![Page 16: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/16.jpg)
Slides by Botta, Saitta, Malerba
Analisi Statistica: Clustering
Algoritmo k-MeansIl numero K di cluster desiderato deve essere fornito dall’utenteFunzione distanzaFunzione obbiettivo da ottimizzare :
Massimizza la distanza inter-cluster e minimizza la distanza intra-cluster
+ ++
+++
++
++ ++
++
++
++ +
++
+ +++
++
++++
+
+
+
++
+
++
++
+
+
++
+
+++
+
++ ++
+
+ ++
+
+
+
+++
+
++ ++++
+
++
+++
++
+
++++
+
+
++ +
++
++ +
+ +
++++
+++
+
++
+
+ ++
+++
++
++ ++
+
++
+
++ +
++
+ +++
++
++++
+
+
++
+
++
++
+
+
++
+
+++
+
++ ++
+
+ ++
+
+
+
+++
+
++ ++++
+
++
+++++
+
++++
+
+
++ +
++
++ +
+ +
++++
+++
+
++
+
+ ++
+
++
++
++ ++
+ ++
+
++ +
+
++ +
++++
++++
+
+
+
++
+
++
++
+
+
+ +
+
+++
+
++
+
+
+
+ ++
+
+
+
+++
+
++ ++++
+
++
+++
++
+
++++
+
+
++ +
++
++ +
+ +
++++
++
+
+
++
+
Slides by Botta, Saitta, Malerba
Riconoscimento di Forme: Classificazione
Approccio StatisticoFunzione di discriminazione probabilisticaClassificatore BayesianoClassificatore di Massima Verosimiglianza
+o+ o+
o+
o+ +
o+
+
oo
+
+ oo
o
+
o
+ o
+o
+
o
+++ + +
A
B
Pr{A | r x } =
Pr{r x | A} P(A)Pr{r x | A} P(A) + Pr{r x | B} P(B)
Pr{B | r x } =
Pr{r x | B} P(B)Pr{r x | A} P(A) + Pr{r x | B} P(B)
Pr{A | r x } = Pr{B | r x }
Pr{A | r x } P(A) = Pr{B | r x } P(B)
![Page 17: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/17.jpg)
Slides by Botta, Saitta, Malerba
Riconoscimento di Forme: Classificazione
Approccio Basato su Casi “Case-Based”
k-Nearest Neighbours
Reddito
Debito
x
xx
xx
x
x x
x
x
oo
o
o
o
oo
o
oo
o
o
o
No prestito
Prestitox
Slides by Botta, Saitta, Malerba
Reti Neurali
Una rete neurale è una struttura composita, formata da elementi computazionali semplici, connessi secondo una topologia “a strati” => Approssimatori universali di funzioni
Unità di ingresso Unità Nascoste Unità di Uscita
![Page 18: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/18.jpg)
Slides by Botta, Saitta, Malerba
Reti Neurali: Funzioni Elementari
Σy
x1
x2
x3
w1
w3
w2 σ
σ
Ingresso
Uscita
Σ i (xi wi)x =
Slides by Botta, Saitta, Malerba
Reti Neurali: Addestramento
Algoritmo di “Backpropagation”Minimizza l’errore quadratico totaleSe la rete è a più strati, l’errore viene propagato “indietro”
xk
x1
xn
Rete (W) y
E =12
(t k − yk )2
k=1
n
∑ wj = − η∂E
∂w j
η = Velocità di apprendimento
![Page 19: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/19.jpg)
Slides by Botta, Saitta, Malerba
Intelligenza Artificiale: Apprendimento Automatico Simbolico
✿ Alberi di Decisione
✿ Regole di Produzione
✿ Reti Bayesiane
✿ Gerarchie Concettuali
Slides by Botta, Saitta, Malerba
Alberi di Decisione
S(p,n)
A
S SS(p , n ) i i i r1 (p , n ) r r(p , n ) 1 1 ....... .......
....... .......a aa1 i r
Date due classi P ed NDati p ed n esempi di apprendimentoDato un insieme di Attributi AGenerare una partizione dello spazio dei possibili esempi, usando un criterio euristicodi qualità
![Page 20: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/20.jpg)
Slides by Botta, Saitta, Malerba
Alberi di Decisione : Esempio
AttributesColor = {Red, Blue, Green, White}Shaded = {Yes, No}Shape = {Square, Triangle, Circle, Oval}Size = {Small, Large}
(NEG)
ab
c d e f
g h
i
(POS)
m
np
q r
st
Slides by Botta, Saitta, Malerba
Alberi di Decisione: Apprendimento
{a-i} Color
BlueRed Green
White
{ m-t} {a-i}
{ b,g}{ m,t}
{ d,e,f,h}{ n,q}
{ c }{ p,r,s }
{ a,i } Shape
• • • • • •
{e}
Square OvalCircle
{d,h} { n} Size{f}{ q}
Triangle
Shaded{f}{ q}
Small Large
{f}
Yes No
{ q}
![Page 21: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/21.jpg)
Slides by Botta, Saitta, Malerba
Alberi di Decisione: Esempio (Classificazione)
{a-i} Color
BlueRed Green
White
{ m-t} {a-i}
{ b,g}{ m,t}
{ d,e,f,h}{ n,q}
{ c }{ p,r,s }
{ a,i } Shape
{e}
TriangleSquare Oval
Circle
{f}{ q}
{d,h} { n}
• • • • • •
Size
SmallLarge
Shaded
{f}
Yes No
{ q}
{f}{ q}
Nuovi Esempi
e1 (-):
e2 ?:
Slides by Botta, Saitta, Malerba
Regole di Produzione
(forma = quadrato ∨ triangolo) ∧ (dimensione = piccolo) ⇒ POS
(forma = triangolo) ∧ (tratteggiato = SI) ⇒ NEG
Regole di decisione espresse in forma logica: Calcolo Proposizionale o Calcolo dei Predicati
Classificazione
POS POS, NEG
?
e e e e1 2 3 4
NEG
![Page 22: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/22.jpg)
Slides by Botta, Saitta, Malerba
Reti Bayesiane
Rete Bayesiana = Modello grafico di relazioni probabilistiche tra un insieme di variabiliMetodo per rappresentare l’incertezza nel ragionamento
Gioielli
Frode Età Sesso
Benzina
Pr{frode} = 0.00001 Pr{età < 30} = 0.25Pr{30 < età < 50} = 0.40 Pr{maschio} = 0.50
Pr{acq. benzina| frode} = 0.2Pr{acq. benzina| ¬ frode} = 0.01
Pr{acq. gioielli| frode, età =*, sesso=*} = 0.05Pr{acq. gioielli|¬ frode, età < 30, maschio} = 0.0001Pr{acq. gioielli| ¬ frode, 30 < età < 50 , maschio} = 0.0004Pr{acq. gioielli|¬ frode, età > 50, maschio} = 0.0002Pr{acq. gioielli|¬ frode, età < 30, femmina} = 0.0005Pr{acq. gioielli| ¬ frode, 30 < età < 50 , femmina} = 0.0002Pr{acq. gioielli|¬ frode, età > 50, femmina} = 0.001
Frodi nell’uso di Carte di Credito
Slides by Botta, Saitta, Malerba
DM con le Reti Bayesiane
• Codifica della conoscenza dell’esperto mediante una Rete Bayesiana
• Uso della base di dati per aggiornare questa rete, eventualmente creandone di nuove
• Le probabilità si possono apprendere dai dati mediante statistica Bayesiana
• Uso delle reti ottenute simile a quello delle reti neurali
• Metodo robusto rispetto ad errori nella conoscenza iniziale• Conoscenza interpretabile• Utile per sfruttare conoscenza a priori
![Page 23: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/23.jpg)
Slides by Botta, Saitta, Malerba
Gerarchie Concettuali
Clustering Concettuale Root
Brown
Student:Faculty = 5:1 (2%) SAT-Verbal = 637.5 % Financial Aid = 45 % Admittance = 25 % Enrolled = 55 Social = 3.5 out of 5 No. Student < 5,000 Location = Urban Expenses > 10,000 $ Academics = 5 out of 5 Control = Private
Harvard, Columbia
% Financial Aid = 45 (2%) % Admittance = 25 Social = 3.5 out of 5 Quality of life = 3.5 out of 5 Academic Emphasis = History Academic Emphasis = Arts Male;Female = 65:35 Student:Faculty = 7:1 SAT-Math = 675 Expenses > 10,000 $ Academics = 5 out of 5 % Enrolled = 55 Control = Private
MITMale;Female = 75:25 % Financial Aid = 55 No. of Applicants = 4,000-7,000 Quality of Life = 3 out of 5
Slides by Botta, Saitta, Malerba
Algoritmi Genetici
✿ Gli Algoritmi Genetici sono un metodo generale di ricerca stocastica✿ Essi si ispirano ai concetti dell’Evoluzione Darwiniana✿ Possono essere usati nell’ambito di approcci sia simbolici che neurali
Ingredienti
✿ Popolazione di soluzioni (Cromosomi)✿ Funzione di “Fitness”✿ Operatori genetici (“Crossover” e Mutazione)
Ciclo di Base
✿ Si selezionano dalla popolazione, in numero proporzionale alla loro fitness, gli individui che devono riprodursi
✿ Gli individui selezionati si accoppiano e generano due figli, mediante l’applicazione dell’operatore di crossover
✿ Ai figli si applica l’operatore di mutazione✿ La popolazione viene rinnovata
![Page 24: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/24.jpg)
Slides by Botta, Saitta, Malerba
Algoritmi Genetici: Idea di base
La popolazione di potenziali soluzioni al problema migliora nelle generazioni successive
Problema “Problem solver”
Popolazione disoluzioni potenziali
Prestazioni
Slides by Botta, Saitta, Malerba
Algoritmi Genetici: Selezione
:
:
:
:
::
:
:
:
:
:
:
::
:
:
::
:
:
:
:
:
:
:
:
:
::
::
:
::
::
:
:
:
:
Selezione
![Page 25: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/25.jpg)
Slides by Botta, Saitta, Malerba
Algoritmi Genetici: Riproduzione
:
:
:
:
:
:
:
::
::
:
::
::
:
:
:
:
:
:
:
:
:
:
:
::
::
:
::
::
:
:
:
:
Riproduzione
Slides by Botta, Saitta, Malerba
Algoritmi Genetici: Valutazione
:
:
:
:
:
:
:
::
::
:
::
::
:
:
:
:
:
:
:
:
::
::
:
:
:
::
:
:
::
:
:
Valutazione
![Page 26: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/26.jpg)
Slides by Botta, Saitta, Malerba
Algoritmi Genetici: Operatori Genetici
Crossover
Mutation
0 1 1 0 1 0 0
0 1 1 0 1 0 1
0 1 1 0 1 01 1 1 1 1 1 0 0
0 1 1 0 1 0 0 0 1 1 0 1 1 0
Slides by Botta, Saitta, Malerba
Regole di Associazione
Sia I un insieme di items
Sia D un insieme di record, ognuno contenente un sottoinsiemedi I
Regola di associazione:
r: X => Y
X e Y sono sottonsiemi disgiunti di I
Supporto di un sottoinsieme Z di I: supp(Z) = |D(Z)|/|D|
Confidenza di una regola: conf(r) = supp(X or Y)/supp(X)
![Page 27: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/27.jpg)
Slides by Botta, Saitta, Malerba
Regole di Associazione: Algoritmo Apriori
• Algoritmo Apriori• Fase 1 => Ricerca di tutti gli insiemi frequenti
• Costruzione incrementale a partire dalla cardinalità 1• Generazione dei candidati di cardinalità k a partire dagli insiemi
frequenti di cardinalità (k-1)• Eliminazione dei candidati spuri
• Fase 2 => Ricerca di tutte le regole possibili per ogni insieme frequente
• Ottimizzazione del metodo di calcolo del supporto
• Ricerca di regole ottimizzate rispetto la supporto o rispetto alla confidenza => Regioni rettilineari
Slides by Botta, Saitta, Malerba
Scoperta di Associazioni / Causalità
La scoperta di associazioni tra variabili è solo il primo passo di analisi. Occorre cercare una spiegazione
• Causalità tra A e BUna variazione della variabile A “causa” una variazione della variabile B
A = Aumento di dipendenti “a tempo”B = Aumento delle spese per stipendi
• Risposta comuneUna variazione delle variabili A e B è causata dalla variazione di una terza variabile C
A = TemporaleB = Abbassamento della colonnina di mercurio del barometroC = Arrivo di un’onda di bassa pressione
• MascheramentoUna variazione della variabile B è causata sia da una variazione di A che da una variazione di una terza variabile C
A = Spese per promuovere un prodottoB = Ricavo dalle venditeC = Numero di responsabili delle vendite che seguono i clienti
![Page 28: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/28.jpg)
Slides by Botta, Saitta, Malerba
Evoluzione nella Memorizzazione dei Dati
✿ Situazione storica✿ Memorizzazione centralizzata per analisi in supporto alle decisioni✿ Risposta a domande estemporanee di responsabili aziendali, per ottenere dati
con alto grado di aggregazione✿ Problemi attuali
✿ Esplosione della quantità di dati da memorizzare -> Datawarehousing• Architetture client/server -> architetture “multi-tier”
✿ Complessità crescente delle informazioni da gestire• Dati + Conoscenza
✿ Prospettive future✿ Datawarehouse centralizzata -> “Data-mart” distribuiti e interconnessi
• Architetture e componenti multi-livello• Server per applicazioni specializzate (OLAP, Data Mining, ...)• Gestori di meta-dati• Front-end per Reti Intranet ed Extranet
✿ Sistemi integrati e distributi per la gestione della conoscenza aziendale• DBMS (Data Base Management System) -> DKMS (Distributed Knowledge
Management System)
Slides by Botta, Saitta, Malerba
Evoluzione nel Tipo di Requisiti
Passato Presente
Tecniche “verification-driven”Tutto l’onere sull’esperto umanoNon si potevano scoprire shift o nuove ipotesiEsperto di StatisticaAnalisi “esterna”
Tecniche “discovery-driven”Analisi AutomaticaRuolo importante dell’utente finaleAnalisi “interna”
Prestazioni: Criteri quantitativi, quali Profitto, Utilità, Misura di certezza, Errore di predizione, ...
PrestazioniComprensibilità
“Comprehensibility” Postulate “Humanization loop”Semplicità (Rasoio di Occam)
“Interesse” e Novità
![Page 29: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/29.jpg)
Slides by Botta, Saitta, Malerba
Evoluzione del Tipo di Approccio
Verification-driven Discovery-drivenNumerico Numerico / LogicoProcedurale Esplorativo (ricerca)Stand-alone InterattivoOrientato allo specialista Orientato all’utenteEfficace ComprensibileCentrato sulla computazione Centrato sull’ambienteAttenzione ai risultati Attenzione ai risultati e
alla loro presentazioneDati in memoria centrale Dati in Basi di Dati
Slides by Botta, Saitta, Malerba
Intelligenza Artificiale: Disinformazione
“ These products {AI and advanced analytical tool} employ extremely complex algorithms and approaches to develop and refine new insights into previously collected data. In this category we include neural nets and other advanced approaches.”
[R. Mattison, Data Warehousing, 1996]
![Page 30: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/30.jpg)
Slides by Botta, Saitta, Malerba
Scelta del Metodo o dell’Algoritmo di Data Mining
✿ L’algoritmo scelto deve non solo essere adeguato al task, ma anche rispettare i fini e i requisiti imposti dall’utente
✿ Quanti esempi può trattare in una sola volta?
✿ Che tipo di dati tratta? Quanto pre-processing è necessario per portare i dati nel formato richiesto?
✿ Può operare “top-donw” (accettando ipotesi suggerite dall’utente) o lavora solo “bottom-up” (producendo solo ipotesi sue proprie)?
✿ Che grandezza fornisce in uscita? In che tipo di rappresentazione?
✿ E’ incrementale?
✿ E’ veloce?
✿ Quanto è facile da usare?
Slides by Botta, Saitta, Malerba
Nuova Metodologia?
Non c’è nulla di particolarmente nuovo nelle metodologie usate nel Data Mining
Quello che è nuovo:
Confluenza di metodologie disparate, coordinate per il raggiungimento di un fine comune approccio essenzialmente multidisciplinare
Applicazione di queste metodologie integrate a problemi del mondo reale
![Page 31: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/31.jpg)
Slides by Botta, Saitta, Malerba
Problemi di Ricerca a Livello di Metodo
✿ Dati Strutturati✿ Uso di conoscenza del dominio ✿ Interazione efficace con l’utente e Comprensibilità dei pattern✿ Costruzione di nuovi descrittori (“feature construction”) e Astrazione ✿ Dati e conoscenza variabili nel tempo✿ Dati mancanti e presenza di rumore nei dati✿ Overfitting e Significatività Statistica✿ Scalabilità
✿ Parallelismo✿ Algoritmi più efficaci✿ Basi di Dati più estese✿ Filtraggio di possibili soluzioni (imperfette) per l’utente✿ Boosting✿ “Windowing”✿ Dimensionalità più elevata
Slides by Botta, Saitta, Malerba
Problemi di Ricerca a Livello di Sistema
✿ Integrazione flessibile di approcci diversi ✿ Integrazione multimediale (dati in formato vario)✿ Integrazione con altri sistemi (sensori, multimedia, attuatori, ...)✿ Implementazione su Intra (Extra, Inter) Net
✿ Gestione di sistemi distributi✿ Decisioni collaborative e interattive✿ Tecnologie ad “agenti”✿ Sicurezza
![Page 32: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/32.jpg)
Slides by Botta, Saitta, Malerba
Evoluzione dei Sistemi
✿ I sistemi di prima generazione erano “research-driven” ✿ Orientati all’esperto✿ Richiedevano una comprensione profonda del funzionamento
✿ I sistemi di seconda generazione erano “vendor-driven” ✿ Includevano una varietà di strumenti in un solo sistema✿ Orientati ad un uso autonomo
✿ I sistemi di terza generazione stanno diventando “application-specific”
✿ Forniscono uno “shell” che l’utente può adattare ai suoi scopi particolari
[Piatetsky-Shapiro, 1997]
Slides by Botta, Saitta, Malerba
Settori Particolarmente Adatti a Metodi di IA
✿ Biologia Molecolare (“Cybergenetics”)
✿ “Text Mining” e “Information Extraction”
✿ WWW
✿ “Business Intelligence”
✿ Scoperta Scientifica
![Page 33: Tecnologie di Riferimento per il Data Miningbotta/didattica/IntroKDD.pdfTecnologie di Riferimento per il Data Mining Marco Botta Dipartimento di Informatica Università di Torino botta@di.unito.it](https://reader035.fdocuments.us/reader035/viewer/2022081612/5f1c370462ad8524780dd381/html5/thumbnails/33.jpg)
Slides by Botta, Saitta, Malerba
Visione Futura
In futuro, una query KDD deve poter attivare una procedura di classificazione, di scoperta di regole o di clustering a run-time
QueryEta' Citta' 55 NY 60 LA 40 Seattle
Citta' Popol NY > 1 Mll LA > 1 Ml Seattle 500.000
If Diagnosi(x, Problemi cardiaci) and Sesso(x, Maschio) Then Eta(x, t > 50) { 1200, 0.70}
If Diagnosi(x, Problemi cardiaci) and Sesso(x, Maschio) and Citta(x, α) and Popolazione(α, p > 500.000) Then Eta(x, t > 40) { 600, 0.80}
Slides by Botta, Saitta, Malerba
✿ performance system (inetgration)✿ representation✿ Subfield of ML✿ diagrams dall’altro talk sulla sovrapposizione✿ (soar, EBL, boosting, relational learning, learning in planning✿ reinforcement learning)