Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu...
-
Upload
nicola-alfano -
Category
Documents
-
view
219 -
download
3
Transcript of Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu...
Efficient Top-k Query Evaluation on Probabilistic DataChristopher Ré, Nilesh Dalvi, Dan Suciu
University of Washington
Presentazione di:
Giacomo Aceto, Michele Dinardo, Vito La Porta
Relatore: Michele Dinardo
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
2
Visione di alto livello
DBMS: risposte esatte su dati precisi I dati sono spesso imprecisi
Match tra oggetti di database diversi Dati estratti automaticamente da testi
Database probabilistici gestiscono l’imprecisione La valutazione delle query SQL è NP-completa Molte risposte dovute a improbabili corrispondenze Utente interessato alle risposte di alta qualità
Efficiente Top-k, ordinato per probabilità
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
3
Overview
Esempio motivante e nozioni di baseEsempio motivante e nozioni di base MultisimulazioneMultisimulazione Risultati sperimentaliRisultati sperimentali
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
4
Alice necessita di fare estrazione e riconciliazione di dati
• Grande interesse per i dati riguardanti film (attori, registi, ecc)
• Dati ben mantenuti e precisi• Ma mancano le recensioni…
Un database probabilistico può aiutare Alice a memorizzare e
interrogare i suoi dati incerti
Come faccio a sapere a quali
film si riferiscono?
Alice necessita di analisi di confidenza
Sul web ci sono molte
recensioni
Scenario
IMDB
RecensioniRecensioniIn quali anni Anthony Hopkins è apparso in
film con alta votazione?
Quali attori di Pulp Fiction sono apparsi in due film scarsi nei cinque anni
precedenti a Pulp Fiction?
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
5
Riconciliazione di dati
Mokey Lovea845
12 Monkeysa282
Titleasin
Monkm656
Twelve Monkeys (1995)m389
Love Storym845
Twelve Monkeysm897
Titlemid
0.1m656a282
0.3m897a845
0.4m389a282
0.3m845a845
0.5m897a282
pmidasin
Tabella di match che cattura l’incertezza
Dati di IMDB
Recensioni di Amazon
1
[ACG02], [CGG03] e [HS95] per score di similarità automatizzati
1
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
6
Associamo variabili booleane alle tuple
Tuple come variabili booleane
altrimenti
presente è se
false
ttruee i
i
asin mid p
a282 m897 0.5
a282 m389 0.4
1e
2e
Ogni istruzione SQL costruisce un’espressione di variabili
booleane, secondo l’algebra relazionale probabilistica ([FR97])
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
7
Cenni alla Selezione
asin mid p
a282 m897 0.5
a282 m389 0.4
'389'mmid
asin mid
a282 m389
1e2e
2e
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
8
Cenni al Prodotto Incrociato
asin mid p
a282 m897 0.5
a282 m389 0.4
asin p
a282 0.51f
11 fe
2e1e
12 fe
asin mid
a282 m897
a282 m389
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
9
Cenni alla Proiezione
asin mid p
a282 m897 0.5
a282 m389 0.4
asin
a282 21 ee
2e1e
asin
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
10
Formule DNF su Tuple
Obiettivo: ottenere una formula DNF
mri
m1i
2ri
21i
1ri
11iii eeeeeeEt
Ma DNF SAT è NP-completo...
E qui entrano in gioco gli algoritmi
approssimativi...
SATà DNF probabilittp i
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
11
Metodo Monte Carlo: intuizione
NX
X
superficie
superficie
lago
terreno
X
superficieNXsuperficie terreno
lago
1000lagosuperficie
Superficie terreno = 1000 m²X colpi di cannoneN numero palle cadute sulla terra
500lagosuperficie
3.333lagosuperficie
375lagosuperficie
…
Come calcolare la
superficie del lago?
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
12
La simulazione riduce l’incertezzaIncertezza sulla probabilità
Dopo N passi di simulazione garantisce, con alta probabilità, che:
Algoritmo di Luby-Karp [LK84]
Na Nb0.0 1.0
enza di confidintervallobaEp NNi ,
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
13
Per ogni tupla candidata, applica l’algoritmo di Luby-Karp fino a quando l’intervallo non raggiunge un’ampiezza prefissata ε (N libero).
Simulazione Naive
0.0 1.0
Christopher Walken
Harvey Keitel
Samuel L. Jackson
Bruce Willis
1
3
4
2
ε
ε
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
14
Analisi della Simulazione NaiveEsempio:• i = 4• k = 2
ε troppo piccolo ε troppo grande
Non è proprio il meglio che
possiamo avere...
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
15
Overview
Esempio motivante e nozioni di baseEsempio motivante e nozioni di base MultisimulazioneMultisimulazione Risultati sperimentaliRisultati sperimentali
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
16
Multisimulazione
k-separazione: esiste un insieme T di k intervalli tale che nessuno di essi è annidato ad un intervallo non appartenente a T.
Es.: k = 2
Christopher Walken
Harvey Keitel
Samuel L. Jackson
Bruce Willis
T
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
17
Quando la ragione critica diventa vuota...
...otteniamo la k-separazione
Idea chiave: Regione Critica
Ad ogni passo, la regione critica è l’intervallo:
iesimoiesimo bkakdc 1 ,,
Mitico!!!Es.: k = 2
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
18
Algoritmo MS_TopK
/*candidate n tupleG* /:),(_ kGTopKMS
1,0,, Assegna 11 nn baba
d docwhile
simulare da un scegli :1 Caso sserdouble cro
simulare da un un scegli :3 Caso ssimalecrosser ma
simulare da un scegli :2 Caso r crosserupper/lowe
dcUpdate ,
end while
Treturn
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
19
Algoritmo MS_RankK
Algoritmo ricorsivo che classifica le top-k tuple
),(_ kGTopKMSTk
,1)MS_TopK(TT 21
1),kTopK(TMST k1k _
2),kMS_TopK(TT 1k2k
Es.: k = 2
412 ,GGT
11 GT
2G
1G
3G
4G
1
2
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
20
Overview
Esempio motivante e nozioni di baseEsempio motivante e nozioni di base MultisimulazioneMultisimulazione Risultati sperimentaliRisultati sperimentali
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
21
Dettagli sull’esperimento
Tabella di match Numero Tuple
Match tra titoli 339k
Match tra attori 6758k
Match tra registi 18k
Amazon IMDB
Attori FilmRecensioni
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
22
Tempo di esecuzione
Il metodo naive impiega circa 20 minuti
La multisimulazione ha tempi di risposta nettamente migliori
In quali anni Anthony Hopkins è apparso in film con alta votazione?
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
23
Numero Totale di Simulazioni
RankK trae benefici da valori bassi di k;
Per TopK il numero di step è indipendente da k;
Quali attori di Pulp Fiction sono apparsi in
due film scarsi nei cinque anni precedenti
a Pulp Fiction?
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
24
Conclusioni
OPT: Algoritmo non deterministico ottimale che conosce il
numero di passi da simulare Confronto con OPT:
1) La multisimulazione compie al più il doppio dei passi di simulazione rispetto a OPT
2) Nessun algoritmo deterministico è migliore su ogni istanza
Estensione: Algoritmo any-time per l’ordinamento
5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data
25
E se non ci sono domande...
grazie per l’attenzione