Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu...

Efficient Top-k Query Evaluation on Probabilistic DataChristopher Ré, Nilesh Dalvi, Dan Suciu

University of Washington

Presentazione di:

Giacomo Aceto, Michele Dinardo, Vito La Porta

Relatore: Michele Dinardo

5 marzo 2008 Efficient Top-k Query Evaluation on Probabilistic Data

2

Visione di alto livello

DBMS: risposte esatte su dati precisi I dati sono spesso imprecisi

Match tra oggetti di database diversi Dati estratti automaticamente da testi

Database probabilistici gestiscono l’imprecisione La valutazione delle query SQL è NP-completa Molte risposte dovute a improbabili corrispondenze Utente interessato alle risposte di alta qualità

Efficiente Top-k, ordinato per probabilità


3

Overview

Esempio motivante e nozioni di baseEsempio motivante e nozioni di base MultisimulazioneMultisimulazione Risultati sperimentaliRisultati sperimentali


4

Alice necessita di fare estrazione e riconciliazione di dati

• Grande interesse per i dati riguardanti film (attori, registi, ecc)

• Dati ben mantenuti e precisi• Ma mancano le recensioni…

Un database probabilistico può aiutare Alice a memorizzare e

interrogare i suoi dati incerti

Come faccio a sapere a quali

film si riferiscono?

Alice necessita di analisi di confidenza

Sul web ci sono molte

recensioni

Scenario

IMDB

RecensioniRecensioniIn quali anni Anthony Hopkins è apparso in

film con alta votazione?

Quali attori di Pulp Fiction sono apparsi in due film scarsi nei cinque anni

precedenti a Pulp Fiction?


5

Riconciliazione di dati

Mokey Lovea845

12 Monkeysa282

Titleasin

Monkm656

Twelve Monkeys (1995)m389

Love Storym845

Twelve Monkeysm897

Titlemid

0.1m656a282

0.3m897a845

0.4m389a282

0.3m845a845

0.5m897a282

pmidasin

Tabella di match che cattura l’incertezza

Dati di IMDB

Recensioni di Amazon

1

[ACG02], [CGG03] e [HS95] per score di similarità automatizzati

1


6

Associamo variabili booleane alle tuple

Tuple come variabili booleane

altrimenti

presente è se

false

ttruee i

i

asin mid p

a282 m897 0.5

a282 m389 0.4

1e

2e

Ogni istruzione SQL costruisce un’espressione di variabili

booleane, secondo l’algebra relazionale probabilistica ([FR97])


7

Cenni alla Selezione

asin mid p

a282 m897 0.5

a282 m389 0.4

'389'mmid

asin mid

a282 m389

1e2e

2e


8

Cenni al Prodotto Incrociato

asin mid p

a282 m897 0.5

a282 m389 0.4

asin p

a282 0.51f

11 fe

2e1e

12 fe

asin mid

a282 m897

a282 m389


9

Cenni alla Proiezione

asin mid p

a282 m897 0.5

a282 m389 0.4

asin

a282 21 ee

2e1e

asin


10

Formule DNF su Tuple

Obiettivo: ottenere una formula DNF

mri

m1i

2ri

21i

1ri

11iii eeeeeeEt

Ma DNF SAT è NP-completo...

E qui entrano in gioco gli algoritmi

approssimativi...

SATà DNF probabilittp i


11

Metodo Monte Carlo: intuizione

NX

X

superficie

superficie

lago

terreno

X

superficieNXsuperficie terreno

lago

1000lagosuperficie

Superficie terreno = 1000 m²X colpi di cannoneN numero palle cadute sulla terra

500lagosuperficie

3.333lagosuperficie

375lagosuperficie

…

Come calcolare la

superficie del lago?


12

La simulazione riduce l’incertezzaIncertezza sulla probabilità

Dopo N passi di simulazione garantisce, con alta probabilità, che:

Algoritmo di Luby-Karp [LK84]

Na Nb0.0 1.0

enza di confidintervallobaEp NNi ,


13

Per ogni tupla candidata, applica l’algoritmo di Luby-Karp fino a quando l’intervallo non raggiunge un’ampiezza prefissata ε (N libero).

Simulazione Naive

0.0 1.0

Christopher Walken

Harvey Keitel

Samuel L. Jackson

Bruce Willis

1

3

4

2

ε

ε


14

Analisi della Simulazione NaiveEsempio:• i = 4• k = 2

ε troppo piccolo ε troppo grande

Non è proprio il meglio che

possiamo avere...


15

Overview



16

Multisimulazione

k-separazione: esiste un insieme T di k intervalli tale che nessuno di essi è annidato ad un intervallo non appartenente a T.

Es.: k = 2

Christopher Walken

Harvey Keitel

Samuel L. Jackson

Bruce Willis

T


17

Quando la ragione critica diventa vuota...

...otteniamo la k-separazione

Idea chiave: Regione Critica

Ad ogni passo, la regione critica è l’intervallo:

iesimoiesimo bkakdc 1 ,,

Mitico!!!Es.: k = 2


18

Algoritmo MS_TopK

/*candidate n tupleG* /:),(_ kGTopKMS

1,0,, Assegna 11 nn baba

d docwhile

simulare da un scegli :1 Caso sserdouble cro

simulare da un un scegli :3 Caso ssimalecrosser ma

simulare da un scegli :2 Caso r crosserupper/lowe

dcUpdate ,

end while

Treturn


19

Algoritmo MS_RankK

Algoritmo ricorsivo che classifica le top-k tuple

),(_ kGTopKMSTk

,1)MS_TopK(TT 21

1),kTopK(TMST k1k _

2),kMS_TopK(TT 1k2k

Es.: k = 2

412 ,GGT

11 GT

2G

1G

3G

4G

1

2


20

Overview



21

Dettagli sull’esperimento

Tabella di match Numero Tuple

Match tra titoli 339k

Match tra attori 6758k

Match tra registi 18k

Amazon IMDB

Attori FilmRecensioni


22

Tempo di esecuzione

Il metodo naive impiega circa 20 minuti

La multisimulazione ha tempi di risposta nettamente migliori

In quali anni Anthony Hopkins è apparso in film con alta votazione?


23

Numero Totale di Simulazioni

RankK trae benefici da valori bassi di k;

Per TopK il numero di step è indipendente da k;

Quali attori di Pulp Fiction sono apparsi in

due film scarsi nei cinque anni precedenti

a Pulp Fiction?


24

Conclusioni

OPT: Algoritmo non deterministico ottimale che conosce il

numero di passi da simulare Confronto con OPT:

1) La multisimulazione compie al più il doppio dei passi di simulazione rispetto a OPT

2) Nessun algoritmo deterministico è migliore su ogni istanza

Estensione: Algoritmo any-time per l’ordinamento


25

E se non ci sono domande...

grazie per l’attenzione

Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu...

Documents

Transcript of Efficient Top-k Query Evaluation on Probabilistic Data Christopher Ré, Nilesh Dalvi, Dan Suciu...