Enver Sangineto, Dipartimento di Informatica [email protected] Multimedia Information...
-
Upload
fillipo-pavan -
Category
Documents
-
view
215 -
download
0
Transcript of Enver Sangineto, Dipartimento di Informatica [email protected] Multimedia Information...
![Page 2: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/2.jpg)
p. 2
Problema
Nel Web e nei DB “locali” esiste molta informazione non esclusivamente testuale:
audio (speech, musica…) immagini, video, …
Come recuperare efficacemente materiale multimediale?
![Page 3: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/3.jpg)
p. 3
Esempi di applicazione
Web indexing: Recupero di materiale multimediale dal Web, Sistemi capaci di bloccare immagini pubblicitarie
oppure illegali/indesiderate Trademark e copyright Accesso ai musei DB commerciali
![Page 4: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/4.jpg)
p. 4
Esempi di applicazione [2]
Immagini satellitari (applicazioni militari, government, …)
Immagini mediche Entertainment Criminal investigation …
![Page 5: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/5.jpg)
p. 5
Prima generazione di multimedia information retrieval systems
Off-line: il materiale multimediale viene associato con una descrizione testuale. Ese.: Annotazione manuale (“content descriptive
metadata”) Il testo che in una pagina Web circonda l’img
On-line: utilizzo di tecniche di IR testuali basate sul “keyword match”
![Page 6: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/6.jpg)
p. 6
immagine presa da: A. Del Bimbo, Visual Information Retrieval
![Page 7: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/7.jpg)
p. 7
Limiti dell’approccio esclusivamente testuale
L’annotazione manuale di grossi DB multimediali è impensabile…
Non è facile descrivere verbalmente il contenuto percettivo di un’immagine, di un video o di un brano musicale…
![Page 8: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/8.jpg)
p. 8
Esempi
Cercare una canzone conoscendone solo il ritornello
Cercare una determinata azione in un video sportivo
Cercare dipinti che hanno un determinato dosaggio di colori
…
![Page 9: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/9.jpg)
p. 9
Esempi [2]
Google Image può restituire fino ad un 85% di documenti NON rilevanti anche per query semplici (e.g., oggetti specifici) [1]
[1] Fergus, Fei-Fei, Perona, Zisserman, Learning Object Categories from Google’s Image Search, ICCV 05
![Page 10: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/10.jpg)
p. 10
Soluzioni in fase di ricerca…
Sistemi “Content Based”: Si basano sul contenuto percettivo dell’oggetto
multimediale. Tipicamente: utilizzano una query by example e modellano direttamente la similitudine percettiva tra la
query e gli oggetti del DB
Sistemi di annotazione automatica: Fase di pre-processing (“information extraction”):
viene estratta (in maniera automatica!) informazione da elementi non testuali e memorizzata sotto forma simbolica (e.g., testuale)
Il retrieval (on-line) avviene con tecniche “tradizionali”
![Page 11: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/11.jpg)
p. 11
Differenze rispetto all’IR Testuale…
Un problema comune a tutti i sistemi di Multimedia IR è il trattamento di informazione non simbolica
Un testo può essere visto come la combinazione di elementi simbolici atomici (le parole o token)
Un’immagine è una collezione di pixel e un suono un’onda sonora…
![Page 12: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/12.jpg)
p. 12
Cosa vedremo in queste tre lezioni…
Introduzione ai sistemi content based basati su caratteristiche percettive quali: Colore, movimento, suono, forma…
Sistemi di annotazione automatica
![Page 13: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/13.jpg)
p. 13
Elementi tipici di un sistema di Content Based Multimedia IR
Dal punto di vista dell’utente: La query è un oggetto multimediale (e.g.,
un’immagine, un disegno, un elemento audio, …) L’output è una lista di elementi ordinati in base
alla somiglianza percettiva con la query Esistono strumenti opzionali di interazione per
visualizzare collezioni di immagini o fornire feedback al sistema
![Page 14: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/14.jpg)
p. 14
Esempio: query by image example
La query èun particolare
![Page 15: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/15.jpg)
p. 15
Query by image example [2]
Notate che query e particolare possono non essere identici.Ad es. la query puòessere scelta da un’immagine prima di un restauro
![Page 16: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/16.jpg)
p. 16
Query by image example (sketch) [3]
immagine presa da: A. Del Bimbo, Visual Information Retrieval
![Page 17: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/17.jpg)
p. 17
Elementi tipici di un sistema di Content Based Multimedia IR [2]
Dal punto di vista del sistema: Rappresentazione dell’oggetto multimediale (e.g.,
spazio delle feature) Modellazione del concetto di similitudine
percettiva (e.g., attraverso appositi algoritmi di matching)
Utilizzo di strutture dati particolari che permettano un indexing efficiente dello spazio delle feature
Gestione dell’eventuale relevance feedback (non verrà trattato…)
![Page 18: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/18.jpg)
p. 18
Rappresentazione
![Page 19: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/19.jpg)
p. 19
Rappresentazione tramite Feature di un’immagine
Una feature è una rappresentazione, tramite un vettore di valori numerici, di tutta o parte dell’immagine
Se I' è una sottoparte dell’immagine I, allora una feature f è t.c.:f(I') Rk, f(I') = (v0, … vk-1)T,
k >= 1
![Page 20: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/20.jpg)
p. 20
Feature per rappresentare un’immagine [2]
In genere una feature è una caratteristica facilmente misurabile dell’immagine
L’immagine in esame viene quindi descritta usando i valori di un insieme di feature pre-scelte f1, …, fn
![Page 21: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/21.jpg)
p. 21
Feature globali e locali
I' = I: feature globale I' I: feature locale
Feature locali: È importante capire come selezionare le
sottoparti di I (I‘1, I‘2, …) da rappresentare Più robuste ad occlusioni, parti mancanti,
separazione dal background
![Page 22: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/22.jpg)
p. 22
Esempio: feature locale
fi(I') I'
I
immagine presa da: Tutorial CVPR 07
![Page 23: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/23.jpg)
p. 23
Alcuni semplici esempi di feature: istogrammi dell’intensità di grigio
Istogramma dell’intensità dei pixel in I': Divido il range [0, 255] in k bin Assegno ogni pixel ad un bin: I(p) -> divk(I(p)) f(I') = (v0, …, vk-1)T, dove: vi = # { p I’ : divk(I(p)) = i}
![Page 24: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/24.jpg)
p. 24
Alcuni semplici esempi di feature: geometria facciale
f(I) = (d1 , d2 , d3 , d4)T
![Page 25: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/25.jpg)
p. 25
Spazio delle Feature
Supponendo di utilizzare n features a valori in R, I può essere rappresentata tramite il vettore x(I) = (f1(I), …fn(I))T
x(I) è ottenuto concatenando il valore delle singole feature
x(I) è un punto in Rn, detto spazio delle feature
![Page 26: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/26.jpg)
p. 26
Spazio delle Feature [2]
In generale, se:fi(I) Rk,
allora: x(I) = (f1(I) T … fn(I) T)T è un punto in Rn*k
![Page 27: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/27.jpg)
p. 27
Es.: Spazio delle Feature (R2)
![Page 28: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/28.jpg)
p. 28
Spazio delle Feature [3]
E’ un concetto simile ma non identico allo spazio vettoriale usato per rappresentare la frequenza dei termini nei documenti testuali
E’ la rappresentazione dei dati più usata nei vari sistemi content based (immagini, video, audio) ma non è l’unica!
![Page 29: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/29.jpg)
p. 29
Similitudine
![Page 30: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/30.jpg)
p. 30
Similitudine percettiva
Nel text retrieval, la similitudine tra due documenti può essere stimata in funzione dei termini in comune
Ad esempio, rappresentando la frequenza dei termini di un documento in un apposito spazio vettoriale, la distanza tra punti in tale spazio descrive la dissimilarità tra documenti
Lo spazio delle feature si comporta in maniera analoga…
![Page 31: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/31.jpg)
p. 31
Similitudine percettiva [2]
Nello spazio delle feature la differenza percettiva tra I1 e I2 è proporzionale ad una determinata misura di distanza (non necessariamente Euclidea): dist(x(I1),x(I2))
Data la query Q, l’output del sistema è una lista di immagini I1, I2, … ordinata minimizzando:I1 = minI dist(x(Q),x(I)), …
![Page 32: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/32.jpg)
p. 32
Esempio (R2)
![Page 33: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/33.jpg)
p. 33
Similitudine percettiva [3]
Altri algoritmi di matching fanno uso di rappresentazioni più complesse o alternative allo spazio delle feature e sono tipicamente studiati ad hoc per il particolare sistema di MIR
![Page 34: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/34.jpg)
p. 34
Indexing
![Page 35: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/35.jpg)
p. 35
Tecniche di Indexing
Problema: come indicizzare efficientemente dei dati in uno spazio multidimensionale?
La maggior parte delle più comuni strutture dati per la ricerca efficiente si basano su un ordinamento totale dei valori rappresentati: xi <= xj V xj <= xi (0 <= i,j <= N)
Ese.: nel caso delle keyword, l’ordine alfabetico stabilisce un ordinamento totale del vocabolario (e.g., negli inverted files)
In Rk ciò non è più vero
![Page 36: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/36.jpg)
p. 36
Il k-d Tree
E’ una generalizzazione dell’albero di ricerca binario in k dimensioni
Ad ogni livello dell’albero viene presa in considerazione ciclicamente una delle k feature
![Page 37: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/37.jpg)
p. 37
Il k-d Tree [2]
Supponiamo di voler indicizzare un insieme di punti multidimensionali:
P1, …, PN, Pi Rk, Pi =(xi1, …, xi
k)
Scelgo la prima dimensione (feature) e trovo il valore L1, mediano rispetto a x1
1, …, xN1
![Page 38: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/38.jpg)
p. 38
Il k-d Tree [3]
La radice dell’albero conterrà L1 Il sottoalbero sinistro (TL) conterrà i punti Pi
t.c. xi1 <= L1
Il sottoalbero destro (TR) gli altri A livello 1 scelgo la seconda feature e,
separatamente per TL e TR, calcolo L2 e L3, scelti in modo tale che: L2 è mediano rispetto agli elementi xj1
2, xj22, …
di TL
L3 è mediano rispetto agli elementi di TR
![Page 39: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/39.jpg)
p. 39
Il k-d Tree [4]
Dopo aver utilizzato la feature k-esima, ritorno ciclicamente a considerare la prima feature
I punti sono associati alle foglie
![Page 40: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/40.jpg)
p. 40
Esempio
immagine presa da: Hemant M. Kakde, Range Searching using Kd Tree
![Page 41: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/41.jpg)
p. 41
Image, video e audio retrieval
![Page 42: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/42.jpg)
p. 42
Retrieval by color: istogrammi di colore
Istogramma dei colori di una parte (eventualmente tutta) di immagine I': Possibili rappresentazioni di un singolo pixel:
RGB, HSV, CIE LAB, … Divido ogni canale in k bin:
f(I') = (r0,…, rk-1, g0, …, gk-1, b0, …, bk-1)T, ri = # { p in I’: divk(R(p)) = i }, gi = # { p in I’: divk(G(p)) = i }, bi = # { p in I’: divk(B(p)) = i }
![Page 43: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/43.jpg)
p. 43
Istogrammi di colore [2]
Oppure divido RGB in k3 bin: f(I') = (z0,…, zh-1)T, h= k3
Se zi rappresenta i valori (i1, i2, i3), allora: zi = # { p in I’: divk(R(p)) = i1 and divk(G(p)) = i2
and divk(B(p)) = i3 }
![Page 44: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/44.jpg)
p. 44
Istogrammi di colore [3]: esempio
immagine presa da: Wikipedia
![Page 45: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/45.jpg)
p. 45
Retrieval by texture
![Page 46: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/46.jpg)
p. 46
Approccio statistico
Tamura features: analizzano la distribuzione dell’intensità locale dell’img al fine di misurare caratteristiche percettive della texture quali:
Contrasto Granularità Direzionalità
![Page 47: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/47.jpg)
p. 47
Esempio
field
residential vegetation
![Page 48: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/48.jpg)
p. 48
Approccio sintattico: grammatiche visive
Ese. di regola di produzione per la rappresentazione di texture (Rosenfeld):
Essa riassume le seguenti 4 regole:
![Page 49: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/49.jpg)
p. 49
Video retrieval
Un video è semplicemente una sequenza di molte immagini
Ogni immagine viene detta frame
![Page 50: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/50.jpg)
p. 50
Componenti di un video
Frame: una singola immagine Shot: Un sequenza di frame consecutivi
ripresi da una singola telecamera Scena: un insieme di shot consecutivi
che rispettano le 3 unità aristoteliche di spazio, tempo e azione
![Page 51: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/51.jpg)
p. 51
Segmentazione di una videosequenza
Individuando gli “editing effects” (cuts, dissolvenze, ….) tra uno shot e l’altro è possibile suddividere (automaticamente) un video in shot
Molto più difficile è individuare le scene (concetto semantico)
![Page 52: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/52.jpg)
p. 52
Tipi di ricerca per i video
I video possono essere rappresentati con dei “key frame” rappresentativi di ogni shot
Un key frame è trattabile come una “still image”: Si applicano le tecniche viste per le immagini
(e.g., spazio delle feature, ricerca per colore, texture, forma, ecc.)
![Page 53: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/53.jpg)
p. 53
Tipi di ricerca per i video
Alternativamente, è possibile cercare in un video informazione relativa al movimento (e.g., una particolare traiettoria in un video sportivo, …)
![Page 54: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/54.jpg)
p. 54
Audio retrieval
Vari tipi di audio: Parlato:
E’ possibile utilizzare tecniche di speech recognition per trasformare l’audio in testo
Suono: Un qualunque segnale audio con frequenze nel range
dell’udito umano (e.g., suoni prodotti da animali…) Musica:
Si tiene conto dei diversi strumenti musicali utilizzati, dei vari tipi di suoni prodotti, degli effetti musicali, ecc.
![Page 55: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/55.jpg)
p. 55
Tipi di Query
Query by example: viene fornito/sintetizzato un file audio chiedendo di recuperare audio simili
Caso particolare, Query by humming: l’utente accenna (vocalmente o anche
fischiando…) la melodia da cercare
![Page 56: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/56.jpg)
p. 56
Rappresentazione e similitudine
Uno spazio delle feature può essere creato utilizzando, ad ese., istogrammi ricavati dalla rappresentazione spettrale del segnale
La similitudine percettiva in tal caso avviene calcolando la distanza tra punti multidimensionali come nel caso delle immagini Distanze tipiche: Euclidea, Mahalanobis, distanze
per istogrammi (Histogram Intersection, Kullback-Leibler divergence, Chi-quadro, ecc.)
![Page 57: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/57.jpg)
p. 57
Aspetti percettivi diversi possono essere combinati
![Page 58: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/58.jpg)
p. 58
Alcuni riferimenti
A. Del Bimbo, Visual Information Retrieval, Morgan Kaufmann Publishers, Inc. San Francisco, California", 1999
Forsyth, Ponce, Computer Vision, a Modern Approach 2003
![Page 59: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/59.jpg)
p. 59
Alcuni riferimenti [2]
Smeulders et al., Content-Based Image Retrieval at the End of Early Years, IEEE PAMI 2000
Long et al., Fundamentals of Content-based Image Retrieval, in: D. D. Feng, W. C. Siu, H. J. Zhang (Ed.),Multimedia Information Retrieval & Management-Technological Fundamentals and Applications, Springer-Verlag, New York(2003)
Foote et al., An Overview of Audio Information Retrieval, ACM Multimedia Systems, 1998
Hemant M. Kakde, Range Searching using Kd Tree, 2005
![Page 60: Enver Sangineto, Dipartimento di Informatica sangineto@di.uniroma1.it Multimedia Information Retrieval.](https://reader035.fdocuments.us/reader035/viewer/2022062701/5542eb4f497959361e8beeeb/html5/thumbnails/60.jpg)
p. 60
Domande…