Post on 08-Jul-2020
U.E. Document multimedia
Elise Arnaud
inria Rhone-Alpes655, avenue de l’Europe 38330 Montbonnot, France
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 1 / 65
Plan
1 Rappel - indexation d’images
2 indexation video
3 indexation sonore
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 2 / 65
Plan
1 Rappel - indexation d’images
2 indexation video
3 indexation sonore
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 3 / 65
Rappel - indexation d’images
base d'images
...calcul de
signatures
Espace de représentationImage requête
...
Images similaires
Indexation off line
Recherche on line
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 4 / 65
Rappel - indexation d’images
Type de contenu reconnu
une meme image que l’image requete
une image contenant un objet donnee
une instance d’une classe d’objet
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 5 / 65
Rappel - indexation d’images
Description globale
une description globale est une representation de l’image dans sonensemble, le plus souvent sous la forme d’un vecteur de taille fixe
elle se contente le plus souvent d’exploiter un indice visuel unique
caracteristiques
un vecteur de description par objetune mesure de (dis-)similarite definie sur l’espace de ces descripteurs
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 6 / 65
Rappel - indexation d’images
c©H. Jegou, M. Douze/ INRIA
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 7 / 65
Rappel - indexation d’images
Description locale
Une description locale est une representation de l’entite a decrire parun ensemble de descripteurs (vecteurs)
vecteurs calcules localement pour differentes parties de l’entite
ainsi, plusieurs descripteurs par entite
mesure de similarite necessite la mise en correspondance(appariement) des descripteurs
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 8 / 65
Rappel - indexation d’images
c©H. Jegou, M. Douze/ INRIA
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 9 / 65
Rappel - indexation d’images
Representation globale ou locale ?
Avantage de la representation globale
certaines invariances faciles a obtenirextraction pour un cout plus faiblecomparaison plus simple et donc plus rapide : comparaison des entitesavec un vecteur unique, donc pas d’appariementen description locale, chaque information individuelle n’est pas tresdiscriminante
Avantage de la representation locale
plus de resistance a la plupart des transformationsdescription plus precise d’une image dans son ensemble (souvent ladescription est aussi volumineuse que l’image d’origine)
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 10 / 65
Plan
1 Rappel - indexation d’images2 Indexation video
applicationsspecificite du problemesegmentation en plansindexation video : approches par points d’interet
3 Indexation sonore
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 11 / 65
Indexation video
applications
Programme television
News, sports, documentaires, emissions de divertissement ...
films
drames, comedies, policiers ...
Enregistrements de meetings
conferences, teleconference, groupe de travail ...
autres
cameras de surveillance, films personnels ...
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 12 / 65
Indexation video
applications
Les entreprises on des grandes quantites de donnees videos
mais si on ne sait pas ce que ces videos contiennent, ou commentretrouver une information, cela est inutile ...
exemple : quelques minutes apres le deces d’un personnage public, lestelevisions preparent des dossiers retrospectifs
le probleme n’est pas d’avoir le materiel video mais de le trouver
Les assistants de production passent des heures a visionner des videosa la recherche de bons segments
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 13 / 65
Indexation video
applications
La taille des BD video n’est pas comparable avec la taille des BD texte
Le probleme est donc d’autant plus critique ...
De plus, le stockage des videos compresse les donnees. Les methodesdoivent etre adaptees aux formats de compression
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 14 / 65
Indexation video
specificite du probleme
Video = suite d’images + son
L’axe temporel t est singulier
processus physique different des axes x et y : mouvement de la cameraet des objets qui la composent
Segmentation temporelle en ”plans” (au sens cinematographique)
probleme en soi mais assez bien maıtrise aujourd’huiindexation au niveau des plans plutot que des images composant lavideo
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 15 / 65
Indexation video
Indexation de videos = plusieurs problemes distincts
1 Requete video (souvent un plan)
probleme qui est le plus souvent considere
2 Requete image
asymetrie de la requeteplus difficile (car moins d’information dans la requete, et pas dedescription spatio-temporelle possible)toutes les techniques ne s’appliquent pas
Dans l’etat de l’art, deux classes d’approches
indexation spatio-temporelle (pas utilisable avec une requete image)indexation des images composant la video + integration coherencetemporelle
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 16 / 65
Segmentation en plans
La segmentation en plans est l’identification automatique, par desmethodes informatiques, des bornes des plans dans une video. Celaconsiste a reperer automatiquement les points de montage definis al’origine par le realisateur, en mesurant les discontinuites entre lesimages successives de la video.
permettra ensuite la selection d’”images-cles”
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 17 / 65
Segmentation en plans
Structure d’une video
frame - pas d’analyse temporelle a ce niveau. niveau de l’image
plans - ensemble d’images acquises par un mouvement de camera
scene - ensemble de plans successifs qui ont un meme sens(semantique commune)
video / episode - ensemble de scenes
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 18 / 65
Segmentation en plans
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 19 / 65
Segmentation en plans
Structure d’une video - transitions entre plans
transition brusque : cut
transitions progressives entre plans
fondu au noir volet fondu enchaine
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 20 / 65
Segmentation en plans
Comment detecter les transitions entre plans, i.e. discontinuites dans leflux video ?
approche traditionnelle : visionner la video, identifier manuellementles segments, les annoter avec du texte
1h de video ... 10 h de travail
des idees pour automatiser ?
transition brusque = changement abrupt de la luminosite
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 21 / 65
Segmentation en plans
Comment detecter les discontinuites dans le flux video ?
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 22 / 65
Segmentation en plans
Comment detecter les discontinuites dans le flux video ?
utilisation de la luminance (histogramme)
utilisation des contours
caracterisation du mouvement de la camera i.e. etude du mouvement
les transitions progressives sont plus difficiles a detecter
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 23 / 65
Segmentation en plans
c©P. Bouthemy / IRISA
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 24 / 65
Typage des plans
c©P. Bouthemy / IRISA
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 25 / 65
Indexation video
1 Requete video (souvent un plan)
2 Requete image
Dans l’etat de l’art, deux classes d’approchesindexation spatio-temporelle (pas utilisable avec une requete image)indexation des images composant la video + integration coherencetemporelle
majorite des approches utilisent les points d’interet (mais passeulement)
utilisation des actions
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 26 / 65
Indexation video - approches par points d’interet
c©V. Gouet-Brunet / CNAM
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 27 / 65
Indexation video - approches par points d’interet
Approches spatio-temporelles pures
c©A.
Klaser / INRIA
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 28 / 65
Indexation video - approches par points d’interet
Approches spatio-temporelles puresDetecteur spatio-temporel [Laptev et Lindeberg 2003] : ”Space-timeInterest Points”
Extension de Harris a (x,y,t)
Detection des points qui presentent de fortes variations de luminositeen x, y et t
Cette methode donne le meme status a l’axe temporel et aux axesspatiaux
exemple sur la video
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 29 / 65
Indexation video - approches par points d’interet
Approches spatio-temporelles puresDetecteur spatio-temporel [Laptev et Lindeberg 2003] : ”Space-timeInterest Points”
c©I. Laptev / INRIA
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 30 / 65
Indexation video - approches par points d’interet
Approches spatio-temporelles puresDescripteur spatio-temporel [Laptev 2008]
Extension du descripteur sift pour prendre en compte l’axe t
c©A. Klaser / INRIA
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 31 / 65
Indexation video - approches par points d’interet
Approches spatio-temporelles puresDescripteur spatio-temporel [Laptev 2008]
c©I. Laptev / INRIA
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 32 / 65
Indexation video - approches par points d’interet
Approches spatio-temporelles puresApplication a la reconnaissance d’actions
c©I. Laptev / INRIA
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 33 / 65
Indexation video - approches par points d’interet
Approches spatio-temporelles puresApplication a la reconnaissance d’actions
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 34 / 65
Indexation video - approches par points d’interet
c©V. Gouet-Brunet / CNAM
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 35 / 65
Indexation video - approches par points d’interet
c©V. Gouet-Brunet / CNAM
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 36 / 65
Indexation video - approches par points d’interet
c©V. Gouet-Brunet / CNAM
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 37 / 65
Indexation video - approches par points d’interet
c©V. Gouet-Brunet / CNAM
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 38 / 65
Indexation video - approches par points d’interet
c©V. Gouet-Brunet / CNAM
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 39 / 65
Indexation video - approches par points d’interet
c©V. Gouet-Brunet / CNAM
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 40 / 65
Indexation video - approches par points d’interet
Autre exemple : Video Google et extension
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 41 / 65
Indexation video
video = ensemble d’images + son ...
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 42 / 65
Plan
1 Rappel - indexation d’images
2 Indexation video3 Indexation audio
applicationquelques rappelsdescripteur
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 43 / 65
Indexation audio
Applications
Recherche de documents rigoureusement identiques.
Verification de l’integrite des donnees pour le codage audio, lacryptographie.
Recherche de documents perceptuellement identiques mais qui ont pusouffrir de deteriorations ou de modifications mineures.
Recherche de documents pouvant etre tres differents mais presentantdes ressemblances suivant un certain critere.
classification de morceaux de musiques, de programmes TVrecherche par melodie chantee, recherche par rythmeaide a la decouverte de nouveaux artistes (recherche par ”gout”musical)
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 44 / 65
Indexation audio
Applications
creation automatique de play-listes
reconnaissance vocale
reconnaissance de chansons (shazam pour iphone)
indexation de documents d’archive (radio / video)
recherche dans une base de donnee musicale
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 45 / 65
Indexation audio
Applications
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 46 / 65
Indexation audio
Quelques rappelsun son = un signal 1D
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 47 / 65
Indexation audio
Quelques rappels
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 48 / 65
Indexation audio
Quelques rappels
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 49 / 65
Indexation audio
Quelques rappels
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 50 / 65
Indexation audio
Quelques rappels - Transformee de fourier
S(f ) =
∫ ∞
−∞s(t)e−i2πftdt
s(t) =
∫ ∞
−∞S(f )e i2πftdf
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 51 / 65
Indexation audio
Quelques rappels
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 52 / 65
Indexation audio
Quelques rappels
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 53 / 65
Indexation audio
Descriteurs - fenetrage
c©G. Gravier / IRISA
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 54 / 65
Indexation audio
Descriteurs - fenetrage
c©G. Gravier / IRISAElise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 55 / 65
Indexation audio
Descriteurs - fenetrage
c©J.-P. Haton / INRIA Loria
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 56 / 65
Indexation audio
SpectrogrammeLe spectrogramme est un diagramme associant a chaque instant t d’unsignal, son spectre de frequence.
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 57 / 65
Indexation audio
Spectrogramme
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 58 / 65
Indexation audio
Spectrogramme
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 59 / 65
Indexation audio
Descripteurs
energie s(t) =∑
|s(t)|2dt
energies en sortant d’un banc de filtres
taux de passage par zero (ZRC zero-crossing rate)
LPC (linear prediction coding)
MFCC (Mel Frequency Cespral Coefficients)
points d’interet
...
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 60 / 65
Indexation audio
Descripteurs - MFCC (Mel Frequency Cespral Coefficients)
FFT pour decomposer le signal en ses frequences constituantesfiltres triangulaires places de facon a imiter le comportement de l’oreille(echelle Mel)calcul de la FFT inverseC (q) = F−1(log |F (s(t))|)
on considere que l’oreille percoit
lineairement le son jusqu’a 1000
Hz, mais apres, elle percoit moins
d’une octave par doublement de
frequence. L’echelle des Mels
modelise assez fidelement la per-
ception de l’oreille.
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 61 / 65
Indexation audio
Descripteurs - MFCC (Mel Frequency Cespral Coefficients)
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 62 / 65
Indexation audio
Descripteurs
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 63 / 65
Indexation audio
Methode de Shazam
[An industrial-strength audio search Algorithm - A. L. C. Wang - 2003
http://www.ee.columbia.edu/ dpwe/papers/Wang03-shazam.pdf ]
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 64 / 65
Indexation audio
Methode de Shazam
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 65 / 65
des questions ?
Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 66 / 65