U.E. Document multimédia - Inria · Rappel - indexation d’images Repr´esentation globale ou...

Post on 08-Jul-2020

9 views 0 download

Transcript of U.E. Document multimédia - Inria · Rappel - indexation d’images Repr´esentation globale ou...

U.E. Document multimedia

Elise Arnaud

inria Rhone-Alpes655, avenue de l’Europe 38330 Montbonnot, France

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 1 / 65

Plan

1 Rappel - indexation d’images

2 indexation video

3 indexation sonore

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 2 / 65

Plan

1 Rappel - indexation d’images

2 indexation video

3 indexation sonore

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 3 / 65

Rappel - indexation d’images

base d'images

...calcul de

signatures

Espace de représentationImage requête

...

Images similaires

Indexation off line

Recherche on line

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 4 / 65

Rappel - indexation d’images

Type de contenu reconnu

une meme image que l’image requete

une image contenant un objet donnee

une instance d’une classe d’objet

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 5 / 65

Rappel - indexation d’images

Description globale

une description globale est une representation de l’image dans sonensemble, le plus souvent sous la forme d’un vecteur de taille fixe

elle se contente le plus souvent d’exploiter un indice visuel unique

caracteristiques

un vecteur de description par objetune mesure de (dis-)similarite definie sur l’espace de ces descripteurs

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 6 / 65

Rappel - indexation d’images

c©H. Jegou, M. Douze/ INRIA

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 7 / 65

Rappel - indexation d’images

Description locale

Une description locale est une representation de l’entite a decrire parun ensemble de descripteurs (vecteurs)

vecteurs calcules localement pour differentes parties de l’entite

ainsi, plusieurs descripteurs par entite

mesure de similarite necessite la mise en correspondance(appariement) des descripteurs

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 8 / 65

Rappel - indexation d’images

c©H. Jegou, M. Douze/ INRIA

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 9 / 65

Rappel - indexation d’images

Representation globale ou locale ?

Avantage de la representation globale

certaines invariances faciles a obtenirextraction pour un cout plus faiblecomparaison plus simple et donc plus rapide : comparaison des entitesavec un vecteur unique, donc pas d’appariementen description locale, chaque information individuelle n’est pas tresdiscriminante

Avantage de la representation locale

plus de resistance a la plupart des transformationsdescription plus precise d’une image dans son ensemble (souvent ladescription est aussi volumineuse que l’image d’origine)

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 10 / 65

Plan

1 Rappel - indexation d’images2 Indexation video

applicationsspecificite du problemesegmentation en plansindexation video : approches par points d’interet

3 Indexation sonore

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 11 / 65

Indexation video

applications

Programme television

News, sports, documentaires, emissions de divertissement ...

films

drames, comedies, policiers ...

Enregistrements de meetings

conferences, teleconference, groupe de travail ...

autres

cameras de surveillance, films personnels ...

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 12 / 65

Indexation video

applications

Les entreprises on des grandes quantites de donnees videos

mais si on ne sait pas ce que ces videos contiennent, ou commentretrouver une information, cela est inutile ...

exemple : quelques minutes apres le deces d’un personnage public, lestelevisions preparent des dossiers retrospectifs

le probleme n’est pas d’avoir le materiel video mais de le trouver

Les assistants de production passent des heures a visionner des videosa la recherche de bons segments

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 13 / 65

Indexation video

applications

La taille des BD video n’est pas comparable avec la taille des BD texte

Le probleme est donc d’autant plus critique ...

De plus, le stockage des videos compresse les donnees. Les methodesdoivent etre adaptees aux formats de compression

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 14 / 65

Indexation video

specificite du probleme

Video = suite d’images + son

L’axe temporel t est singulier

processus physique different des axes x et y : mouvement de la cameraet des objets qui la composent

Segmentation temporelle en ”plans” (au sens cinematographique)

probleme en soi mais assez bien maıtrise aujourd’huiindexation au niveau des plans plutot que des images composant lavideo

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 15 / 65

Indexation video

Indexation de videos = plusieurs problemes distincts

1 Requete video (souvent un plan)

probleme qui est le plus souvent considere

2 Requete image

asymetrie de la requeteplus difficile (car moins d’information dans la requete, et pas dedescription spatio-temporelle possible)toutes les techniques ne s’appliquent pas

Dans l’etat de l’art, deux classes d’approches

indexation spatio-temporelle (pas utilisable avec une requete image)indexation des images composant la video + integration coherencetemporelle

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 16 / 65

Segmentation en plans

La segmentation en plans est l’identification automatique, par desmethodes informatiques, des bornes des plans dans une video. Celaconsiste a reperer automatiquement les points de montage definis al’origine par le realisateur, en mesurant les discontinuites entre lesimages successives de la video.

permettra ensuite la selection d’”images-cles”

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 17 / 65

Segmentation en plans

Structure d’une video

frame - pas d’analyse temporelle a ce niveau. niveau de l’image

plans - ensemble d’images acquises par un mouvement de camera

scene - ensemble de plans successifs qui ont un meme sens(semantique commune)

video / episode - ensemble de scenes

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 18 / 65

Segmentation en plans

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 19 / 65

Segmentation en plans

Structure d’une video - transitions entre plans

transition brusque : cut

transitions progressives entre plans

fondu au noir volet fondu enchaine

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 20 / 65

Segmentation en plans

Comment detecter les transitions entre plans, i.e. discontinuites dans leflux video ?

approche traditionnelle : visionner la video, identifier manuellementles segments, les annoter avec du texte

1h de video ... 10 h de travail

des idees pour automatiser ?

transition brusque = changement abrupt de la luminosite

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 21 / 65

Segmentation en plans

Comment detecter les discontinuites dans le flux video ?

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 22 / 65

Segmentation en plans

Comment detecter les discontinuites dans le flux video ?

utilisation de la luminance (histogramme)

utilisation des contours

caracterisation du mouvement de la camera i.e. etude du mouvement

les transitions progressives sont plus difficiles a detecter

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 23 / 65

Segmentation en plans

c©P. Bouthemy / IRISA

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 24 / 65

Typage des plans

c©P. Bouthemy / IRISA

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 25 / 65

Indexation video

1 Requete video (souvent un plan)

2 Requete image

Dans l’etat de l’art, deux classes d’approchesindexation spatio-temporelle (pas utilisable avec une requete image)indexation des images composant la video + integration coherencetemporelle

majorite des approches utilisent les points d’interet (mais passeulement)

utilisation des actions

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 26 / 65

Indexation video - approches par points d’interet

c©V. Gouet-Brunet / CNAM

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 27 / 65

Indexation video - approches par points d’interet

Approches spatio-temporelles pures

c©A.

Klaser / INRIA

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 28 / 65

Indexation video - approches par points d’interet

Approches spatio-temporelles puresDetecteur spatio-temporel [Laptev et Lindeberg 2003] : ”Space-timeInterest Points”

Extension de Harris a (x,y,t)

Detection des points qui presentent de fortes variations de luminositeen x, y et t

Cette methode donne le meme status a l’axe temporel et aux axesspatiaux

exemple sur la video

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 29 / 65

Indexation video - approches par points d’interet

Approches spatio-temporelles puresDetecteur spatio-temporel [Laptev et Lindeberg 2003] : ”Space-timeInterest Points”

c©I. Laptev / INRIA

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 30 / 65

Indexation video - approches par points d’interet

Approches spatio-temporelles puresDescripteur spatio-temporel [Laptev 2008]

Extension du descripteur sift pour prendre en compte l’axe t

c©A. Klaser / INRIA

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 31 / 65

Indexation video - approches par points d’interet

Approches spatio-temporelles puresDescripteur spatio-temporel [Laptev 2008]

c©I. Laptev / INRIA

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 32 / 65

Indexation video - approches par points d’interet

Approches spatio-temporelles puresApplication a la reconnaissance d’actions

c©I. Laptev / INRIA

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 33 / 65

Indexation video - approches par points d’interet

Approches spatio-temporelles puresApplication a la reconnaissance d’actions

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 34 / 65

Indexation video - approches par points d’interet

c©V. Gouet-Brunet / CNAM

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 35 / 65

Indexation video - approches par points d’interet

c©V. Gouet-Brunet / CNAM

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 36 / 65

Indexation video - approches par points d’interet

c©V. Gouet-Brunet / CNAM

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 37 / 65

Indexation video - approches par points d’interet

c©V. Gouet-Brunet / CNAM

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 38 / 65

Indexation video - approches par points d’interet

c©V. Gouet-Brunet / CNAM

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 39 / 65

Indexation video - approches par points d’interet

c©V. Gouet-Brunet / CNAM

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 40 / 65

Indexation video - approches par points d’interet

Autre exemple : Video Google et extension

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 41 / 65

Indexation video

video = ensemble d’images + son ...

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 42 / 65

Plan

1 Rappel - indexation d’images

2 Indexation video3 Indexation audio

applicationquelques rappelsdescripteur

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 43 / 65

Indexation audio

Applications

Recherche de documents rigoureusement identiques.

Verification de l’integrite des donnees pour le codage audio, lacryptographie.

Recherche de documents perceptuellement identiques mais qui ont pusouffrir de deteriorations ou de modifications mineures.

Recherche de documents pouvant etre tres differents mais presentantdes ressemblances suivant un certain critere.

classification de morceaux de musiques, de programmes TVrecherche par melodie chantee, recherche par rythmeaide a la decouverte de nouveaux artistes (recherche par ”gout”musical)

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 44 / 65

Indexation audio

Applications

creation automatique de play-listes

reconnaissance vocale

reconnaissance de chansons (shazam pour iphone)

indexation de documents d’archive (radio / video)

recherche dans une base de donnee musicale

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 45 / 65

Indexation audio

Applications

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 46 / 65

Indexation audio

Quelques rappelsun son = un signal 1D

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 47 / 65

Indexation audio

Quelques rappels

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 48 / 65

Indexation audio

Quelques rappels

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 49 / 65

Indexation audio

Quelques rappels

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 50 / 65

Indexation audio

Quelques rappels - Transformee de fourier

S(f ) =

∫ ∞

−∞s(t)e−i2πftdt

s(t) =

∫ ∞

−∞S(f )e i2πftdf

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 51 / 65

Indexation audio

Quelques rappels

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 52 / 65

Indexation audio

Quelques rappels

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 53 / 65

Indexation audio

Descriteurs - fenetrage

c©G. Gravier / IRISA

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 54 / 65

Indexation audio

Descriteurs - fenetrage

c©G. Gravier / IRISAElise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 55 / 65

Indexation audio

Descriteurs - fenetrage

c©J.-P. Haton / INRIA Loria

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 56 / 65

Indexation audio

SpectrogrammeLe spectrogramme est un diagramme associant a chaque instant t d’unsignal, son spectre de frequence.

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 57 / 65

Indexation audio

Spectrogramme

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 58 / 65

Indexation audio

Spectrogramme

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 59 / 65

Indexation audio

Descripteurs

energie s(t) =∑

|s(t)|2dt

energies en sortant d’un banc de filtres

taux de passage par zero (ZRC zero-crossing rate)

LPC (linear prediction coding)

MFCC (Mel Frequency Cespral Coefficients)

points d’interet

...

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 60 / 65

Indexation audio

Descripteurs - MFCC (Mel Frequency Cespral Coefficients)

FFT pour decomposer le signal en ses frequences constituantesfiltres triangulaires places de facon a imiter le comportement de l’oreille(echelle Mel)calcul de la FFT inverseC (q) = F−1(log |F (s(t))|)

on considere que l’oreille percoit

lineairement le son jusqu’a 1000

Hz, mais apres, elle percoit moins

d’une octave par doublement de

frequence. L’echelle des Mels

modelise assez fidelement la per-

ception de l’oreille.

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 61 / 65

Indexation audio

Descripteurs - MFCC (Mel Frequency Cespral Coefficients)

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 62 / 65

Indexation audio

Descripteurs

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 63 / 65

Indexation audio

Methode de Shazam

[An industrial-strength audio search Algorithm - A. L. C. Wang - 2003

http://www.ee.columbia.edu/ dpwe/papers/Wang03-shazam.pdf ]

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 64 / 65

Indexation audio

Methode de Shazam

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 65 / 65

des questions ?

Elise Arnaud (elise.arnaud@inrialpes.fr) documents multimedia 66 / 65