Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon
description
Transcript of Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon
![Page 1: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/1.jpg)
DEA de Sciences Cognitives 1
Le traitement automatiquede la parole
Comment reproduire les processus physiologiques et cognitifs humains?
Ivan Magrin-Chagnolleau, CNRS
Laboratoire Dynamique Du Langage, Lyonhttp://www.ddl.ish-lyon.cnrs.fr/
![Page 2: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/2.jpg)
DEA de Sciences Cognitives 2
Plan
1. Introduction aux processus de la communication parlée
2. Analyse de la parole
3. Synthèse de la parole
4. Reconnaissance de la parole
5. Reconnaissance du locuteur
![Page 3: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/3.jpg)
DEA de Sciences Cognitives 3
1. Introduction aux processus de la communication parlée
![Page 4: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/4.jpg)
DEA de Sciences Cognitives 4
Quelques segments d’un signal
![Page 5: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/5.jpg)
DEA de Sciences Cognitives 5
Quelques propriétés du signal de parole
• La parole est quasi-stationnaire
• La parole est 70% du temps(pseudo-)périodique(bruit ou silence le reste du temps)
• La parole est un signal large bande(il remplit toute la largeur de bande)
• La parole est un signal à bande limitée(0-8000 Hz essentiellement)
![Page 6: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/6.jpg)
DEA de Sciences Cognitives 6
Anatomie de l’appareil vocal (1)
![Page 7: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/7.jpg)
DEA de Sciences Cognitives 7
Anatomie de l’appareil vocal (2)
![Page 8: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/8.jpg)
DEA de Sciences Cognitives 8
Anatomie de l’appareil vocal (3)
![Page 9: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/9.jpg)
DEA de Sciences Cognitives 9
Fonctionnement acoustique de l’appareil vocal
• Système acoustique = excitateur + résonateur
• Trois modes de fonctionnement– Excitation glottique du conduit vocal– Excitation du conduit vocal en un point de
constriction par un bruit d’écoulement– Excitation du conduit vocal par une impulsion
acoustique
![Page 10: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/10.jpg)
DEA de Sciences Cognitives 10
Transcription phonétique du français
![Page 11: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/11.jpg)
DEA de Sciences Cognitives 11
Transcription phonétique du français
![Page 12: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/12.jpg)
DEA de Sciences Cognitives 12
Description acoustique de la parole
![Page 13: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/13.jpg)
DEA de Sciences Cognitives 13
Voyelles orales françaises
![Page 14: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/14.jpg)
DEA de Sciences Cognitives 14
Triangle vocalique
![Page 15: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/15.jpg)
DEA de Sciences Cognitives 15
Représentation acoustique (ex. 1)
![Page 16: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/16.jpg)
DEA de Sciences Cognitives 16
Représentation acoustique (ex. 2)
![Page 17: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/17.jpg)
DEA de Sciences Cognitives 17
Grille polaire de Maeda
![Page 18: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/18.jpg)
DEA de Sciences Cognitives 18
Coupes saggitales des voyelles
![Page 19: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/19.jpg)
DEA de Sciences Cognitives 19
Fonctions d’aires des voyelles
![Page 20: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/20.jpg)
DEA de Sciences Cognitives 20
Anatomie de l’oreille
![Page 21: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/21.jpg)
DEA de Sciences Cognitives 21
Les limites de l’oreille
• L’oreille est à bande limitée
• L’oreille est fausse sur des sons purs
• L’oreille n’est pas également sensible
• L’oreille a une résolution en temps limitée
• L’oreille a une résolution en fréquence limitée
![Page 22: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/22.jpg)
DEA de Sciences Cognitives 22
2. Analyse de la parole
![Page 23: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/23.jpg)
DEA de Sciences Cognitives 23
Objectifs de l’analyse de parole
Extraire des paramètres du signal de parole
afin de :• Retirer l’information non pertinente• Réduire la redondance• Obtenir une représentation plus compacte• Atteindre un niveau d’abstraction plus élevé• Définir des mesures de ressemblance simples
![Page 24: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/24.jpg)
DEA de Sciences Cognitives 24
Principes
• Prétraitement
• Découpage en trames– Taille des trames– Décalage entre trames
• Fenêtrage
• Extraction de paramètres acoustiques
![Page 25: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/25.jpg)
DEA de Sciences Cognitives 25
Principe d’une analyse acoustique
![Page 26: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/26.jpg)
DEA de Sciences Cognitives 26
Paramètres acoustiques non spectraux
• Energie
• Fréquence fondamentale
• Taux de passage par zéro du signal
• Taux de passage par zéro de la dérivée du signal
![Page 27: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/27.jpg)
DEA de Sciences Cognitives 27
L’enveloppe spectrale
Les approches conventionnelles
visent à extraire des caractéristiques
de l’enveloppe spectrale.
• Analyse par banc de filtres
• Analyse par prédiction linéaire
• Coefficients cepstraux
![Page 28: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/28.jpg)
DEA de Sciences Cognitives 28
Analyse par banc de filtres (1)
![Page 29: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/29.jpg)
DEA de Sciences Cognitives 29
Analyse par banc de filtres (2)
![Page 30: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/30.jpg)
DEA de Sciences Cognitives 30
Analyse par banc de filtres (3)
![Page 31: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/31.jpg)
DEA de Sciences Cognitives 31
Analyse par prédiction linéaire (1)
Modélisation de la parole sous forme
d’un filtre de prédiction linéaire
Filtre de
prédiction linéaire
e(t) s(t)
)()(0
teitsap
ii
![Page 32: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/32.jpg)
DEA de Sciences Cognitives 32
Analyse par prédiction linéaire (2)
![Page 33: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/33.jpg)
DEA de Sciences Cognitives 33
Coefficients cepstraux
• On applique une transformée de Fourier inverse sur le module du spectre logarithmique.
• Les premiers coefficients caractérisent l’enveloppe spectrale.
![Page 34: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/34.jpg)
DEA de Sciences Cognitives 34
L’information dynamique
• On représente l’information dynamique par la dérivée première (vitesse) et la dérivée seconde (accélération) des paramètres cepstraux→ paramètres deltas et deltas-deltas
pk
pk
pk
pk
k
ktck
tc
)(
)(
pk
pk
pk
pk
k
ktck
tc2
2 )(
)(
![Page 35: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/35.jpg)
DEA de Sciences Cognitives 35
3. Synthèse de la parole
![Page 36: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/36.jpg)
DEA de Sciences Cognitives 36
La synthèse, pour quoi faire ?• Services de télécommunications
– Rendre toute information écrite disponible via le téléphone (horaires de cinéma, horaires de train, informations routières, état d’un compte en banque, dernière facture téléphonique, etc.)
• Applications en bureautique– Terminaux parlants, lecture des emails par la voix, etc.
• Applications dans les transports– Information dans les automobiles, aide à l’exploitation des trains, lecture de
cadrans dans les avions, etc.
• Aide aux personnes handicapées– Un handicapé peut s’exprimer par le biais d’un synthétiseur (cours du célèbre
astrophysicien Stephen Hawking)
• Apprentissage des langues étrangères– Dictionnaires électronique avec prononciation intégrée, logiciels
d’apprentissage des langues étrangères, traduction automatique, etc.
• Livres et jouets parlants– À l’usage des enfants en bas âge
• Communication naturelle avec la machine
![Page 37: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/37.jpg)
DEA de Sciences Cognitives 37
Structure d’un système de synthèse
SYNTHESE DE LA PAROLE A PARTIR DU TEXTE
TRAITEMENT DULANGAGE NATUREL
Formalismes linguistiques
Moteurs d’inférenceInférences logiques
TRAITEMENT DUSIGNAL NUMERIQUE
Modèles mathématiques
AlgorithmesCalculs numériques
Texte ParolePhonèmes
Prosodie
![Page 38: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/38.jpg)
DEA de Sciences Cognitives 38
Traitement du langage naturel
Pré-processeurAnalyseur
morphologique
Analyseur contextuel
Analyseur syntaxique- prosodique
Phonétiseur
Générateur de prosodie
Texte
Structurede
données
Phonèmes
Prosodie
![Page 39: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/39.jpg)
DEA de Sciences Cognitives 39
Analyse morpho-syntaxique
![Page 40: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/40.jpg)
DEA de Sciences Cognitives 40
Phonétisation (1)
![Page 41: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/41.jpg)
DEA de Sciences Cognitives 41
Phonétisation (2)
![Page 42: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/42.jpg)
DEA de Sciences Cognitives 42
Synthétiseur par prédiction linéaire
![Page 43: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/43.jpg)
DEA de Sciences Cognitives 43
Synthétiseur à formants
![Page 44: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/44.jpg)
DEA de Sciences Cognitives 44
Synthèse par règles (1)
![Page 45: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/45.jpg)
DEA de Sciences Cognitives 45
Synthèse par règles (2)
![Page 46: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/46.jpg)
DEA de Sciences Cognitives 46
Synthèse par concaténation d’unités
![Page 47: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/47.jpg)
DEA de Sciences Cognitives 47
Qu’est-ce qu’un diphone ?
![Page 48: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/48.jpg)
DEA de Sciences Cognitives 48
Concaténation de diphones
![Page 49: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/49.jpg)
DEA de Sciences Cognitives 49
Prosodie : la « musique » de la parole
![Page 50: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/50.jpg)
DEA de Sciences Cognitives 50
Exemples• ICP-Grenoble (F), 1993
• CNET-Lannion (F), 1993 (TD-PSOLA)
• KTH-Stockholm (S), 1993
• LAIP-Lausanne (CH), 1996 (MBR PSO)
• University-Mons (B), 1993 (LPC)
• University-Mons (B), 1993 (MBE)
• University-Mons (B), 1993 (MBR PSO)
• University-Mons (B), 1993 (TD PSO)
![Page 51: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/51.jpg)
DEA de Sciences Cognitives 51
Liens Internet sur la synthèse
• http://tcts.fpms.ac.be/synthesis/mbrola.html• http://www.bell-labs.com/project/tts/#examples• http://www.cstr.ed.ac.uk/projects/festival/• http://www.research.att.com/projects/tts/
![Page 52: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/52.jpg)
DEA de Sciences Cognitives 52
4. Reconnaissance de la parole
![Page 53: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/53.jpg)
DEA de Sciences Cognitives 53
Objectifs
Transformer un signal de parole en :
• Texte (dictée vocale, transcription)
• Action (commande vocale, systèmes de dialogue)
• Information indexée (annotation, indexation)
![Page 54: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/54.jpg)
DEA de Sciences Cognitives 54
Les sources de variabilité• Les facteurs intra-locuteurs :
co-articulation, variation dans la prononciation, etc.
• Les facteurs inter-locuteurs :physiologie, age, sexe, psychologie, familiarité avec l’application, etc.
• L’environnement :bruit, micro, canal de transmission, présence d’autres locuteurs, etc.
![Page 55: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/55.jpg)
DEA de Sciences Cognitives 55
Variabilité intra- et inter-locuteur
![Page 56: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/56.jpg)
DEA de Sciences Cognitives 56
Variabilité intra-locuteur
![Page 57: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/57.jpg)
DEA de Sciences Cognitives 57
Typologie des systèmes
• Type de parole
• Taille du vocabulaire
• Niveau de dépendance par rapport aux locuteurs
• Environnement d’utilisation
• Profil des utilisateurs potentiels
![Page 58: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/58.jpg)
DEA de Sciences Cognitives 58
Type de parole
• Mots isolés
• Mots connectés
• Détection de mots clés
• Parole contrainte
• Parole continue
• Parole spontanée
![Page 59: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/59.jpg)
DEA de Sciences Cognitives 59
Taille du vocabulaire
• Quelques mots (5 – 50)
• Petit vocabulaire (50 – 500)
• Vocabulaire moyen (500 – 5000)
• Grand vocabulaire (5000 – 50000)
• Très grand vocabulaire (> 50000)
![Page 60: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/60.jpg)
DEA de Sciences Cognitives 60
Dépendance au locuteur
• Dépendant du locuteur :le système fonctionne correctement avec un utilisateur particulier
Adaptation au locuteur =utilise quelques données spécifiquesd’un locuteur pour adapter le système
à une nouvelle voix
• Indépendant du locuteur :le système fonctionne avec n’importe quel utilisateur
![Page 61: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/61.jpg)
DEA de Sciences Cognitives 61
Environnement d’utilisation
• Parole large-bande(ordinateur, etc.)
• Parole bande-étroite avec distorsion (téléphone, etc.)
• Environnement calme (bureau + micro-casque)
• Bruit de fond
![Page 62: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/62.jpg)
DEA de Sciences Cognitives 62
Profil des utilisateurs potentiels
• Utilisation professionnelle par des spécialistes
• Grand public
• Entraîné / naïf
• Fréquent / occasionnel
• Utilité
• Coopération
![Page 63: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/63.jpg)
DEA de Sciences Cognitives 63
Deux exemples
Dictée vocale• Parole continue
• Grand vocabulaire• Adaptation au locuteur
• Bureau+micro-casque• Utilisateurs
d’ordinateurs
Service téléphonique• Détection de mots
clés• Quelques mots• Indépendant du
locuteur• Parole téléphonique• Grand public
![Page 64: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/64.jpg)
DEA de Sciences Cognitives 64
Système de reconnaissance de mots
![Page 65: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/65.jpg)
DEA de Sciences Cognitives 65
Programmation dynamique (DTW)
meilleurchemin
),()Y,X( 2jid yx
Mot inconnu Y
Mot
X
Mot 1
Mot 2
Mot n
![Page 66: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/66.jpg)
DEA de Sciences Cognitives 66
Contraintes locales
![Page 67: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/67.jpg)
DEA de Sciences Cognitives 67
Contraintes locales : exemple
![Page 68: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/68.jpg)
DEA de Sciences Cognitives 68
Modèle de Markov caché : principe
![Page 69: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/69.jpg)
DEA de Sciences Cognitives 69
Modèles de Markov cachés (HMM)
meilleurchemin
)S(Plog)Y,X(iXjy
Mot 2
Mot 1
Mot n
Mot inconnu Y
Mot
X
![Page 70: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/70.jpg)
DEA de Sciences Cognitives 70
Viterbi : exemple
![Page 71: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/71.jpg)
DEA de Sciences Cognitives 71
Algorithme de Viterbi : exercice
![Page 72: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/72.jpg)
DEA de Sciences Cognitives 72
Les trois composantes d’un système
• Les modèles acoustiques– Pour transformer des paramètres acoustiques
en phonèmes (ou parfois directement des mots)
• Le lexique– Pour transformer une suite de phonèmes en
mots
• Le modèle de langage– Pour transformer une suite de mots en
phrases
![Page 73: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/73.jpg)
DEA de Sciences Cognitives 73
Modèles acoustiques (1)
![Page 74: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/74.jpg)
DEA de Sciences Cognitives 74
Modèles acoustiques (2)
Le mot « américain »
![Page 75: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/75.jpg)
DEA de Sciences Cognitives 75
Modèles de langage• A un instant donné, tous les mots n’ont
pas la même probabilité de présence :– Le petit chat boit du …
• Grammaires probabilistes : toutes les phrases sont possibles mais avec des probabilités différentes
• Grammaires à états finis : partition binaire des séquences de mots en « séquences possibles » et « séquences impossibles »
![Page 76: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/76.jpg)
DEA de Sciences Cognitives 76
Modèle acoustique + Modèle de langage
![Page 77: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/77.jpg)
DEA de Sciences Cognitives 77
Performances
![Page 78: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/78.jpg)
DEA de Sciences Cognitives 78
Recherche actuelle
![Page 79: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/79.jpg)
DEA de Sciences Cognitives 79
5. Reconnaissance du locuteur
![Page 80: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/80.jpg)
DEA de Sciences Cognitives 80
Définition de la RAL
Reconnaissance automatique du locuteur (RAL)
=reconnaître l’identité d’une personne à partir d’un enregistrement de sa voix à
l’aide d’une technique entièrement automatique, et donc reproductible.
![Page 81: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/81.jpg)
DEA de Sciences Cognitives 81
Un domaine pluri-disciplinaire
RAL
traitement du signal
reconnaissance des formes
statistiques
probabilités
théorie de la décision phonétique
linguistique
ergonomie
théorie de l’informationS T
I C
S H
S
![Page 82: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/82.jpg)
DEA de Sciences Cognitives 82
Typologie des tâches
• Identification du locuteur en ensemble fermé• Vérification du locuteur• Identification du locuteur en ensemble ouvert
• Suivi de locuteurs• Détection de changement de locuteur• Segmentation par locuteurs
• Classes de locuteurs• Adaptation au locuteur
![Page 83: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/83.jpg)
DEA de Sciences Cognitives 83
Niveau de dépendance au texte
• Systèmes à mot de passe individuel, fixe• Systèmes à mot de passe commun, fixe• Systèmes à vocabulaire fixe (ordre des
mots variables)• Systèmes à texte imprédictible (imposé
par le système)• Systèmes dépendant d’un évènement
phonétique• Systèmes à texte totalement libre
![Page 84: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/84.jpg)
DEA de Sciences Cognitives 84
Typologie des erreurs
• Identification du locuteur en ensemble fermé :– Mauvaise classification
NOMBRE DE LOCUTEURS• Vérification du locuteur :
– Fausse acceptation (non détection)– Faux rejet (fausse alarme)– EER (taux d’égale erreur)
SEUIL DE DECISION
![Page 85: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/85.jpg)
DEA de Sciences Cognitives 85
Empreinte ou signature ?
• Motivations :– Caractéristiques physiologiques– Origine géographique– Contexte socioculturel
• Difficultés :– Non reproductibilité (état de santé, facteurs psychologiques,
état émotionnel, âge, etc.) dérive temporelle de la voix– Bruits ambiants, canal de transmission– Modifications intentionnelles (masquage, imitation)
→ pas d’empreinte vocalemais plutôt une signature vocale
![Page 86: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/86.jpg)
DEA de Sciences Cognitives 86
Et l’homme ?
• L’homme n’est pas particulièrement bon pour ce type de tâche.
• Il faut beaucoup d’entraînement pour y arriver.• Même sur des voix familières, on a parfois des
difficultés.• C’est encore plus dur à travers le téléphone.• Quand c’est possible, on utilise plutôt le visage.
![Page 87: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/87.jpg)
DEA de Sciences Cognitives 87
Les enjeux scientifiques de la RAL
• Quelles sont les informations utilisées par l’homme pour reconnaître une voix ?
• Faut-il utiliser les mêmes dans un système automatique ?
• Quelles sont les informations extractibles d’un enregistrement d’une voix ?
• Comment faire un modèle de locuteur ?
![Page 88: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/88.jpg)
DEA de Sciences Cognitives 88
Comment reconnaître une personne ?
• Quelles informations ?– Spectrales (analyse acoustique)– Phonétiques (façon de prononcer les sons)– Idiolectales (façon d’utiliser les mots)– Prosodiques (intensité, hauteur, longueur)
• Comment les exploiter ?– Modèles statistiques– Réseaux de neurones– Réseaux bayésiens
![Page 89: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/89.jpg)
DEA de Sciences Cognitives 89
Les enjeux applicatifs de la RAL
• Surtout vérification• 3 grandes familles :
– Applications sur site– Applications télécoms– Applications policières / judiciaires
• Mais aussi :– Organisation de l’information– Jeux– Etc.
![Page 90: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/90.jpg)
DEA de Sciences Cognitives 90
Applications sur site La personne doit être physiquement présente en un lieu
précis- Serrure vocale (pour des locaux, un compte informatique, etc.)- Interactivité matérielle (retrait d’argent à un guichet automatique,
etc.)
Environnement contrôlable Système dissuasif L’utilisateur peut porter sur lui ses caractéristiques
vocales Possibilité de techniques additionnelles de vérification
de l’identité Possibilité d’intervention humaine
![Page 91: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/91.jpg)
DEA de Sciences Cognitives 91
Applications télécoms
La vérification s’opère à distance- Accès à des services pour des abonnés (serveurs, données,
etc.)- Transactions à distance (opérations bancaires, paiements par
carte bancaire, etc.)
Signal de mauvaise qualité et fluctuant Dissuasion médiocre (anonymat) Les caractéristiques vocales doivent être centralisées Difficulté à implanter d’autres techniques de vérification
de l’identité Pas d’intervention humaine possible
![Page 92: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/92.jpg)
DEA de Sciences Cognitives 92
Applications policières/judiciares Recherche de suspects, d’éléments de preuve, de
preuves, etc.- Tests auditifs par des experts- Lecture de spectrogrammes par des experts- Méthodes (semi-)automatiques
Identification ou vérification Pas de contraintes de temps réel Très importante hétérogénéité des enregistrements Possibilité de modifications intentionnelles Indépendance au texte souhaitable
→ Nécessité d’une précaution extrêmepas toujours garantie
![Page 93: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/93.jpg)
DEA de Sciences Cognitives 93
Mais aussi…
• Organisation de l’information– Structuration, archivage de documents sonores– Navigation dans ces documents
• Jeux– Augmenter l’interactivité– Utilisation de profils de joueurs
• Personnalisation des services– Stocker un profil d’utilisateur pour accéder plus
rapidement à des services
![Page 94: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/94.jpg)
DEA de Sciences Cognitives 94
Les enjeux applicatifs : conclusion
• La technologie est prête pour des applications ne nécessitant pas un niveau de sécurité très élevé.
• L’ergonomie peut pallier certaines faiblesses des algorithmes.
• La parole n’est pas le moyen le plus robuste en vérification de l’identité, mais c’est l’un des plus naturels (avec la reconnaissance de visage).
• Il est nécessaire d’informer largement les milieux policiers et judiciaires des limites de la reconnaissance du locuteur.
![Page 95: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/95.jpg)
DEA de Sciences Cognitives 95
Les enjeux stratégiques
• Ecoutes téléphoniques– Protection de la démocratie ?– Intrusion dans la vie privée ?
• Recherche de suspects / Authentification– Le corbeau de l’affaire Grégory– La cassette Ben Laden
![Page 96: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/96.jpg)
DEA de Sciences Cognitives 96
Historique
Trois étapes• Reconnaissance par l’écoute faite par des
« experts » (à partir de 1940)• Reconnaissance par la lecture de
spectrogrammes réalisée par des« experts » (de 1960 à 1970)
• Reconnaissance par des systèmes automatiques (ou pseudo-automatiques)(à partir de 1970)
![Page 97: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/97.jpg)
DEA de Sciences Cognitives 97
Reconnaissance par l’écoute
Tests par paires
![Page 98: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/98.jpg)
DEA de Sciences Cognitives 98
Reconnaissance par spectrogrammes
![Page 99: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/99.jpg)
DEA de Sciences Cognitives 99
Reconnaissance automatique
• Systèmes reposant sur des modélisations statistiques• Ordres de grandeur pour la vérification (EER)
– En laboratoire :
– Pour des applications commerciales :• Performances connues mais non publiques• Jugées suffisantes pour quelques produits pionniers
– Pour des applications policières / judiciaires :• Performances évaluées ?
conditions idéales parole téléphonique(lignes fixes)
dépendant du texte <0.1 % 0.5 à 2 %
indépendant du texte 0.5 à 1 % 5 à 10 %
![Page 100: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/100.jpg)
DEA de Sciences Cognitives 100
Composantes d’un système
• Une phase d’apprentissage– Construction d’un modèle de locuteur
• Une phase de test– Comparaison entre un énoncé et un modèle
de locuteur
![Page 101: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/101.jpg)
DEA de Sciences Cognitives 101
Phase d’apprentissage
analysesignal
identité
paramètres modélisation
Dictionnairede modèlesde référence
ENTREES
SORTIE
![Page 102: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/102.jpg)
DEA de Sciences Cognitives 102
Phase de test en identification
analysesignal paramètres modélisation
Dictionnairede modèlesde référence
ENTREE
comparaison
Scores
décision
SORTIE
![Page 103: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/103.jpg)
DEA de Sciences Cognitives 103
Phase de test en vérification
analyse paramètres modélisation
Dictionnairede modèlesde référence
comparaison
Score
décision
SORTIE
signal
identité
ENTREES
![Page 104: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/104.jpg)
DEA de Sciences Cognitives 104
La phase de paramétrisation
![Page 105: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/105.jpg)
DEA de Sciences Cognitives 105
Paramètres d’analyse
• Paramètres spectraux :– Analyse par banc de filtres ou analyse LPC– Transformation cepstrale– Paramètres delta (et delta-delta)
• Paramètres prosodiques :– (Log-énergie et) delta-Log-énergie– Fréquence fondamentale– Paramètres de durée
→ Existe-t-il des paramètres spécifiquesà la reconnaissance du locuteur?
![Page 106: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/106.jpg)
DEA de Sciences Cognitives 106
Modélisation
• Les précurseurs• Programmation dynamique (DTW)• Quantification vectorielle (VQ)• Modèles de Markov cachés (HMM)• Réseaux de neurones (NN)• Modèles auto-régressifs vectoriels (ARVM)• Modèles par mélange de Gaussiennes (GMM)
![Page 107: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/107.jpg)
DEA de Sciences Cognitives 107
Les précurseurs
PRUZANSKY 1963
Mesure de corrélation entre spectres à long terme
ATAL 1968
Utilisation de contours prosodiques normalisés
BRICKER 1971
Mesure de Mahalanobis sur spectres à long terme
![Page 108: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/108.jpg)
DEA de Sciences Cognitives 108
Programmation dynamique (DTW)
meilleurchemin
),()Y,X( 2jid yx
“Bonjour” locuteur test Y
“Bon
jour
” lo
cute
ur X
“Bonjour” locuteur 1
“Bonjour” locuteur 2
“Bonjour” locuteur n
DODDINGTON 1974, ROSENBERG 1976, FURUI 1981, etc.
![Page 109: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/109.jpg)
DEA de Sciences Cognitives 109
Quantification vectorielle (VQ)
meilleurequant.
),()Y,X( X2
jiCd y
Dictionnaire locuteur 1
Dictionnaire locuteur 2
Dictionnaire locuteur n
“Bonjour” locuteur test Y
Dic
tionn
aire
locu
teur
X
SOONG, ROSENBERG 1987
![Page 110: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/110.jpg)
DEA de Sciences Cognitives 110
Modèles de Markov cachés (HMM)
meilleurchemin
)S(Plog)Y,X(iXjy
“Bonjour” locuteur 1
“Bonjour” locuteur 2
“Bonjour” locuteur n
“Bonjour” locuteur test Y
“Bon
jour
” lo
cute
ur X
ROSENBERG 1990, TSENG 1992
![Page 111: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/111.jpg)
DEA de Sciences Cognitives 111
Modèles de Markov cachés (HMM)
meilleurchemin
)S(Plog)Y,X(iXjy
HMM locuteur 1
HMM locuteur 2
HMM locuteur n
“Bonjour” locuteur test Y
HM
M lo
cute
ur X
PORITZ 1982, SAVIC 1990
![Page 112: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/112.jpg)
DEA de Sciences Cognitives 112
Modèles par mélange de Gaussiennes(GMM)
REYNOLDS 1995
![Page 113: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/113.jpg)
DEA de Sciences Cognitives 113
La phase de décision
• Calcul d’un score– Avec le modèle de locuteur considéré
– Avec un « modèle du monde »
– Rapport entre les deux scores
• Comparaison à un seuil– Si supérieur au seuil, on « accepte »
– Si inférieur au seuil, on « rejette »
![Page 114: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/114.jpg)
DEA de Sciences Cognitives 114
L’évaluation
• EER : fausse acceptation = faux rejet
• Courbe DET :
• Les évaluations NIST
![Page 115: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/115.jpg)
DEA de Sciences Cognitives 115
La caractérisation du locuteur à DDL
• Recherche d’une technique d’analyse du signal plus adaptée
• Amélioration des modèles statistiques et recherche d’algorithmes plus efficaces pour les apprendre
• Intégration des informations prosodiques dans les systèmes
• Modélisation de la dérive temporelle de la voix• Utilisation de la reconnaissance du locuteur
dans des tâches d’indexation sonore
![Page 116: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/116.jpg)
DEA de Sciences Cognitives 116
Conclusion sur la RAL
• Domaine pluridisciplinaire nécessitant des connaissances multiples
• Bonnes performances sur des données propres et en laboratoire, mais très insuffisantes pour des domaines nécessitant un haut degré de sécurité ou le domaine judiciaire
• On peut parler de signature vocale mais pas d’empreinte vocale
![Page 117: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/117.jpg)
DEA de Sciences Cognitives 117
Perspectives de la RAL
• Améliorer les systèmes– Nouvelles sources d’information (prosodie)– Analyse du signal plus adaptée– Meilleurs modèles statistiques– Robustesse (meilleure prise en compte de la
variabilité)– Etude de la dérive temporelle de la voix
• Autres tâches– Segmentation par locuteurs– Indexation par locuteurs
![Page 118: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/118.jpg)
DEA de Sciences Cognitives 118
Discussion sur une actualité récente
• La vérification d’identité dans les milieux judiciaires
• L’affaire Grégory – la cassette Ben Laden
• Des articles de journaux la semaine dernière
• La prise de position des scientifiques français
![Page 119: Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du Langage, Lyon](https://reader036.fdocuments.us/reader036/viewer/2022062409/56815137550346895dbf50ca/html5/thumbnails/119.jpg)
DEA de Sciences Cognitives 119
Bibliographie• R. Boite, H. Bourlard, T. Dutoit, J. Hancq, and H. Leich.
Traitement de la parole. Presses Polytechniques Romandes.
• Calliope. La parole et son traitement automatique. Masson, 1989.