Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell,...
-
Upload
eberardo-chino -
Category
Documents
-
view
214 -
download
0
Transcript of Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell,...
![Page 1: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/1.jpg)
identificacion hablante 1
Reconocimiento de hablante
Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437
Recent advances in automatic speaker authentication, Q. Li, B.H. Juang, C.H. Lee, Q. Zhou, F.K. Soong, IEEE Robotics &
Automation Magazine, (march 1999) 6(1)pp.24-34
![Page 2: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/2.jpg)
identificacion hablante 2
Definición
• Reconocimiento del hablante (Speaker recognition)– Es el uso de una máquina para reconocer a una persona a partir de
una frase hablada.
• Verificación, Automated Speaker Verification (ASV): – autentificación de la identidad declarada por una persona en base
al análisis de la voz.
– La decisión es binaria: aceptación o rechazo.
• Identificación, Automated Speaker Identification (ASI):– No existe declaración a priori de la identidad y el sistema decide
cual es la persona o su grupo, o si la persona es desconocida.
![Page 3: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/3.jpg)
identificacion hablante 3
Dependiente de texto: el usuario debe declamar una frase que se le indica.
![Page 4: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/4.jpg)
identificacion hablante 4
Esquema de sistema de verificación
El usuario presenta una tarjeta inteligente encriptada que contiene su información de identidad.
Intenta ser autentificado pronunciando una frase indicada en el microfono.
Existe un balance entre precisión y duración de la sesión.
Entra también ruido y versiones retrasadas de su voz por las superficies reflectantes acústicas.
![Page 5: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/5.jpg)
identificacion hablante 5
Fuentes de error en sistemas de verificación del hablante
Mala pronunciación de las frases
Estados emocionales
Posición del micro
Acústica de la habitación
Diferentes microfonos
Enfermedades
Envejecimiento
Motivación para ASV: es el sistema más económico, y potencialmente omnipresente a través del teléfono, es un sistema biométrico (inherente a la persona), se puede hacer robusto al ruido y variaciones de canal, usuario y falsificaciones.
![Page 6: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/6.jpg)
identificacion hablante 6
Fases generales
1 Adquisición digital de la voz
2 Extracción de características
3 Emparejamiento de patrones
4 Realización de la decisión de aceptación rechazo
5 Registro (enrollment)
Adquisición:
Señal analógica suavizada (antialiasing) digitalizada con un A/D 12-16 bits a 8000-20.000 muestras por seg.
![Page 7: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/7.jpg)
identificacion hablante 7
![Page 8: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/8.jpg)
identificacion hablante 8
![Page 9: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/9.jpg)
identificacion hablante 9
Base de datos de entrenamiento y test de sistemas de reconocimiento del hablante, controlada científicamente, alta calidad. Las entradas están digitalizadas de forma estándar. Realizada en 1990 por ITT. Es la referencia para sistemas en entornos de tipo oficina.
![Page 10: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/10.jpg)
identificacion hablante 10
Producción de la voz en el tracto vocal:
Faringe laríngea, faringe oral, cavidad oral, faringe nasal, cavidad nasal.
Excitación: fonación, susurro, fricación, compressión, vibración
Modulación: el tracto vocal modula la onda sonora alterandola por sus resonancias.
Características dependientes del hablante: las que se refieren a la estructura física particular del tracto vocal más las aprendidas
![Page 11: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/11.jpg)
identificacion hablante 11
Extracción de características
• Predicción lineal (LP)– Impone un modelo lineal de la señal.– Los coeficientes de este modelo lineal se
utilizan como características para el reconocimiento.
![Page 12: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/12.jpg)
identificacion hablante 12
Modelo lineal de la señal que relaciona el input actual un con los inputs recientes.
Predicción de la señal
Error de predicción o residual
Criterio del minimo error cuadrático
Que se minimiza buscando
![Page 13: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/13.jpg)
identificacion hablante 13
La condición de minimo resulta en las ecuaciones
Correlación de lag
Ecuación de Yule que da los coeficientes del modelo de regresión (predicción) lineal en función de las correlaciones de la señal.
![Page 14: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/14.jpg)
identificacion hablante 14
Método recurrente de Durbin para resolver las ecuaciones de Yule
Representación de la señal en térmimos de la predicción lineal y el error de predicción.
![Page 15: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/15.jpg)
identificacion hablante 15
Si una señal de voz se ajusta al modelo lineal dado, los resifuales forman un tren de pulsos que se repiten a la tasa de la vibración de las cuerdas vocales.
Los máximos de los errores de predicción ocurren a la tasa de vibración de las cuerdas vocales
La detección de los máximos de error de predicción se puede utilizar como método de detección de “pitch”.
![Page 16: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/16.jpg)
identificacion hablante 16
Características
• Se pueden calcular a partir de los coeficientes de la predicción lineal– Coeficientes de reflexión: coinciden con los ki
intermedios del método de Durbin– Ratios log-area– Frecuencias LSP– LP cepstrum
![Page 17: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/17.jpg)
identificacion hablante 17
Ratios Log-area: se basan en el modelado del tracto vocal como una serie de tubos cilindricos.
Dadas unas condiciones de contorno, los coeficientes de reflexión corresponden a relaciones entre las areas de los cilindros consecutivosNo existe biunicidad de areas y señal producida, por lo que no existe garantía de emparejamiento.
![Page 18: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/18.jpg)
identificacion hablante 18
Condiciones de contorno:
Glotis cerrada y un area grande tras los labios.
Coeficientes de reflexión en términos de las areas de los cilindros
Los LAR logaritmos de los ratios entre areas consecutivas se expresan en términos de los coeficientes de reflexión:
![Page 19: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/19.jpg)
identificacion hablante 19
LSP: linear spectra prediction. Se basa en la transformación del sistema lineal dado por la predicción lineal. Las raíces se descomponen en polinomios auxiliares
Los LSP son los ceros de P(z) y Q(z).
Satisfacen una propiedad de entrelazado:
![Page 20: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/20.jpg)
identificacion hablante 20
Coeficientes cepstrales
• Cálculo de los coeficiontes Mel Cepstrum– Extraer una ventana de la señal– Hace la FFT– Calcula la magnitud– Calcula el log– Transforma las frecuencias de acuerdo a la
escala mel, ajustada a la percepción humana.– Obtiene la FFT inversa.
![Page 21: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/21.jpg)
identificacion hablante 21
![Page 22: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/22.jpg)
identificacion hablante 22
Selección de características
• PCA principal component analysis: reducción dimensional que mantiene la varianza de los datos, – no parece apropiado para speaker recognition
dado que es un problema de discriminación y no de representación
• Factor analysis: reducción que mantiene la correlación entre los datos.
![Page 23: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/23.jpg)
identificacion hablante 23
La transformación lineal de un vector aleatorio con distribución gausiana sigue siendo gausiana
La proyección lineal puede permitir la discriminación lineal de las clases o minimizar el error de la discriminación lineal.
![Page 24: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/24.jpg)
identificacion hablante 24
Casos en los que el discriminante de Fisher no es de utilidad para determinar las características más apropiadas para la discriminación
![Page 25: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/25.jpg)
identificacion hablante 25
Distancia de Kullback-Leibler, divergencia directa o discriminación entre clases
La divergencia simétrica define la información total para discriminar entre las clases
En el caso de distribuciones normales queda:
![Page 26: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/26.jpg)
identificacion hablante 26
Distancia de Bhattacharyya entre dos clases con distribución normal, relaciona las matrices de covarianza y las medias
![Page 27: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/27.jpg)
identificacion hablante 27
Pattern matching
• Template models: el resultado es una distancia a los patrones almacenados.
• Stochastic models: devuelve la verosimilitud de la pertenencia a una clase
• Para aproximar la verosimilitud en el caso de los templates se puede utilizar un modelo exponencial
![Page 28: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/28.jpg)
identificacion hablante 28
Dynamic Time Warping: aplicación de la programación dinámica al emparejamiento de patrones, para tratar de emparejar los patrones a pesar de las variaciones temporales
![Page 29: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/29.jpg)
identificacion hablante 29
Nearest neighbor: se almacenan todas las instancias, para un test se evalúan los DTW con cada patrón y se promedian las distancias correspondientes al mismo individuo.
![Page 30: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/30.jpg)
identificacion hablante 30
Modelos estocásticos
• Se plantea el problema de emparejamiento de patrones como la evaluación de la verosimilitud de una observación dado un modelo
![Page 31: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/31.jpg)
identificacion hablante 31
HMM Hidden Markov ModelsLas observaciones son funciones probabilísticas del estado del sistema, el cual no es observable (hidden).
![Page 32: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/32.jpg)
identificacion hablante 32
Clasificación y teoría de la decisión
• Dado un valor de emparejamiento entre el input y un modelo de la voz del hablante, la decisión de verificación consiste en decidir si aceptar o rechazar, continuar intentando o dar por finalizado el tiempo (time-out).
![Page 33: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/33.jpg)
identificacion hablante 33
Test de hipótesis para determinar la verificación de un usuario. H0 impostor, H1 auténtico
![Page 34: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/34.jpg)
identificacion hablante 34
El ratio de verosimilitud basado en la teoría de la decisión bayesiana con costos idénticos resulta ser:
La probabilidad condicional de la hipótesis pA(z|H1) para el hablante A se estima usando sus scores y su modelo.La probabilidad condicional de la hipótesis nula pA(z|H0) se estima utilizando los scores de otros hablantes sobre el modelo del hablante A.
La decisión bayesiana busca la minimización del error dado por el solapamiento de las pdf’s
![Page 35: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/35.jpg)
identificacion hablante 35
Decisión bayesiana de mínimo error
El umbral T se escoge de diversas maneras
1 de acuerdo a una estimación de los ratios de las probabilidades a priori
2 para que satisfaga un criterio fijo de falsa aceptación (FA) o falso rechazo (FR)
3 buscando un ratio FA/FR deseado
![Page 36: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/36.jpg)
identificacion hablante 36
Curva ROC relaciona los tipos de error con el umbral de decisión.
Se escoge el umbral de decisión que da la misma tasa de error FA y FR (equal error rate) (el óptimo ideal es el origen)
![Page 37: Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.](https://reader035.fdocuments.us/reader035/viewer/2022062519/5665b4711a28abb57c917e5f/html5/thumbnails/37.jpg)
identificacion hablante 37
extracción de características
selección de características: solo fonadas
Estructura de un sistema de identificación del hablante