Control a Partir de Intruccion de Voz

37
ELECTROACUSTICA TEMA : ACUSTICA DOCENTE : ING. JAIME MIGUEL FLORES MUJICA ESTUDIANTE : NATALIA ARZABE ORTUÑO CI : 8277498-1V LP. CURSO : 6º SEMESTRE

description

abrir programas de tu computadora mediante el uso de la voz

Transcript of Control a Partir de Intruccion de Voz

ELECTROACUSTICA

TEMA :ACUSTICA

DOCENTE:ING. JAIME MIGUEL FLORES MUJICA

ESTUDIANTE:NATALIA ARZABE ORTUO

CI: 8277498-1V LP.

CURSO:6 SEMESTRE

FECHA: 4/07/2014

INDICE

1.INTRODUCCION32.OBJETIVO42.1.OBJETIVO GENERAL42.2.OBJETIVO ESPECIFICO43.MARCO TEORICO53.1.MICROFONO53.2.MATLAB83.2.1.HISTORIA93.2.2.LIMITACIONES Y ALTERNATIVAS93.2.3.GUIDE103.2.3.1.CREACIN DE UNA INTERFAZ GRFICA DE USUARIO INTERACTIVA MATLAB113.2.3.2.CREACIN DE UNA INTERFAZ GRFICA DE USUARIO MEDIANTE PROGRAMACIN MATLAB113.2.3.3.FUNCIONAMIENTO DE UNA APLICACIN GUI123.3.SEAL DE VOZ123.3.1.BREVE ANATOMA DEL APARATO FONATORIO123.4.FORMANTES153.5.TRANSFORMADA DE FOURIER163.5.1.DEFINICIN163.5.2.DEFINICIN FORMAL163.5.3.PROPIEDADES BSICAS173.5.3.1.CAMBIO DE ESCALA183.5.3.2.TRASLACIN183.5.3.3.TRASLACIN EN LA VARIABLE TRANSFORMADA183.5.4.TEOREMA DE INVERSIN183.6.RECONOCIMIENTO DE VOZ193.6.1.MODULACION DE LA VOZ193.6.1.1.1.CLASIFICACION DE LOS SONIDOS213.6.2.OBTENCIN DE INFORMACIN MEDIANTE MICRFONO213.6.3.PREPROCESADO223.6.4.MUESTREO223.6.4.1.TEOREMA DE NYQUIST223.6.5.ELIMINACION DEL RUIDO234.MARCO PRACTICO244.1.MUESTREO DE VOZ244.2.NORMALIZAR254.3.RECONOCER264.4.GUIDE275.CONCLUSION296.BIBLIOGRAFIA29

CONTROL A PARTIR DE INTRUCCION DE VOZ

1. INTRODUCCION

El habla es una de las partes ms importantes de la expresin humana, es algo que nos diferencia del resto de seres vivos en planeta, ya que sin el habla el pensamiento mismo del hombre no sera posible. No se trata simplemente de un sistema para transmitir informacin, aunque sea claro una de sus funciones. Pero es por medio de los sonidos que se presenta la esencia espiritual del hombre. Dada la importancia del habla, el presente trabajo pretende crear una interaccin entre una de las expresiones esenciales del hombre con la computadora, creando as un control a partir de instruccin de voz. El procesamiento digital de seales de voz tiene una gran variedad de aplicaciones, existe una base para el tratamiento digital de seales, que puede ser implementada para lograr obtener lo que nos interese segn la aplicacin. El control a partir de instruccin de voz es una de las aplicaciones del procesamiento digital de seales de voz. El sistema consiste en obtener una seal de voz que permita reconocer qu palabra se est hablando y poder abrir la carpeta que deseemos. Consta de una interfaz grfica que permite la interaccin del usuario por medio de un micrfono con la computadora, la que procesa automticamente los datos adquiridos.

2. OBJETIVO

2.1. OBJETIVO GENERALElaborar un software que controle por instruccin de voz con la ayuda de MATLAB para poder tener fcil acceso a las aplicaciones que utilizaremos.

2.2. OBJETIVO ESPECIFICO

Realizar un pequeo estudio sobre el micrfono. Analizar el uso de MATLAB para as poder manejarlo mejor. Hacer un estudio sobre las seales de voz. Investigar la transformada de Fourier. Investigar el reconocimiento de voz. Desarrollar un software en MATLAB.

3. MARCO TEORICO

3.1. MICROFONOEs un transductor electroacstico, que tiene como funcin transformar o traducir la presin acstica ejercida sobre su capsula por las ondas sonoras en energa elctrica. La calidad de cada micrfono viene dada por sus caractersticas, las cuales se describen a continuacin: SENSIBILIDADEs la eficiencia del micrfono, la relacin entre la presin sonora que incide (expresada en Pascales) y la tensin elctrica de salida (expresada en voltios). O sea, expresa que tan bien convierte el micrfono la presin acstica en voltaje de salida. La sensibilidad se expresa en milivoltios por Pascal. Al utilizar el milivoltio, la sensibilidad puede ser representada en un voltmetro de la siguiente manera: a mayor voltaje, mayor sensibilidad. FIDELIDADIndica la variacin de sensibilidad con respecto a la frecuencia. Adems, la fidelidad, viene definida como la respuesta en frecuencia del micrfono, cuanto ms lineal sea la respuesta en frecuencia mayor fidelidad tendr el micrfono. La fidelidad se expresa en dB. En funcin de esta respuesta en frecuencia o fidelidad se elabora la llamada Curva de respuesta de un micrfono, que es la representacin grfica del nivel obtenido en la captacin de sonidos de igual intensidad, pero de distinta frecuencia.

DIRECTIVIDADEsta caracterstica determina en qu direccin capta mejor el sonido un micrfono, es decir indica la sensibilidad del micrfono a las diferentes direcciones. El diagrama polar es una representacin grfica que indica qu tan sensitivo es un micrfono a los sonidos que llegan a l desde diferentes ngulos alrededor de su eje central. Dependiendo de la directividad se encuentran diferentes tipos de micrfonos:

OMNIDIRECCIONALES: Captan todos los sonidos, sin importar la direccin desde donde lleguen.

BIDIRECCIONALES: Captan tanto el sonido que llega por su parte frontal, como por su parte posterior.

UNIDIRECCIONALES O DIRECCIONALES:Captan el sonido en una sola direccin mientras que son relativamente sordos a las otras direcciones.

RUIDO DE FONDOEs la tensin que entrega el micrfono sin que exista ningn sonido incidiendo sobre l. Este ruido se produce por el movimiento trmico de los electrones en la carcasa que no tiene masa. El ruido de fondo debe estar en torno a los 60dB, pero mientras ms bajo sea, mejor calidad ofrece el micrfono.

RANGO DINMICOSe puede definir de dos maneras: La primera definicin es el margen que hay entre el nivel de referencia de salida mxima y el ruido de fondo de un determinado sistema, medido en decibelios. En este caso, el rango dinmico y relacin seal/ruido son sinnimos.

Como segunda definicin es el margen que hay desde el nivel de pico y el nivel de ruido de fondo, tambin indicado en dB. En este caso, rango dinmico y relacin seal/ruido no son igualables. Las dos maneras son vlidas, por lo que generalmente los fabricantes incluyen la referencia de salida mxima y la referencia de nivel de pico en las especificaciones del micrfono. Para aclarar mejor esta caracterstica nos referiremos a los siguientes dos trminos.

La relacin seal/ruido: esta es la relacin entre la seal til dada, o sea, la seal de referencia, y el ruido de fondo del micrfono.

Nivel mximo o nivel de pico: es la diferencia entre el nivel mximo admisible y el nivel del ruido de fondo expresada en dB. Se trata del nivel mximo admisible por el micrfono correspondiente a una distorsin armnica de la seal de 0.5% a 1000Hz.

IMPEDANCIA INTERNAEs la resistencia que opone el micrfono al paso de la corriente. La impedancia segn su valor viene caracterizada por baja, alta y muy alta impedancia.

Lo-Z Baja impedancia (alrededor de 200 Ohmios) Hi-Z Alta impedancia (1 K o 3 K e incluso 600 ) VHi-Z Muy alta impedancia (ms de 3 K ).

Si el micrfono es de alta impedancia y se tiene un cable largo se produce una prdida muy grande. Si se tiene una impedancia baja se puede utilizar un cable muy largo y no se pierde tanto la seal. Por ltimo, se puede bajar la resistencia para evitar prdidas en altas frecuencias.

FACTOR DE DIRECTIVIDAD Es la relacin entre la intensidad sonora del sonido directo con respecto a la del ruido ambiente recogido en todas las direcciones.

3.2. MATLABMATLAB(abreviatura dematrix laboratory, "laboratorio de matrices") es una herramienta de software matemtico que ofrece unentorno de desarrollo integrado(IDE) con un lenguaje de programacin propio (lenguaje M) y servicio de especie. Est disponible para las plataformasUnix,Windows,Mac OS XyGNU/Linux.Entre sus prestaciones bsicas se hallan: la manipulacin dematrices, la representacin de datos y funciones, la implementacin dealgoritmos, la creacin de interfaces de usuario (GUI) y la comunicacin con programas en otroslenguajesy con otros dispositivoshardware. El paquete MATLAB dispone de dos herramientas adicionales que expanden sus prestaciones, a saber, Simulink (plataforma de simulacin multidominio) y GUIDE (editor de interfaces de usuario - GUI). Adems, se pueden ampliar las capacidades de MATLAB con lascajas de herramientas(toolboxes); y las de Simulink con lospaquetes de bloques(blocksets).Es unsoftwaremuy usado en universidades y centros de investigacin y desarrollo. En los ltimos aos ha aumentado el nmero de prestaciones, como la de programar directamenteprocesadores digitales de sealo crear cdigoVHDL.

3.2.1. HISTORIAFue creado porCleve Moleren1984, surgiendo la primera versin con la idea de emplear paquetes de subrutinas escritas enfortranen los cursos de lgebra lineal y anlisis numrico, sin necesidad de escribir programas en dicho lenguaje. El lenguaje de programacin M fue creado en1970para proporcionar un sencillo acceso al software de matricesLINPACKyEISPACKsin tener que usarFortran.En 2004, se estimaba que MATLAB era empleado por ms de un milln de personas en mbitos acadmicos y empresariales.

3.2.2. LIMITACIONES Y ALTERNATIVASDurante mucho tiempo hubo crticas porque MATLAB es un producto propietario de The Mathworks, y los usuarios estn sujetos y bloqueados al vendedor. Recientemente se ha proporcionado una herramienta adicional llamada MATLAB Builder bajo la seccin de herramientas "Application Deployment" para utilizar funciones MATLAB como archivos de biblioteca que pueden ser usados con ambientes de construccin de aplicacin .NET o Java. Pero la desventaja es que el computador donde la aplicacin tiene que ser utilizada necesita MCR(MATLAB Component Runtime) para que los archivos MATLAB funcionen correctamente. MCR se puede distribuir libremente con los archivos de biblioteca generados por el compilador MATLAB.

Labview GNU Octave, software libre similar a matlab. SAS Scilab Mathcad Scipy & Numerical Python Lenguaje R lgebra computacional:

3.2.3. GUIDEGUIs (tambin conocido como las interfaces grficas de usuario o IU) proporcionan apuntar y hacer clic con el botn de control de aplicaciones de software, eliminando la necesidad de aprender un idioma o los comandos de tipo con el fin de ejecutar la aplicacin. Aplicaciones de MATLAB son programas de MATLAB independientes con interfaz GUI termina que automatizan una tarea o clculo. La interfaz grfica de usuario suele contener controles tales como mens, barras de herramientas, botones y barras de desplazamiento. Muchos productos de MATLAB, tales como ajuste de curvas Caja de herramientas, caja de herramientas de procesamiento de seales, y Control System Toolbox, incluyen aplicaciones con interfaces de usuario personalizadas. Tambin puede crear sus propias aplicaciones personalizadas, incluyendo sus correspondientes interfaces de usuario, para que otros utilicen.

3.2.3.1. CREACIN DE UNA INTERFAZ GRFICA DE USUARIO INTERACTIVA MATLAB GUIDE (entorno de desarrollo GUI) proporciona herramientas para el diseo de interfaces de usuario para aplicaciones personalizadas. Utilizando el Editor de Diseo GUA, puede disear la interfaz de usuario grfica. GUA genera automticamente el cdigo de MATLAB para la construccin de la interfaz de usuario, que se puede modificar para programar el comportamiento de la aplicacin.

3.2.3.2. CREACIN DE UNA INTERFAZ GRFICA DE USUARIO MEDIANTE PROGRAMACIN MATLAB Para obtener ms control sobre el diseo y el desarrollo, tambin puede crear un cdigo de MATLAB que define todas las propiedades de los componentes y comportamientos. MATLAB contiene una funcionalidad integrada para ayudar a crear la interfaz grfica de usuario para su aplicacin mediante programacin. Usted puede agregar cuadros de dilogo, controles de interfaz de usuario (como botones y controles deslizantes) y contenedores (tales como paneles y grupos de botones).

3.2.3.3. FUNCIONAMIENTO DE UNA APLICACIN GUI Una aplicacin GUIDE consta de dos archivos: .m y .fig. El archivo .m es el que contiene el cdigo con las correspondencias de los botones de control de la interfaz y el archivo .fig contiene los elementos grficos. Cada vez que se adicione un nuevo elemento en la interfaz grfica, se genera automticamente cdigo en el archivo .m. Para ejecutar una Interfaz Grfica, si la hemos etiquetado con el nombre curso.fig, simplemente ejecutamos en la ventana de comandos >> curso. O haciendo click derecho en el m-file y seleccionando la opcin RUN.

3.3. SEAL DE VOZ

3.3.1. BREVE ANATOMA DEL APARATO FONATORIO La voz humana se produce por medio del aparato fonatorio. Este esta formado por los pulmones como fuente de energa, en forma de flujo de aire, la laringe que contiene las cuerdas vocales, la faringe, las cavidades oral y nasal y una serie de elementos articulatorios: los labios, los dientes, el alveolo, el paladar, el velo del paladar y la lengua.

Las cuerdas vocales son dos membranas dentro de la laringe orientadas de adelante hacia atrs. Por delante se unen en el cartlago tiroides, por detrs, cada una est sujeta a uno de los dos cartlagos aritenoides, los cuales pueden separarse voluntariamente por medio de msculos. La abertura entre ambas cuerdas se denomina glotis.

Cuando las cuerdas vocales se encuentran separadas la glotis adopta una forma triangular. El aire pasa libremente y casi no se produce sonido; este es el caso de la respiracin. Cuando la glotis comienza a cerrarse, el aire que la atraviesa proveniente de los pulmones experimenta una turbulencia, produciendo un ruido conocido como aspiracin. Ahora, al cerrarse ms, las cuerdas vocales comienzan a vibrar de modo audible, producindose un sonido tonal, es decir peridico. La frecuencia de este sonido depende de varios factores, entre otros del tamao y la masa de las cuerdas vocales, de la tensin de las cuerdas vocales, de la tensin que se les aplique y de la velocidad del flujo del aire proveniente de los pulmones. A mayor tamao, menor frecuencia de vibracin, A mayor tensin la frecuencia aumenta, siendo los sonidos ms agudos. Tambin aumenta la frecuencia al crecer la velocidad del flujo de aire. Finalmente, es posible obturar la glotis completamente, en cual caso no se produce sonido. Sobre la glotis se encuentra la epiglotis, un cartlago de la faringe que permite tapar la glotis durante la deglucin para evitar que el alimento ingerido se introduzca en el tracto respiratorio. La porcin que incluye las cavidades farngea, oral y nasal junto con los elementos articulatorios se denomina cavidad supraglotica en tanto que los espacios por debajo de la laringe, es decir la trquea, los bronquios y los pulmones, se denominan cavidades infragloticas.

Varios de los elementos de la cavidad supraglotica se controlan a voluntad, permitiendo modificar dentro de mrgenes muy amplios los sonidos producidos por las cuerdas vocales o agregar partes distintivas a estos, y hasta producir sonidos propios. Esto se efecta con dos mecanismos principales: el filtrado y la articulacin.

El filtrado acta modificando el espectro del sonido. Tiene lugar en las cuatro cavidades supragloticas principales: la faringe, la cavidad nasal, la cavidad oral y la cavidad labial. Las mismas constituyen resonadores acsticos que enfatizan determinadas bandas frecuenciales del espectro generado por las cuerdas vocales, conduciendo al concepto de formantes, es decir que se refuerza la amplitud de grupos de armnicos situados alrededor de una determinada frecuencia. En resumen, en el habla los formantes se determinan por el proceso de filtrado que se produce en el tracto vocal por la configuracin de los articuladores.

3.4. FORMANTES Los formantes son elementos que sirven para distinguir componentes del habla humana, principalmente, las vocales y sonidos sonantes. El formante con la frecuencia ms baja se llama F1, el segundo F2, el tercero F3, etc.

Normalmente slo los dos primeros son necesarios para caracterizar una vocal, aunque la pueden caracterizar ms formantes. Generalmente, los formantes posteriores determinan propiedades acsticas como el timbre.

Los dos primeros formantes se determinan principalmente por la posicin de la lengua. Sucediendo que F1 tiene una frecuencia ms alta cuanto ms baja esta la lengua, es decir una mayor abertura. Para el F2 tiene mayor frecuencia cuanto ms hacia delante est posicionada la lengua.

No todos los sonidos se componen de formantes definidos. Solamente aparecen en sonantes, que incluyen los sonidos pulmonares: vocales, aproximantes y nasales. Las nasales tienen un formante adicional F3, en torno a los 1500 Hz. Si la frecuencia fundamental es mayor que la frecuencia de los formantes, entonces el carcter del sonido se pierde y se vuelven difciles de distinguir, por lo cual son difciles de reconocer. Aqu estn algunos anchos de banda entre los cuales se localizan las vocales:

3.5. TRANSFORMADA DE FOURIER3.5.1. DEFINICINLa transformada de Fourier relaciona una funcin en eldominio del tiempo, mostrada en rojo, con una funcin en eldominio de la frecuencia, mostrado en azul. Las frecuencias componentes, extendidas para todo el espectro de frecuencia, son representadas como picos en el dominio de la frecuencia.La transformada de Fourier es bsicamente el espectro de frecuencias de una funcin. Un buen ejemplo de eso es lo que hace el odo humano, ya que recibe una onda auditiva y la transforma en una descomposicin en distintas frecuencias (que es lo que finalmente se escucha). El odo humano va percibiendo distintas frecuencias a medida que pasa el tiempo, sin embargo, la transformada de Fourier contiene todas las frecuencias contenidas en todos los tiempos en que existi la seal; es decir, en la transformada de Fourier se obtiene un slo espectro de frecuencias para toda la funcin.

3.5.2. DEFINICIN FORMALSeafuna funcin Lebesgue integrable:

La transformada de Fourier defes la funcin:

Esta integral tiene sentido, pues el integrando es una funcin integrable. Una estimativa simple demuestra que la transformada de FourierF(f)es una funcin acotada. Adems por medio delteorema de convergencia dominadapuede demostrarse queF(f)es continua.La transformada de Fourier inversa de una funcin integrablefest definida por:

Ntese que la nica diferencia entre la transformada de Fourier y la transformada de Fourier inversa es el signo negativo en el exponente del integrando. El teorema de inversin de Fourier formulado abajo justifica el nombre de transformada de Fourier inversa dado a esta transformada. El signo negativo en el exponente del integrado indica la traspolacin de complementos yuxtapuestos. Estos complementos pueden ser analizados a travs de la aplicacin de la Varianza para cada funcin.

3.5.3. PROPIEDADES BSICASLa transformada de Fourier es unaaplicacin lineal:

Valen las siguientes propiedades para unafuncin absolutamente integrablef:

3.5.3.1. CAMBIO DE ESCALA

3.5.3.2. TRASLACIN

3.5.3.3. TRASLACIN EN LA VARIABLE TRANSFORMADA

3.5.4. TEOREMA DE INVERSINLa idea del teorema de inversin es que dada una funcinf, la transformada de Fourier inversa aplicada a la transformada de Fourier defresulta en la funcin original, en smbolos:

Sin embargo, el resultado formulado de esta forma no es vlido, porque el dominio de la transformada de Fourier como lo hemos definido en el primer prrafo de este artculo no es invariante, o sea que la transformada de Fourier de una funcin integrable no es necesariamente integrable.Para formular el teorema de inversin necesitamos encontrar espacios de funciones que sean invariantes bajo la transformada de Fourier. De hecho, hay numerosas posibilidades, la ms natural del punto de vista tcnico siendo elespacio de Schwartzde funciones rpidamente decrecientes.

3.6. RECONOCIMIENTO DE VOZ3.6.1. MODULACION DE LA VOZ Las ecuaciones fundamentales que se aplican en acstica son lineales, por lo que se pueden utilizar sistemas lineales en el modelado de la voz para conseguir una precisin aceptable. Estos modelos lineales son aproximaciones de gran utilidad ya que utilizar modelos no lineales resulta demasiado complejo. En resumen, el habla es producida por la modulacin del flujo de aire a travs del tracto vocal. Por un lado, la tensin de las cuerdas vocales se gobierna por la musculatura, que funciona como un control de entrada.En este caso, la tensin de las cuerdas afecta la frecuencia de la seal de voz por lo que la seal de control ser parecida a la portadora en una modulacin. Por otro lado, el tono de voz no es necesario para saber la informacin que se est transmitiendo. Generalmente los modelos suelen formarse utilizando un filtro, para separar las partes trascendentales de la seal de voz. El tracto vocal es modelado como la concatenacin de tubos acsticos de distinto dimetro, con o sin prdidas. Lo cual resulta en un modelo lineal inestacionario, ya que las secciones de los tubos van cambiando de acuerdo al fonema que se est emitiendo. Se puede decir entonces que, el tracto vocal acta como una cavidad resonante formando regiones donde el sonido producido es filtrado.El conducto vocal se representa por un sistema lineal (en general inestacionario) que es excitado a travs de una llave que selecciona entre una fuente de impulsos cuasi peridicos para el caso de sonidos tonales, o una fuente de ruido aleatorio para el caso de sonidos no tonales. La ganancia apropiada de la fuente, G, es estimada a partir de la seal de voz, y la seal escalada es usada como entrada del modelo del conducto vocal.Modelo de radiacin: describe la impedancia de radiacin vista por la presin de aire cuando abandona los labios, que puede ser razonablemente aproximada por una ecuacin en diferencias de primer orden, o equivalentemente por una funcin de transferencia de la forma:

Modelo de glotis: existen diferentes modelos de la glotis, para el caso en que es excitada por pulsos. Un modelo simple es el denominado modelo exponencial representado por una funcin transferencia Z de la forma:

Donde e es la base de los logaritmos neperianos. El numerador se selecciona de manera que tenga un valor mximo aproximadamente igual a 1. El modelo est inspirado en mediciones de la respuesta de la glotis a impulsos, que se asemejan a la respuesta de un sistema de segundo orden.

3.6.1.1.1. CLASIFICACION DE LOS SONIDOS

a) SONIDOS SONOROS O TONALES: En ellos las cuerdas vocales vibran y el aire pasa a travs del tracto vocal sin impedimentos importantes. Adems, son de alta energa, la informacin se encuentra entre los primeros 300Hz a 4kHz y poseen cierta periodicidad. Puede ser modelado matemticamente como un tren de impulsos.

b) SONIDOS SORDOS O NO TONALES: En ellos las cuerdas vocales no vibran y existen restricciones importantes al paso del aire, por lo que son de amplitud menor y de naturaleza ms ruidosa. Por lo que son de baja energa, componente frecuencial uniforme y cierta aleatoriedad. Matemticamente son modelables como ruido blanco.

3.6.2. OBTENCIN DE INFORMACIN MEDIANTE MICRFONO Micrfono: El micrfono es un transductor electroacstico. Su funcin es la de transformar (traducir) la presin acstica ejercida sobre su capsula por las ondas sonoras en energa elctrica. El audio es un fenmeno analgico. Para grabar una seal de voz se hace la conversin de la seal analgica del micrfono en una seal digital por medio del conversor A/D en la tarjeta de sonido. Cuando un micrfono est operando las ondas de sonido hacen que vibre el elemento magntico del micrfono causando una corriente elctrica hacia la tarjeta de sonido, donde el conversor A/D bsicamente graba los voltajes elctricos en intervalos especficos. Hay dos factores importantes durante este proceso. Primero est la taza de muestreo o que tan seguido los valores de voltaje son grabados. Segundo, son los bits por segundo, o que tan exactamente los valores son grabados. Un tercero podra ser el nmero de canales (mono o estreo), pero para las aplicaciones de reconocimiento de voz un canal mono es suficiente. La mayora de aplicaciones vienen con valores pre-determinados, para desarrollo del cdigo se debera de cambiar los parmetros para ver lo que mejor funciona en el algoritmo. Dado a que el habla es relativamente de bajas frecuencias (entre 100Hz-8kHz), una frecuencia de muestreo de 16000 muestras/seg provee una mayor exactitud en la adquisicin de la informacin, la frecuencia de nyquist. La obtencin de la informacin mediante micrfono en MATLAB se realiza con la funcin wavrecord (n,Fs) graba n muestras de la seal de audio, muestreadas a una frecuencia de Fs, utilizamos la frecuencia de 11025 Hz ya que se adapta bien a nuestro algoritmo y no se pierde informacin. La seal obtenida es de canal mono, que es el valor predeterminado en la funcin, 1 para mono y 2 para stereo.

3.6.3. PREPROCESADO Convertir la entrada de voz a una forma que el reconocedor pueda procesar o que la seal sea ms accesible para procesar luego. 3.6.4. MUESTREO Muestreo consiste en el proceso de conversin de seales continuas a seales discretas en el tiempo, es un paso para digitalizar una seal analgica. Este proceso se realiza midiendo la seal en momentos peridicos del tiempo.

3.6.4.1. TEOREMA DE NYQUIST Si x [n] es una secuencia de muestras obtenida a partir de una seal continua en el tiempo x (t), por medio de la relacin:

Donde T es el perodo de muestreo, y su reciproco, es la frecuencia de muestreo, en muestras por segundo. Tambin podemos expresar la frecuencia de muestreo como en radianes por segundo. Entonces el teorema de muestreo de nyquist est definido como: sea x (t) una seal limitada en banda por:

Entonces x (t) esta nicamente determinada por sus muestras:

La frecuencia es comnmente referida como la frecuencia de Nyquist, y la frecuencia 2 que tiene que ser excedida por la frecuencia de muestreo es llamada la razn de Nyquist.

3.6.5. ELIMINACION DEL RUIDOLa seal digitalizada es escaneada y las zonas de silencio son removidas por medio del clculo de energa en corto tiempo. Segmentos de 10ms se escogieron para este propsito. En un segmento la energa promedio es menor que un valor umbral proporcional a la energa promedio de la seal entera es descartado. Las siguientes frmulas se utilizaron:

Donde En es la energa promedio de cada segmento y es la energa promedio de la seal entera. El valor umbral escogido THRES=0.2.

4. MARCO PRACTICO 4.1. MUESTREO DE VOZLo que haremos en esta parte es grabar una seal y luego lo guardaremos.Luego por medio de la funcin wavrecord colocaremos 3 parmetros el 1 es la frecuencia de muestreo multiplicado por el tiempo en segundos que queremos que la seal grabe El 2 es la frecuencia de muestreo.El 3 nos indica es una seal mono. Este es la frecuencia de muestreo que utilizaremos en este caso utilizaremos la frecuencia de la voz.

Luego utilizaremos wavplay donde colocaremos los parmetros extrados de y que es la funcin que se ha grabado y el segundo parmetro Fs que es la frecuencia de muestreo

Despus que hemos grabado la seal podemos escribir la seal en un carpeta para esto utilizaremos la funcin wavwrite colocamos los parmetros de la seal grabada la frecuencia el nmero de bits y un strink

4.2. NORMALIZAR

Este est definido para obtener el valor mximo.Servir para recortar si una seal es grande que vara entre ms menos uno que son los valores definidos y si estos valores son sobrepasados se recortara la seal Lo que har tomara los valores del vector. Sacaremos el valor absoluto del sonido y luego tendremos el valor mximo de esta variable y la amplitud mxima

4.3. RECONOCER

Tomamos un archivo que ya ha sido creado y lo vamos a leer para eso utilizaremos el formato wavread y lo almacenaremos en una variable

Luego lo normalizamos

Y luego hacemos la transformada de furier sacaremos el valor absoluto de la seal

4.4. GUIDE

En la funcin hablar lo que har ser liberar las variables y llamara a grabar es decir primero grabara y luego guardara

Primero haremos tres pasos importantes primero lo leeremos el archivo que ya se ha creado por medio de grabar despus lo normalizares y despus aplicaremos la transformada de Fourier y el valor absolutoDespus utilizaremos el mtodo de las diferencias de las seales de Fourier para obtener el valor que es igual a otro error.Luego compararemos con un if el error min si es similar al error 1 y as sucesivamente.

Primero utilizaremos un if donde detectaremos el archivo que queramos abrir, luego para poder acceder a el pondremos un open y la ubicacin en se encuentra el archivo por si no abrir el otro archivo que pongamos.

En este botn preguntaremos si la persona quiere salir del programa o no.Si escoge la opcin de salir automticamente se ladra del programa, si apretamos no volver automticamente al programa.

5. CONCLUSION

El reconocimiento de voz es una de las aplicaciones del procesamiento digital de seales que permite interaccionar entre los seres humanos y computadoras. Con la herramienta de MATLAB se pudo realizar el controlamiento de archivos mediante la voz. El sistema para reconocer palabras es muy simple de modificar, para otras aplicaciones. Es necesario conocer la transformada de Fourier para poder normalizar los archivos que queremos abrir

6. BIBLIOGRAFIA

http://es.wikipedia.org/wiki/Transformada_de_Fourier http://www.dspace.espol.edu.ec/bitstream/123456789/10740/11/MATLAB_GUIDE.pdf http://www.mathworks.com/discovery/matlab-gui.html http://es.wikipedia.org/wiki/MATLAB http://biblioteca.usac.edu.gt/tesis/08/08_0223_EO.pdf