Estudiante: Rigoberto Fonseca-Delgado Asesora:...

22
Estudiante: Rigoberto Fonseca-Delgado Asesora: Dra. Pilar Gómez-Gil 1 National Institute of Astrophysics, Optics and Electronics Department of Computer Science

Transcript of Estudiante: Rigoberto Fonseca-Delgado Asesora:...

Estudiante: Rigoberto Fonseca-Delgado Asesora: Dra. Pilar Gómez-Gil

1

National Institute of Astrophysics,

Optics and Electronics

Department of Computer

Science

2

$14.40

$14.60

$14.80

$15.00

$15.20

$15.40

$15.60

$15.80

02/01/2015 22/01/2015 11/02/2015 03/03/2015 23/03/2015 12/04/2015 02/05/2015 22/05/2015 11/06/2015

Pe

sos

MX

N

Tiempo

Precio del dólar

Lineal (Precio del dólar)

$0.00

$2.00

$4.00

$6.00

$8.00

$10.00

$12.00

$14.00

$16.00

$18.00

04/01/1993 01/10/1995 27/06/1998 23/03/2001 18/12/2003 13/09/2006 09/06/2009 05/03/2012 30/11/2014

Pe

sos

MX

N

Tiempo

Precio del dólar

Lineal (Precio del dólar)

Fuente: Banco de México

¿Qué tal si hubiese invertido mis ahorros del año en comprar dólares justo el día 06/04/2015 y los vendía el 22 del mismo mes? Una beca 1000 dólares me hubieran dado 651 pesos en 16 días. Más capital 10000 dólares implicaban 6510 pesos.

Predicción de series de tiempo

Modelo auto-regresivo

Modelo auto-regresivo no-lineal

Propiedades de redes neuronales recurrentes

Red neuronal NARX

Propiedades de las redes NARX

3

Serie de tiempo es una secuencia de observaciones tomadas secuencialmente en el tiempo.

Predecir es estimar valores futuros de una serie de tiempo a partir de los valores actuales y pasados.

Tipos de predicción: one-step-ahead, multi-step-ahead.

Estrategias de predicción: recursiva, directa, mixtas.

4 Book Box, G. E. P.; Jenkins, G. M. & Reinsel, G. C., Grant, J., Time Series Analysis Forecasting and Control, Prentice-Hall International, 1994, pág 1. Article Taieb, S. B.; Bontempi, G.; Atiya, A. F. & Sorjamaa, A., A review and comparison of strategies for multi-step ahead time series forecasting based on the NN5 forecasting competition, Expert Systems with Applications, 2012, 39, 7067 - 7083 .

n h

El valor futuro depende de los p valores inmediatos del pasado.

El valor a predecir depende de las variables causales, que son los valores del pasado.

Los pesos representan la relaciones.

Este enfoque es lineal en los parámetros.

5

tp apnynynyny )(...)2()1()( 21

Book Box, G. E. P.; Jenkins, G. M. & Reinsel, G. C., Grant, J., Time Series Analysis Forecasting and Control, Prentice-Hall International, 1994, pág 52. Book Armstrong, J. S., Long-range forecasting from crystal ball to computer, John Wiley & Sons, 1985 , pág. 76.

i

6

Lineal

No-lineal

Función lineal en sus parámetros

En la naturaleza muchos fenómenos son no-lineales. Ecuación logística viene de un modelo poblacional con comportamiento caótico bajo parámetros definidos.

Article May, R. M., Simple mathematical models with very complicated dynamics, Nature, London, 1976, 261, 459-467 .

)(2 ny

Un sistema de una entrada - una salida puede definirse por:

Ejemplo, el monto de retiros bancarios está relacionado con el día de la semana, grupo de días en el mes, y mes del año.

7

)(),...,(),(),...,1()( tuntutyntyqnty

Article Leontaritis, I. J. & Billings, S. A. Input-output parametric models for non-linear systems Part II: stochastic non-linear systems International Journal of Control, 1985, 41, 329-344. Article Andrawis, R. R.; Atiya, A. F. & El-Shishiny, H., Forecast combinations of computational intelligence and linear models for the NN5 time series forecasting competition, International Journal of Forecasting, 2011, 27, 672 - 688 .

Función no-lineal

Entradas externas

Observaciones

8

La eq. logística del ejemplo tiene un comportamiento caótico. Las características de un sistema caótico pueden resumirse como: 1. Existe alguna ecuación (tal vez

desconocida) guiando el comportamiento, son deterministas;

2. Son sensibles a los cambios en las condiciones iniciales;

3. No son aleatorios o desordenados; los sistemas caóticos tienen un sentido de orden.

Phase portrait.- Es una herramienta en la que se dibuja el valor actual con respecto a su predecesor.

Book Kantz, H. & Schreiber, T., Nonlinear Time Series Analysis, Cambridge University Press, 2003, pág. 5. Article Dhanya, C. & Kumar, D. N., Nonlinear ensemble prediction of chaotic daily rainfall, Advances in Water Resources, 2010, 33, 327 – 347.

Existen dos maneras básicas de aplicar retroalimentación. Local.- Es aplicada a una única neurona dentro de la red.

Global.- Engloba una o más capas ocultas o toda la red.

El uso de retro-alimentación global en una red recurrente permite: Memoria asociativa o por contenido (content-addressable

memory).

Auto-asociación.

Reconstrucción dinámica de un proceso caótico.

9 Book Haykin, S., Neural Networks and Learning Machines, 3ra edición, Pearson Education, 2009, págs. 673, 791.

Método de aproximación universal “Cualquier sistema dinámico puede ser aproximado por una

red neuronal recurrente con cualquier grado de precisión y sin restricciones impuestas a la compacidad del espacio de estados, siempre que la red esté equipada con un número adecuado de neuronas ocultas”.

Simular cualquier máquina de estados finita

“Cualquier máquina de estados finita es equivalente a, y puede ser ‘simulada’ por, alguna red neuronal. Esto es, dada cualquier maquina de estados finitos M, podemos construir una cierta red neuronal N la cual, vista como una máquina de caja negra, tendrá un comportamiento precisamente como M”.

Redes neuronales completamente recurrentes son las más

poderosas computacionalmente. “Toda máquina de Turing puede ser simulada por una red

neuronal completamente conectada construida sobre neuronas con funciones de activación sigmoidales”.

10 Book Haykin, S., Neural Networks and Learning Machines, 3ra edición, Pearson Education, 2009, págs. 673, 798, 804.

http://stanford.library.usyd.edu.au/archives/spr2008/entries/turing-machine/

Ejemplo: Diagrama de estados

A partir de un perceptron multicapa con una única capa oculta como bloque de construcción básico de una red recurrente.

La aplicación de retro-alimentación global alrededor del perceptron multicapa puede tomar una variedad de formas: Retro-alimentación desde las salidas de la capa

oculta a la capa de entrada. Retro-alimentación desde la capa de salida a la

capa de entrada. Combinar todos los posibles lazos de retro

alimentación en una única de red neuronal recurrente.

Considerar otros bloques diferentes para la construcción de redes recurrentes.

11 Book Haykin, S., Neural Networks and Learning Machines, 3ra edición, Pearson Education, 2009, pág. 791. http://www.intechopen.com/books/artificial-neural-networks-architectures-and-applications/mlp-and-anfis-applied-to-the-prediction-of-hole-diameters-in-the-drilling-process

Las redes recurrentes tienen un amplio reportorio aún por explorar.

La serie de tiempo entra por la izquierda y va transformándose en vectores de tamaño m al pasar por los m-1 retrasos.

12 Book Beale, M. H.; Hagan, M. T. & Demuth Howard, B., Neural Network Toolbox User's Guide R2015a, MathWorks, 2015, pág. 7-8.

z-1

...

z-1

TDL

y(n-(m-1))

y(n-(m-2))

y(n)

...

El comportamiento dinámico del modelo NARX es descrito por:

donde F es una función no-lineal.

Arquitectura viene naturalmente de un perceptron multicapa.

Ejemplo con una única entrada aplicada a una memoria tapped-delay-line (TDL) de q unidades.

Tiene una única salida que es retro-alimentada a la entrada a través de otro TDL, también de q unidades.

El contenido de las dos memorias TDL alimentan la capa de entrada de un perceptron multicapa.

13

Entradas externas

Valores retrasados de la salida. TDL construye todas las posibles secuencias de tamaño q de la serie de entrenamiento.

TDL

TDL Book Haykin, S., Neural Networks and Learning Machines, 3ra edición, Pearson Education, 2009, págs. 791, 792.

Recibe la serie de tiempo de entrenamiento con sus respectivas entradas externas.

Después de entrenar se cierra el lazo, lo cual conecta las salidas con el TDL respectivo.

Para iniciar la predicción requiere los q últimos valores del pasado, con las respectivas entradas externas.

Cada iteración recibirá una nueva entrada externa y devolverá la predicción de un paso a la vez.

14

Ejemplo de Entrenamiento

Lazo cerrado para predicción

Book Beale, M. H.; Hagan, M. T. & Demuth Howard, B., Neural Network Toolbox User's Guide R2015a, MathWorks, 2015, pág. 3-26.

TDL

Las redes NARX pueden simular a las FCRNN si se cumple la condición de utiliza una función de activación BOSS y tienen la desventaja de desaceleración lineal.

Una “desaceleración lineal” implica que si una FCRNN computa una tarea de interés en tiempo T, entonces el tiempo total utilizado por su equivalente red NARX es (N+1)T.

Una función es delimitada, de un solo lado saturada (BOSS) si satisface las siguientes tres condiciones: La función tiene un rango limitado. La función es saturada en el lado izquierdo. La función no es constante.

15 Book Haykin, S., Neural Networks and Learning Machines, 3ra edición, Pearson Education, 2009, págs. 805.

xbabxa ,,

sxSxSs ,|,

2121 |, xxxx

¿Preguntas?

16

17 -5

-4

-3

-2

-1

0

1

2

3

1 3 5 7 9

x(t)

t

x(t) = x(t-1)*x(t-2)*x(t-3)

x(t) = x(t-1)^2*x(t-2)*x(t-3)

18

19

Chaos theory has taught us that random input is not the only possible source of irregularity in a system’s output: nonlinear, chaotic systems can produce very irregular data with purely deterministic equations of motion in an autonomous way, i.e., without time dependent inputs. Of course, a system which has both, nonlinearity and random input, will most likely produce irregular data as well.

20

21 Book Haykin, S., Neural Networks and Learning Machines, 3ra edición, Pearson Education, 2009, págs. 673, 804, 805.

22 Book Haykin, S., Neural Networks and Learning Machines, 3ra edición, Pearson Education, 2009, págs. 805, 806.