Optimizaci´on Sin Restricciones · 2009. 11. 11. · 3 x 2 fy = −4y +4y3 ∇f = < 27− 1 3 x...

12
Optimizaci´on Sin Restricciones Departamento de Matem´aticas, CSI/ITESM 1 de mayo de 2009 ´ Indice 14.1. Introducci´ on ............................................... 1 14.2. ´ Optimos de una Funci´ on ........................................ 1 14.3. Punto Cr´ ıtico o Estacionario ..................................... 1 14.4. Teorema Clave ............................................. 2 14.5. Ejemplo 1: Clasificaci´ on de puntos .................................. 3 14.6. Ejemplo 2 ................................................ 6 14.7. Algunos comandos en la TI ...................................... 9 14.8. Resultados requeridos ......................................... 10 14.1. Introducci´on En esta secci´ on se ver´a un m´ etodo anal´ ıtico para optimizar una funci´ on real en el caso que no existan restricciones sobre el dominio de la funci´ on y cuando la funci´ on admite segundas derivadas continuas. Esta ecnica generaliza la t´ ecnica de optimizaci´ on de funciones en una variable utilizando c´alculo diferencial: prime- ramente se determina cu´ ales son los candidatos optimos, y posteriormente se aplica un criterio basado en la segunda derivada para determinar si corresponden a un m´ aximo o m´ ınimo relativo. Primeramente definiremos los puntos cr´ ıticos, que son los ´ unicos puntos candidatos a ´ optimos de la funci´ on. Seguido de esto, se formula el principal resultado que caracteriza los puntos m´ aximos y m´ ınimos locales e ilustraremos el proceso de opti- mizaci´on con un par de ejemplos detallados hechos a mano y usando la calculadora TI. En la ´ ultima secci´ on se listan los resultados te´ oricos que son los argumentos necesarios para el teorema que caracter´ ıza los ´ optimos locales. 14.2. ´ Optimos de una Funci´on Definamos el ´ optimo de una funci´ on. Definici´ on Sea f una funci´ on de valor real definida sobre un conjunto D R n . Sea x 0 un punto en D , x 0 se dice un ınimo local de f si existe d> 0 tal que si x D y |x o x| <d entonces f (x) f (x 0 ). Por otro lado, se dice aximo local si se cumple f (x) f (x 0 ). En general, el concepto ´ optimo local se refiere a m´ ınimos o m´ aximos locales. El valor del ´ optimo local x 0 es f (x 0 ). 14.3. Punto Cr´ ıtico o Estacionario La siguiente definici´ on nos da una condici´on necesaria que deben cumplir lo ´ optimos locales: Uno de nuestros resultados importantes asegura que los ´ optimos locales deben ser puntos estacionarios. La definici´ on se ve como parte del proceso anal´ ıtico de obtenci´on de los ´ optimos de una funci´ on: la primera fase ser´ a determinar los

Transcript of Optimizaci´on Sin Restricciones · 2009. 11. 11. · 3 x 2 fy = −4y +4y3 ∇f = < 27− 1 3 x...

  • Optimización Sin Restricciones

    Departamento de Matemáticas, CSI/ITESM

    1 de mayo de 2009

    Índice

    14.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114.2. Óptimos de una Función . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114.3. Punto Cŕıtico o Estacionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114.4. Teorema Clave . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214.5. Ejemplo 1: Clasificación de puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.6. Ejemplo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.7. Algunos comandos en la TI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 914.8. Resultados requeridos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    14.1. Introducción

    En esta sección se verá un método anaĺıtico para optimizar una función real en el caso que no existanrestricciones sobre el dominio de la función y cuando la función admite segundas derivadas continuas. Estatécnica generaliza la técnica de optimización de funciones en una variable utilizando cálculo diferencial: prime-ramente se determina cuáles son los candidatos a óptimos, y posteriormente se aplica un criterio basado en lasegunda derivada para determinar si corresponden a un máximo o mı́nimo relativo. Primeramente definiremoslos puntos cŕıticos, que son los únicos puntos candidatos a óptimos de la función. Seguido de esto, se formulael principal resultado que caracteriza los puntos máximos y mı́nimos locales e ilustraremos el proceso de opti-mización con un par de ejemplos detallados hechos a mano y usando la calculadora TI. En la última secciónse listan los resultados teóricos que son los argumentos necesarios para el teorema que caracteŕıza los óptimoslocales.

    14.2. Óptimos de una Función

    Definamos el óptimo de una función.Definición

    Sea f una función de valor real definida sobre un conjunto D ⊆ Rn. Sea x0 un punto en D , x0 se dice unmı́nimo local de f si existe d > 0 tal que si x ∈ D y |xo − x| < d entonces f(x) ≥ f(x0). Por otro lado, se dicemáximo local si se cumple f(x) ≤ f(x0). En general, el concepto óptimo local se refiere a mı́nimos o máximoslocales. El valor del óptimo local x0 es f(x0).

    14.3. Punto Cŕıtico o Estacionario

    La siguiente definición nos da una condición necesaria que deben cumplir lo óptimos locales: Uno de nuestrosresultados importantes asegura que los óptimos locales deben ser puntos estacionarios. La definición se ve comoparte del proceso anaĺıtico de obtención de los óptimos de una función: la primera fase será determinar los

  • puntos cŕıticos.Definición

    Sea f una función de valor real definida sobre un conjunto D ⊆ Rn. Un punto x0 ∈ D se llama puntoestacionario o punto cŕıtico si todas las parciales de f se hacen cero cuando se evaluan en x0. Es decir, si

    ∇f(x0) = 0 (1)

    14.4. Teorema Clave

    El resultado importante siguiente da las condiciones ncesarias y suficientes para los óptimos locales.

    Teorema 14.1

    Sea f : D ⊆ Rn → R. Suponga que f tiene segundas derivadas parciales continuas en D. Si x0 esun punto estacionario de f entonces f tiene en x0 . . .

    un mı́nimo local si Hf (x0) es positiva definida. (Todos los valores propios de Hf (x0) sonpositivos)

    un máximo local si Hf (x0) es negativa definida. (Todos los valores propios de Hf (x0) sonnegativos)

    un punto silla si Hf (x0) tiene valores propios negativos y también positivos.

    Demostración

    Al aplicar la fórmula de Taylor de segundo orden a f(x) en el punto estacionario x = x0 (Aśı se cumple∇f (x0) = 0) nos da:

    f(x0 + x) − f(x0) =1

    2Q(x) + ‖x‖2E2(x0,x)

    en donde E2(x0,x) → 0 cuando x → 0.Supongamos que todos los valores propios λ1,λ2,. . . ,λn de Hf (x0) son positivos. Sea δ =

    1

    2mı́n {λi}. Aśı todos

    los números λ1 − h,λ2 − h,. . . ,λn − h son positivos. Se prueba fácilmente que z es vector propio de Hf (x0)asociado al valor propio λi si y sólo si z es vector propio de la matriz simétrica [Hf (x0)−h I] asociado al valorpropio λ − h. Por consiguiente y por el resultado anterior, x′ [Hf (x0) − h I]x > 0 para todo x 6= 0. Y porconsiguiente

    Q(x) = x′ Hf (x0)x > x′ (h I)x = h ‖x‖2

    para todo x 6= 0. Puesto que E2(x0,x) → 0 cuando x → 0, existe un r positivo tal que |E2(x0,x)| < 14 h paralos vectores x que cumplen 0 < ‖x‖ < r. Entonces para tales vectores x tenemos

    0 ≤ ‖x‖2 |E2(x0,x)| < ‖x‖2(

    1

    4h

    )

    =1

    4h ‖x‖2 < 1

    2Q(x)

    De esto se tiene que1

    2Q(x) − ‖x‖2 |E2(x0,x)| > 0

    2

  • Por otro lado E2(x0,x) ≥ −|E2(x0,x)| implica que ‖x‖2 E2(x0,x) ≥ −‖x‖2 E2(x0,x). De donde obtenemos

    f(x0 + x) − f(x0) =1

    2Q(x) + ‖x‖2 E2(x0,x) ≥

    1

    2Q(x) − ‖x‖2 E2(x0,x) > 0

    para los vectores x que cumplen 0 < ‖x‖ < r. Aśı concluimos que x0 corresponde a un mı́nimo local de f(x)�

    14.5. Ejemplo 1: Clasificación de puntos

    Para la función:

    f(x, y) = 27x − 19

    x3 − 2 y2 + y4

    clasifique los siguientes puntos:

    a) P (−3, 1)

    b) Q (9,−1)

    c) R (−9, 1)

    d) S (9, 0)

    e) T (−9, 0)

    respecto a las opciones:

    1) Punto cŕıtico: mı́nimo relativo

    2) Punto cŕıtico sin información por el criterio de la Hessiana

    3) No punto cŕıtico

    4) Punto cŕıtico: máximo relativo

    5) Punto cŕıtico: punto silla

    Solución

    La idea es sustituir cada uno de los puntos en el gradiente para determinar si el punto es punto cŕıtico. Sóloen caso de serlo, debemos sustituir en la Hessiana para ver si es máximo o mı́nimo local. En nuestro ejemplo

    fx = 27 − 13 x2fy = −4 y + 4 y3∇f = < 27 − 1

    3x2,−4 y + 4 y3 >

    En la figura 1 se ilustra: limpieza de las variables, la captura de f(x, y) y la obtención de las parciales. En laspantallas de la figura 2 se registran la captura de los puntos en la variable p y el cálculo de la matriz hessiana.

    Análisis de P (−3, 1)Como

    ∇f(P ) =< 24, 0 >6=< 0, 0 >P (−3, 1) no es un punto cŕıtico y por tanto no puede ser ni máximo ni mı́nimo relativo. En la figura 3 se ilustrala sustitución del punto P (−3, 1) y del Q(9,−1) en ∇f .

    Análisis de Q (9,−1)Como

    ∇f(Q) =< 0, 0 >

    3

  • Figura 1: Registro de f(x, y), fx y fy

    Figura 2: Registro de puntos y Cálculo de la hessiana

    Figura 3: Cálculo de ∇f(P ) y de ∇f(Q)

    4

  • Figura 4: Criterio en Q(9,−1).

    Figura 5: Criterio en R(−9, 1).

    por tanto, Q(9,−1) es un punto cŕıtico. Revisemos el criterio de la segunda derivada:

    Hf (Q) =

    [

    −6 00 8

    ]

    y aśı los eigenvalores propios de Hf (Q) son -6 y 8. Por tanto, el punto Q(9,−1) es un punto silla. Los cálculosse ilustran en la figura 4.

    Análisis de R (−9, 1)Como

    ∇f(R) =< 0, 0 >por tanto, Q(−9, 1) es un punto cŕıtico. Revisemos el criterio de la segunda derivada:

    Hf (R) =

    [

    6 00 8

    ]

    y áıs los eigenvalores propios de Hf (R) son 6 y 8. Por tanto, el punto R(−9, 1) es un mı́nimo relativo. Loscálculos se ilustran en la figura 5.

    Análisis de S (9, 0)Como

    ∇f(S) =< 0, 0 >por tanto, S(9, 0) es un punto cŕıtico. Revisemos el criterio de la segunda derivada:

    Hf (S) =

    [

    −6 00 −4

    ]

    y aśı los eigenvalores propios de Hf (S) son -6 y -4. Por tanto, el punto S(9, 0) es un máximo relativo. Loscálculos se ilustran en la figura 6.

    Análisis de T (−9, 0)Como

    ∇f(S) =< 0, 0 >

    5

  • Figura 6: Criterio en S(9, 0).

    Figura 7: Criterio en T (−9, 0).

    por tanto, T (−9, 0) es un punto cŕıtico. Revisemos el criterio de la segunda derivada:

    Hf (T ) =

    [

    6 00 8

    ]

    y aśı los eigenvalores propios de Hf (T ) son 6 y 8. Por tanto, el punto T (−9, 0) es un mı́nimo relativo. Loscálculos se ilustran en la figura 7.

    Notas

    Observe en las pantallas de la TI el uso de la variable i: este truco permite el reuso de las entradas anterioresevitando aśı el volver a escribir los comandos, para ello basta volver a localizar el comando utilizando el cursor.

    Observe también el comando | utilizado para sustituir valores por variables en una expresión sin necesidadde hacer una asignación.�

    14.6. Ejemplo 2

    Veamos ahora un ejemplo donde se ilustra el proceso de optimización cuando no existen restricciones. Elproceso consiste de dos fases. En la primera se determnan los puntos estacionarios resolviendo el sistema deecuaciones ∇f = 0. Los puntos buscados están dentro de este conjunto. La fase siguiente consiste en aplicarel criterio para determinar si son máximos o mı́nimos locales.

    Ejemplo

    Analice la función: f : R2 → R definida por:

    f(x, y) = x3 + y3 − 3 x y

    SoluciónDeterminemos primero los puntos cŕıticos. Para ello determinemos el gradiente de la función:

    ∇f(x) =< 3 x2 − 3 y, 3 y2 − 3 x >′

    Los puntos cŕıticos satisfacen ∇f(x) =< 0, 0 >′, por tanto:

    3 x2 − 3 y = 0 y 3 y2 − 3 x = 0

    6

  • De donde:x2 − y = 0 y y2 − x = 0

    Despejando y de la primera y sustituyendo en la segunda obtenemos:

    (x2)2 − x = x4 − x = x (x3 − 1) = x (x − 1) (x2 + x + 1) = 0

    Las ráıces son

    x1 = 0, x2 = 1, x3 =1

    2+

    1

    2i√

    3, x4 =1

    2− 1

    2i√

    3

    Puesto que estamos sólo interesados en las ráıces reales, sólo consideraremos a x1 = 0 y x2 = 1. Los puntoscŕıticos quedan: (como y = x2):

    x = 0 , y = 0: P (0, 0)

    x = 1 , y = 1: Q(1, 1)

    El siguiente paso es determinar cuáles son máximos o mı́nimos relativos y cuáles puntos silla. Para ello deter-minemos la matriz Hessiana de f :

    Hf (x) =

    [

    6x −3−3 6y

    ]

    Para P (0, 0):

    Hf (P ) =

    [

    0 −3−3 0

    ]

    → Valores propios: − 3, 3

    Da signos intercambiados: P (0, 0) es punto silla.

    Para Q(1, 1):

    Hf (Q) =

    [

    6 −3−3 6

    ]

    → Valores propios: 9, 3

    Todos positivos: Q(1, 1) es punto mı́nimo relativo.Para terminar de convencernos de que efectivamente el criterio es válido tomemos el punto P (0, 0). La

    matriz Hessiana tuvo valores propios α1 = 3 y α2 = −3. Tomemos el valor propio α1. Para este valor propiode Hessiana evaluada en P (0, 0) tiene como vector propio v1 =< 1,−1 >: esta dirección define en el puntoP (0, 0) a la recta y = −x. Si sobre esta recta consideramos a la función f(x, y) tenemos:

    F (x) = f(x, y = −x) = x3 + (−x)3 − 3x(−x) = 3x2

    Si analizamos esta función efectivamente descubriremos que en x = 0 la función tiene un mı́nimo. Resumiendo:en el punto P (0, 0) y en la dirección v1 =< 1,−1 > la función f(x, y) tiene un minimo. Por otro lado, parael valor propio α2 = −3 la Hessiana evaluada en P (0, 0) tiene como vector propio v2 =< 1, 1 >: esta direccióndefine en el punto P (x, y) la recta y = x. Si sobre esta recta consideramos la función f(x, y) tenemos

    G(x) = f(x, y = x) = x3 + (x)3 − 3x (x) = 2x3 − 3 x2

    Si analizamos esta función efectivamente descubriremos que en x = 0 la función tiene un máximo en x = 0.Resumiendo: en el punto P (0, 0) y en la dirección v2 =< 1, 1 > la función f(x, y) tiene un máximo. De estosdos análisis concluimos que efectivamente la función f(x, y) tiene un punto cŕıtico en P (0, 0).

    Repitamos los cálculos en la TI. En la figura 9 se ilustra: la limpieza de las variables x y y; el registrode la función f ; el cálculo de las parciales de f ; y la determinación de los puntos cŕıticos. En la figura 10se ilustra la salida de la solución del sistema de ecuaciones que define los puntos cŕıticos. Por conveniencia,se recomienda utilizar el comando exp◮list para convertir la solución dada por la calculadora en un formato

    7

  • Figura 8: Graficas de F (x) y de G(x)

    Figura 9: Preparación para el ejemplo 2.

    Figura 10: Puntos cŕıticos de f .

    Figura 11: Salida de exp◮list y cálculo de Hf .

    8

  • Figura 12: Análisis de Q(1, 1) (p[1]) y de P (0, 0) (p[2]).

    más fácil de manipular. En la figura 11 se ilustra la salida del comando exp◮list el cual es una matriz dondelas ráıces están por renglones y el orden en las columnas está relacionado con el orden del segundo argumentode exp◮list. También se ilustra parcialmente el registro de la Hessiana de f en la variable h. En las pantallasde la figura 12 se muestran los resultados de sustituir los puntos en la matriz Hessiana de f y el cálculo desus eigenvalores. Recuerde que el primer renglón contiene las componentes del punto Q(1, 1), mientras que elsegundo renglón las de P (0, 0). Estos resultados confirman que Q(1, 1) es un mı́nimo relativo y que P (0, 0) esun punto silla.

    14.7. Algunos comandos en la TI

    En esta lectura usamos ciertos comandos que quizá merecen una explicación:

    DelVar

    exp◮list

    |

    d

    DelVar var1, var2, var3, . . .Este comando se usa para limpiar variables y es útil cuando se desea construir una expresión matemática queinvolucra a ciertas variables. Previo a definir la expresión se debe invocar este comando. Ud. puede tecleardirectamente la palaba delvar con minúsculas y su calculadora reconocerá el comando DelVar. Este comandopuede ser invocado con una o variables variables. En caso de ser varias, éstas deben ir separadas por comas: losespacios no son necesarios. Este comando equivale entrar al var-link y limpiar la o las variables declaradas.

    exp◮list(exp, {var1, var2, var3, . . .})Este comando es útil para convertir las soluciones a un sistema de ecuaciones que proporciona la calculadoraTI en una matriz cuyos renglones son cada una de las ráıces. Se asume que exp es una expresión del tipo

    var1 = v11 and var2 = v12 and · · · and varN = v1Nor...

    or

    var1 = vM1 and var2 = vM2 and · · · and varN = vMN

    la cual es precisamente la forma de la salida del comando solve. La invocación de este comando crea la matriz:

    v11 v12 · · · v1N...

    .... . .

    ...vM1 vM2 · · · vMN

    9

  • Hay dos maneras de conseguir el comando exp◮list. Una manera es ingresar desde catalog ( 2nd 2 , en laTI voyage 200) y luego moviéndose con las flechas hasta localizar la función (se puede presionar la letra e paramoverse al principio de las funciones que inician con e y después continuar con el movimiento del cursor). La

    otra consiste en teclear directamente el comando ubicando adecuadamente el caracter ◮ en el teclado ( 2nd

    Y , en la TI voyage 200).Otra cosa importante de notar es que el orden de los valores en la columna va acorde con el orden declarado enel segundo argumento (exp, {var1, var2, var3, . . .}) y no con el orden de aparición de las variables en la solución.

    exp | var1 = v1 and var2 = v2 and · · ·Esta construcción permite sustituir los valores vi de las variables vari en exp. Esto es muy conveniente pues noocurre una asignación de las variables que puedan contaminar los siguientes cálculos. El caracter | se obtieneen la TI voyage 200 con la combinación 2nd K .

    d(exp, var) o d(exp, var, n)Este comando se usa para calcular derivadas de exp respecto a la variable var. El tercer argumento opcionaln indica el número de veces consecutivas que se deriva exp. Note la diferencia entre escribir la letra d y y elcomando d : El comando de derivación se obtiene en el menú de math en el submenú calculus, o con las teclas2nd 8 en la TI voyage 200.

    14.8. Resultados requeridos

    La teoŕıa detrás de este método de optimización se basa en ciertos resultados sobre matrices y otros refe-rentes a cálculo. El siguiente resultado es uno de los más importantes del álgebra lineal y es conocido como elteorema espectral. Una de las cosas soprendentes es que un concepto simple como el de simetŕıa de una matrizpueda tener repercusiones tan importantes. La demostración de este resultado viene en el teorema 8.8 del librode A. Basilevsky (1983): Applied Matrix Algebra in Statistical Sciences (North-Holland, New York). Los resul-tados sobre cálculo se relacionan con el desarrollo de Taylor (series de potencias) de una función en variables.

    Teorema 14.2

    Sea A una matriz n × n simétrica. Entonces todos los valores propios de A son reales y existepara Rn una base ortogonal formada por vectores propios de A. Más aún, si x1, x2,. . . ,xn formanuna base ortogonal de vectores propios asociados a los valores propios λ1,λ2,. . . ,λn respectivamenteentonces si P es la matriz cuya columna i es el vector xi y D es la matriz diagonal cuyo elemento(i, i) es λi, entonces

    A = PDP′

    Bajo el supuesto de segundas derivadas parciales continuas de una función en varias variables f , el teoremade Clairaut afirma que las derivadas parciales cruzadas son iguales y por tanto la matriz hessiana Hf essimétrica. Y por tanto, evaluada en cualquier punto tendrá todos sus valores propios reales.

    El teorema espectral tiene un impacto inmediato sobre funciones llamadas formas cuadráticas:

    Teorema 14.3

    Sea A = [aij ] una matriz n × n simétrica. Si definimos la forma cuadrática en la variable x =<x1, x2, . . . , xn >

    Q(x) = x′Ax =n

    i=1

    n∑

    j=1

    aij xi xj

    entonces:

    10

  • Q(x) > 0 para toda x 6= 0 si y sólo si todos los valores propios de A son positivos.Q(x) < 0 para toda x 6= 0 si y sólo si todos los valores propios de A son negativos.

    Demostración

    Por el teorema espectral existen C ortogonal y D diagonal n × n tal que A = C′ DC por consiguiente

    Q(x) = x′ Ax = x′ C′ DCx = (Cx)′ D (Cx)

    Si definimos y = Cx entonces lo anterior queda:

    Q(x) = y′ Dy =n

    i=1

    λi yi2

    Note que al ser C ortogonal, C es invertible y por lo tanto x 6= 0 si y sólo si y 6= 0.

    Si todos los valores propios son positivos, claramente se tiene que Q(x) > 0 para toda x 6= 0.

    Si todos los valores propios son negativos, claramente se tiene que Q(x) < 0 para toda x 6= 0.

    Por otro lado:

    Si suponemos que Q(x) > 0 para toda x 6= 0. Entonces tomamos x = C′ei. Aśı y = ei y por tanto

    Q(x) =

    n∑

    i=1

    λi ei2 = λi > 0

    Si suponemos que Q(x) < 0 para toda x 6= 0. Entonces tomamos x = C′ei. Aśı y = ei y por tanto

    Q(x) =n

    i=1

    λi ei2 = λi < 0

    Esto completa la demostración�

    Dado que calcular valores y vectores propios de una matriz es un proceso numérico complejo, el siguienteresultado cambia el proceso de la determinación de valores propios por el proceso directo de cálculo de deter-minantes. La demostración de este resultado vienen en la prueba del teorema 2.14.4 del libro de P. Lancaster(1969): Theory of Matrices (Academic Press, New York).

    Teorema 14.4

    Sea A una matriz simétrica n× n. A tiene todos sus valores propios positivos si y sólo si todos losdeterminantes de las matrices principales primeras son positivos, esto es

    a11 > 0,

    a11 a12a21 a22

    > 0, . . . , |A| > 0.

    11

  • El teorema clave que da las condiciones suficientes que deben cumplir los óptimos locales para ser máximosrelativos, mı́nimos relativos o puntos sillan se deduce de variantes del teorema de Taylor que da el desarrollode potencias de una función. La prueba de este resultado aparece en la demostración del teorema 7.5.1 dellibro de A. Khuri (1993): Advanced Calculus with Applications in Statistics (John Wiley and Sons, New York)

    Teorema 14.5

    Sea f : D ⊆ Rn → R y sea B(xo) una vecindad de xo ∈ D tal que B(xo) ⊆ D. Si todas lasparciales de f existen y son continuas hasta orden ≤ r en B(xo), entonces para cualquier puntoxo + x ∈ B(xo) se cumple

    f(xo + x) = f(xo) +r−1∑

    i=1

    1

    i!

    [

    x′∇]i

    f(xo) +1

    r!

    [

    x′∇]r

    f(zo)

    donde zo está en la ĺınea que une xo con xo + x.

    Demostración de la versión del teorema utilizada en la prueba de la suficiencia de las condiciones paramáximos, mı́nimos y puntos silla y que se formula como sigue puede ser encontrada en la prueba del teorema9.4 del libro de T. Apostol (1980): Calculus, Volumen 2 (Reverté, Barcelona).

    Teorema 14.6

    Sea f(x) una función escalar definida en una n-bola B(x0) y con derivadas parciales de segundoorden continuas en B(x0). Entonces para todo x0 + x ∈ B(x0) se tiene

    f(x0 + x) − f(x0) = ∇f(x0) • x +1

    2x′ Hf (x0)x + ‖x‖2E2(x0,x)

    donde E2(x0,x) → 0 cuando x → 0.

    Del teorema anterior se deduce que en un punto cŕıtico x0 el signo de f(x0 + x) − f(x0) es el signo dex′ Hf (x0)x.

    12

    IntroducciónÓptimos de una FunciónPunto Crítico o EstacionarioTeorema ClaveEjemplo 1: Clasificación de puntosEjemplo 2Algunos comandos en la TIResultados requeridos