Planteamiento y soluci´on de un modelo DEA estoc´astico ...

Planteamiento y solucion de un modelo DEA estocastico para datos

longitudinales con estructura de antedependencia

Approach and solution of stochastic DEA model for longitudinal data with

antedependence structure

Jhon Jairo Vargas Sanchez

Universidad Nacional de Colombia

Facultad de Ingenierıa y Arquitectura, Doctorado en Ingenierıa - Lınea Automatica

Manizales, Colombia

2016

Planteamiento y solucion de un modelo DEA estocastico para datos

longitudinales con estructura de antedependencia

Approach and solution of stochastic DEA model for longitudinal data with

antedependence structure

Jhon Jairo Vargas Sanchez

Tesis o trabajo de grado presentada(o) como requisito parcial para optar al tıtulo de:

Doctor en Ingenierıa

Director:

Ph.D. Gerard Olivar Tost

Co-Director:

Ph.D. Edilberto Cepeda

Universidad Nacional de Colombia

Facultad de Ingenierıa y Arquitectura, Departamento de Ingenierıa Electrica

Manizales, Colombia

2016

(Dedicatoria)

A mis padres Jesus Antonio Vargas Amonguie

(QPD) y Amparo Sanchez quienes me iniciaron

en un camino profesional.

A mi esposa Luz Aleyda Delgado por su

incondicional e inconmensurable apoyo.

A mis hijos Juan Angel y Marcelo, regalo

de Dios.

A mis hermanos Gloria Helena, Carlos Al-

berto, Ricardo Leon y Nelson Enrique, que Dios

los congregue en una sola bendicion.

Agradecimientos

Al grupo de personas del Departamento de Fısica y Matematicas de la Universidad Autono-

ma de Manizales por sus revisiones.

ix

Resumen

Para propositos de medir la eficiencia en las organizaciones se usa la tecnica DEA (Data

Envelopment Analysis). Los modelos DEA temporales reportados en la literatura no explo-

ran la estructura de correlacion en las variables ni el error aleatorio. Introducimos un nuevo

modelo DEA temporal estocastico capaz de capturar las caracterısticas de covarianza de las

variables de salida que pueden ser largas series de tiempo y capaz de modelar la naturaleza

aleatoria de las variables. Este nuevo modelo DEA podrıa aplicarse en el desarrollo de una

nueva metodologıa DEA en tiempo real.

Palabras clave: DEA estocastico, DEA temporal, Antedependencia, Modelo Mixtura

para series de tiempo.

Abstract

For purposes of measuring efficiency in organizations DEA (Data Envelopment Analysis)

technique is used. Temporary DEA models reported in the literature do not explore the

structure of correlation in the variables or random error. We introduce a new DEA model

capable of capturing stochastic and temporal characteristics covariance output variables that

can be long and time stochastic series capable of modeling the stochastic nature of the va-

riables. This new DEA model could be applied in the development of a new methodology

DEA in real time.

Keywords: Stochastic DEA, temporal DEA, Antedependence, Mixture model for time

series.

Contenido

Agradecimientos VII

Resumen IX

1. Introduccion 1

2. Marco teorico 5

2.1. Introduccion a la metodologıa DEA . . . . . . . . . . . . . . . . . . . . . . . 5

2.1.1. Primera definicion de productividad . . . . . . . . . . . . . . . . . . . 5

2.1.2. Modelo CCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.1.3. Conceptos basicos para construir un CCR . . . . . . . . . . . . . . . 9

2.1.4. Formas matriciales del CCR . . . . . . . . . . . . . . . . . . . . . . . 11

2.2. Otros modelos DEA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3. Modelos que cosideran la incertidumbre y la probabilidad . . . . . . . . . . . 13

2.3.1. Modelo CCP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3.2. Modelo CCP en su forma dual . . . . . . . . . . . . . . . . . . . . . . 17

2.4. DEA estocastico sobre DEA convencional . . . . . . . . . . . . . . . . . . . . 19

2.5. Modelos DEA temporales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.6. Distribucion condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.7. Conceptos Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.8. Analisis cluster para series de tiempo . . . . . . . . . . . . . . . . . . . . . . 23

2.8.1. Mixturas normales multivariadas . . . . . . . . . . . . . . . . . . . . 24

2.8.2. Mixturas para altas dimensiones . . . . . . . . . . . . . . . . . . . . . 25

2.8.3. Asignacion a cluster y seleccion de un modelo de mixtura . . . . . . . 28

2.9. Algoritmos de estimacion de parametros en modelos de mixtura . . . . . . . 29

2.9.1. Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.9.2. Algoritmo EM para mixtura de densidades Gaussianas . . . . . . . . 31

2.9.3. Algoritmo AECM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.10. Estimacion de mixturas normales multivariadas . . . . . . . . . . . . . . . . 39

2.10.1. Estimacion del modelo esferico . . . . . . . . . . . . . . . . . . . . . . 39

2.10.2. Estimacion del modelo coeficientes aleatorios . . . . . . . . . . . . . . 40

2.10.3. Estimacion del modelo efectos aleatorios . . . . . . . . . . . . . . . . 41

Contenido xi

3. Modelo DEA propuesto 46

3.1. Partiendo de modelo CCP . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.2. Desarrollo para el modelo DEA . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.3. Desarrollo primer conjunto de restricciones parte I . . . . . . . . . . . . . . . 51

3.4. Desarrollo primer conjunto de restricciones parte II . . . . . . . . . . . . . . 54

3.4.1. Estructura de subsumando 1 . . . . . . . . . . . . . . . . . . . . . . . 56

3.4.2. Estructura de subsumandos 2 y 3 . . . . . . . . . . . . . . . . . . . . 57

3.4.3. Estructura de subsumando 4 . . . . . . . . . . . . . . . . . . . . . . . 58

3.4.4. Restriccion completa . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.5. Modelo DEA propuesto y uso con datos reales . . . . . . . . . . . . . . . . . 59

3.5.1. Modelo propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.5.2. Uso del modelo propuesto . . . . . . . . . . . . . . . . . . . . . . . . 60

3.6. Presentacion de los algoritmos para correr el modelo DEA propuesto . . . . 68

3.6.1. Estructura de los algoritmos antedepenPRP, antedepenPB y antedepenVA 68

3.6.2. Calculando eficiencias DEA . . . . . . . . . . . . . . . . . . . . . . . 70

3.6.3. Otros algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4. Conclusiones y recomendaciones 72

4.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.2. Recomendaciones o sugerencias para trabajos futuros . . . . . . . . . . . . . 74

A. Estimacion de parametros Σwk 76

A.1. Personal Remunerado Permanente Σwk . . . . . . . . . . . . . . . . . . . . . . 76

A.2. Produccion Bruta Σwk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

A.3. Valor Agregado Σwk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

B. Anexo: Estimacion de parametros Σk 79

B.1. Personal Remunerado Permanente Σk . . . . . . . . . . . . . . . . . . . . . . 79

B.2. Produccion Bruta Σk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

B.3. Valor Agregado Σk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

C. Anexo: Estimacion µk, πk, y clasificacion cluster 83

C.1. Vectores de medias µk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

C.2. Parametros πk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

C.3. Calsificacon cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

D. Apendice 84

D.1. Algebra lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

D.1.1. Traza de una matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

D.1.2. Derivadas de matrices y determinantes . . . . . . . . . . . . . . . . . 84

xii Contenido

Bibliografıa 86

1. Introduccion

El Analisis Envolvente de datos o DEA (por sus siglas en ingles Data Envelopment Analysis),

es una tecnica no parametrica usada para evaluar las eficiencias relativas de un conjunto de

unidades de decision DMU’s (Decision Making Units). DEA fue creada por Charnes, Cooper

y Rhodes (Cooper et al., 1978)[35] y la metodologıa consiste en comparar las DMUs con una

frontera de eficiencia. Existen cuatro lıneas de investigacion DEA (Cook y Seiford, 2009)[59],

la cuarta que es la de interes en el presente trabajo, se conoce como la modelizacion de

variacion de los datos. Esta se divide en las siguientes tres: analisis de sensibilidad, modelos

basados en probabilidad y DEA temporal.

Los modelos basados en probabilidad tienen tres lıneas de investigacion: El estimador de

verosimilitud DEA, regresion de frontera estocastica y el CCP (por sus siglas en ingles

Chance Constrained Programming). La lınea DEA temporal posee dos modelos conocidos

en la literatura como analisis de ventana e ındice Malmquist.

El CCP es un modelo estocastico creado por Land, Lovell y Thore (Land et al., 1992)[105]

como un tercer metodo para tratar la incertidumbre en los datos de un modelo DEA. La ven-

taja de CCP, a diferencia los DEA determinısticos, es que considera el ruido o error aleatorio

en la estimacion de las eficiencias. Sin embargo los modelos estocasticos miden la eficiencia

en un instante de tiempo. CCP asume un conjunto de variables aleatorias univariadas para

la salida yrj (la r − esima salida de la DMUj).

Los modelos DEA temporales por su parte, buscan la variacion de las eficiencias en el tiempo.

Se conocen en la literatura DEA dos modelos dependientes del tiempo, el primero el analisis

de ventana (Klopp, 1985)[100], y el segundo el ındice Malmquist (Malmquist, 1953)[118].

Hasta el momento no se han registrado otros modelos de este tipo, esto se evidencia en el

estado del arte en Toshiyuki et al. (2013)[177] y en Sueyoshi y Goto (2013)[166]. En vez

de nuevos metodos se menciona una extension que combina analisis de ventana con ındice

Malmquist en Thore et al. (1994)[170] y en Goto y Tsutsui (1998)[90]. Tal combinacion

fue llamada “ındice de productividad Malmquist”(Toshiyuki et al., 2013)[166]. Este ultimo

artıculo, en su revision de estudios previos de DEA en un horizonte de tiempo, tambien

reporta los mismos dos metodos y una mezcla entre los dos, no ha referenciado nuevos

metodos, pero sı menciona aplicaciones de estas tecnicas en valoracion ambiental cuando se

tienen salidas deseables (electricidad) y salidas indeseables (emision de CO2) en una planta

de generacion de energıa electrica con carbon.

2 1 Introduccion

El analisis de ventana trata cada DMU como si fuera diferente en cada tiempo. Al tener

N perıodos de tiempo y n DMUs, se consideran n × N DMUs. Esta tecnica escoge una

“longitud de ventana” p (p < N) y evalua n × p eficiencias para cada ventana, en vez

de n × N, donde el numero de ventanas depende del lapso de tiempo considerado. Esta

ventana se va corriendo hasta llegar al ultimo perıodo. De esta forma se puede visualizar si

las eficiencias de determinada DMU experimentan tendencias al deterioro o se estabilizan en

cierto nivel de eficiencia. Luego se calcula media y varianza como medidas explicativas de

las eficiencias de cada DMU. Detalles del analisis de ventana en Cooper et al. (2007)[61].

El ındice Malmquist evalua el cambio de productividad de una DMU entre dos perıodos

de tiempo. En el Malmquist una medida de recuperacion, cuyo termino original es llamado

“Catch-up” es calculada para verificar si hubo progreso en la eficiencia relativa de un perıodo

1 al 2, o si hubo decrecimiento. Mediante una medida de efecto de frontera, cuyo termino

original es llamado “Frontier-shift”, estudia el progreso o deterioro, entre el perıodo 1 al 2,

de la frontera de eficienca para una DMU observada (DMUo).

Algunas debilidades pueden ser resaltadas en el analisis de ventana y en el ındice Malm-

quist, (1) ninguno de ellos exploran una estructura de autodependencia en las variables de

entrada y/o salida, ya que estas ultimas no son tratadas como una serie de tiempo; (2) no

consideran el error aleatorio en las variables de entrada y/o salida; (3) estan disenados para

perıodos cortos de tiempo; (4) no usan una tecnica estadıstica para estimar eficiencias y

(5) asumen independencia en el calculo de eficiencia de un perıodo a otro, por lo tanto no

consideran eficiencias en el tiempo como una serie estacionaria y mucho menos asumen series

no estacionarias que podrıa ser el caso mas comun en una situacion real.

Ninguno de los modelos revisados, DEA estocastico y DEA temporal, consideran variables

de entradas y/o salidas como datos longitudinales y por supuesto tampoco consideran una

estructura de correlacion de cada variable de entrada y/o salida en el tiempo. El DEA

estocastico asume que cada DMU tiene m entradas y s salidas; para una DMUj , la k− esimasalida (k = 1, 2, ..., s) es un numero, el cual es una realizacion de una variable aleatoria

univariada ykj medida en un instante del tiempo. No se considera entonces, que la k− esimasalida sea un vector aleatorio, donde cada componente del vector indica el nivel de salida de

la DMUj en el tiempo t.

No se conoce en la literatura DEA un modelo que sea estocastico y a la vez sea temporal. Serıa

de importancia y de alto poder aplicativo si se contara con un modelo DEA que cumpliera

con las siguientes tres caracterısticas: Que sea estocastico, que sea temporal y supere las

debilidades enunciadas en los modelos dependientes del tiempo.

Superar las debilidades enunciadas en los modelos dependientes del tiempo implica explorar

las estructuras de dependencia temporal en las variables de entrada y/o salida durante

perıodos largos de tiempo. Los modelos DEA temporales no lo hacen, ya que en el caso

3

de analisis de ventana, se calculan varias eficiencias en diferentes perıodos considerados

independientes y obtienen medidas descriptivas apartir de allı, medidas tales como media y

varianza, pero no consideran las variables de entrada y/o salida como variables aleatorias. En

el caso del ındice Malmquist solo considera cambios del perıodo 1 al 2 y tampoco consideran

las variables de entrada y/o salida como variables aleatorias.

En la presente tesis doctoral, se pretende investigar DEA estocastico como una extension

del CCP y en vez de considerar variables de salida univariadas yrj, se consideraran vectores

de salida aleatorios (yrj1, yrj2, ..., yrjt), es decir, el r-esimo vector aleatorio de salidas para la

DMUj . Cada componente del vector representa el nivel de la r-esima salida de la DMUj en

un tiempo t. La investigacion incluye el estudio de la estructura de autodependencia de los

vectores de salidas, estimando parametros como media poblacional y matriz de varianzas y

covarianzas del vector aleatorio.

La investigacion pretende unir las ventajas de un CCP extendido al caso multivariado y

las ventajas de los modelos temporales con una adecuada modelacion de la estructura de

correlacion. Un modelo de este tipo unirıa las ventajas de los dos enfoques, el estocastico

y el dependiente en el tiempo, y ademas fortalecerıa las debilidades que se han encontrado

en los modelos DEA temporales y permitirıa la exploracion de nuevas consideraciones en el

DEA estocastico, tal como el hecho de que las variables aleatorias de entrada y/o salida no

sean univariadas sino longitudinales con una estructura de autodependencia en el tiempo.

La naturaleza aleatoria y temporal del nuevo modelo se justifica si se tiene en cuenta la

siguiente situacion: Considerese un conjunto de DMUs que tienen valores en sus diferentes

salidas. Tales valores se han registrado en varios instantes de tiempo, es decir se tienen

series temporales para las diferentes salidas de cada una de las DMUs. Una DMU0 (DMU

observada) pudo haber tenido desempenos importantes en anteriores perıodos y un pobre

desempeno en el ultimo perıodo. Si se midiera el ultimo perıodo (en un instante como lo

hace DEA clasico y DEA estocastico) y se realizara una comparacion de eficiencias, la DMU0

tendrıa los ultimos puestos en la clasificacion de las eficiencias (ranking). Si se tuviera en

cuenta la historia, serıa una comparacion de alguna manera mas justa para la DMU0. Tener

en cuenta la historia significa ver cada entrada y cada salida de cada DMU como una serie

de tiempo y modelar una correcta estructura de correlacion en el tiempo.

El presente documento de tesis se encuentra estructurado de las siguiente forma. En el

presente capıtulo se ha mostrado lo que es el problema de investigacion, la justificacion y el

estado del arte que permita obtener una base para saber como se puede aportar a la literatura

DEA, como puede apreciarse, el aporte se enfoca sobre todo a los modelos dependientes del

tiempo DEA. En el segundo capıtulo se encuentra un marco teorico de la metodologıa DEA

necesaria y la teorıa estadıstica que se usara para desarrollar la presente tesis. En el capıtulo

3 se muestra el resultado de la tesis, mostrando el modelo propuesto, como se llego a el y

4 1 Introduccion

puesta a prueba con datos reales. En el capıtulo 4 las conclusiones y recomendaciones para

trabajos futuros. Los siguientes capıtulos corresponden a los anexos y apendice.

2. Marco teorico

2.1. Introduccion a la metodologıa DEA

El analisis envolvente de datos (DEA) es una tecnica no parametrica usada para evaluar

las eficiencias relativas de un conjunto de DMU’s (Decision Making Units) (Cooper et al.,

1978)[35].

DEA tiene multiples aplicaciones en diferentes sectores economicos y ademas se encuentran

aplicaciones en muchos paises. Algunas de la aplicaciones que se pueden destacar de la

metodologa DEA son:

Operacion de servicio de alimentos en varios hospitales de Australia y Estados unidos

(Matawie y Assaf, 2010)[12].

Las plantas de tratamiento de aguas residuales, aunque logran un gran beneficio am-

biental, tambien generan altos costos de mantenimiento, la valoracion de la eficiencia es

muy util para la reduccion de costos. En Espana se ha tomado una muestra de plantas

de tratamiento de aguas residuales para medir su eficiencia (Garrido et al., 2012)[147].

En Macpherson et al. (2013)[116], investigadores usan DEA para examinar la eficiencia

de polıticas ambientales y asignacion de recursos, estudiando variables exogenas o no

controlables como clima, hidrologıa, topografıa, produccion ambiental como especies

invasivas y fragmentacion forestal en la region media atlantica de Estados Unidos.

Estudios sobre aplicacion de analisis envolvente de datos en refinerıas petroleras en

Japon se registra en Sueyoshi (2000)[176] y recientemente en Irak en Al-Najjar y Al-

Jaybajy (2012)[4], donde se resalta la importancia que puede llegar a ser la herramienta

DEA para el desarrollo de un pais.

2.1.1. Primera definicion de productividad

DEA nace en el primer concepto de productividad. El primer trabajo sobre productividad

se remonta en los trabajos de Farrell (1957)[79]. La siguente definicion fue tomada de pagina

15 de Soto y Arenas (2010)[161].

6 2 Marco teorico

La productividad debe ser entendida como la relacion entre el nivel de produccion final obte-

nido y los recursos o insumos necesarios para lograrlo.

En 1950 la organizacion para la Cooperacion Economica Europea se refiera a la productividad

de factores como ”El cociente que se obtiene al dividir la produccion entre uno de los factores

de produccion”

La siguiente expresion fue introducida por Farrel (1957):

Productividad = ProduccionCreadaRecursoConsumido

= SalidaEntrada

,

donde salida y entrada hacen referencia respectivamente al resultado obtenido y al recurso

utilizado.

Difıcilmente la unidad a la cual se le calcula la productividad tiene una sola salida y una

sola entrada, en Roa (2003)[142] pagina 71:

Si se consideran unidades productivas con un solo resultado y un solo recurso causante de

este resultado, la formula de Farrell serıa suficiente para el analisis de la productividad. Sin

embargo se puede encontrar multitud de casos en donde son varios los resultados (salidas)

y tambien varios recursos (entradas) que posibilitan los resultados. Es aquı donde aparecen

algunas dificultades a la hora de evaluar la productividad.

Por ello la formula de Farrell tuvo inconvenientes en el calculo de la productividad. Este

concepto se mantuvo hasta el ano de 1978 cuando Charnes, Cooper y Rhodes retoman el

trabajo de Farrell para introducir, en Charnes et al. (1978)[35], una nueva forma de medir

la eficiencia.

Debido a que la unidad a la que se le calcula la productividad tiene la capacidad para decidir

modificar, bien sea la cantidad de cada uno de los recursos que estan siendo utilizados, o

bien la cantidad de los recursos producidos, dicha unidad se le ha llamado, en Charnes et al.

(1978)[35], unidad de decision o Decision Making Unit (DMU).

Estos autores lograron suplir las falencias que deja Farrell al implementar multiples entradas

y salidas, mediante una metodologıa que llamaron DEA y a su primer modelo lo llamaron

CCR (por las iniciales de los autores).

2.1.2. Modelo CCR

El primer modelo DEA que aparece en la literatura fue el CCR (Charnes, Cooper y Rhodes)

para afrontar la dificultad de tener que agrupar en una misma expresion recursos (entradas)

y resultados (salidas) que pueden tener muy distinta naturaleza y por consiguiente unidades

2.1 Introduccion a la metodologıa DEA 7

de medida diferentes. Para solucionar este problema aparecen los conceptos de entrada y

salida virtual, es decir, la agregacion de las salidas y las entradas escalonadas mediante un

peso ponderador, que la literatura llama “multiplicadores” (Cook y Seiford, 2009)[59], para

que el resultado sea adimensional y por tanto independiente de la escala utilizada. Ası en

Roa (2003)[142] paginas 71-74 o en Soto y Arenas (2010)[161] pagina 17 :

productividad = SumaPonderadaDeSalidasSumaPonderadaDeEntradas

.

En Soto y Arenas (2010)[161] pagina 17 se escribe:

Por lo tanto si denotamos como xij a la cantidad de entrada o mas especıficamente a la

cantidad de salida i utililizado por la DMU j y como yrj a la cantidad de recurso r que

produce la misma unidad DMU j, se obtienen las siguientes expresiones:

EntradaV irtual =m∑i=1

vij × xij

SalidaV irtual =s∑

r=1

urj × yrj.

En las anteriores expresiones de entrada y salida virtual, los terminos vij y urj son respecti-

vamente los pesos ponderadores correspondientes a cada entrada y salida, m el numero total

de las entradas consideradas, y s el numero total de salidas de la DMU. De esta forma se

logra definir la productividad como:

Productividad =∑s

r=1urj×yrj∑m

i=1vij×xij

.

La productividad se calcula cuando se trata de una sola DMU, pero cuando se van a comparar

varias DMUs, aparece el concepto de eficiencia de Charnes, Cooper y Rhrodes, que en Alfredo

Roa (2003)[142] (paginas 73 -74), la enuncian como:

Eficienciaj =Pr oductividadjPr oductividado

=SalidasV irtuales/EntradasV irtualesjSalidasV irtuales/EntradasV irtualeso

.

El subındice j indica la unidad (DMU) que esta siendo estudiada (a la que se le va a calcular

la eficiencia) y el subındice o la DMU que se toma como referencia.

La formula para calcular la eficiencia relativa basada en pesos ponderadores es la siguiente:

Eficiencia =

s∑r=1

urj∗yrj/m∑i=1

vij∗xij

s∑r=1

urj∗yrj/m∑i=1

vij∗xij |o.

8 2 Marco teorico

En el anterior cociente, el subındice “o” al lado derecho de la lınea vertical en el denominador

indica el hecho de que en el denominador se calcula la eficiencia de la DMU que esta sirviendo

de referencia. En este cociente se podrıa encontrar infinitos pesos ponderadores que dan la

misma eficiencia. En Soto y Arenas (2010)[161]:

Con los siguientes pares de pesos vij, urj y un multiplo de ellos, α ∗ vij; β ∗ urj , con α, β

cualquier numero real, se obtiene la misma eficiencia. Para simplificar de alguna forma el

numero de pesos que dan igual eficiencia relativa se establece de aquı en adelante que la

productividad de la unidad de referencia es uno. De esta forma, sea cual fuere la definicion

de eficiencia relativa utilizada, en el denominador siempre aparecera la unidad, ya que la

unidad de referencia es eficiente, y por lo tanto se puede expresar la eficiencia de DMU “j”

como:

Eficienciaj =

∑sr=1 urj × yrj∑mi=1 vij × xij

. (2-1)

En Charnes et al. (1978)[35] se presenta modelo CCR (Charnes, Cooper y Rhodes) como

un salto desde Farrell (1957) a un modelo mejorado, el modelo (2-2). Este calcula la efi-

ciencia de una DMU denotada por θ cuando es maximizada, y por lo tanto se necesitan n

optimizaciones, una para cada DMUj . En la literatura DEA θ maximizado se denota como

θ∗, que es el valor de la eficiencia de la DMU observada. Como se sugiere en Cooper et al.

(2007) en la pagina 23, (2-2) se resuelve para obtener los valores de los pesos de las entradas

(vi)(i = 1, ..., m) y los pesos de las salidas (ur)(r = 1, ..., s) como variables.

maxu,v

θ = u1y1o+u2y2o+...+usysov1x1o+v2x2o+...+vmxmo

sujeto a las restricciones: (2-2)u1y1j+u2y2j+...+usysjv1x1j+v2x2j+...+vmxmj

≤ 1 (j = 1, ..., n)

v1, v2, ..., vm ≥ 0

u1, u2, ..., us ≥ 0.

El modelo (2-2) puede tambien representarse como en Cook y Seiford (2009)[59] el cual

esta basado en [35]:

maxu,v

θ =

∑r

uryro∑i

vixio

sujeto a las restricciones: (2-3)∑r

uryrj −∑i

vixij ≤ 0 para toda j

ur, vi ≥ ε para toda r, i,

donde ε es un valor no arquimediano designado para forzar la estricta positividad de las

variables.


2.1.3. Conceptos basicos para construir un CCR

El modelo (2-3) esta presentado en la forma primal y esta basado en los pesos ponderadores,

tal como se conoce en la literatura DEA, pero existe un modelo equivalente en su forma

dual, el cual esta basado en la envolvente que limita un conjunto factible para las DMUs.

A continuacion se introducen unos conceptos basicos para construir un modelo CCR basado

en la envolvente, de allı el nombre analisis envolvente de datos.

Eficiencia Paretiana orientada a las entradas

Una DMU es Pareto eficiente si no es posible disminuir ninguno de sus niveles de entrada

sin tener que incrementar al menos uno de sus otros niveles de entrada o disminuir al menos

uno de sus niveles de salida (Soto y Arenas, 2010)[161].

La anterior definicion de eficiencia Paretiana orientada a las entradas matematicamente se

expresa como:

Sean yrj (r = 1, ..., s) los niveles de salida alcanzados por la DMU j y xij ( i = 1, ..., m)

los niveles de entradas que ella usa. Una DMU jo es pareto eficiente si no existe una DMU

j 6= jo tal que xi′j < xi′jo para algun i′ y xij ≤ xijo para todo i 6= i′ mientras que yrj ≥ yrjopara todo r.

Eficiencia de Pareto orientado a las salidas

Una DMU es Pareto Eficiente si no es posible aumentar ninguno de sus niveles de salida sin

tener que disminuir al menos uno de sus otros niveles de salida o aumentar al menos uno de

sus niveles de entrada (Soto y Arenas, 2010)[161].

La anterior definicion matematicamente se expresa como:

Sean yrj (r = 1, ..., s) los niveles de salida alcanzados por la DMU j y xij ( i = 1, ..., m)

los niveles de entradas que ella usa. Una DMU jo es pareto eficiente si no existe una DMU

j 6= jo tal que yr′j > yr′jo para algun r′ y yrj ≥ yrjo para todo r 6= r′ mientras que xij ≤ xijopara todo i.

Ası de acuerdo con la nocion paretiana de eficiencia se considera que una unidad es eficiente

si no existe otra en la muestra que produzca mas de alguno de las salidas sin producir

menos de algun otro y sin utilizar mas de alguno de los recursos productivos, o bien, si no

existe alguna unidad que produzca los mismas salidas con menos cantidad de algun factor

productivo y no mas de los restantes (Cooper et al., 2007)[61].

PPS o CPP

El conjunto PPS (por sus siglas en ingles production posibility set) o en espanol CPP(conjunto

de posibilidades de produccion) es un conjunto construido bajo unos supuestos y es el que

permite crear un espacio de posibilidades limitado por una frontera, aquella DMU que se

10 2 Marco teorico

encuentre en la frontera o cerca de ella se considera eficiente. La medida de eficiencia por

DEA basados en la definicion de eficiencia Pareto involucra dos pasos basicos, en pagina 58

de Soto y Arenas (2010)[161]:

1. La construccion de un conjunto de posibilidades de produccion CPP.

2. La estimacion de la maxima expansion factible de las salidas o contraccion factible del

nivel de entradas de la DMU dentro del conjunto de posibilidades de produccion.

El CPP o PPS se basa en los siguientes supuestos

1. La interpolacion entre correspondencias factibles de entradas y salidas conduce tam-

bien en principio a una nueva correspondencia factible de entradas y salidas. P =[(X, Y ) | x =

∑j λjxj ; y =

∑j λjyj;λj ≥ 0, ∀j

]

2. La produccion ineficiente es posible. Si (x′, y′) ∈ P y x ≥ x′ entonces (x, y′) ∈ P

donde x ≥ x′ significa que al menos un elemento de x es mayor que el correspondiente

elemento de x′. Si (x′, y′) ∈ P y y ≤ y′ entonces (x′, y) ∈ P.

3. La transformacion de entradas a salidas se caracteriza por un retorno a escala cons-

tante, formalmente: Si ((x′, y′) ∈ P ) entonces para todo λ > 0 ((λx′, λy′) ∈ P )

4. No es posible una salida a menos que alguna entrada sea usada (hablando informal-

mente es la suposicion de que el “almuerzo no es gratis”). Formalmente (x′, 0) ∈ P

pero si y′ ≥ 0 entonces (0, y′) /∈ P.

5. El CPP es el menor conjunto que satisface las mencionadas suposiciones y que ademas

contiene todas las correspondencias observadas entre las entradas y salidas.

¿Como construir un conjunto P de posibilidades de produccion(CPP)?. El conjunto de pro-

babilidades de produccion, CPP, que satisface los postulados arriba enunciados puede ser

construido a partir de la DMUs observadas (xj , yj, con j = 1, 2, ...N) como sigue:

P =[(x, y) | x ≥

∑j λjxj ; y ≤

∑j λjyj;λj ≥ 0, ∀j

]

Por lo que se ha visto hasta aquı, un modelo DEA puede estar basado en valores (modelo

primal (2-3)), o en la construccion de la frontera que envuelve el CPP (modelo dual). El

concepto de frontera se entiende mejor al observar la Figura 2-1, cada letra representa las

diferentes DMUs las cuales tienen dos entradas y una salida normalizada a uno. La curva

FCDQER es la frontera envolvente y la DMU A es mas eficiente que la B porque esta mas

cerca a la frontera de eficiencia.


Figura 2-1.: Conjunto de posibilidades de produccion PPS, fuente [61].

Un modelo basado en valores sigue la ecuacion (2-1), donde los ur son los pesos de cada una

de las salidas y los vi son los pesos de cada una de las entradas. Un modelo DEA basado

en valores escoge los pesos de una manera tal que asigna el mejor conjunto de pesos a cada

DMU, ası que si una DMU no ocupa el primer puesto de la clasificacion (ranking en la

teminologıa original DEA), no es porque se hayan asignado mal sus pesos ponderadores,

sino porque tiene problemas de utilizacion de sus recursos de entrada para producir salidas

mejores.

Un modelo basado en la envolvente, construye la frontera que envuelve el CPP y luego calcula

la maxima contraccion radial posible en las entradas o la maxima expansion radial posible

en sus salidas. Un modelo CCR en su forma dual se explica en la siguiente subseccion formas

matriciales del CCR.

2.1.4. Formas matriciales del CCR

Un modelo CCR primal orientado a las entradas se puede observar en la pagina 118 de Soto

y Arenas (2010)[161]:

Maxu,v zo = uyos.a

vxo = 1

uY − vX ≤ 0

u ≥ 0; v ≥ 0

12 2 Marco teorico

El anterior modelo esta basado en el cociente de salidas sobre las entradas con valores

ponderados para cada una de las salidas y de las entradas.

Un modelo CCR dual orientado a las entradas en su forma matricial se puede observar en

la pagina 119 [161]:

mın θ

sujeto a las restricciones: (2-4)

θxo −Xλ ≥ 0

Y λ ≥ yoλ ≥ 0

λ = (λ1, λ2, ..., λn)T .

En el anterior modelo, θ cuando es minimizado es el nivel de eficiencia de la DMU considera-

da, el modelo esta basado en el CPP y frontera que envuelve el CPP. Puede entenderse que

se esta minimizando la contraccion radial de las entradas, es decir aquella DMU que sufra

una contraccion cero, sera eficiente. Los vectores xo y yo son los niveles de las entradas y

de salidas respectivamente de la DMUo. Los tamanos de xo y yo corresponden al numero de

entradas y salidas respectivamente. Cuando θ es minimizado se denota como θ∗. El vector

λ = (λ1, λ2, ..., λn)T . La matriz X es la de entradas y se dispone de tal forma que el numero

de filas sean el numero de entradas y el numero de columnas sean el numero de DMUs. La

matriz Y es la de salidas y se dispone de tal forma que el numero de filas sean el numero de

salidas y el numero de columnas sean el numero de DMUs.

El siguiente es un modelo CCR dual orientado a las salidas en su forma matricial

max η


x0 −Xµ ≥ 0

ηy0 − Y µ ≤ 0

µ ≥ 0.

La variable que se optimiza es η que corresponde a la eficiencia de la DMU observada cuando

es maximizada. El vector µ = (µ1, µ2, ..., µn)T . Cuando η es maximizado se denota como η∗.

La matriz X es la de entradas y se dispone de tal forma que el numero de filas sean el

numero de entradas y el numero de columnas sean el numero de DMUs. La matriz Y es la

de salidas y se dispone de tal forma que el numero de filas sean el numero de salidas y el

numero de columnas sean el numero de DMUs. Se cumple la relacion θ = 1/η. Las variables

µi cumplen la misma funcion de las variables λi en modelo (2-4), es decir, formar la frontera

de eficiencia a traves de interpolacion entre correspondencias factibles (ver conjunto CPP en

la construccion del modelo CCR).

2.2 Otros modelos DEA 13

2.2. Otros modelos DEA

Se destacan otros modelos DEA como el BCC (Banker et al., 1984)[139] caracterizado por

su retorno a escala variable; el modelo aditivo no esta basado en contraccion radial como

BCC y CCR sino en holguras (Charnes et al., 1985)[1], uno de los mas destacados es el SBM

en Tone (1997, 2001)[174]; trabajos posteriores por mantener una concordancia entre los

modelos CCR, BCC y aditivo se encuentran en Sueyoshi (1990)[163] y en Chang y Sueyoshi

(1991)[31].

Otros modelos DEA reportados en la literatura a cerca de modelos no radiales se han estu-

diado (Portela et al., 2003)[137] y Portela y Thanassoulis (2007)[17]. Los modelos hıbridos

permiten la posibilidad de elegir si hacer o no contraccion radial (Tone, 2004)[175]. Modelos

que permiten trabajar con unidades diferentes a las originales se estudian en la traslacion

invariante, en Cooper (2007)[61] se muestra que el modelo BCC orientado a las entradas es

invariante con respecto a la salida (pero no a las entradas) y que el BCC orientado a las

salidas es invariante con respecto a la entradas (pero no a las salidas).

El modelo libre disposicion (Deprins et al., 1984)[68] se basa solo en las observaciones encon-

tradas para construir la frontera y no en combinaciones lineales (como el CCR) o convexas

(como el BCC). Libre disposicion fue luego extendido por Tulkens (1993)[178]. Los modelos

de proyecciones de mınima distancia buscan otras distancias a la frontera de eficiencia dife-

rentes a la euclidiana (Frei y Harker, 1999)[85], (Charnes et al., 1992)[36], (Charnes et al.,

1996)[38]) y Briec (1999)[26].

Los modelos multinivel buscan eficiencias no en una situacion instantanea sino en redes

(Cook et al., 2009)[59]. Modelos en cadenas de suministro Seiford y Zhu (1999)[153] y Chen

y Zhu (2004)[41] proporcionan el modelo para un proceso con dos estaciones de trabajo.

Trabajos de Zhu (2003)[189] muestran un modelo para eficiencias tanto individuales como

del total de la cadena de suministro, aportes de eficiencias en cadena de suministros (Liang et

al., 2006)[112] son construidos bajo teorıa de juegos. Muchos modelos tratan sobre procesos

en serie, pero tambien existen estudios para evaluar eficiencia para procesos en paralelo en

actividades de ventas y de servicios en el sector bancario (Cook et al., 2000)[52]. Modelos

multicomponentes se ven en Portela et al. (2007)[17] y eficiencias de estructuras anidadas

como subsistemas dentro de otros sistemas en Cook et al. (1998)[49], Cook y Green (2005)[51]

toman el problema de un conjunto de plantas de energıa donde cada planta esta formada

de plantas individuales, entonces tienen en cuenta la eficiencia relativa de cada unidad de

planta de energıa y la totalidad del grupo.

Modelos con restriccion en los multiplicadores nacen de la necesidad de implementar su-

posiciones que esten mas alla de los datos y de las condiciones de no negatividad de los

componentes de los vectores de entrada y salida de las DMUs, se conocen 3 metodos: la

razon de cono (cone ratio) en Charnes et al. (1990)[34], donde los autores han reconocido

14 2 Marco teorico

situaciones donde hay pesos ponderadores indeseables y desean mayor realismo en ellos; el

metodo de region de seguridad (Assurance Region) (Thompson et al., 1990)[169], el cual se

considera un caso especial de razon de cono y restricciones absolutas (Roll et al., 1991)[143].

2.3. Modelos que cosideran la incertidumbre y la

probabilidad

En Cooper et al. (2009)[61] se han detectado tres lıneas de investigacion en el tratamiento

de variacion de datos por metodos estadısticos. La primera lınea basada en estimadores

para variaciones estocasticas en la ineficiencia tecnica, la segunda estudia regresiones de

frontera estocastica y la tercera denominada CCP (por sus siglas en ingles Chance constained

Programming).

Para el desarrollo de la presente tesis la categorıa de mayor interes es el CCP. Dada la

importancia de este tema para el desarrollo de la tesis doctoral, se extrae la demostracion

del modelo CCP, paginas 298-304 de [61].

2.3.1. Modelo CCP

Mediante investigaciones conjuntas en Thore (1987)[171] y Land y Lovell (1992-94)[105],

[107], [108] y [109], estos autores han creado el CCP como un tercer metodo para tratar la

incertidumbre en los datos en un modelo DEA.

Land, Lovell y Thore recurren a Cooper, Huang y Li (1996)[63] para mostrar como CCP

se desarrolla mediante un concepto usado en psicologıa por H.A. Simon (ver capıtulo 15

[160]), tal concepto tiene su termino original en ingles,“satisficing” pero es algo semejante

al concepto de aspiracion. Land, Lovell y Thore empiezan extendiendo el modelo CCR en

forma probabilıstica:

maxP(∑s

r=1uryro∑m

i=1vixio

≥ β0

)


P(∑s

r=1 ur yrj∑mi=1 vixij

≤ βj

)≥ 1− αj , j = 1, 2..., n ,

ur, vi ≥ 0 ∀ r, i.

Aquı “P” significa “probabilidad” y “˜” identifica esas salidas y entradas como variables

aleatorias con distribucion de probabilidad conocida mientras 0 ≤ αj ≤ 1 es un escalar,

especificado de antemano, el cual representa un riesgo permitido que se incurre para satisfacer

las restricciones con las cuales esta asociado. El valor de β0 es interpretado como un “nivel

de aspiracion” especificado como una valoracion de eficiencia la cual se espera alcanzar.

2.3 Modelos que cosideran la incertidumbre y la probabilidad 15

Los βj tambien son constantes recomendadas por el individuo o por condiciones de salida

incluyendo niveles superiores de administracion. Para alinear el desarrollo con la version

CCR los autores hacen notar que:

P(∑s

r=1uryro∑m

i=1vixio

≤ βo

)+ P

(∑sr=1

ur yro∑mi=1

vixio≥ βo

)= 1

Removiendo la aleatoriedad de las variables de entrada CCP nace en modelo:

maxP(∑s

r=1uryro∑m

i=1vixio

≥ βo

).


P(∑s

r=1ur yrj∑m

i=1vixij

≤ βj

)≥ 1− αj, j = 1, 2, ..., n.

Usando notacion matricial y operando las restricciones en (2-7) se llega a:

P

(u

Tyj

vTxj≤ βj

)= P

(u

Tyj ≤ βjv

Txj

). (2-8)

Si yj es el vector de las medias de las salidas y si∑

j representa la matriz de varianzas

y covarianzas (se asume que esta matriz es definida positiva ası pudiendo representar la

varianza por uT∑

j u, un escalar, el cual es tambien positivo para todas las opciones de

u 6= 0), entonces se hace una estandarizacion sustrayendo uTyj de ambos lados de la derecha

de la inecuacion en (2-8) y dividiendo por√

uT∑

j u para obtener

P

u

Tyj − u

Tyj√

uT∑

j u

≤βjv

Txj − u

Tyj√

uT∑

j u

≥ 1− αj, (2-9)

para cada j = 1, ..., n. La expresion en la derecha en el parentesis no contiene ningun elemento

aleatorio. La estandarizacion se basa en la nueva variable aleatoria normal definida por

zj =uTyj−u

Tyj√

uT∑

j u.

Entonces (2-9) es reemplazada con

P(zj ≤ kj(u

T , vT ))≥ 1− αj , j = 1, ..., n,

donde

kj(uT , vT ) =

βjvTxj−u

Tyj√

uT∑

j u,

16 2 Marco teorico

ası, usando distribucion normal acumulada se escribe

∫ kj(uT ,vT )

−∞f(zj)dzj = Φ

βjv

Txj − u

Tyj√

uT∑

j u

≥ 1− αj (2-10)

en lugar de 2-9. Se asume que Φ es la distribucion normal la cual ha sido estandarizada via

zj =uT (yj−yj)√uT

∑j u.

Si αj ≤ 0,5 se puede utilizar la propiedad de invertibilidad asociada con esta distribucion y

aplicarla a (2-10) para obtener

βjvTxj−u

Tyj√

uT∑

j u≥ Φ−1(1− αj),

donde Φ−1 es la funcion fractil asociada con la distibucion normal estandar. Por lo tanto

βjvTxj − u

Tyj ≥ Φ−1(1− αj)

√uT∑

j u.

En Charnes y Cooper (1963)[33] se usan las variables de separacion las cuales se simbolizan

por ηj para escribir

βjvTxj − u

Tyj ≥ ηj ≥ Φ−1(1− αj)

√uT∑

j

u. (2-11)

Para cada j = 1, ..., n la variable de separacion es no negativa por virtud de la expresion de

la derecha. Provista esta no negatividad se puede entonces usar esta variable para separar

la expresion en (2-11) en el siguiente par

βjvTxj − u

Tyj ≥ ηj ≥ 0

K2(1−αj)

uT∑

j u ≤ η2j ,

donde

K2(1−αj )

= Φ−1(1− αj)

j = 1, ..., n.

La primera relacion separada se refiere a una valoracion efectuada por los multiplicadores

asignados a las entradas y salidas mientras que la segunda relacion trata los riesgos en un

analisis portafolio de tipo Markowitz-Sharpe usado en finanzas ([156]). En lugar de (2-7)

ahora se tiene

maxP(

uTyo

vTxo≥ βo

)

2.3 Modelos que cosideran la incertidumbre y la probabilidad 17


βjvTxj − u

Tj yj − ηj ≥ 0

K2(1−αj)

uT∑

j u− η2j ≤ 0

u, v ≥ 0, ηj ≥ 0, j = 1, 2, ..., n.

Las restricciones, pero no la objetivo, son determinısticas, (2-12) es reemplazada con

max γo


P(

uTyo

vTxo≥ βo

)≥ γo

βjvTxj − u

Tyj − ηj ≥ 0

K2(1−αj)

uT∑

j u− η2j ≤ 0

u, v ≥ 0, ηj ≥ 0, j = 1, 2, ..., n.

Se tiene que (2-13) es reemplada por:

max γo


uTyo − β0v

Txo ≥ Φ−1(γo)

√uT∑

j u

ηj + uTyj − βjv

Txj ≤ 0

η2j −K2(1−αj)

uT∑

j u ≥ 0

u, v ≥ 0, ηj ≥ 0, j = 1, 2, ..., n.

0 ≤ γo ≤ 1.

Esto es un equivalente determinıstico para (2-7) en el sentido que los valores optimos de u∗,

v∗ en (2-14) seran tambien optimos para (2-7).

2.3.2. Modelo CCP en su forma dual

Ya se ha visto que un modelo DEA se puede expresar en su forma dual o primal. En Ray

(2004)[162] pagina 314-317 se presenta el modelo CCP en su forma dual. Para empezar se

parte del siguiente modelo

maxφ

s.t Pr

{N∑j=1

λjyj ≥ φyo

}≥ (1− α);

N∑j=1

λjxj ≤ xo

N∑j=1

λj = 1; λj ≥ 0 (j = 1, 2, ..., N).

18 2 Marco teorico

Una nueva variable aletoria es definida haciendo u =N∑j=1

λjyj − φy0, donde

E(u) =N∑j=1

λjµj − φµo ≡ µu

y

V ar(u) =N∑

j=1,j 6=o

λ2jσ2j + (λo − φ)2σ2

o ≡ σ2u.

Dada la nueva variable u se obtiene la expresion

Pr

{N∑j=1

λjyj ≥ φyo

}= Pr {u ≥ 0} = Pr

{z ≥ −µu

σu

}.

Por la propiedad simetrica de la distribucion normal

Pr{z ≥ −µu

σu

}= Pr

{z ≤ µu

σu

}= Φ

(µu

σu

),

donde Φ (·) es la funcion distribucion normal acumulada, ası la inecuacion del CCP-DEA

puede ser reemplazado por

Φ(

µu

σu

)≥ (1− α).

Si α = 0,05

µu ≥ 1,96σu,

esto es

N∑j=1

λjµj − φµo ≥ 1,96

√N∑

j=1,j 6=o


o .

Basado en lo anterior, el modelo CCP en forma dual queda como:

maxφ


N∑j=1


√N∑

j=1,j 6=o


o para s = 1, ..., S

N∑j=1

λjxj ≤ xo para m = 1, ...,M

N∑j=1

λj = 1; λj ≥ 0 (j = 1, 2, ..., N)

2.4 DEA estocastico sobre DEA convencional 19

Donde S es el numero de salidas y M es el numero de entradas de cada DMU. Un supuesto

importante en Ray (2004)[162] es que en (2-15) se han observado los valores esperados de la

salida de cada DMU, por lo que este modelo se reemplaza por:

maxφ


N∑j=1

λjyj − φyo ≥ 1,96

√N∑

j=1,j 6=o


o para s = 1, ..., S

N∑j=1

λjxj ≤ xo m = 1, ...,M

N∑j=1

λj = 1; λj ≥ 0 (j = 1, 2, ..., N).

2.4. DEA estocastico sobre DEA convencional

El DEA estocastico y la limitada aplicacion de DEA convencional queda justificado en Ud-

hayakumar (2011)[179], donde advierten que las medidas de un DEA convencional puede

ser sensible a las variaciones de error, es decir, que una DMU eficiente puede llegar a ser

ineficiente si se consideran las variaciones aleatorias. En Matawie y Assaf (2010)[12] destacan

ventajas y desventajas de DEA y frontera estocastica, reconociendo el amplio e importante

uso de ambas tecnicas. DEA por ser una tecnica no estadıstica no permite modelar el ruido

aleatorio en la estimacion de la eficiencia, a pesar de ello es flexible y popular en la literatura.

Existe cierta dificultad al usar frontera estocastica ya que ella exige buscar una apropiada

forma funcional, comparada con DEA, este ultimo no necesita especificar ninguna funcion

por su naturaleza no parametrica.

No existe una tecnica que permitiera el establecimiento de intervalos de confianza para las

eficiencias en DEA, incluso hubo intentos con la tecnica del Broopstrap que mas adelante

fueron fuertemente criticados por otros autores, pero con el trabajo de Tsionas y Papadakis

(2010)[74] se logra la forma de tales intervalos de confianza para la eficiencia en DEA.

En este artıculo se escribe que el DEA estocastico puede trabajar el ruido en las medidas

no parametricas de eficiencia, pero desafortunadamente la inferencia estadıstica formal en

medidas de eficiencia no es posible. Ası que han trabajado un enfoque Bayesiano al rededor

del problema de tecnicas de simulacion que permita, para muestras finitas, inferencias en los

puntajes de eficiencia.

2.5. Modelos DEA temporales

Ya se menciono en la introduccion dos modelos DEA temporales: el analisis de ventana y el

ındice Malmquist. Analisis de ventana mas que un modelo es una forma de operar y correr

20 2 Marco teorico

varios modelos CCR en cada ventana que se va corriendo hasta llegar al ultimo perıodo.

Esta tecnica fue creada por G. Klopp en su tesis doctoral en 1985 (Cooper et al., 2007)[61].

Trata cada DMU como si fuera diferente en cada tiempo. Al tener N perıodos de tiempo y n

DMUs, se consideran n×N DMUs. Esta tecnica escoge una “longitud de ventana” p (p < N)

y evalua n× p eficiencias para cada ventana, en vez de n×N, donde el numero de ventanas

depende del lapso de tiempo considerado. Esta ventana se va corriendo hasta llegar al ultimo

perıodo. El siguiente es un ejemplo de una DMU que se ha observado durante 8 perıodos y

se tiene una ventana de tamano p = 4 que se va corriendo hasta alcanzar el perıodo 8, cada

ventana posee 4 eficiencias calculadas con un modelo CCR, igual procedimiento se repite

para las demas DMUs.

Peıodos P1 P2 P3 P4 P5 P6 P7 P8

ventana 1 0,83 1,00 0,95 1,00

ventana 2 0,85 0,92 1,00 0,90

ventana 3 0,80 1,00 1,00 1,00

ventana 4 0,99 0,95 1,00 1,00

ventana 5 0,95 1,00 1,00 1,00

Luego lo que hace el analisis de ventana es calcular media y varianza de las eficiencias calcu-

ladas en todas las ventanas. El inconveniente de esta tecnica es que considera las eficiencias

independientes en el tiempo y se usa para perıodos cortos. No maneja una estructura de

correlacion en las medidas de eficiencia.

El ındice Malmquist se define como sigue:

MI =

[δ1((x0, y0)

2)

δ1((x0, y0)1)× δ2((x0, y0)

2)

δ2((x0, y0)1)

]1/2(2-17)

En la ecuacion (2-17) δ1 se refiere a la frontera de eficiencia del primer perıodo y δ2 se

refiere a la frontera de eficiencia del segundo perıodo. La notacion (x0, y0) simboliza el vector

de entradas y salidas de la DMU observada y el superındice de (x0, y0) se refiere a si el

vector de entradas y salidas ha sido observado en el perıodo 1 o 2. Cada δs((x0, y0)t) en

(2-17) (s = 1, 2; t = 1, 2) se calcula corriendo un modelo CCR determinıstico orientado a

las entradas o a las salidas, segun si las DMUs controlan las primeras o las segundas. Si

se esta orientado a las salidas, el ındice Malmquist se calcula corriendo el siguiente modelo

matricial cuatro veces, donde (s = 1, 2; t = 1, 2):

δs((x0, y0)t) = mın

θ,λθ


xt0 ≥ Xsλ

2.6 Distribucion condicional 21

(1/θ)yt0 ≤ Y sλ

L ≤ eλ ≤ U

λ ≥ 0

Si (L, U) = (1, 1) en el modelo (2-18), este se convierte en un BCC (Banker, Charnes y

Cooper), lo que se traduce en el calculo de eficiencias de retorno a escala variable (Banker et

al., 1984)[14], adecuado para comparar DMUs de diferente tamano. Si (L, U) = (0,∞), el mo-

delo (2-18) se vuelve un CCR, lo que se traduce en calculo de eficiencias con retorno a escala

constante, adecuado para comparar DMUs de igual tamano. El vector λ = (λ1, λ2, ..., λN)′

donde N es el numero de DMUs, los λi son las variables que ayudan a construir la envolvente

para formar la frontera de eficiencia. El vector e = (1, 1, ..., 1) de tamano 1 × N , X es la

matriz de entradas y Y es la matriz de salidas. Tanto X como Y se disponen de manera

que el numero de filas sean el numero de entradas y salidas respectivamente, y el numero de

columnas sean el numero de DMUs. El vector xto es el de las entradas de la DMU observada

en el perıodo t y yto es el de las salidas de la DMU observada en el perıodo t

2.6. Distribucion condicional

Este concepto se ha introducido en el presente marco teorico porque es importante para

entender algunas demostraciones de algoritmos para estimar parametros por el metodo de

maxima verosimilitud, en la seccion 2.9.

El valor esperado de una distribucion condicional se expresa ası:

E [h(Y )|X = x] =

∫

y

h(y)fY |X(y|x)dy (2-19)

En Giraldo (2006)[88] se da la siguiente definicion de esperanza condicional:

Definicion 1 Si (X, Y ) son dos variables aleatorias con fdp conjunta f (x, y) donde (x, y) ∈G ⊆ ℜ2, y

fX(x) :=∫∞−∞ f (x, y) dy

fY (y) :=∫∞−∞ f(x, y)dx

son las fdp marginales, la fdp condicional de Y dado X = x se define como:

fy (y|X = x) := f(x, y)/fX(x)

siempre que fX(x) 6= 0, y la esperanza condicional de Y dado X se define como:

E(Y |X = x) =∫∞−∞ yfY (y|X = x)dy

22 2 Marco teorico

Para entender la anterior definicion, en Giraldo (2006)[88] se da el siguiente ejemplo de la

normal bivariada.

Ejemplo 1 El vector (X1, X2) se distribuye Normal bivariado,

(X1, X2) ∼ N2

((µ1

µ2

),

[σ21 ρσ1σ2

ρσ1σ2 σ22

])

donde E(Xi) = µi, V ar(Xi) = σ2i , Cov(X1, X2) = ρσ1σ2, si la fdp conjunta esta dada por:

f(x1,x2) =1

(2π)σ1σ2

√1−ρ2

exp

[− 1

2(1−ρ2)

[(x1−µ1

σ1

)2+(

x2−µ2

σ2

)2− 2ρ

(x1−µ1

σ1

)(x2−µ2

σ2

)]]

para (x1,x2) ∈ ℜ2.

Para calcular la fdp condicional de X2 dado X1 = x1, utilizan completacion de cuadrados

para escribir la conjunta de la forma siguiente:

f(x1,x2) =1√2πσ1

exp

[−1

2

(x1−µ1

σ1

)2]1√

2πσ2

√1−ρ2

exp

[−1

2

(x2−µ2−ρ

(σ2σ1

)(x1−µ1)

σ2

√1−ρ2

)2]

luego, integrando con respecto a x2 entre −∞ e ∞, y aplicando la identidad:

∫∞−∞

1√2πe−

1

2(x−µ

σ)2dx = σ

se obtiene

fX1(x1) =

1σ1

√2πe− 1

2(x1−µ1

σ1)2

por lo tanto

fX2(x2|X1 = x1) =

f(x1,x2)fX1

(x1)

= 1√2πσ2

√1−ρ2

exp

[−1

2

(x2−µ2−ρ

(σ2σ1

)(x1−µ1)

σ2

√1−ρ2

)2]

en donde

X2 | X1 = x1 ∼ N

(µ2 + ρ

(σ2σ1

)(x1 − µ1) , σ

22

(1− ρ2

))(2-20)

Notese que ρ(

σ2

σ1

)= cov(X1,X2)

V ar(X1).

2.7 Conceptos Bayesianos 23

2.7. Conceptos Bayesianos

Distribuciones condicionales

La densidad condicional de un vector, por ejemplo θ, dado el valor de otro vector, por ejemplo

y = v, es obtenida por la division de la densidad de (θ′, y′)′ por la densidad de y evaluado

en v, (Christensen et al., 2011)[138], esto es

pθ|y(u|v) ≡ pθ,y(u, v)/fy(v). (2-21)

Similarmente,

fy|θ(v|u) ≡ pθ,y(u, v)/pθ(u). (2-22)

Como la densidad condicional (2-21) es una funcion de u, ası el termino fy(v) en el deno-

minador del lado derecho es una constante que hace la densidad integrada a 1. Al mismo

tiempo se tiene

pθ|y (u | v) ∝ p ∗ (u)para todo u, donde la constante de proporcionalidad puede depender de v pero no de u, se

tiene

pθ|y(u|v) = p∗u∫p∗(u)du ,

la expresion p ∗ u se llama kernel de la densidad condicional.

Conociendo fy|θ(v|u) y pθ(u) es, en principio, suficiente para permitir encontrar la densidad

condicional pθ|y(u|v). Desafortunadamente es a veces difıcil encontrar pθ|y(u|v).El siguiente teorema de Bayes se puede ver en Christensen et al. (2011)[138].

Teorema de Bayes

La densidad de θ dado y es

pθ|y(u|v) =fy|θ(v|u)pθ(u)∫fy|θ(v|u)pθ(u)du

(2-23)

donde la integral va desde −∞ a ∞ para cada componente de u. En el anterior teorema, el

numerador segun la ecuacion (2-22) podrıa reemplazarse por pθ,y(u, v) y el denominador es

justo∫fy|θ(v|u)pθ(u)du = fy(v).

Existe otra notacion y consiste en reemplazar los valores de las variables (placeholder varia-

bles) por los sımbolos de variables aleatorias por lo que el teorema de Bayes queda ası:

p(θ|y) = f(y|θ)p(θ)∫f(y|θ)p(θ)dθ . (2-24)

24 2 Marco teorico

2.8. Analisis cluster para series de tiempo

La meta de un analisis cluster es identificar estructuras de grupos similares en un conjunto de

datos o poblacion, Coke y Tsao (2010)[47]. Las diferencias intra grupos es minimizada. Se han

clasificado los metodos cluster en dos categorıas a saber, los metodos basados en distancias

heurısticas y los llamados metodos basados en modelos (Mardia et al., 1979)[119]. En la

primera categorıa estan los metodos basados en distancias heurısticas los cuales proponen

un analisis puramente descriptivo, generalmente basados en distancias Euclidianas. En la

segunda categorıa estan los metodos basados en modelos los cuales asumen un modelo para

cada uno de los K cluster generados. En la segunda categorıa se han desarrollado unos

modelos de mixtura llamados “metodos cluster basados en modelos de mixtura”.

Fraley y Raftery (2002)[84] propusieron una tecnica para el uso de los modelos de mixtura

para cluster. El uso de los modelos de mixtura para describir los cluster o agrupar los datos,

permiten la seleccion de un modelo en el marco de un modelo estadıstico. Esta tecnica

de Fraley y Raftery (2002)[84] estima los parametros del modelo de mixtura por maxima

verosimilitud y para la seleccion de un modelo usan un criterio de informacion, uno de ellos

es el criterio de informacion Bayesiano BIC (Schwarz, 1978)[150].

En Coke y Tsao (2010)[47] se define un “modelo de mixtura para clusterizacion basada en

metodos”.

Definicion 2 Supongase que x1,x2, ...,xN es una muestra aleatoria de un modelo de mix-

tura con K componentes. Sea fK(x; θk) la funcion de densidad de la k-esima componente

caracterizada por el vector parametro θk. La funcion de densidad de la mixtura para una

observacion aleatoria xi, f(xi) puede ser escrita como:

f (xi;Ψ) =K∑

k=1

πkfk (xi; θk) , (2-25)

donde πk es la probabilidad de que una observacion provenga de la k-esima componente y∑Kk=1 πk = 1. Por lo que π = (π1, π2, ..., πK); y el vector Ψ, que es el que contiene los

parametros desconocidos en la mixtura, esta dado por:

Ψ = (π, θ1, θ2, ..., θK).

Se debe especificar la densidad de la componente fk(xi; θk) y luego estimar los parametros en

Ψ. Una vez estimados los parametros, el cluster sera claramente definido y la asignacion de

las observaciones a esos cluster es realizada a traves de una probabilidad a posteriori (Bryan,

2004)[29]. En la seccion 2.9 se explica como se puede estimar Ψ.

2.8 Analisis cluster para series de tiempo 25

2.8.1. Mixturas normales multivariadas

Cuando las funciones de densidad de las componentes en un modelo de mixtura pueden ser

especificadas por una normal multivariada, la funcion de densidad de la componente k se

denota η (xi;µk,Σk).

Definicion 3 La densidad de la mixtura normal multivariada para una observacion xi,

f (xi;Ψ) puede ser escrita como

f (xi;Ψ) =

K∑

k=1

πkη (xi;µk,Σk) (2-26)

=

K∑

k=1

πk

[1

(2π)n/2 |Σk|1/2exp

[−(xi − µk)

TΣ−1k (xi − µk) /2

]]

(2-27)

donde Ψ es el vector de todos los parametros desconocidos cuyos elementos son la mezcla de

las proporciones π1, π2, ..., πK, la media es el vector µk y la matriz de varianzas y covarianzas

Σk para k = 1, 2, ..., K. El modelo de mixtura normal multivariado se denota por

M(Ψ) =K∑

k=1

πkMVN(µk,Σk). (2-28)

2.8.2. Mixturas para altas dimensiones

La alta dimensionalidad de los datos presenta problemas para la aplicacion de un modelo

normal porque este involucra n+ n(n + 1)/2 parametros donde n(n + 1)/2 es el numero de

parametros para la varianza (Coke y Tsao, 2010)[47]. El problema de muchos parametros en

la mixtura necesita modelar la matriz de covarianza cuidadosamente. Una primera alternativa

es el modelo esferico, el cual considera la matriz de covarianzas como la diagonal Σk = σ2I,

y ası se involucra solo un parametro. Aunque este modelo tiene una reduccion extrema en los

parametros, el supuesto de varianza constante y correlacion cero puede no modelar muy bien

una serie de tiempo. Una segunda alternativa es tratar una correlacion no trivial, asumiendo

que la observacion aleatoria xi sigue un modelo de regresion, este modelo es llamado en

Bryan (2004)[29] “modelo de mixtura de coeficientes aleatorios” y en Coke y Tsao (2010)[47]

es llamado “Growth mixture model”. Una tercera alternativa para modelar la matriz de

covarianza es considerar que las observaciones xi|(zi = k) tienen el modelo jerarquico

xi|(zi = k) = µk + eki

donde el error eki se descompone en dos terminos, el primero asume el efecto de correlacion

serial y el segundo la medida de error. Este modelo es llamado en Coke y Tsao (2010)[47]

“modelo de mixtura de efectos aleatorios”.

26 2 Marco teorico

Modelo de mixtura normal esferico

Definicion 4 El vector xi sigue un modelo de mixtura normal esferico si:

xi ∼K∑

k=1

πkMVN(µk, σ

2I)

(2-29)

Mixtura de coeficientes aleatorios

Tiene una computacion mas complicada, pero una tecnica mas flexible que asumir compo-

nentes esfericos, es especificar modelos de coeficientes aleatorios (Lindsey, 1999)[113], para

los componentes de mixtura en (2-28). Los modelos de coeficientes aleatorios fueron propues-

tos por James y Sugar (2003)[97], Luang y Li (2003)[115] y Ng et al. (2006)[131], y permiten

una modelacion no trivial de la correlacion. La idea basica de la “mixtura de coeficientes

aleatorios” es que xi sigue un modelo de regresion

xi ∼ Φβi + ǫi, (2-30)

donde Φ es una matriz de diseno de rango p, βi es vector p-dimensional de coeficientes de

regresion y ǫi es la medida del error. ǫi una variable aleatoria normal multivariada con media

0 y matriz de varianzas y covarianzas σ2I. En el modelo (2-30) βi puede representar los datos

reducidos cuando se hace reduccion de dimension a traves de Φ en los metodos heurısticos,

sin embargo, en este caso se usa para asumir que βi sigue un modelo de mixtura con K

componentes cada una de las cuales es p-dimensional multivariada normal (p ≪ n), con

media µβk y matrices de covarianzas Σβ

k :

βi ∼K∑

k=1

πkMV N(µkβ,Σk

β) (2-31)

Definicion 5 Una mixtura es de coeficientes aleatorios cuando la distribucion de la obser-

vacion es

xi ∼K∑

k=1

πkMVN(µk,Σk) (2-32)

donde

µk = Φpµkβ (2-33)

y

Σk = ΦpΣkβΦp

T + σ2I(k = 1, 2, ...K) (2-34)

El vector de parametros Ψ para el modelo (2-32) ahora consta de elementos de µβk , Σβ

k , σ2

mas el vector de mezcla de proporciones π1, π2, ..., πK.

2.8 Analisis cluster para series de tiempo 27

El modelo (2-32) es una “mixtura de coeficientes aleatorios” y tambien es llamado modelo

de hetereogeneidad en Verbeke Molenberghs (2000)[181]. Usualmente p se escoge para ser

suficientemente pequeno, ası el modelo (2-31) no involucra muchos parametros y en conse-

cuencia tampoco (2-32). O sea que el numero de elementos de Ψ es menor que el requerido

para especificar un total modelo de mixtura normal inestructurado de K componentes para

xi.

Modelos de mixtura de efectos aleatorios

El “modelo de mixtura de coeficientes aleatorios” es adecuado para datos cluster para series

de tiempo, aunque provee una parametrizacion parsimoniosa de las matrices de covarian-

za y permite una correlacion no trivial, su estructura de covarianza no es suficientemente

flexible para modelar estructuras de covarianzas inherentes a las series de tiempo (Lindsey,

1999)[113]. Para corregir estos problemas, el “modelo de mixtura de efectos aleatorios”, desa-

rrollado por Bryan (2004)[29], hace uso del modelo de covarianza para datos longitudinales

el cual captura efectos especıficos para un cluster y medidas independientes del error (Diggle

et al., 2002)[70]. En un analisis longitudinal, el foco esta usualmente en la relacion entre la

media de la respuesta de las series de tiempo y las covarianzas.

Definicion 6 El modelo de mixtura normal multivariado de efectos aleatorios esta definido

por

M(Ψ) ∼K∑

k=1

πkMV N(µk,Σk) (2-35)

donde Ψ representa la coleccion de parametros πk, µk y Σk . Sea x una observacion aleatoria

de la componente k. Se construye el modelo para Σk a traves del siguiente modelo jerarquico

para x, por lo que se asume que

x = µk + e (2-36)

donde µk es el vector de medias fijo y e ∼ MVN(0,Σk) es el error aleatorio. El termino

de error se puede descomponer en dos efectos, un efecto de correlacion serial y un efecto de

medida de error, esto es

e = w + ǫ (2-37)

donde w tiene una distribucion normal multivariada w ∼ MVN(0,Σwk ) captura la correla-

cion intra x, y ǫ es un vector de medida de error con ǫ ∼MV N(0, σ2I). Siguiendo ecuaciones

(2-36) y (2-37) la observacion x para la k-esima componente tiene una distribucion normal

multivariada

x ∼MVN(µk,Σk) (2-38)

28 2 Marco teorico

donde la matriz de covarianzas es

Σk = Σwk + σ2I (2-39)

Como w varıa dentro de cada cluster y su distribucion tambien varıa de cluster a cluster, esto

representa un efecto en la observacion x, o sea que la matriz Σk tiene un efecto aleatorio en

la estructura de covarianza, y como se refieren especıficamente a modelos normales de allı el

nombre “modelo de mixtura normal de efectos aleatorios”. El modelo del error en (2-37)

es muy usado en analisis de datos longitudinales (Diggle et al., 2002)[70]. Los objetivos

de los estudios longitudinales son caracterizar las medias de respuestas individuales y sus

cambios en el tiempo e investigar los efectos de covarianzas en el tiempo (Bryan, 2004)[29].

En modelos de mixtura con K componentes, se asume que las medias para cada serie de

respuesta individual es una de los K posibles valores de µ1, µ2, ..., µK . Sea xi una observacion

de toda la poblacion, entonces xi sigue el modelo de mixtura (2-35) y la densidad de xi es

f(xi;Ψ) =K∑

k=1

πkη(xi;µk,Σk) (2-40)

donde Σk es dado por la ecuacion (2-39) y η(·) es la densidad de la normal multivariada.

2.8.3. Asignacion a cluster y seleccion de un modelo de mixtura

Con la funcion de densidad de un modelo de mixtura y una vez estimados sus parametros,

se puede tanto encontrar la probabilidad de que una observacion provenga de un cluster,

ası como la posibilidad de elegir el mejor modelo de entre varios usados.

Asignacion a cluster

La clasificacion de las series en cluster se realiza mediante la regla optima de Bayes basada en

probabilidad a posteriori para asignar las observaciones a los cluster. El πk sera visto como

la probabilidad a priori para la asignacion de la observacion aleatoria xi al cluster (Bryan,

2004)[29]. La probabilidad posterior de xi pertenecer al k − esimo cluster esta dada por

τk(xi; Ψ) = πkfk(xi; θk)/f(x;Ψ), (2-41)

donde f(x;Ψ) es la funcion de densidad de la mixtura, es decir

f(xi;Ψ) =∑K

k=1 πkfk(xi; θk).

En (2-41), τk es la probabilidad a posteriori de que xi provenga de la k-esima componente

de la mixtura. Se usa τk(xi; Ψ) para asignar la observacion al cluster, se asigna xi al cluster

Ck con el maximo τk(xi; Ψ) para k = 1, 2, ..., K.

Seleccion de un modelo de mixtura

2.9 Algoritmos de estimacion de parametros en modelos de mixtura 29

La “clusterizacion basada en modelos” tienen una ventaja sobre los metodos heurısticos

en el sentido de que los primeros permiten establecer un criterio de seleccion del mejor

modelo de mixtura. Para seleccionar el modelo se tienen varios criterios, uno de ellos es la

tecnica Bayesiana de Fraley y Raftery (2002)[84]. Ellos basan su modelo de seleccion en un

modelo de probabilidad a posteriori, definen un conjunto de modelos M1,M2, ...,Mm para

ser candidatos a modelos con vectores de parametros Ψ1,Ψ2, ...,Ψm, respectivamente. Se

denota por P (Mj) la probabilidad apriori de que el verdadero modelo sea Mj . Entonces por

el teorema de Bayes la probabilidad a posteriori del modelo es dada por

P (Mj|x1,x2, ...,xN) =f(x1,x2,...,xN |Mj)P (Mj)∑mi=1 f(x1,x2,...,xN |Mj)P (Mj)

Note que el denominador del lado derecho es el mismo para todo j, si las probabilidades

apriori P (Mj) son las mismas para todos los modelos, entonces el modelo con la mas alta pro-

babilidad a posteriori es el que tiene la maxima verosimilitud integrada f(x1,x2, ...,xN |Mj).

Por la ley de probabilidad total f(x1,x2, ...,xN |Mj) es obtenida integrando sobre el espacio

de parametros Ψj

f(x1,x2, ...,xN |Mj) =∫f(x1,x2, ...,xN |Ψj,Mj)p(Ψj|Mj)dΨj,

donde p(Ψj|Mj) es la densidad condicional de Ψj dado que el verdadero modelo es Mj . Esa

integral en la verosimilitud es difıcil de calcular exactamente pero puede ser aproximada por

el criterio de informacion Bayesiano (BIC) (Schwarz, 1978)[150],

−2 log f(x1,x2, ...,xN |Mj)+constante≈ −2 logL(Ψj

)+ dj log(N) = BIC,

donde dj es el numero de parametros independientes en el modelo y Ψj es el MLE de Ψj .

Fraley y Raftery (2002)[84] justifican el uso del BIC en el contexto de mixtura de modelos.

El BIC mas pequeno es la mayor evidencia para el modelo.

2.9. Algoritmos de estimacion de parametros en modelos

de mixtura

La estimacion de parametros de un modelo de mixtura se hace por el metodo de maxima

verosimilitud. Un algoritmo que se usa en este caso es el algoritmo EM (Expectation Maxi-

mization). Suponga que las funciones de densidad de la componentes fk(xi; θk) son escogidas

y se asume que K es dado. Entonces el logaritmo de la verosimilitud (log-likelihood) de Ψ

basado en x1,x2, ...,xN es dado por

l(Ψ) =N∑

i=1

logK∑

k=1

πkfk(xi; θk) (2-42)

El algoritmo EM se hace necesario por lo que el estimador para Ψ, Ψ no puede escribirse

en forma explıcita, por lo que requiere computacion numerica.

30 2 Marco teorico

2.9.1. Algoritmo EM

Aunque con una notacion un poco diferente a la usada en Bryan (2004)[29], se explicara el

algoritmo EM basado en Bilmes (1998)[24]. El algoritmo EM se compone en dos pasos, el

primero llamado E-step y el segundo llamado M-step.

E-step

Si se tiene un conjunto de datos de tamano N , X = {x1,x2, ...,xN} y se asume que los

vectores de datos son independientes e identicamente distribuidos (i.i.d.) con distribucion p.

Entonces la densidad resultante para la muestra es

p(X|Θ) =N∏i=1

p(xi|Θ) = L(Θ|X)

Esta funcion L(Θ|X) es llamada la verosimilitud de los parametros dados los datos (Bilmes,

1998)[24]. La verosimilitud es pensada como una funcion de parametros Θ donde el dato X

es fijado. La meta entonces es encontrar Θ que maximice L. El algoritmo EM es una tecnica

para encontrar el estimador maximo verosımil de los parametros de una distribucion de un

conjunto de datos dado cuando el dato es incompleto o tiene observaciones perdidas, pero

este concepto de “valores perdidos” se aplica cuando la funcion de verosimilitud es difıcil de

optimizar analıticamente, X es observado y generalmente tiene una distribucion. La variable

X se llama dato incompleto. Se asume que un conjunto de datos completo existe Z= (X, Y )

y ası se asume una densidad conjunta.

p(z|Θ) = p(x,y|Θ) = p(y|x,Θ)p(x|Θ) (2-43)

El supuesto clave, esta en considerer que en la anterior expresion, la densidad de la conjunta

p(x,y|Θ) viene de la funcion de densidad de la marginal p(x|Θ) y del supuesto de variables

escondidas y los valores de los parametros a encontrar. Por lo tanto se establece una relacion

entre datos perdidos y valores observados. Con todo lo anterior se puede definir la funcion

de verosimilitud pero para datos completos, L(Θ|Z) = L(Θ|X, Y ) = p(X, Y |Θ) = hx,Θ(Y )

para alguna funcion de hx,Θ(·) donde X y Θ son constantes y Y es una variable aleatoria.

La verosimilitud original L(Θ|X) es la funcion de verosimilitud de datos incompletos. El

algoritmo EM encuentra en primera instancia, el valor esperado de la funcion del logaritmo

de la verosimilitud de los datos completos log p(X, Y |Θ) con respecto al dato desconocido

Y dado el dato observado X y las actuales estimaciones del parametro. Con lo anterior en

Bilmes (1998)[24] se define

Q(Θ,Θ(i−1)) = E[log p(X, Y |Θ)|X,Θ(i−1)

](2-44)

donde Θ(i−1) es el actual vector de parametros estimado que se usa para evaluar el valor

esperado y Θ es el vector de parametros que se optimiza para incrementar a Q, ası tambien

que X y Θ(i−1) son constantes, Θ es una variable aleatoria normal que se desea ajustar, y Y

es una variable aleatoria gobernada por la distribucion f(y|X,Θ(i−1)). El lado derecho de la

ecuacion (2-44) puede ser reescrita por


E[log p(X, Y |Θ)|X,Θ(i−1)

]=

∫

yǫγ

log p(X,y|Θ)f(y|X,Θ(i−1))dy (2-45)

Notese que f(y|X,Θ(i−1)) es la distribucion marginal de los datos no observados y depende

tanto del dato observado X como de los parametros actuales y γ es el espacio de valores de y.

Se puede entender mejor la ecuacion (2-45) si se revisa la ecuacion (2-19). Analogamente si se

tiene una funcion h(θ,Y) donde θ es una constante y Y es una variable aleatoria gobernada

por alguna distribucion fY(y), por lo tanto EY [h(θ,Y)] =∫yh(θ,Y)fY(y)dy es una funcion

determinıstica y puede maximizarse.

M-step

El segundo paso del algoritmo EM es el M-step que consiste en maximizar el valor esperado

calculado en el anterior paso E-step. Esos dos pasos garantizan, en cada iteracion, el incre-

mento del logaritmo de la verosimilitud y garantiza tambien la convergencia a un maximo

local de la funcion de verosimilitud (Bilmes, 1998)[24].

2.9.2. Algoritmo EM para mixtura de densidades Gaussianas

Si la mixtura esta dada por

p(x|Θ) =∑M

i=1 αipi(x|θi),

donde Θ = (α1, α2, ..., αM , θ1, θ2, ..., θM) tal que∑M

i=1 αi = 1 y cada pi es una funcion de

densidad parametrizada por θi, la expresion “logaritmo de la verosimilitud para dato incom-

pleto” para esta densidad del dato x esta dada por

log(L(Θ|X)) = logN∏i=1

p(xi|Θ) =∑N

i=1 log(∑M

j=1 αjpj(xi|θj)),

la cual es difıcil de optimizar porque contiene el logaritmo de una suma. Un artificio valido es

considerar x como incompleto y considerar la existencia de un no observado y = {yi}Ni=1 cuyos

valores cumplen con informar cual componente de la densidad de la mixtura ha generado cada

dato, es decir de que componente de mixtura viene cada dato. Si se asume que yi ∈ {1, ...,M}para cada i, entonces yi = k si la k-esima muestra fue generada por la k-esima componente

de mixtura. Si se conocen los valores de y la verosimilitud viene dada por:

log(L(Θ|X, Y )) = log p(X, Y |Θ) =∑N

i=1 log (P (xi|yi)P (y)).

Lo anterior se da porque como se conoce y entonces esta variable deja de depender de Θ,

y la probabilidad marginal P (y) sera entonces αj = αyi en la mixtura. Ası que la ecuacion

anterior queda ası

N∑

i=1

log (P (xi|yi)P (y)) =N∑

i=1

log (αyipyi(xi|θyi)) . (2-46)

32 2 Marco teorico

La ecuacion (2-46) da una forma particular de densidades de las componentes que puede ser

optimizada por diferentes tecnicas, aunque la ecuacion (2-46) fue deducida bajo el supuesto

de que y es conocido, pero en realidad no lo es porque no se sabe una observacion de

que componente de la mixtura viene, por lo que se asume y como una vector aleatorio.

Lo que sigue es conseguir una expresion para la distribucion de los datos no observados.

Supongase un vector de parametros Θg = (αg1, ..., α

gM , θ

g1, ..., θ

gM) es dado, y que es apropiado

para la funcion de verosimilitud L(Θg|X, Y ), la idea es computar pj(xi|θgj ) para cada i y j.

La mezcla de parametros αj se considera como probabilidades a priori de cada componente

de mixtura, esto es αj = p(componente j). Si se usa el teorema de Bayes, ecuacion (2-24) se

tiene que:

p(yi|xi,Θg) =αgyipyi(xi|Θg

yi)

p(xi|Θg)=

αgyipyi(xi|Θg

yi)

∑Mk=1 α

gkpk(xi|Θ

gk)

(2-47)

y

p(y|X,Θg) =

N∏

i=1

p(yi|xi,Θg) (2-48)

donde y = (y1, ..., yN) es una instancia de los datos no observados independientemente. Lo

que se ha obtenido es la densidad de la marginal de la ecuacion (2-45) asumiendo la existencia

de variables escondidas y haciendo un supuesto en los parametros iniciales de su distribucion.

En este caso, la ecuacion (2-44) toma la forma:

Q(Θ,Θg) =∑

y∈γ log(L(Θ|X,y))p(y|X,Θg)

=∑

y∈γ∑N

i=1 log(αyipyi(xi|θyi))N∏j=1

p(yj|xj ,Θg)

=∑M

y1=1

∑My2=1 ...

∑MyN=1

∑Ni=1 log(αyipyi(xi|θyi))

N∏j=1

p(yj|xj ,Θg)

=∑M

y1=1

∑My2=1 ...

∑MyN=1

∑Ni=1

∑Nl=1 δl,yi log(αlpl(xi|θl))

N∏j=1

p(yj|xj,Θg)

Q(Θ,Θg) =

M∑

l=1

N∑

i=1

log(αlpl(xi|θl))M∑

y1=1

M∑

y2=1

...

M∑

yN=1

δl,yi

N∏

j=1

p(yj|xj,Θg) (2-49)

Para simplificar la forma Q(Θ,Θg) en la ecuacion (2-49) se debe revisar que l ∈ {1, ...,M} ,y la siguiente parte de la ecuacion (2-49):

∑My1=1

∑My2=1 ...

∑MyN=1 δl,yi

N∏j=1

p(yj|xj,Θg)

puede cambiarse por:


(∑M

y1=1 ...∑M

yi−1=1

∑Myi+1=1 ...

∑MyN=1 δl,yi

N∏j=1,j 6=i

p(yj|xj ,Θg)

)p(l|xi,Θg)

=

N∏

j=1,j 6=i

(M∑

y1=1

p(yj|xj,Θg)

)p(l|xi,Θg) = p(l|xi,Θg), (2-50)

ya que∑M

i=1 p(i|xj ,Θg) = 1. La ecuacion (2-49), a partir de la ecuacion (2-50), queda de la

siguiente forma:

Q(Θ,Θg) =∑M

l=1

∑Ni=1 log(αlpl(xi|θl))p(l|xi,Θg)

Q(Θ,Θg) =

M∑

l=1

N∑

i=1

log(αl)p(l|xi,Θg)) +

M∑

l=1

N∑

i=1

log(pl(xi|θl))p(l|xi,Θg). (2-51)

Para maximizar la expresion (2-51), se maximiza el termino que contiene αl y el termino que

contiene a θl independientemente ya que el valor esperado del logaritmo de la verosimilitud

es de parametros separables. El primer sumando de la ecuacion (2-51) se maximiza intro-

duciendo un multiplicador de Lagrange λ con la restriccion∑

l αl = 1 (Bilmes, 1998)[24].

Entonces se resuelve la ecuacion:

∂

∂αl

[M∑

l=1

N∑

i=1

log(αl)p(l|xi,Θg)) + λ

(∑

l

αl − 1

)]= 0, (2-52)

obteniendo

N∑

i=1

1

αlp(l|xi,Θg) + λ = 0. (2-53)

Como αl = p(l|xi,Θg) (2-53) se reemplaza por:

N∑

i=1

1

αl

αl + λ = 0, (2-54)

simplificando, aplicando propiedades de sumatoria y despejando se obtiene:

λ = −N. (2-55)

Llevando el resultado de (2-55) a (2-53) se obtiene:

αl =1N

N∑i=1

p(l|xi,Θg).

34 2 Marco teorico

Para maximizar el segundo sumando de la ecuacion (2-51), la que contiene θl, se parte de la

distribucion Gaussiana con parametro θ = (µ,Σ) entonces

pl(x|µl,Σl) =1

(2π)d/2 |Σl|1/2e−

1

2(x−µl)

TΣ−1

l(x−µl). (2-56)

Como los terminos constantes desaparecen en las derivadas, estos se ignoran en la ecuacion

(2-56) y al sustituir en el segundo sumando de la ecuacion (2-51) se tiene:

M∑l=1

N∑i=1

log(pl(xi|µl,Σl))p(l|xi,Θg)

=M∑

l=1

N∑

i=1

(−1

2log(|Σl|)−

1

2(xi − µl)

TΣ−1l (xi − µl)

)p(l|xi,Θg). (2-57)

Derivando la funcion de la ecuacion (2-57) con respecto a µl e igualando a cero:

N∑

i=1

Σ−1l (xi − µl)p(l|xi,Θg) = 0, (2-58)

de donde se despeja µl

µl =

N∑i=1

xip(l|xi,Θg)

N∑i=1

p(l|xi,Θg)

. (2-59)

Para encontrar Σl se tiene en cuenta la ecuacion (D-3) y se aplican propiedades de la suma-

toria y de logaritmos, se reemplaza la ecuacion (2-57) como:

=M∑l=1

[12log(

∣∣Σ−1l

∣∣)N∑i=1

p(l|xi,Θg)− 12

N∑i=1

p(l|xi,Θg)tr(Σ−1

l (xi − µl)(xi − µl)T)]

=M∑l=1

[12log(

∣∣Σ−1l

∣∣)N∑i=1

p(l|xi,Θg)− 12

N∑i=1

p(l|xi,Θg)tr(Σ−1

l Nl,i

)]

Donde Nl,i = (xi − µl)(xi − µl)T . Tomando la derivada con respecto a Σ−1

l , tomando en

cuenta la ecuacion (D-7) y la ecuacion (D-8) se consigue

1

2

N∑

i=1

p(l|xi,Θg) (2Σl − diag(Σl))−1

2

N∑

i=1

p(l|xi,Θg) (2Nl,i − diag(Nl,i)) . (2-60)

Llamando Ml,i = (Σl −Nl,i) la ecuacion anterior se convierte en:

=1

2

N∑

i=1

p(l|xi,Θg)(2Ml,i − diag(Ml,i)). (2-61)


Si S = 12

N∑i=1

p(l|xi,Θg)(Σl−Nl,i) y, en consecuencia diag(S) = 12

N∑i=1

p(l|xi,Θg)diag(Σl−Nl,i),

se tiene que la ecuacion (2-61) se convierte en:

2S − diag(S) (2-62)

Como la funcion dada en (2-62) es la derivada, entonces se iguala a cero, la solucion se da

cuando S = 0, lo que ocasiona que:

S = 12

N∑i=1

p(l|xi,Θg)(Σl −Nl,i) = 0

N∑i=1

p(l|xi,Θg)(Σl −Nl,i) = 0

N∑i=1

p(l|xi,Θg)Σl −N∑i=1

p(l|xi,ΘgNl,i) = 0

N∑i=1

p(l|xi,Θg)Σl =N∑i=1

p(l|xi,ΘgNl,i)

Σl =

N∑i=1

p(l|xi,Θg)Nl,i

N∑i=1

p(l|xi,Θg)

Σl =

N∑i=1

p(l|xi,Θg)(xi − µl)(xi − µl)T

N∑i=1

p(l|xi,Θg)

(2-63)

Por lo que con los anteriores resultados se resalta que los estimadores maximo verosımiles

en terminos de los viejos parametros o anteriores parametros son:

αnuevol =

1

N

N∑

i=1

p(l|xi,Θg) (2-64)

µnuevol =

N∑i=1

xip(l|xi,Θg)

N∑i=1

p(l|xi,Θg)

(2-65)

Σnuevol =

N∑i=1

p(l|xi,Θg)(xi − µnuevol )(xi − µnuevo

l )T

N∑i=1

p(l|xi,Θg)

(2-66)

36 2 Marco teorico

2.9.3. Algoritmo AECM

El Algoritmo AECM (por sus siglas en ingles Alternating Expectation Conditional Ma-

ximization) ha sido propuesto por Meng y van Dyk (1997)[125] cuando el algoritmo EM

estandar resulta muy complicado. AECM es una extension de algoritmo ECM (Meng y

Rubin, 1993)[124]. El algoritmo AECM reemplaza cada M-step del algoritmo EM por una

secuencia de G pasos (computacionalmente mas simples) de maximizacion condicional, CM-

steps (Coke y Tso, 2010)[47]. Por ejemplo, si el vector de parametros Ψ es dividido en

G grupos de parametros, (Ψ1,Ψ2, ...,ΨG), cada CM-step entonces consiste en maximizar

Q(Ψ;Ψ[l]) con respecto a un grupo de parametros, digamos Ψg con todos los otros grupos

mantenidos fijos.

La innovacion del algoritmo AECM es que permite la especificacion de los datos completos

para ser diferente en cada CM-step (Bryan, 2004)[29]. Entonces, en Coke y Tso (2010)[47]

implementan el algoritmo AECM dividiendo el vector de parametros desconocidos Ψ en el

conjunto (Ψ1,Ψ2), donde Ψ1 contiene la mezcla de proporciones, πk y la componente de

medias µk, y Ψ2 contiene los elementos de Σwk y σ2. Con esta agrupacion de parametros,

cada iteracion del AECM consiste en dos ciclos (un ciclo se refiere a un E-step seguido

de CM-step). Siguiendo a McLachlan y Peel (2000)[121] se explican los dos ciclos para un

modelo de mixtura.

Primer ciclo

Este ciclo consiste en un E-step seguido de un CM-step. El dato completo es especificado

para ser el observado xi y el vector zi que es el identificador de la afiliacion a la componente

de la mixtura. El desconocido zi es tratado como un dato perdido. La verosimilitud del dato

completo esta dada por:

l(Ψ) =N∑i=1

K∑k=1

zik log {πkη(xi;µk,Σk)} .

El E-step computa el esperado

Q(Ψ,Ψ[l]) = E(lc(Ψ|x,Ψ[l])) = E(lc(Ψ|x1,x2, ...,xN ,Ψ[l]))

=N∑i=1

K∑k=1

τ(xi;Ψ[l]) {log πk + log η(xi;µk,Σ

wk + σ2I)} ,

el cual es el esperado condicional del logaritmo de la verosimilitud del dato completo dado

el dato y el valor actual del parametro estimado. Es el mismo E-step del algoritmo estandar.

El CM-step en el primer ciclo maximiza Q1(Ψ,Ψ[l]) sobre Ψ donde Ψ2 permanece fijo en

Ψ[l]2 . La actualizacion estimada de Ψ

[l+1]1 ası obtenida contiene la nueva estimacion de πk y

µk dado por

π[l+1]k =

N∑i=1

τk(xi;Ψ[l])/N


y

µ[l+1]k =

N∑i=1

τk(xi;Ψ[l])xi/

N∑i=1

τk(xi;Ψ[l])

para k = 1, ..., K. Ahora el conjunto Ψ[l+1/2] = (Ψ[l+1]1 ,Ψ

[l]2 ).

Segundo Ciclo

En el segundo ciclo para actualizar Ψ2 el cual contiene los elementos Σwk y σ2, se especifica

el dato perdido para ser los componentes de la correlacion serial w1,w2, ...wN ası como los

vectores indicadores de componentes z1, z2, ..., zN . Dados los datos aumentados, la densidad

completa es dada por f(x,w, z) =f(x|w, z)f(w|z)f(z). Como zi son MULT(1, π1, π2, ..., πk),

loswi son condicionalmenteMVN(0,Σwk ), y los xi son condicionalmenteMVN(µk+wi, σ

2I),

el logaritmo de la verosimilitud para datos completos es

lc(Ψ) =

N∑

i=1

K∑

k=1

zik log(πk) (2-67)

−1

2

N∑

i=1

K∑

k=1

zik

{log |Σw

k |+wTi Σ

w−1

k wi

}(2-68)

−1

2

N∑

i=1

K∑

k=1

zik

{n log(σ2) +

1

σ2‖xi−(µk +wi)‖2

}(2-69)

El E-step involucra el calculo de Q2(Ψ,Ψ[l+1/2]) el cual es el condicional esperado de lc(Ψ)

dado el dato observado y el parametro actual estimado Ψ[l+1/2]. Esto involucra el calculo de

E(zik|xi,Ψ[l+1/2]) = τk(xi;Ψ

[l+1/2]) y entonces los condicionales esperados

E{wT

i Σw−1

k wi|x,Ψ[l+1/2], zik = 1}

y

E{‖xi−(µk +wi)‖2 |x,Ψ[l+1/2], zik = 1

},

lo cual, en Bryan (2004)[29], puede ser calculado usando el hecho de que

wi|xi,Ψ[l+1/2], zik = 1 ∼MV N

((σ2,[l]Σ

w,[l]−1

k + I)−1

(xi−µ[l+1]k ),

(Σ

w,[l]−1

k + σ−2,[l]I)−1).

En Bryan (2004)[29] no explican la razon de este ultimo paso, pero este puede entenderse

observando la ecuacion (2-20) que es un resultado de la esperanza condicional para distribu-

ciones normales bivariadas, definicion y ejemplo que se da en Giraldo (2006)[132].

Q2(Ψ;Ψ[l+1/2]) =

N∑

i=1

K∑

k=1

τk(xi;Ψ[l+1/2]) log(πk) (2-70)

38 2 Marco teorico

−12

N∑i=1

K∑k=1

τk(xi;Ψ[l+1/2]){log |Σw

k | +tr(Σw−1

k (Σw,[l]−1

k + σ−2,[l]I)−1)

+((σ2,[l]Σw,[l]−1

k + I)−1(xi−µ[l+1]k ))TΣw−1

k

×((σ2,[l]Σw,[l]−1

k + I)−1(xi−µ[l+1]k ))} (2-71)

−12

N∑i=1

K∑k=1

τk(xi;Ψ[l+1/2]){n log(σ2) + 1

σ2

∥∥∥xi−µk − (σ2,[l]Σw,[l]−1

k + I)−1(xi−µ[l+1]k )

∥∥∥2

×tr((Σw,[l]−1

k + σ−2,[l]I)−1))} (2-72)

El CM-step en el segundo ciclo maximiza Q2(Ψ;Ψ[l+1/2]) sobre Ψ con Ψ1 fijo en Ψ[l+1].

Los terminos en (2-70), (2-71) y (2-72) pueden ser maximizados separadamente. El termino

(2-72) es maximizado por

σ2[l+1]k = 1

Nn

N∑i=1

K∑k=1

τk(x;Ψ[l+1/2]){

∥∥∥xi−µk − (σ2,[l]Σw,[l]−1

k + I)−1(xi−µ[l+1]k )

∥∥∥2

+tr((Σw,[l]−1

k + σ−2,[l]I)−1))}.El maximizador del segundo termino (2-71) no puede ser expresada en forma explıcita, y es

necesario un procedimiento de maximizacion numerica para maximizar

−12

N∑i=1

K∑k=1

τk(xi;Ψ[l+1/2]){log |Σw

k | +tr(Σw−1

k (Σw,[l]−1

k + σ−2,[l]I)−1)

+((σ2,[l]Σw,[l]−1

k + I)−1(xi−µ[l+1]k ))TΣw−1

k ×((σ2,[l]Σw,[l]−1

k + I)−1(xi−µ[l+1]k ))}

La computacion de (2-71) podrıa parecer un problema difıcil computacionalmente. Sin em-

bargo ahorros substanciales en computacion y que incrementan la estabilidad numerica puede

ser tenido en cuenta usando la formula explıcita de la inversa y el determinante de la matriz

de covarianza AD Σwk , dado en Zimmerman (1998)[191]. Sus formulas son las siguientes:

|Σwk | = (

n∏

t=1

σ2t )(

n−1∏

t=1

(1− ρ2t )) (2-73)

y

(Σwk )

−1 = [γij]n×n

donde

γij =

(σ21(1− ρ21))

−1 para i = j = 1

(σ2n(1− ρ2n))

−1 para i = j = n

(1− ρ2i−1ρ2i )(σ

2i (1− ρ2i−1)(1− ρ2i ))

−1 para i = j 6= 1, n

−ρi(σiσj(1− ρ2i ))−1 para i− j = −1

−ρj(σiσj(1− ρ2j))−1 para i− j = 1

0 para |i− j| > 1

Usando la formulas de Zimmerman (1998)[191] se puede resolver el problema con O(n)

computaciones en vez de O(n3).

2.10 Estimacion de mixturas normales multivariadas 39

2.10. Estimacion de mixturas normales multivariadas

El estimador de maxima verosimilitud MLE de Ψ, Ψ sera encontrado por la maximizacion

del logaritmo de la verosimilitud de Ψ basado en la muestra aleatoria x1,x2, ...,xN ,

l(Ψ) =N∑

i=1

logK∑

k=1

πkη(xi;µk,Σk), (2-74)

esta estimacion se logra usando el algoritmo EM. El estimador de maxima verosimilitud

MLE en el caso del supuesto de homocedasticidad en las componentes, es decir la matriz

Σk es la misma para todo k = 1, 2, ..., K, es sencillo de estimar. En este caso la funcion del

logaritmo de la verosimilitud tiene un global maximo finito, entonces MLE Ψ existe y es

fuertemente consistente para el verdadero parametro (Redner, 1981)[140]. Sin embargo en

el caso de heterocedasticidad donde Σk varıa de componente a componente el logaritmo de

la verosimilitud es ilimitado y el global maximo no existe (McLachlan y Peel, 2000)[121].

Redner y Walker (1984)[141] muestran que puede existir un maximo local, el cual bajo ciertas

condiciones de regularidad, es un consistente y eficiente estimador deΨ. En Bryan (2004)[29]

se refiere al mayor maximo local maximizador como el MLE de Ψ con el que se entiende

que, aunque no maximiza el logaritmo de la verosimilitud, este posee las buenas propiedades

asintoticas de un MLE.

2.10.1. Estimacion del modelo esferico

Una ventaja de este modelo es que la solucion del M-step es en forma explıcita. Los parame-

tros MLE estan dados por:

π[l+1]k =

N∑

i=1

τk(xi;Ψ[l])/N, (2-75)

µk[l+1] =

N∑

i=1

τk(xi;Ψ[l])xi/

N∑

i=1

τk(xi;Ψ[l]) (2-76)

y

σ2,[l+1] =

N∑

i=1

K∑

k=1

τk(xi;Ψ[l])(xi − µ

[l+1]k )T (xi − µk

[l+1])/Nn (2-77)

para k = 1, 2, ..., K.

Notese la semejanza de (2-75), (2-76) y (2-77) con ecuaciones (2-64), (2-65) y (2-66).

40 2 Marco teorico

2.10.2. Estimacion del modelo coeficientes aleatorios

El parametro Ψ para (2-32) puede estimarse por el metodo de maxima verosimilitud a traves

de un algoritmo EM. La completa funcion logaritmo de la verosimilitud para ser maximizada

en el algoritmo EM esta dada por:

ℓc (Ψ) =

n∑

i=1

K∑

k=1

zik

[log πk + log η

(xi;Φpµ

βk ,ΦpΣ

βkΦp

T + σ2I)]

(2-78)

donde zik esta definida como

zik =

1 si xi viene de la componente k

0 de otra forma

Los zik son los indicadores de la pertenencia de los vectores a la componente de mixtura, y son

asumidos para seguir una distribucion multinomial, MULT (1, π1, π2, ..., πK). El logaritmo

de la verosimilitud para datos completos viene dado por:

lc(Ψ) =

n∑

i=1

K∑

k=1

zik(log πk + log fk(xi; θk)) (2-79)

La ecuacion (2-79) es el equivalente a ecuacion (2-46). Como se explico en la seccion “Al-

goritmos de estimacion de parametros en modelos de mixtura”, con el algoritmo EM se

maximiza (2-79) en dos pasos, El E-step y el M-step. El E-step computa el valor esperado de

la distribucion condicional del logaritmo de la verosimilitud para datos completos dado los

datos observados y las estimaciones actuales de los parametros Ψ[l], lo que se denota como

Q(Ψ,Ψ[l]) = E(lc(Ψ|x1,x2, ...,xN ,Ψ[l])). (2-80)

La anterior ecuacion (2-80) del valor esperado, para entenderse mejor es el equivalente a las

ecuaciones (2-44), (2-45) y (2-51) que hacen parte de la explicacion matematica del algoritmo

EM. Especıficamente el valor esperado en (2-80) se puede reemplazar por

Q(Ψ,Ψ[l]

)=

n∑

i=1

K∑

k=1

τk(xi;Ψ

[l]) [

log πk + log η(xi;Φpµ

βk ,ΦpΣ

βkΦ

Tp + σ2I

)](2-81)

El M-step determina los parametros que maximizan el esperado de la funcion logaritmo de

la verosimilitud del E-step. Bajo condiciones leves regulares, el algoritmo EM puede mostrar

convergencia a un maximo local de la verosimilitud basada en los datos observados, mas

cuando se escongen cuidadosamente los valores iniciales, EM puede ser habil para identificar

el MLE, Ψ (Dempster et al., 1977; Wu, 1983)[67][185]. En M-step una estimacion actua-

lizada Ψ[l+1] es encontrada para maximizar Q(Ψ,Ψ[l]) con respecto a Ψ. El maximizador

de Q(Ψ,Ψ[l]) no tiene una solucion en forma explıcita y tiene que ser computado usando


metodos numericos, tal como el metodo Nelder-Mead (Nelder y Mead, 1965)[128]. Para altas

dimensiones la matriz Σk podrıa estar cerca de la singular y su inversa puede ser difıcil de

computar. La restriccion de que la matriz sea definida positiva podrıa no ser facil de compu-

tar en el proceso de maximizacion (Bryan, 2004)[29]. Para ello se presenta la alternativa de

regresion para (2-32). La ventaja de esta tecnica esta en la reduccion de espacio dimensional

donde las iteraciones EM son mas rapidas y tambien mas faciles de encontrar para el MLE.

Cluster de coeficientes de regresion estimados. Para resolver los problemas de estima-

cion de Ψ en el modelo (2-32) no se tiene en cuenta la estimacion MLE para Ψ directamente,

en lugar de ello se hace cluster para bi, el estimador de mınimos cuadrados de los coeficientes

βi usando el modelo de mixtura

bi ∼K∑

k=1

πkMVN(µbk,Σ

bk) (2-82)

donde bi se define como

bi = (ΦTpΦp)

−1ΦTp xi (2-83)

En Bryan (2004) muestran que bi aproximadamente preserva la afiliacion cluster en el xi,

mas especıficamente, muestran que las probabilidades posteriores asociadas con el xi son

aproximadamente iguales a las asociadas con bi y que la aproximacion mejora con el in-

cremento del tamano de la muestra. Entonces bi es una alternativa para xi, en tal caso el

enfoque de interes es bi. Las siguentes relaciones de parametros son encontradas

µbk = µβ

k (2-84)

y

Σbk = Σβ

k + σ2(ΦTpΦp)

−1 (2-85)

Los parametros µbk y Σb

k pueden ser estimados usando el EM de forma usual.

2.10.3. Estimacion del modelo efectos aleatorios

Para estimar los parametros, en los “modelos de mixtura de efectos aleatorios”, en Bryan

(2004)[29] se afirma que el algoritmo EM se vuelve inefectivo y en este caso adaptan el

AECM de Meng y van Dyck (1997)[125].

El vector de parametros Ψ ahora consiste en los elementos de µk,Σwk y σ2 y los parametros

de la mezcla de proporciones πk. Las ecuaciones (2-36) a (2-38) permiten separar la media,

la correlacion serial y el error aleatorio. El hecho de que la matriz de covarianza Σk dependa

42 2 Marco teorico

primordialmente de w hace que sea posible utilizar la estructura de covarianza de las series

de tiempo para construir Σk a traves de w; por ejemplo si se desea construir Σk usando

una estructura de covarianza AR (Autoregresivo), se necesita entonces asumir que w es

un proceso AR. Tanto el “modelo de mixtura esferico” como el “modelo de mixtura de

coeficientes” construyen la matriz de covarianza por simplicidad o conveniencia sin tomar en

cuenta la naturaleza de las series de tiempo (Bryan, 2004)[29]. El problema de cluster para

altas dimensiones de series de tiempo usando mixturas de modelos AR, fueron tratadas por

Xiong y Yeung (2004)[186].

Modelos Autoregresivos. Bajo un modelo AR(1), w en el tiempo t, wt puede ser escrito

como

wt = ρ1wt−1 + ǫt, (2-86)

donde ρ1 es el coeficiente de autoregresion y ǫt es una secuencia de variables aleatorias

N(0, σ2a) mutuamente independientes. Se asume que −1 < ρ1 < 1 ası que wt es estacionario.

Si el proceso inicializa en w1 ∼ N(0, σ21 = σ2

a/(1 − ρ21)) entonces la distribucion conjunta

de wt (o la distribucion del vector w) es normal multivariada con media µ = 0 y matriz de

varianzas y covarianzas Σwk donde Σw

k = [σij ]n×n y

σij = σ21ρ

|i−j|1 ,

lo cual escrito en forma matricial es

Σwk =

σ21 σ2

1ρ1 σ21ρ

21 ... σ2

1ρn−11

σ21ρ1 σ2

1 σ21ρ1 ... σ2

1ρn−21

σ21ρ

21 σ2

1ρ1 σ21 ... σ2

1ρn−31

. . . ... .

. . . ... .

. . . ... .

σ21ρ

n−11 σ2

1ρn−21 σ2

1ρn−31 ... σ2

1

.

Luego se sigue que Σk es

Σk = Σwk + σ2I =

σ21 + σ2 σ2

1ρ1 σ21ρ

21 ... σ2

1ρn−11

σ21ρ1 σ2

1 + σ2 σ21ρ1 ... σ2

1ρn−21

σ21ρ

21 σ2

1ρ1 σ21 + σ2 ... σ2

1ρn−31

. . . ... .

. . . ... .

. . . ... .

σ21ρ

n−11 σ2

1ρn−21 σ2

1ρn−31 ... σ2

1 + σ2

, (2-87)

lo cual tiene solo tres parametros en vez de n(n + 1)/2 que podrıa tener Σk si fuera inmo-

delada.


Modelos de antedependencia. Una forma mas general de modelar la covarianza son los

modelos de antedependencia (Gabriel, 1962)[87], dentro de los cuales se clasifican los AR.

Los modelos de antedependencia, ası como los modelos estacionarios AR, permiten una co-

rrelacion serial, pero los primeros son mas generales en el sentido de que no estipulan que

todas las varianzas sean iguales ni que las correlaciones entre todos los pares de medidas

equidistantes en el tiempo son iguales (Bryan, 2004)[29]. Para definir un modelo de antede-

pendencia, se considera que w1, w2, ..., wn es una secuencia de variables aleatorias cada una

normalmente distribuida con media cero. La secuencia se dice que es de antedependencia de

orden r si wt depende solo de sus r predecesores. En particular, la secuencia se dice que es

de antedependencia de primer orden (AD(1)) si wt depende solo del proceso inmediatamente

anterior wt−1. Esto es

w1 = ǫ1 (2-88)

wt = φtwt−1 + ǫt (t = 2, 3, ..., n) (2-89)

donde los ǫt son variables aleatorias normales con media cero y posiblemente varianza tiempo

dependiente v2t , y el φt son parametros irrestrictos. En Bryan (2004)[29] se encuentra la

afirmacion de que en principio, la antedependencia de la matriz de covarianza puede ser

expresada en terminos de φt y de v2t , pero la expresion es complicada y no se discute allı,

de hecho la secuencia de antedependencia sirve solo como una forma conveniente de generar

una apropiada pero aun simple matriz de covarianza para series de tiempo. Ası que Bryan

(2004)[29] se interesa en la forma del resultado de la matriz de covarianza pero no en los

parametros φt y v2t , por lo que usan los resultados de Feller (1966)[80] de donde se obtiene

la siguiente expresion de matriz de covarianza de una secuencia AD(1):

Σwk =

σ21 σ1σ2ρ1 σ1σ3ρ1ρ2 ... σ1σn

n−1∏i=1

ρi

σ1σ2ρ1 σ22 σ2σ3ρ2 ... σ2σn

n−1∏i=2

ρi

σ1σ3ρ1ρ2 σ2σ3ρ2 σ23 ... σ3σn

n−1∏i=3

ρi

. . . ... .

. . . ... .

. . . ... .

σ1σnn−1∏i=1

ρi σ2σnn−1∏i=2

ρi σ3σnn−1∏i=3

ρi ... σ2n

, (2-90)

donde σ2t para t = 1, 2, ..., , n son las varianzas y ρt para t = 1, 2, ..., , n−1 son los coeficientes

de correlacion entre wt y wt+1. El modelo (2-90) es un modelo de covarianza mas simple en el

que se involucran solo 2n−1 parametros. Ası que con este modelo, a diferencia del AR(1) se

puede modelar la covarianza de una serie de tiempo no estacionaria. En el caso de que en el

44 2 Marco teorico

modelo (2-90) ρt = ρ1 y σ2t = σ2

1 se obtiene el modelo AR(1) (2-87). Existen muchos casos de

series de tiempo donde la estimacion de la varianza es mas complicada, por lo que el proceso

no es estacionario, entonces los modelos de antedependencia resultan mas atractivos.

Modelos estructurados de antedependencia. Aunque el modelo AD es mas parsimo-

nioso que un modelo inestructurado de covarianza, este puede aun tener muchos parametros

para ser estimados. Una version parsimoniosa del modelo AD es conocida, por sus siglas en

ingles, como “Structured Antedependence Model (SAD)” propuesto por Zimmerman et al.

(1998)[191]. Lo que proponen es modelar las varianzas σ2t y los retrasos de rezago r de las

correlaciones en el modelo AD(r) como funciones parametricas en el tiempo. Por ejemplo

en el modelo SAD de primer orden, SAD(1), las varianzas y los retrasos de rezago r de las

covarianzas son expresados como:

σ2t = h(t; γσ2) t = 1, 2, ..., n (2-91)

y

ρt = g(t; γρ) t = 1, 2, ..., n− 1 (2-92)

donde h(·) y g(·) son funciones de nuevos parametros γσ2 y γρ, respectivamente. Esto permite

un nuevo modelo de covarianza para Σwk parametrizada en terminos de γσ2 y γρ. Cuando

la varianza σ2t se espera ser suavizada con una funcion del tiempo SAD(1) especifica una

funcion de varianza h(·) a traves de un polinomio de bajo orden en el tiempo, como por

ejemplo el siguiente polinomio cubico:

log(σ2t ) = a + bt + ct2 + dt3, (2-93)

y asume que los retrasos de rezago uno en las correlaciones son constantes en el tiempo (Jaf-

frezic et al., 2003)[96]. Notese que para este modelo SAD(1) se requiere estimar 4 parametros

y un parametro que especifique los retrasos de rezago uno en las correlaciones, es decir 5

parametros para Σwk en vez de 2n − 1 para el AD(1). Una alternativa para hallar las Σk

es el modelo de antedependencia de primer orden “modelo de estructuras” propuesto por

Zimmerman en Zimmerman (1998)[191] donde la correlacion

ρi = ρf(ti+1,λ)−f(ti,λ) (2-94)

es una funcion que depende de la siguiente funcion en el tiempo dada por Nunez y Woodworth

(1994)[133]:

f(t, λ) =

(tλ − 1)/λ si λ 6= 0

log t λ = 0

(2-95)


y la varianza

σi = σ2g(ti;ψ), (2-96)

es una funcion que depende de la siguiente funcion en el tiempo

g(t, ψ) = 1 + ψ1t + ψ2t2. (2-97)

Ası que ahora se tiene un nuevo vector de parametros para estimar a Σk, el nuevo vector es

θ = (ρ, λ, σ2, ψ1, ψ2)′. (2-98)

Zimmerman recomienda el algoritmo de Nelder y Mead (1965)[128] el cual a su vez tomo esta

idea de Diggle (1988)[71]. Con este nuevo vector de parametros se busca maximizar la funcion

logaritmo de la verosimilitud dada por

L(β, θ;Y1, ...,Yn) = −1

2

n∑

k=1

log |Σk(θ)| −1

2

n∑

k=1

(Yk −Xkβ)′Σ−1

k (θ)(Yk −Xkβ) (2-99)

donde los estimadores maximo verosımiles de θ y β son θ y β que maximizan L, o su

equivalente, θ es algun valor de θ que maximiza

L∗(β, θ;Y1, ...,Yn) = (2-100)

−12

∑nk=1 log |Σk(θ)| − 1

2

∑nk=1Y

′kΣ

−1k (θ)Yk +

12

[∑nk=1X

′kΣ

−1k (θ)Yk

]′ [∑nk=1X

′kΣ

−1k (θ)Xk

]−1 [∑nk=1X

′kΣ

−1k (θ)Yk

],

donde β esta dado por

β =[∑n

k=1X′kΣ

−1k (θ)Xk

]−1 [∑nk=1X

′kΣ

−1k (θ)Yk

]

La anterior notacion es usada en Zimmerman et. al (1998)[191], donde se argumenta que

muchas tecnicas de analisis de datos longitudinales son basados en varios casos en el modelo

lineal general

Yk = Xkβ + ek, k = 1, 2, ..., n

donde Yk es el vector de respuesta de tamano pk × 1 para el sujeto k, Xk es una matriz de

diseno pk × q de rango q para el sujeto k y los ek son errores aleatorios independientes que

se distribuyen de forma normal multivariada con vector de medias 0 y matriz de covarianzas

Σk = Σk(θ), β y θ son vectores de parametros desconocidos. Yk corresponde a las observa-

ciones independientes. Xk corresponde a la llaman matriz de diseno.

3. Modelo DEA propuesto

El objetivo del presente capıtulo es mostrar todo el desarrollo teorico que sustenta el plantea-

miento de un nuevo modelo DEA que cumpla con la caracterıstica de modelar la estructura

de correlacion de las variables de salida, las cuales no son de naturaleza univariada sino que

son series de tiempo y que cumpla con la otra caracterıstica de ser un modelo estocastico.

A parte de desarrollar el planteamiento del nuevo modelo DEA, este se aplicara a un conjunto

de datos obtenidos de una base de datos del DANE.

3.1. Partiendo de modelo CCP

El siguiente modelo define un modelo DEA estocastico conocido como el CCP de Land,

Lovell y Thore [106], [105] en su forma dual

maxφ


Pr

{N∑j=1

λjyj ≥ φyo

}≥ (1− α);

N∑j=1

λjxj ≤ xo

N∑j=1

λj = 1; λj ≥ 0 (j = 1, 2, ..., N).

Una trasformacion del modelo anterior a su equivalente determinıstico se logra valiendose

de la creacion de una nueva variable, ver Ray (2004)[162].

u =

N∑

j=1

λjyj − φyo (3-2)

donde

E(u) =

N∑

j=1

λjµj − φµo ≡ µu (3-3)

3.1 Partiendo de modelo CCP 47

y

V ar(u) =

N∑

j=1,j 6=o


o ≡ σ2u (3-4)

Con las ecuaciones (3-2), (3-3) y (3-4) se crea la siguiente transformacion de CCP estocastico

a su equivalente determinıstico

maxφ


Pr(u ≥ 0) ≥ 1− αN∑i=1

λjxj ≤ xo,

asumiendo normalidad de la variable u, el modelo (3-5) continua transformandose a

maxφ


Pr(z ≥ −µu

σu) ≥ 1− α

N∑i=1

λjxj ≤ xo

Ray (2004)[162] muestra como de (3-6) el modelo CCP dual llega al siguiente equivalente

determinıstico

maxφ


N∑j=1


√N∑

j=1,j 6=o


o para s = 1, ..., S

N∑j=1

λjxj ≤ xo para m = 1, ...,M

N∑j=1

λj = 1; λj ≥ 0 (j = 1, 2, ..., N)

48 3 Modelo DEA propuesto

3.2. Desarrollo para el modelo DEA

El modelo (3-7) es un modelo DEA estocastico llamado CCP en su forma dual, propuesto

por Land, Lovell y Thore. A diferencia de (3-7), en la presente tesis se propone un modelo

DEA que considera como variables de salida un conjunto de series de tiempo. Como variables

de entrada se tomaran los m promedios de las series de tiempo de las entradas. Cada DMU

tiene como variables de salida una cantidad S de series de tiempo. Cada serie de tiempo

tiene observaciones en el perıodo t denotadas como yt, donde t = 1, ..., n.

En lugar de considerar la variable univariada u en ecuacion (3-2), en el nuevo modelo que

planteamos se considera el siguiente vector multivariado

U = (u1, ..., un) =

(N∑

j=1

λjyj1 − φyo1,

N∑

j=1

λjyj2 − φyo2, ...,

N∑

j=1

λjyjn − φyon

), (3-8)

donde la media de U es

E(U) = (µ1, ..., µn) (3-9)

yN∑j=1

λjyjt−φyot es la t− esima componente del vector U. Cada salida es una serie de tiempo

y yjt es el valor de la salida de la DMU j (j = 1, ..., N) en el perıodo t. El subındice o se

refiere a la DMU observada, es decir a la que se le quiere calcular la eficiencia, yot es el valor

de la salida en el perıodo t de la DMU observada.

Para una salida r se tiene que

Ur = (u1r, ..., unr) =

(N∑j=1

λjyj1r − φyo1r, ...,N∑j=1

λjyjnr − φyonr

),

dondeN∑j=1

λjyjtr − φyotr es la t − esima componente del vector Ur asociada a la salida r

(r = 1, ..., S). Ası, yjtr, simboliza el valor en el perıodo t de r-esima salida de la DMU j con

t = 1, ..., n; r = 1, ..., S; j = 1, ..., N.

La varianza en ecuacion (3-4) para la salida r la extendemos al caso multivariado como

V ar(Ur) =

N∑

j=1,j 6=o

λ2jΣjkr + (λo − φ)2Σokr ≡ ΣUr; r = 1, .., S; k = 1, ..., K (3-10)

Cada una de las r variables de salida tiene N series de tiempo correspondiente a N DMUs,

estas ultimas denotadas como DMUj con j = 1, ..., N . A cada una de las N series de tiempo

3.2 Desarrollo para el modelo DEA 49

de cada salida r, se le aplica el modelo de mixtura de “efectos aleatorios”, ecuaciones (2-26) y

(2-27), cuyos resultados entre otros, es la estimacion deK matrices de varianzas y covarianzas

Σk y la clasificacion de la j-esima serie de tiempo de una DMU j a un cluster k. Ası que Σjkr

es la k-esima matriz de varianzas y covarianzas dado que, en la r-esima salida, la j-esima

serie de tiempo de la DMU j fue asignada al cluster k mediante el modelo de mixtura de

efectos aleatorios. La matriz Σokr es la k-esima matriz de varianzas y covarianzas dado que,

en la r−esima salida, la serie de tiempo de la DMU o (observada) fue clasificada en el cluster

k en el modelo de mixtura de efectos aleatorios. Hemos ampliado la primera restriccion en

(3-6) para el caso multivariado y proponemos que nuestro modelo ahora sea

maxφ


Pr(D2 ≥ [Ur−E(Ur)]TΣ−1

Ur[Ur−E(Ur)]) ≥ 1− α para r = 1, ..., SN∑j=1

λjxjl ≤ xol para l = 1, ..., m.

Como la primera restriccion en (3-6) considera u = 0, de manera analoga consideraremos

Ur = (0, ..., 0), ası que (3-11) se convierte en

maxφ


Pr(D2 ≥ [E(Ur)]TΣ−1

Ur[E(Ur)]) ≥ 1− α para r = 1, ..., SN∑j=1

λjxjl ≤ xol para l = 1, ..., m

Como en (3-6) u es una variable aleatoria normal, entonces en (3-12) D2 se distribu-

ye como una chi cuadrado con n grados de libertad. El primer conjunto de restriccio-

nes en (3-12) se puede cambiar por Φn

([E(Ur)]

TΣ−1U [E(Ur)]

)≤ α, donde Φp es la fun-

cion acumulada de la distribucion chi cuadrado con n grados de libertad. Si hacemos que

α = 0,05, Φn

([E(Ur)]

TΣ−1U [E(Ur)]

)≤ 0,05. Si se tuvieran, por ejemplo, un numero de

perıodos n = 19, los grados de libertad son 19 y se puede calcular la inversa haciendo

[E(Ur)]TΣ−1

Ur [E(Ur)] ≤10,12. Entonces para un modelo particular con variables de salida

que son series de tiempo de 19 perıodos, el nuevo modelo DEA estocastico y temporal en su

version determinıstica lo expresamos de la siguiente forma:

maxφ



[E(Ur)]TΣ−1

Ur[E(Ur)] ≤10,12 para r = 1, ..., SN∑j=1

λjxjl ≤ xol para l = 1, ..., m

Para desarrollar el primer conjunto de restricciones en (3-13) se asume que los valores yj1,

yj2, ..., yjn que se observan son los valores esperados tal como lo recomienda Ray (2004)[162].

Por ahora se desarrollara este conjunto de restricciones para un sistema con una unica salida

y luego los resultados se generalizan para un sistema con r salidas, ası que para una unica

salida se tiene que:

(N∑

j=1

λjyj1 − φyo1, ...,N∑

j=1

λjyjn − φyon

)Σ−1

U

N∑j=1

λjyj1 − φyo1

N∑j=1

λjyj2 − φyo2

.

.

.N∑j=1

λjyjn − φyon

≤ 10,12, (3-14)

teniendo en cuenta que

Σ−1U =

ΣU11 ΣU12 ΣU1n

ΣU21 ΣU22 ΣU2n

. .

. .

. .

ΣUn1 ΣUn2 ΣUnn

−1

= A,

el desarrollo de la inecuacion (3-14) se revisara la siguiente seccion.

3.3 Desarrollo primer conjunto de restricciones parte I 51

3.3. Desarrollo primer conjunto de restricciones parte I

Realizando multiplicaciones en (3-14) se sigue que esta expresion es igual a:

(N∑j=1

λjyj1 − φyo1

)Σ−1

U11 +

(N∑j=1

λjyj2 − φyo2

)Σ−1

U21 + ... +

(N∑j=1

λjyjn − φyon

)Σ−1

Un1

(N∑j=1

λjyj1 − φyo1

)Σ−1

U12 +

(N∑j=1

λjyj2 − φyo2

)Σ−1

U22 + ... +

(N∑j=1

λjyjn − φyon

)Σ−1

Un2

.

.

.(N∑j=1

λjyj1 − φyo1

)Σ−1

U1n +

(N∑j=1

λjyj2 − φyo2

)Σ−1

U2n + ...+

(N∑j=1

λjyjn − φyon

)Σ−1

Unn

T

×

(3-15)

N∑j=1

λjyj1 − φyo1

N∑j=1

λjyj2 − φyo2

.

.

.N∑j=1

λjyjn − φyon

≤ 10,12,

donde Σ−1Uij simboliza el elemento (i, j) de la matriz Σ−1

U . Para facilitar el desarrollo de la

multiplicacion matricial en (3-15) se asumira que esta desigualdad se convierte en

T1 + T2 + ...+ Tn ≤ 10,12, (3-16)

donde T1, T2, ..., Tn son los n terminos que resultan de la multiplicacion matricial en (3-15).

El termino T1 esta dado por la ecuacion (3-17), el termino T2 esta dado por la ecuacion

(3-18) y el termino Tn esta dado por la ecuacion (3-19).

T1 = (3-17)(

N∑j=1

λjyj1 − φyo1

)Σ−1

U11

(N∑j=1

λjyj1 − φyo1

)+

(N∑j=1

λjyj2 − φyo2

)Σ−1

U21

(N∑j=1

λjyj1 − φyo1

)+ ...


+

(N∑j=1

λjyjn − φyon

)Σ−1

Un1

(N∑j=1

λjyj1 − φyo1

)

T2 = (3-18)

(N∑j=1

λjyj1 − φyo1

)Σ−1

U12

(N∑j=1

λjyj2 − φyo2

)+

(N∑j=1

λjyj2 − φyo2

)Σ−1

U22

(N∑j=1

λjyj2 − φyo2

)+ ...

+

(N∑j=1

λjyjn − φyon

)Σ−1

Un2

(N∑j=1

λjyj2 − φyo2

)

Tn = (3-19)

(N∑j=1

λjyj1 − φyo1

)Σ−1

U1n

(N∑j=1

λjyjn − φyon

)+

(N∑j=1

λjyj2 − φyo2

)Σ−1

U2n

(N∑j=1

λjyjn − φyon

)+ ...

+

(N∑j=1

λjyjn − φyon

)Σ−1

Unn

(N∑j=1

λjyjn − φyon

)

Cada uno de los terminos (T1, T2, ..., Ti, ..., Tn) se expanden en los siguientes ıtems.

Termino 1

Realizando las multiplicaciones de (3-17) se llega a la siguiente suma

T1 = (3-20)

(

N∑j=1

λjyj1

)2

− 2φyo1N∑j=1

λjyj1 + φ2y2o1

Σ−1

U11+

[N∑j=1

λjyj1N∑j=1

λjyj2 − φyo1N∑j=1


λjyj1 + φ2yo1yo2

]Σ−1

U21 + ...

+

[N∑j=1

λjyj1N∑j=1

λjyjn − φyo1N∑j=1

λjyjn − φyonN∑j=1

λjyj1 + φ2yonyo1

]Σ−1

Un1

Notese que T1 representado en (3-20) tiene n sumandos, luego bien se puede hablar de la

pareja (T1, sumando i) donde i = 1, ..., n.

3.3 Desarrollo primer conjunto de restricciones parte I 53

Termino 2

Realizando las multiplicaciones de (3-18) se llega a la siguiente suma

T2 = (3-21)

[N∑j=1

λjyj1N∑j=1



λjyj2 + φ2yo1yo2

]Σ−1

U12+

[(N∑j=1

λjyj2

)− 2φyo2

N∑j=1

λjyj2 + φ2yo2

]Σ−1

U22 + ...

+

[N∑j=1

λjyjnN∑j=1



λjyj2 + φ2yonyo2

]Σ−1

Un2

Notese que el T2 representado en (3-21) tiene n sumandos, luego bien se puede hablar de la

pareja (T2, sumando i) donde i = 1, ..., n.

Termino i

Basado en los anteriores terminos, se puede encontrar una generalizacion para Ti

Ti = (3-22)

[N∑j=1

λjyj1N∑j=1

λjyji − φyoiN∑j=1


λjyji + φ2yo1yoi

]Σ−1

U1i+

[N∑j=1

λjyj2N∑j=1



λjyji + φ2yo2yoi

]Σ−1

U2i + ...

(

N∑j=1

λjyji

)2

− 2φyoiN∑j=1

λjyji + φ2y2oi

Σ−1

Uii + ...

+

[N∑j=1

λjyjnN∑j=1



λjyji + φ2yonyoi

]Σ−1

Uni

Notese en (3-22) el i-esimo sumando del termino Ti.

Termino n

Tn = (3-23)


[N∑j=1

λjyj1N∑j=1



λjyjn + φ2yo1yon

]Σ−1

U1n+

[N∑j=1

λjyj2N∑j=1



λjyjn + φ2yo2yon

]Σ−1

U2n + ...

+

(

N∑j=1

λjyjn

)2

− 2φyonN∑j=1

λjyjn + φ2y2on

Σ−1

Unn

Con el desarrollo de los n terminos, cada uno de ellos con n sumandos, y llamando al sumando

i sumi, la desigualdad en (3-16) se convierte en (3-24)

(T1, sum1) + ... + (T1, sumn) + (T2, sum1) + ...+ (T2, sumn) (3-24)

+(Ti, sum1) + ...+ (Ti, sumn) + ... + (Tn, sum1) + ...+ (Tn, sumn) ≤ 10,12.

3.4. Desarrollo primer conjunto de restricciones parte II

Esta parte tiene como objetivo continuar con las multiplicaciones de cada elemento de la

matriz inversa de ΣU en las expresiones (3-20) hasta (3-23). Igual que en la seccion anterior

se desarrollara por terminos.

Termino 1

T1 =

(

N∑

j=1

λjyj1

)2

Σ−1U11 − 2φyo1

N∑

j=1

λjyj1Σ−1U11 + φ2y2o1Σ

−1U11

+ (3-25)

[N∑j=1

λjyj1N∑j=1

λjyj2Σ−1U21 − φyo1

N∑j=1


N∑j=1

λjyj1Σ−1U21 + φ2yo1yo2Σ

−1U21

]+ ...

+

[N∑j=1

λjyj1N∑j=1

λjyjnΣ−1Un1 − φyo1

N∑j=1

λjyjnΣ−1Un1 − φyon

N∑j=1

λjyj1Σ−1Un1 + φ2yonyo1Σ

−1Un1

]

Termino 2

T2 =

3.4 Desarrollo primer conjunto de restricciones parte II 55

[N∑

j=1

λjyj1

N∑

j=1


N∑

j=1


N∑

j=1

λjyj2Σ−1U12 + φ2yo1yo2Σ

−1U12

]+

(3-26)

[(N∑j=1

λjyj2

)Σ−1

U22 − 2φyo2N∑j=1

λjyj2Σ−1U22 + φ2yo2Σ

−1U22

]+ ...

+

[N∑j=1

λjyjnN∑j=1

λjyj2Σ−1Un2 − φyo2

N∑j=1

λjyjnΣ−1Un2 − φyon

N∑j=1

λjyj2Σ−1Un2 + φ2yonyo2Σ

−1Un2

]

Termino n

Tn =

[N∑

j=1

λjyj1

N∑

j=1

λjyjnΣ−1U1n − φyon

N∑

j=1

λjyj1Σ−1U1n − φyo1

N∑

j=1

λjyjnΣ−1U1n + φ2yo1yonΣ

−1U1n

]+

(3-27)

[N∑j=1

λjyj2N∑j=1

λjyjnΣ−1U2n − φyon

N∑j=1

λjyj2Σ−1U2n − φyo2

N∑j=1

λjyjnΣ−1U2n + φ2yo2yonΣ

−1U2n

]+ ...

+

(

N∑j=1

λjyjn

)2

Σ−1Unn − 2φyon

N∑j=1

λjyjnΣ−1Unn + φ2y2onΣ

−1Unn

Termino b y sumando s

El desarrollo de las restricciones en (3-15) ha mostrado que existe un patron, por lo que

podrıamos encontrar cualquier termino y cualquier sumando. En general el sumando s del

termino b sera determinado por la expresion

N∑

j=1

λjyjs

N∑

j=1

λjyjbΣ−1Usb − φyop

N∑

j=1

λjyjsΣ−1Usb − φyoq

N∑

j=1

λjyjbΣ−1Usb + φ2yoqyopΣ

−1Usb (3-28)


3.4.1. Estructura de subsumando 1

Hasta ahora hemos manejado la estructura terminos y sumandos, pero cada sumando con-

tiene a su vez unos subsumandos. Cada sumando consta de 4 subsumandos, ver (3-28). Por

ejemplo en la expresion (3-25) si desarrollamos el primer subsumando del primer sumando

del termino 1 y realizando la sumatoria se tiene la siguiente subseccion.

termino 1, sumando 1, subsumando 1.

(λ1y11 + λ2y21 + λ3y31 + ... + λNyN1)(λ1y11 + λ2y21 + λ3y31 + ...+ λNyN1)Σ−1U11

= Σ−1U11[λ

21y

211 + λ1λ2y11y21 + λ1λ3y11y31 + ...+ λ1λNy11yN1+

λ2λ1y21y11 + λ22y221 + λ2λ3y21y31 + ... + λ2λNy21yN1+

λ3λ1y31y11 + λ3λ2y31y21 + λ23y231 + ...+ λ3λNy31yN1 + ...+

λNλ1yN1y11 + λNλ2yN1y21 + λNλ3yN1y31 + ...+ λ2Ny2N1]

termino 1, sumando 2, subsumando 1.

(λ1y11 + λ2y21 + λ3y31 + ... + λNyN1)(λ1y12 + λ2y22 + λ3y32 + ...+ λNyN2)Σ−1U21

= Σ−1U21[λ

21y11y12 + λ1λ2y11y22 + λ1λ3y11y32 + ...+ λ1λNy11yN2+

λ2λ1y21y12 + λ22y222 + λ2λ3y21y32 + ... + λ2λNy21yN2+

λ3λ1y31y12 + λ3λ2y31y22 + λ23y31y32 + ...+ λ3λNy31yN2 + ...+

λNλ1yN1y12 + λNλ2yN1y22 + λNλ3yN1y32 + ...+ λ2NyN1yN2]

Para el termino 1, sumando 2, subsumando 1 se encuentra una logica correspondiente a una

suma de varias expresiones como la siguiente:

λpλqyp1yq2Σ−1U21,

donde p = 1, ..., N y q = 1, ..., N . Si denotamos los terminos con la letra b, y los sumandos

con la letra s, se tendra que en general para el subsumando 1, termino b y sumando s se

tiene una suma de expresiones

λpλqypbyqsΣ−1Usb,

tal sumatoria se expresa entonces con

N∑

q=1

N∑

p=1

λpλqypbyqsΣ−1Usb, (3-29)

donde b = 1, ..., n; s = 1, ..., n.

Por ejemplo si se desarrollara la sumatoria doble de la expresion (3-29) para el termino b y

sumando s, esta quedarıa ası

3.4 Desarrollo primer conjunto de restricciones parte II 57

[λ21y1by1s + λ2λ1y2by1s + λ3λ1y3by1s + ...+ λNλ1yNby1s+

λ1λ2y1by2s + λ22y2by2s + λ3λ2y3by2s + ...+ λNλ2yNby2s+

λ1λ3y1by3s + λ2λ3y2by3s + λ23y3by3s + ... + λNλ3yNby3s + ...+

λ1λNy1byNs + λ2λNy2byNs + λ3λNy3byNs + ...+ λ2NyNbyNs]Σ−1Usb

Separando las expresiones cuadraticas en la anterior expresion, se puede expresar como

[(λ21y1by1s + λ22y2by2s + λ23y3by3s + ...+ λ2NyNbyNs)+

λ2λ1y2by1s + λ3λ1y3by1s + ... + λNλ1yNby1s+

λ1λ2y1by2s + λ3λ2y3by2s + ... + λNλ2yNby2s+

λ1λ3y1by3s + λ2λ3y2by3s + ...+ λNλ3yNby3s + ...+

λ1λNy1byNs + λ2λNy2byNs + λ3λNy3byNs + ...+ λN−1λNyN−1byNs]Σ−1Usb

simplificando

[(λ21y1by1s + λ22y2by2s + λ23y3by3s + ...+ λ2NyNbyNs)+

λ1λ2(y1by2s +1 y2by1s) + λ1λ3(y1by3s + y3by1s) + ...+ λ1λN (y1byNs + yNby1s)+

λ2λ3(y2by3s + y3by2s) + ...+ λ2λN (y2byNs + yNby2s)+

λ3λ4(y3by4s + y4by3s) + ...+ λ3λN(y3byNs + yNby3s) + ...+ λN−1λN(yN−1byNs + yNbyN−1s)]Σ−1Usb

Expresando en forma de sumatoria quedarıa ası:(

N∑p=1

λ2pypbyps +N∑p=1

N∑q=p+1

λpλq(ypbyqs + yqbyps)

)Σ−1

Usb

Para todos los terminos y todos los sumandos se tendra

n∑

b=1

n∑

s=1

N∑

p=1

λ2pypbypsΣ−1Usb +

n∑

b=1

n∑

s=1

N∑

p=1

N∑

q=p+1

λpλq(ypbyqs + yqbyps)Σ−1Usb (3-30)

3.4.2. Estructura de subsumandos 2 y 3

Para descubrir la estructura matematica de los subsumandos 2 y 3 de cada uno de los

sumandos de cada uno de los terminos, se escogera el termino 2 y sumando 1 en (3-26) y se

desarrollara las sumatorias.

−φyo2 (λ1y11 + λ2y21 + λ3y31 + ...+ λNyN1)Σ−1U12 −

φyo1 (λ1y12 + λ2y22 + λ3y32 + ...+ λNyN2)Σ−1U12

= −φΣ−1U12 [λ1y11yo2 + λ2y21yo2 + λ3y31yo2 + ...+ λNyN1yo2+

λ1y12yo1 + λ2y22yo1 + λ3y32yo1 + ...+ λNyN2yo1]

= −φΣ−1U12 [λ1(y11yo2 + y12yo1) + λ2(y21yo2 + y22yo1) + λ3(y31yo2 + y32yo1) + ...

+λN(yN1yo2 + yN2yo1)]

= −λ1φ(y11yo2 + y12yo1)Σ−1U12 − λ2φ(y21yo2 + y22yo1)Σ

−1U12

−λ3φ(y31yo2 + y32yo1)Σ−1U12 − ...− λNφ(yN1yo2 + yN2yo1)Σ

−1U12


En general para un termino b y sumando s, los subsumandos 2 y 3 quedarıan ası

−λ1φ(y1syob + y1byos)Σ−1Usb − λ2φ(y2syob + y2byos)Σ

−1Usb

−λ3φ(y3syob + y3byos)Σ−1Usb − ...− λNφ(yNsyob + yNbyos)Σ

−1Usb

Al sumar todos los subsumandos 2 y 3 en todos los terminos y en todos los sumandos se

tiene

−n∑

b=1

n∑

s=1

N∑

p=1

λpφ(ypsyob + ypbyos)Σ−1Usb (3-31)

3.4.3. Estructura de subsumando 4

Para descubrir la estructura matematica del subsumando 4 de cada uno de los sumandos de

cada uno de los terminos, se escogera el termino 2 y sumando 1 en (3-26) y se desarrollara las

sumatorias.

Para termino 2 y sumando 1, el subsumando 4 es

φ2yo1yo2Σ−1U12.

Entonces para el termino b y sumando s

φ2yosyobΣ−1Usb

Para todos los sumandos y terminos, la sumatoria de los subsumandos 4 sera

n∑

b=1

n∑

s=1

φ2yosyobΣ−1Usb (3-32)

3.4.4. Restriccion completa

La restriccion completa del modelo (3-13) para cada una unica salida queda determinada

por la suma de las expresiones (3-30), (3-31) y (3-32)

n∑b=1

n∑s=1

N∑p=1

λ2pypbypsΣ−1Usb +

n∑b=1

n∑s=1

N∑p=1

N∑q=p+1

λpλq(ypbyqs + yqbyps)Σ−1Usb

−n∑

b=1

n∑s=1

N∑p=1

λpφ(ypsyob + ypbyos)Σ−1Usb + φ2

n∑b=1

n∑s=1

yosyobΣ−1Usb ≤ 10,12.

Si se hace que

3.5 Modelo DEA propuesto y uso con datos reales 59

Σ−1U =

ΣU11 ΣU12 ΣU1n

ΣU21 ΣU22 ΣU2n

. .

. .

. .

ΣUn1 ΣUn2 ΣUnn

−1

= A,

la restriccion se puede expresar como

n∑b=1

n∑s=1

N∑p=1

λ2pypbypsAsb +n∑

b=1

n∑s=1

N∑p=1

N∑q=p+1

λpλq(ypbyqs + yqbyps)Asb

−n∑

b=1

n∑s=1

N∑p=1

λpφ(ypsyob + yosypb)Asb + φ2n∑

b=1

n∑s=1

yosyobAsb ≤ 10,12

3.5. Modelo DEA propuesto y uso con datos reales

El proposito de esta seccion es presentar el modelo propuesto basado en todas las demostra-

ciones anteriores y su uso con datos reales suministrados por el Departamento Administrativo

Nacional de Estadıstica DANE.

3.5.1. Modelo propuesto

El modelo estocastico temporal que se propone, el cual sera capaz de considerar el error

aleatorio y ademas la estructura de correlacion de las series de tiempo que constituyen las

variables de salida, es llevado a su formulacion equivalente determinıstica por

maxφ


n∑b=1

n∑s=1

N∑p=1

λ2pypbrypsrAsbr +n∑

b=1

n∑s=1

N∑p=1

N∑q=p+1

λpλq(ypbryqsr + yqbrypsr)Asbr

−n∑

b=1

n∑s=1

N∑p=1

λpφ(ypsryobr + yosrypbr)Asbr + φ2n∑

b=1

n∑s=1

yosryobrAsbr ≤ 10,12 para r = 1, ..., S

N∑p=1

λpxpl ≤ xol para l = 1, ..., m

λp ≥ 0 ∀p

Donde S es el numero de salidas, Asbr es la componente (s, b) de la matriz A para la salida

r, ypbr es la salida del b-esimo perıodo de la DMU p para la salida r. La notacion b y s

aparecen en el desarrollo matricial de (3-15) en donde resultan n terminos (b) y n sumandos

(s); b = 1, ..., n; s = 1, ..., n. La notacion S es para no confundir en este modelo la aparicion

de la variable s en las sumatorias en (3-33).


Como este modelo fue desarrollado para series de tiempo de 19 perıodos, el valor al lado

derecho del primer conjunto de restricciones es χ219, 0,95 = 10,12. En general para n perıodos

se tendra que el modelo (3-33) se extiende a

maxφ


n∑b=1

n∑s=1

N∑p=1

λ2pypbrypsrAsbr +n∑

b=1

n∑s=1

N∑p=1

N∑q=p+1

λpλq(ypbryqsr + yqbrypsr)Asbr

−n∑

b=1

n∑s=1

N∑p=1

λpφ(ypsryobr + yosrypbr)Asbr + φ2n∑

b=1

n∑s=1

yosryobrAsbr ≤ χ2n, (1−α) para r = 1, ..., S

N∑p=1


λp ≥ 0 ∀p,

donde χ2n, (1−α) es el valor de la distribucion chi cuadrado con n grados de libertad que deja

un area de α a la izquierda y un area 1− α a la derecha.

Interpretacion de variables del modelo (3-34)

φ es la variable que sufre la maxima expansion posible sujeto a un conjunto de restricciones.

Cuando φ es maximizado, en la metodologıa DEA se acostumbra a notar como φ∗, que

significa el valor de la eficiencia de la DMU observada.

λp con p = 1, ..., N son las variables que ayudan a construir la frontera envolvente para las

N DMUs mediante la interpolacion entre correspondencias factibles de entradas y salidas

(ver conjunto CPP en capıtulo 2). En un modelo CCR, λp muestran la contribucion con que

los valores de la DMU p contribuye al punto usado (una DMU virtual la cual es eficiente)

para evaluar la DMU observada (Soto y Arenas, 2010)[161]. En el modelo presentado en

la tesis, por ser una extension de un modelo CCR probabilıstico, se puede adaptar esta

interpretacion.

El modelo (3-34) se corre tantas veces como DMUs hayan, con el fin de hallar la eficiencia

de cada DMU observada. El subındice o en los valores de y y x hacen referencia a la DMU

observada, por ejemplo, yobr es el valor que presenta la DMU observada en el b-esimo perıodo

de la salida r-esima serie de tiempo.

3.5.2. Uso del modelo propuesto

Aspectos iniciales


El DANE lleva anualmente el registro de informacion del sector fabril colombiano. En una

investigacion economica llamada Encuesta Anual de Manufactura (EAM) [117], tuvimos

acceso a datos desde 1992 hasta 2010. De EAM se recolecto la informacion para formar varias

series de tiempo. Para cada uno de los 22 departamentos de Colombia (DMU) se eligieron

tres series de tiempo para las variables de salida y cinco para las variables de entrada, es

decir 66 series en la salida y 110 en la entrada. Como variables de entrada se asumieron

1) el consumo de energıa electrica en KW/h, 2) total activos, 3) el consumo intermedio,

4) prestaciones sociales y 5) sueldos y salarios . Como variables de salida se asumieron 1)

Personal remunerado permanente (PRP), 2) Produccion Bruta (PB) y 3) Valor agregado

(VA). En las figuras 3-1, 3-2 y 3-3 se muestran las series de tiempo de las tres variables de

salida consideradas.

Figura 3-1.: Serie de tiempo para Personal Remunerado Permanente.

Se quizo elegir PRP como variable de salida tomando el hecho de que si un departamento

tiene mayor personal remunerado permanente aporta mas al empleo en Colombia, pero

desde otro punto de vista esta variable podrıa tomarse como una entrada y podrıa pensarse

que mientras mas personal remunerado permanente haya, mas se golpea negativamente la

eficiencia. Sin embargo lo hemos tomado como una salida del sistema fabril colombiano.

En la presente tesis se ha fijado K = 4 clusters y se ha hecho una clasificacion a priori de las

series de tiempo en los cluster. Tal como se ha descrito en la seccion 2.7, la “clusterizacion

basada en modelos” asume un modelo para cada uno de los cluster, por lo que despues de

la clasificacion apriori se uso el modelo “mixtura de efectos aleatorios” ecuaciones (2-26)

y (2-27). Lo que se sigue es estimar los parametros del modelo de mixtura, el criterio es

encontrar los parametros πk, µk y Σk que maximizan el logaritmo de la verosimilitud en

(2-99) capıtulo 2. Para la estimacion de los parametros πk, µk y Σk se ha usado el algoritmo


Figura 3-2.: Series de tiempo para Produccion Bruta

Figura 3-3.: Series de tiempo para Valor Agregado

AECM (ver capıtulo 2) mezclado con “modelo de estructuras” de Zimmerman (1998)[191] y

el algoritmo de Nelder y Mead (1965)[128].

Para estimar los parametros πk y µk el algoritmo AECM fue programado en Matlab usando

ecuaciones (2-64) a (2-72). Para cada una de las tres variables de salida consideradas (PRP,

PB y VA) se construyo un programa en Matlab que recibe 22 series de tiempo correspondiente

a 22 departamentos de Colombia (22 DMUs). Cada serie de tiempo tiene 19 perıodos (1992

hasta 2010). El objetivo de estos programas en Matlab es estimar los parametros de (2-26).

Para estimar Σk en cada una de las tres variables de salida, cada uno de los programas en

Matlab mencionados llaman a cuatro programas que estiman la matriz de varianzas y cova-

rianzas con la caracterıstica de que tanto la varianza como la correlacion son funciones que

dependen del tiempo. Para ello se usa el “modelo de estructuras” de Zimmerman (1998)[191]

donde la correlacion y la varianza son funciones que dependen del tiempo segun ecuaciones


(2-94) a (2-97) y se estimo el vector de parametros θ en (2-98) que hace que Σk(θ) maximice

el logaritmo de la verosimilitud.

La estimacion de θ se realizo mediante el algoritmo de Nelder y Mead (1965)[128], para ello se

construyeron 4 programas en Matlab para cada una de las 3 variables de salida consideradas

(PRP, PB y VA) para un total de 12 programas que estiman los vectores de parametros θkr,

donde r simboliza la salida, r = 1, 2, 3 y k simboliza el cluster, k = 1, 2, 3, 4, para un total

de 12 vectores θkr con el cual se construyen 12 matrices Σkr(θ) basandose esta construccion

en la estructura matricial de (2-90).

La ventaja de obtener los vectores θkr es que ayuda a modelar varianzas y correlaciones

variables en el tiempo, ası que bajo el esquema de “modelo de estructuras” de Zimmerman,

una estructura de varianza tiempo dependiente (2-96) y (2-97) es σi = σ2g(ti;ψ), donde

g(t;ψ) = 1 + ψ1t + ψ2t2, con ψ1 y ψ2 estimados anteriormente en vector θ. La figura 3-4

muestra la modelacion de la estructura de varianza en el tiempo para la variable PRP,

la figura 3-5 la modelacion de la varianza para variable PB y la figura 3-6 muestra la

modelacion de la estructura de varianza en el tiempo para la variable de salida VA.

Figura 3-4.: Varianzas observadas y estimadas por σ2i = σ2g(ti;ψ) en PRP

Una vez obtenidos todos los parametros de (2-26), se hace la clasificacion de las series de

tiempo de cada uno de los departamentos de Colombia mediante la regla optima de Bayes

en (2-41), con esta regla se asignan las series a uno de los K = 4 cluster para cada una de

las tres variables de salida PRP, PB y VA (un total de 12 cluster). Cada serie de tiempo

corresponde a la r-esima salida de la j-esima DMU (j = 1, ..., N ; r = 1, ..., S), donde las


Figura 3-5.: Varianzas observadas y estimadas por σ2i = σ2g(ti;ψ) en PB

DMUs son los departamentos de Colombia, por lo que la clasificacion permite saber para

cada salida de cada DMU cual es la matriz de varianzas y covarianzas que se seleccionara.

En nuestro modelo (3-33) para la salida r = 1, 2, 3 se usa Asbr como el elemento (s, b) de la

matriz inversa Σ−1Ur y de las series de tiempo se asume que se estan observando las medias

µpbr, µpsr, µqsr, µqbr, µobr, µosr (Ray, 2004)[162]), bajo el supuesto de que en las series se

estan observando los valores esperados por lo que tales elementos se igualan a ypbr, ypsr,

yqsr, yqbr, yobr, yosr, donde el subındice r denota la salida; p y q la DMU considerada; s

y b el perıodo de tiempo t, t = 1, ..., n, en este caso n = 19 perıodos desde 1992 hasta

2010. Con estos elementos se construyen las restricciones r = 1, ..., S del modelo (3-33), y

las restricciones l = 1..., m se construyen con los promedios de las series de tiempo de las

entradas (para futuras investigaciones se podrıa crear un modelo donde las entradas y las

salidas se modelan como series de tiempo).

Metodologıa para correr el modelo

En el modelo (3-33) Ar es la matriz inversa de ΣUr en (3-10). La obtencion Σ−1Ur es bastante

compleja ya que no esta compuesta por constantes sino por 23 variables que el modelo debe

calcular (λ1, ..., λ22, φ). Para solucionar tal dificultad se ha tenido en cuenta que en una

corrida a priori se han encontrado valores λj muy cercanos a cero, este hecho es aprovechado

para hacer en (3-10)N∑

j=1,j 6=o

λ2jΣjkr + (λo − φ)2Σokr ≈ φ2Σokr, y se usa la propiedad de las

matrices inversas que dice que para cualquier escalar λ 6= 0, (λA)−1 = λ−1A−1, por lo que


Figura 3-6.: Varianzas observadas y estimadas por σ2i = σ2g(ti;ψ) en VA

en este caso (φ2Σokr)−1 = 1

φ2 (Σokr)−1. Ası que ΣUr se resume a calcular Σokr, esta ultima se

obtiene eligiendo una de las Σkr estimadas, y el criterio para elegir es la clasificacion de la

serie observada en el cluster k. La serie observada es aquella que pertenece a DMUo (a la que

se le desea calcular la eficiencia). Las restricciones del modelo (3-33) quedan modificadas ya

que hay que multiplicar por 1φ2 donde exista Asb, por lo que el modelo (3-33) se modifica

por (3-35), el cual se corre tantas veces como DMUs hay, es decir 22 veces. De esta forma

en cada corrida de (3-35), un departamento pasa a ser la DMUo.

maxφ


n∑b=1

n∑s=1

N∑p=1

1φ2λ

2pµpbrµpsr((Σokr)

−1)sb+n∑

b=1

n∑s=1

N∑p=1

N∑q=p+1

1φ2λpλq(µpbrµqsr+µqbrµpsr)((Σokr)

−1)sb−n∑

b=1

n∑s=1

N∑p=1

1φλp(µpsrµobr + µosrµpbr)((Σokr)

−1)sb +n∑

b=1

n∑s=1

µosrµobr((Σokr)−1)sb ≤ 10,12 para

r = 1, ..., SN∑p=1


λp ≥ 0 ∀p

Donde ((Σokr)−1)sb simboliza el elemento (s, b) de la inversa de la matriz Σokr, esta ultima

simboliza la k-esima matriz de varianzas y covarianzas dado que, en la r-esima salida, la

serie de tiempo de la DMUo (observada) fue clasificada en el cluster k usando la mixtura de

efectos aleatorios y la regla optima de Bayes.


A continuacion se muestran los resultados con datos de EAM. Con el algoritmo de punto

interior de Matlab se corre (3-35). En la Tabla 3-1 se muestran los resultados del DEA

propuesto comparado con el DEA CCR orientado a las salidas y con el ındice Malmquist.

En esta Tabla los valores maximizados de φ con el nuevo modelo se denotan por φ∗; los

valores de la columna “DEA CCR prom” fueron obtenidos con el promedio de las eficiencias

de los 19 perıodos (1992-2010), es decir, se corrio el modelo CCR (2-5) 19 veces para cada

departamento y se promediaron, por cada departamento, las 19 eficiencias encontradas. En

esta tabla, el ındice Malmquist fue calculado con la ecuacion (2-17), la cual exige que se

corran, para cada departamento (DMU), cuatro veces el modelo (2-18) que es equivalente

al modelo (2-5), como perıodos se tuvieron en cuenta el primer ano (1992) y el ultimo ano

(2010).

En la Tabla 3-2 se muestra la clasificacion de eficiencias por los tres metodos. Para efectos de

comparar los metodos, se han dividido cada uno por el dato mayor para que el maximo sea

1, la comparacion se observa graficamente en la figura 3-7, en esta figura, el CCR promedio

se construye con las eficiencias promedio de los 19 perıodos (se corre (2-5) 19 veces para

cada departamento y se promedia) y el CCR output fue construido con con los promedios de

los 19 perıodos de las variables de entrada y salida para cada departamento (se promedian

valores de entrada y salida y se corre (2-5) una sola vez para cada departamento).

Figura 3-7.: Comparacion modelos DEA orientados a las salidas

Resultados

Hubo DMUs que estuvieron en los ultimos puestos de la clasificacion con un CCR orientado

a las salidas, pero al considerar su historia ciertas DMUs pueden ocupar los primeros lugares


Tabla 3-1.: CCR y Malmquist vs DEA series

Departamento DEA CCR prom Malmquist φ∗ DEA Propuesto

1 Antioquia 1.1511 1.0873 2.9462

2 Atlantico 1.1647 1.0299 3.3913

3 Bogota 1.0370 0.8426 2.8598

4 Bolıvar 1.1025 0.7584 3.3417

5 Boyaca 1.1268 1.6981 1.8239

6 Caldas 1.1671 1.0924 3.3799

7 Caqueta 1.0000 1.7442 2.5927

8 Cauca 1.1588 0.5969 2.8879

9 Cesar 1.1205 0.7801 3.3314

10 Cordoba 1.0614 0.6184 2.4098

11 Cundinamarca 1.1112 0.7305 3.1072

12 Huila 1.0087 1.2064 2.5749

13 Magdalena 1.0513 1.1338 1.9317

14 Meta 1.1379 1.1974 2.8056

15 Narino 1.0143 1.4724 2.4659

16 N Santander 1.0218 0.2112 2.7551

17 Quindıo 1.0000 0.8964 2.7809

18 Risaralda 1.1406 1.0982 3.3345

19 Santander 1.0401 0.6560 3.1395

20 Sucre 1.0085 0.8472 2.5379

21 Tolima 1.0085 0.4590 2.7573

22 Valle Cauca 1.1839 0.9804 2.3809


Tabla 3-2.: Clasificacion CCR y Malmquist vs DEA series.

Clasificacion Departamento DEA CCR Departamento Malmquist Departamento φ∗ DEA propuesto

1 Valle Cauca 1.1839 Caqueta 1.7442 Atlantico 3.3913

2 Caldas 1.1671 Boyaca 1.6981 Caldas 3.3799

3 Atlantico 1.1647 Narino 1.4724 Bolıvar 3.3417

4 Cauca 1.1588 Huila 1.2064 Risaralda 3.3345

5 Antioquia 1.1511 Meta 1.1974 Cesar 3.3314

6 Risaralda 1.1406 Magdalena 1.1338 Santander 3.1395

7 Meta 1.1379 Risaralda 1.0982 Cundinamarca 3.1072

8 Boyaca 1.1268 Caldas 1.092 Antioquia 2.9462

9 Cesar 1.1205 Antioquia 1.0873 Cauca 2.8879

10 Cundinamarca 1.1112 Atlantico 1.0299 Bogota 2.8598

11 Bolıvar 1.1025 Valle Cauca 0.9804 Meta 2.8056

12 Cordoba 1.0614 Quindıo 0.8964 Quindıo 2.7809

13 Magdalena 1.0513 Sucre 0.8472 Tolima 2.7573

14 Santander 1.0401 Bogota 0.8426 N Santander 2.7551

15 Bogota 1.0370 Cesar 0.7801 Caqueta 2.5927

16 N Santander 1.0218 Bolıvar 0.7584 Huila 2.5749

17 Narino 1.0143 Cundinamarca 0.7305 Sucre 2.5379

18 Huila 1.0087 Santander 0.656 Narino 2.4659

19 Sucre 1.0085 Cordoba 0.6184 Cordoba 2.4098

20 Tolima 1.0085 Cauca 0.5969 Valle 2.3809

21 Caqueta 1.0000 Tolima 0.459 Magdalena 1.9317

22 Quindıo 1.0000 N Santander 0.2112 Boyaca 1.8239


de la clasificacion, tal fue el caso de Santander, ver Tabla 3-2, este caso puede mostrar el

problema que tiene un modelo DEA clasico para medir eficiencias cuyas variables de salida

y/o entrada son series de tiempo con una estructura de autodependencia que no se puede

ignorar.

Si se quiere encontrar una explicacion de por que Valle del Cauca esta en el puesto 20 de

la clasificacion de DEA series propuesto comparado con el primer puesto en un promedio

CCR convencional, la explicacion esta en que aunque ha tenido comportamientos similares

en PRP, PB y VA comparados con Antioquia y Bogota, por ejemplo (figuras 3-1, 3-2 y

3-3), no obstante se nota en la figura 3-8 que el consumo de una de las entradas (KWH) es

mucho mayor que las demas y presenta crecimientos mayores que los otros departamentos,

por ejemplo en esta figura se nota como Antioquia presenta caıdas del consumo de energıa

electrica en los ultimos perıodos y esto no favorece el puntaje de eficiencia de Valle del Cauca.

Notese entonces la ventaja del DEA propuesto en series de tiempo a un modelo CCR que

obtiene los promedios de todas las eficiencias. Una explicacion de por que Santander queda

Figura 3-8.: Consumo energıa electrica en KWH

en los primeros puestos de la clasificacion de DEA series propuesto, se puede apreciar en la

figura 3-2 y 3-3, donde en las salidas PB y VA Santander presenta crecimientos casi tan

importantes como Antioquia y Valle, pero si se observa la figura 3-8 Santander consume

mucho menos energıa electrica que Antioquia y Valle.

Observese que los departamentos de Caldas y Risaralda, unos de los mas eficientes en las

series, en la figura 3-9 se nota que aunque terminan con una cantidad de PRP similar a

Cauca y Boyaca, en la historia no siempre fue ası, ya que Caldas y Risaralda antes del


perıodo 8 (ano 1999) tuvo mucho mejor PRP que Boyaca y Cauca. Si se observa la figura

3-10 Caldas y Risaralda presentan los niveles mas bajos de consumo de energıa electrica,

una de las entradas, esto favorece la historia de estos departamentos en la clasificacion de

la tabla 3-2. Estas observaciones ayudan a explicar por que el nuevo DEA series ubica a

Caldas y Risaralda en una mejor clasificacion que estos otros departamentos mencionados.

Figura 3-9.: PRP para algunos departamentos

Figura 3-10.: Consumo energıa para algunos departamentos

Un modelo DEA para series de tiempo supera algunas debilidades de los DEA temporales

existentes, Malmquist y analisis de ventana, al capturar la autodependencia de las series

3.6 Presentacion de los algoritmos para correr el modelo DEA propuesto 71

este modelo es un avance hacia un DEA en tiempo real, donde en las empresas industriales

se pueden tener instrumentos de captura de datos en perıodos de tiempo y mediante un

programa de computador se puede calcular la eficiencias en los perıodos de tiempo, teniendo

en cuenta la historia de las variables.

3.6. Presentacion de los algoritmos para correr el modelo

DEA propuesto

El modelo DEA propuesto en la presente tesis se probo mediante datos de la Encuesta Anual

de Manufactura del DANE Colombia. Se han querido hallar las eficiencias de los departa-

mentos de Colombia a traves del nuevo modelo DEA estocastico para datos longitudinales,

para ello se eligieron unas variables de entrada y otras de salida. Como variables de salida

se han seleccionado 3, las cuales son series de tiempo y como variables de entrada se han

seleccionado 5, las cuales se tomo el promedio de la series de tiempo. Se escribieron 3 algo-

ritmos en Matlab llamados antedepenPRP, antedepenPB y antedepenVA, correspondiente

a las respectivas variabes de salida Personal Remunerado Permanente, Produccion Bruta y

Valor Agregado. A continuacion se muestra la estructura de cada uno de los programas, la

estructura es la misma para los tres programas.

3.6.1. Estructura de los algoritmos antedepenPRP, antedepenPB y

antedepenVA

Se explicara la estructura del algoritmo llamado antedepenPRP, la explicacion sirve para

entender los algoritmos antedepenPB y antedepenVA ya que llevan la misma estructura.

Introduccion de los datos

Lo primero es que al algortimo antedepenPRP y a los otros dos (antedepen PB y antedepen-

VA) se le introduce una matriz de datos, donde las filas corresponden a 22 departamentos

de Colombia y las columnas corresponden a datos desde el ano 1992 hasta el 2010. Los datos

de esa matriz son los valores por departamento y por ano de la salida Personal Remunerado

Permanente (PRP), por lo que para esta salida se tienen 22 series de tiempo. Como los datos

son muy grandes, de hasta el orden diez mil millones (al menos en Produccion Bruta y Valor

Agregado), se han transformado los datos aplicando logaritmo natural.

Estimacion parametros

Basado en la informacion visual se hizo una clasificacion a priori de las series de tiempo a

4 clusters. En el algoritmo construido en Matlab llamado antedepenPRP (y los otros dos)

se ha programado el algoritmo AECM con los ciclos correspondientes. En el primer ciclo

el E-step calcula el valor esperado Q1(Ψ;Ψ[l]) y el CM-step maximiza Q1(Ψ;Ψ[l]) sobre Ψ


con Ψ2 fijo en Ψ[l]2 , para obtener la actualizacion Ψ

[l+1]1 buscando estimar π

[l+1]k y µ

[l+1]1 . En

el segundo ciclo se actualiza Ψ2 que contiene los elementos Σwk y σ2, el E-step calcula

Q2(Ψ;Ψ[l+1/2]) y CM-step maximiza Q2(Ψ;Ψ[l+1/2]) sobre Ψ con Ψ1 fijo en Ψ[l+1]1 para

estimar Σw[l+1]k y σ2[l+1], (ver explicacion de AECM con ecuaciones (2-67) a (2-72)).

Los parametros de la mixtura normal multivariada se han obtenido mediante algoritmo

AECM, para ello el progama principal antedepenPRP (ası como antedepenPB y antede-

penVA) llama a cuatro funciones llamadas veros1, veros2, veros3 y veros4. Estos cuatro

programas construidos tambien en Matlab calculan la estructura de la matriz de varianzas

y covarianzas dada en (2-90), la cual se modela con el modelo de antedependencia de Zim-

merman (1998)[191], ecuaciones (2-91) y (2-92) y las ecuaciones (2-94), (2-95),(2-96), estas

ultimas se encuentran en Nunez y Woodworth (1994)[133].

Entonces veros1, veros2, veros3 y veros4 calculan las matrices de varianzas y covarianzas, pero

antes se estiman los parametros que conforman el vector de parametros θ en (2-98) que hace

que Σk(θ) maximice el logaritmo de la verosimilitud. La estimacion de θ se realizo mediante

el algoritmo de Nelder y Mead (1965)[128]. Entonces este algoritmo se programo en veros1,

veros2, veros3 y veros4 para maximizar la verosimilitud de la mixtura. El algoritmo de Nelder

y Mead exige que existan unos parametros α, β y γ y un punto inicial con el cual empezar

a explorar la solucion. Ası que α es una constante positiva, llamada coeficiente de reflexion,

β es el coeficiente de contraccion y γ el coeficiente de expansion. Mediante estructuras “for”

anidadas se construye la matriz de varianzas y covarianzas con las cuales se calcula la funcion

de logaritmo de verosimilitud y mediante procesos iterativos se busca la matriz que maximiza

la verosimilitud, ayudado del algoritmo de Nelder y Mead.

Para cada una de las 3 variables de salida, 4 matrices de varianzas y covarianzas son en-

contradas en veros1, veros2, veros3 y veros4 respectivamente. Estas matrices maximizan el

logaritmo de verosimilitud de la mixtura, y los resultados son llevados al algoritmo principal

de cada una de las variables, ya que la mixtura se trabajo con K = 4. En el algoritmo princi-

pal se ha programado el algoritmo AECM pero recibiendo las matrices calculadas en veros1,

veros2, veros3 y veros4. Ası que en los algoritmos llamados antedepenPRP, antedepen PB y

antedepenVA se introduce les ecuaciones y las iteraciones dadas en (2-64), (2-65) y (2-66),

las cuales estiman los parametros del modelo de mixtura por maxima verosimilitud.

Alimentando el modelo DEA series propuesto

Finalmente los algoritmos escritos en Matlab antedepenPRP, antedepen PB y antedepen-

VA con sus respectivas funciones veros1, veros2, veros3 y veros4 entregan los parametros

de la funcion de densidad de mixtura dada en (2-26) y (2-27), pero no solo entrega es-

tos parametros, tambien entrega, mediante estructuras “for” anidadas los coeficientes que

necesita modelo DEA propuesto (3-35).

3.6 Presentacion de los algoritmos para correr el modelo DEA propuesto 73

Tales coeficientes son los coeficientes ypbrypsr para1φ2λ

2p en la r-esima salida; los coeficientes

(ypbryqsr + yqbrypsr) para 1φ2λpλq en la r-esima salida; los coeficientes (ypsryobr + yosrypbr)

para 1φλp en la r-esima salida y los coeficientes yosryobr para el termino independiente del

cuarto sumando del primer conjunto de restricciones para la r-esima salida en (3-35). Es

necesario aclarar, como se ve en Ray (2004)[162], el supuesto de que en las series de tiempo

se esta observando los valores esperados, por lo tanto en el modelo, µi se cambia por yi.

Los subındices de las variables anteriores tienen los siguientes valores: p = 1, 2, ..., N ; b =

1, 2, ..., n; s = 1, 2, ..., n, donde N son las DMUs, en este caso los departamentos de Colombia,

n son los perıodos de las series, en este caso 19 perıodos desde el ano 1992 hasta 2010.

Una vez calculados los parametros de la mixtura y los coeficientes, el modelo (3-35) tiene la

informacion suficiente para correrlo y hallar las eficiencias φ∗ = (φ∗1, ..., φ

∗N), pues el modelo

(3-35) necesita todos los coeficientes y necesita la matriz de varianzas y covarianzas de cada

cluster. La informacion anterior se lleva a otros algoritmos tambien escritos en Matlab. Estos

algoritmos estan estructurados como se explica en la siguiente subseccion.

3.6.2. Calculando eficiencias DEA

Para calcular las eficiencias con el modelo DEA series propuesto, se ha escrito un algoritmo

llamado “Untitled3”, en este se introducen los promedios de las 5 variables de entrada, no se

introducen las series completas, sino los promedios. Este algoritmo llama a unas funciones

llamadas “confun” y “objfun”. La funcion “confun” contiene las matrices que contienen los

coeficientes de las siguientes variables (para una r-esima salida):

1φ2λ

2p, con

1φ2λ

21,

1φ2λ

22, ...,

1φ2λ

2N . Los coeficientes de estos N = 22 cocientes entre varia-

bles se encuentran conn∑

b=1

n∑s=1

N∑p=1

1φ2λ

2pµpbrµpsr((Σokr)

−1)sb, notese que se necesitan los

elementos de la inversa de la matriz de varianzas y covarianzas de la DMU observada.

La matriz escogida se ha hecho por el criterio de la regla optima de Bayes despues de

haber estimado los parametros de la mixtura.

1φ2λpλq, con

1φ2λ1λ2,

1φ2λ1λ3, ...,

1φ2λ1λN ,

1φ2λ2λ3,

1φ2λ2λ4, ...,

1φ2λ2λN , ...,

1φ2λ(N−1)λN ,

para un total de(N2

)coeficientes, en este caso

(222

)= 231, es una combinacion pues-

to que no importa el orden ya que λpλq = λqλp. Los coeficientes se calculan conn∑

b=1

n∑s=1

N∑p=1

N∑q=p+1

1φ2λpλq(µpbrµqsr + µqbrµpsr)((Σokr)

−1)sb

1φλp, con

1φλ1,

1φλ2, ...,

1φλN . Los coeficientes de estos N = 22 cocientes entre variables

se encuentran conn∑

b=1

n∑s=1

N∑p=1

1φλp(µpsrµobr + µosrµpbr)((Σokr)

−1)sb

El termino independiene se encuentra conn∑

b=1

n∑s=1

µosrµobr((Σokr)−1)sb.


La funcion “objfun” contiene la funcion objetivo del modelo (3-35). El algoritmo principal

llamado “Untitled3” minimiza −φ, que es lo mismo que maximizar φ sujeto a las restricciones

de (3-35). Tal minimizacion se realiza con el algoritmo del punto interior que tiene Matlab.

3.6.3. Otros algoritmos

Se han construido otros algoritmos para calcular las eficiencias con el ındice Malmquist y un

DEA convencional CCR orientado a las salidas con retorno a escala constante. El algoritmo

Malmquist se ha llamado “malmquist1”, este esta alimentado con los datos de los valores de

las variables de 1992 y los valores de las variables de 2010 para poder calcular el cambio de

eficiencia entre estos dos perıodos como lo indica la teorıa del ındice Malmquist. El modelo

DEA CCR orientado a las salidas con retorno a escala constante se ha programado en un

algoritmo llamado “deanormaltodosper”.

4. Conclusiones y recomendaciones

4.1. Conclusiones

Se han explorado modelos DEA temporales en la literatura y se ha encontrado que no se

han registrado nuevos metodos a parte del “ındice Malmquist” y el “analisis de ventana”,

la evidencia se ha observado en el estado del arte de DEA temporal en Toshiyuki, Mika y

Manabu (2013)[177], y Sueyoshi y Goto (2013)[166] por lo que ha motivado este trabajo de

tesis doctoral hacia el plantemiento de un nuevo modelo DEA temporal que ofrezca algunas

ventajas sobre los dos modelos DEA temporales existentes.

Un nuevo modelo DEA temporal ha sido encontrado logrando extender el CCP de Land

Lovell y Thore al caso multivariado. A diferencia del CCP, el modelo presentado en esta

tesis acepta como variables de salida series de tiempo. Estas series podrıan ser estacionarias

o no estacionarias y el nuevo modelo es capaz de modelar la estructura de correlacion de

las variables de salida, la estrategia para modelar dicha estructura es agrupar en K clusters

las series de tiempo que tengan similar media y estimar en cada cluster cual es la matriz de

varianzas y covarianzas que modela la correlacion de este grupo.

La estrategia para agrupar las series de tiempo homogeneas se basa en la regla optima de

Bayes (Schwarz, 1978)[150] y en el hecho de que cada cluster representa una funcion (Coke y

Tsao, 2010)[47], de hecho la mixtura compuesta por cada una de estas K funciones represen-

tan una distribucion de probabilidad conocida como la mixtura normal multivariada donde

la estimacion de parametros se ha hecho con el algoritmo AECM para el modelo “mixtura

de efectos aleatorios ”.

El modelo de mixtura de efectos aleatorios dado en el capıtulo 2 permite estimar los parame-

tros de la mixtura mejor que otras tecnicas de la literatura (mixtura de modelo esferico y

mixtura de coeficientes aleatorios). La estimacion de estos parametros, como los vectores de

medias y las matrices de varianzas y covarianzas de los diferentes cluster se hace mediante el

metodo de maxima verosimilitud para cluster, el cual es encontrado en el algoritmo AECM

(Alternating Expectation Conditional Maximization) usado en Coke y Tsao (2010)[47], pero

en este trabajo de tesis se ha logrado mezclar AECM con el modelo de antedependencia

Zimmerman (1998)[191] para modelar las matrices de varianzas y covarianzas con varianzas

que son variables en el tiempo.

76 4 Conclusiones y recomendaciones

El desarrollo de la presente tesis doctoral ha permitido encontrar un modelo de forma general

al cual se le ha denominado “DEA estocastico para datos longitudinales con estructura de

antedependencia”, simplificando se dirıa que se ha encontrado un modelo “DEA para series

de tiempo”, el cual puede estar dado en forma general por modelo (3-34), pero para efectos

practicos este podrıa aproximarse al modelo (4-1) el cual es una generalizacion del modelo

(3-35).

maxφ

sujeto a las restricciones (4-1)

n∑b=1

n∑s=1

N∑p=1

1φ2λ

2pypbrypsr((Σokr)

−1)sb +n∑

b=1

n∑s=1

N∑p=1

N∑q=p+1

1φ2λpλq(ypbryqsr + yqbrypsr)((Σokr)

−1)sb −n∑

b=1

n∑s=1

N∑p=1

1φλp(ypsryobr + yosrypbr)((Σokr)

−1)sb +n∑

b=1

n∑s=1

yosryobr((Σokr)−1)sb ≤ χ2

n, (1−α) para

r = 1, ..., SN∑p=1


λp ≥ 0 ∀p

El modelo (4-1) esta dado para S variables de salida que son series de tiempo cada una.

Tiene m variables de entrada. El valor χ2n, (1−α) es un chi cuadrado con n grados de libertad

que deja un area a la izquierda de α y un area derecha de 1− α. Esta dado para N DMUs.

Los valores de φ representan la eficiencia estimada al correr el modelo (4-1) para la DMU

observada. El modelo (4-1) es una version determinıstica que se ha logrado en la presente

tesis, partiendo de una version probabilıstica que se ha extendido del modelo CCP.

El nuevo modelo tiene comportamientos mas similares a uno de los pocos modelos DEA tem-

porales existentes en la literatura, el Malmquist, mas que a los modelo DEA determinısticos,

el CCR.

La ventaja del modelo DEA encontrado llamese “DEA estocastico para datos longitudinales

con estructura de antedependencia” o llamese “DEA para series de tiempo”, tiene la potencia

de modelar el error aleatorio como lo hace el CCP de Land, Lovell y Thore (1992-1994)[106],

[105] y ademas considerar que las variables de salida son series de tiempo, modelando la

estructura de correlacion de las mismas en el modelo, por lo tanto el nuevo modelo DEA

series tiene mas informacion en el calculo de la eficiencia que los modelos DEA temporales

de la literatura, el “ındice Malmquist” y el “analisis de ventana” ya que estos no exploran

estructura de correlacion, ni consideran variables de salida como series de tiempo.

4.2 Recomendaciones o sugerencias para trabajos futuros 77

4.2. Recomendaciones o sugerencias para trabajos futuros

Con el presente trabajo de tesis doctoral se ha avanzado hacia la construccion de un modelo

DEA con caracterısticas y capacidades nuevas que los DEA de su tipo no poseıan, es decir,

hasta ahora los modelos DEA temporales no consideraban que las variables de entrada

y/o salida fueran, en vez de datos puntuales, vectores de series de tiempo, mucho menos

entonces, los modelos existentes se preocupaban por explorar la estructura de correlacion

de las series. En la presente tesis se ha planteado un modelo que es capaz de medir la

eficiencia considerando la historia del sistema medido, y considerar la historia es capturar

la informacion que se da en los datos historicos, esto es la estructura de correlacion. En

este momento se han cumplido los objetivos de la tesis, sin embargo en cuanto a modelos

DEA estocastico temporales (que constituyen una lınea nueva), se pueden hacer muchas

exploraciones a partir del presente trabajo.

Las recomendaciones que se dejan a raız del presente trabajo son las siguientes:

Se puede considerar, para trabajos futuros, que tanto las variables de entrada como las

de salida sean series de tiempo. En la presente tesis doctoral se ha considerado que las

variables de salida sean series de tiempo, pero no las de entrada, pues en este trabajo

se calcularon los promedios de los valores de las entradas. Plantear un modelo para

que tanto las variables de entrada como de salida sean series de tiempo, requiere que

haya un desarrollo matematico similar al que se hizo en este trabajo, pero el trabajo

adelantado muestra mucha idea de como lograrlo.

Mejorar los algoritmos de tal manera que sean mas eficientes, serıa un buen trabajo

futuro por explorar, ya que lograr algoritmos eficientes puede llevarnos a estar cer-

ca de un DEA en tiempo real considerando la estructura de antedependencia de las

series, esto es equivalente a considerar la historia de las variabes y por lo tanto se

esta calculando una eficiencia que tiene en cuenta la historia.

En el modelo (3-34) la matriz Ar es la matriz inversa de ΣUr y la obtencion de Σ−1Ur es

bastante compleja pues no esta compuesta de constantes sino de N + 1 variables. En

la presente tesis se ha usado una aproximacionN∑

j=1,j 6=o

λ2jΣjkr+(λo−φ)2Σokr ≈ φ2Σokr,

pero en futuras investigaciones se puede explorar una forma de tener aproximacion

mejor o calcular la inversa sin tener que aproximar. Esto mejorarıa los resultados en

los calculos de las eficiencias.

Para las estimaciones de matrices de varianzas y covarianzas se ha usado la teorıa de los

modelos de mixtura, esta exige que hayan un numero deK cluster,K puede presentarse

como una constante, en este trabajo se uso K = 4, o puede ser un parametro a estimar

y hacer parte del vector de parametros Ψ en ecuacion (2-25). Entonces para trabajos

78 4 Conclusiones y recomendaciones

futuros se recomienda que K sea un parametro a estimar por el metodo de maxima

verosimilitud.

Otra recomendacion tiene que ver con el uso de modelos de mixtura no necesariamen-

te normales, por ejemplo en el artıculo Vrbik y McNicholas (2014)[182] se trabajan

modelos de mixtura “Skew-t” y modelos de mixtura “Skew-normal” para amoldarse

a la asimetrıa de los datos. Estas mixturas tambien estiman los parametros mediante

el agoritmo EM. Salirse del supuesto de normalidad, puede volver las mixtura mas

potentes.

Resumiendo los puntos anteriores, se puede llegar a obtener, en investigaciones futuras, una

forma mucho mejor de medir la eficiencia cuando hay datos de entrada y salida que son series

de tiempo. Esta mejor medida se obtiene consideranto variables de entrada y salida como

series de tiempo, mejorando la eficiencia de los algoritmos, mejorando la obtencion de Σ−1Ur,

estimando el numero de cluster a considerar y usando modelos de mixtura no necesariamente

normales.

Como se puede apreciar, este trabajo de tesis doctoral abre un amplio espectro de trabajos

investigativos por realizar, por lo que los modelos DEA pueden llegar a utilizarse mas de

lo que se aplican en la actualidad, cada vez con mayor aproximacion a la realidad de los

sistemas a medir.

A. Estimacion de parametros Σwk

A.1. Personal Remunerado Permanente Σwk

Los Anexos A-1, A-2, A-3 y A-4 son las estimaciones de Σwk para PRP

Figura A-1.: Estimacion Σw1 PRP


A.2. Produccion Bruta Σwk

Los Anexos A-5, A-6, A-7 y A-8 son las estimaciones de Σwk para PB

80 A Estimacion de parametros Σwk



A.3. Valor Agregado Σwk

Los Anexos A-9, A-10, A-11 y A-12 son las estimaciones de Σwk para VA

A.3 Valor Agregado Σwk 81

Figura A-5.: Estimacion Σw1 PB



82 A Estimacion de parametros Σwk


Figura A-9.: Estimacion Σw1 VA


A.3 Valor Agregado Σwk 83



B. Anexo: Estimacion de parametros Σk

B.1. Personal Remunerado Permanente Σk

Los Anexos B-1, B-2, B-3 y B-4 son las estimaciones de Σk para PRP

Figura B-1.: Estimacion Σ1 PRP


B.2 Produccion Bruta Σk 85



B.2. Produccion Bruta Σk

Los Anexos B-5, B-6, B-7 y B-8 son las estimaciones de Σk para PB

86 B Anexo: Estimacion de parametros Σk

Figura B-5.: Estimacion Σ1 PB


B.3. Valor Agregado Σk

Los Anexos B-9, B-10, B-11 y B-12 son las estimaciones de Σk para VA

B.3 Valor Agregado Σk 87



Figura B-9.: Estimacion Σ1 VA

88 B Anexo: Estimacion de parametros Σk



Figura B-12.: Estimacion Σw4 VA

C. Anexo: Estimacion µk, πk, y

clasificacion cluster

C.1. Vectores de medias µk

La figura C-1 son las estimaciones de medias para logaritmo natural de los datos.

Figura C-1.: Estimacion medias del ln de PRP, PB y VA (µ1, µ2, µ3, µ4)

C.2. Parametros πk

La figura C-2 muestra las estimaciones de los πk para las tres variables y para los k = 1, ..., 4

cluster.

C.3. Calsificacon cluster

La figura C-3 muestra las clasificaciones a los cluster por la regla optima de Bayes.

90 C Anexo: Estimacion µk, πk, y clasificacion cluster



D. Apendice

D.1. Algebra lineal

D.1.1. Traza de una matriz

La traza de una matriz A, tr(A) es la suma de los elementos de las diagonales de A. La traza

de un escalar es igual al escalar. Tambien se tiene que

tr(A+B) = tr(A) + tr(B) (D-1)

tr(AB) = tr(BA) (D-2)

∑

i

xTi Axi = tr(AB), donde B =∑

i

xixTi (D-3)

D.1.2. Derivadas de matrices y determinantes

El determinante de una matriz A se denota como |A|, se cumple que:∣∣A−1

∣∣ = 1/A (D-4)

La derivada de una funcion de una matria f(A) con respecto a los elementos de la matriz es∂f(A)∂A

definida para ser la matriz con i, j esima entrada [∂f(A)∂ai,j

] donde ai,j es la i, jesima entrada

de A. La definicion tambien aplica para aplicar a derivadas con respecto a un vector.

∂xTAx

∂x= (A+ AT )x (D-5)

Cuando A es una matriz simetrica:

∂ |A|∂ai,j

=

{Ai,j si i = j

2Ai,j si i 6= j(D-6)

donde Ai,j es el i, jesimo cofactor de A. Tambien se da que:

∂ log |A|∂A

=

{Ai,j/ |A| si i = j

2Ai,j/ |A| si i 6= j

}= 2A−1 − diag(A−1) (D-7)

Por la inversa de una matriz se puede mostrar que:

∂tr(AB)

∂A= B +BT −Diag(B). (D-8)

Bibliografıa

[1] A., Charnes ;Cooper, W.W. ;Golany, B. ; Seiford, L.M. ; Stutz, J.: Foundations

of data envelopment analysis and Pareto–Koopmans empirical production functions.

En: Journal of Econometrics 30 (1985), p. 91–107

[2] Aigner ; Chu, S. F.: On Estimating the Industry Production Frontiers. En: American

Economic Review 56 (1968), p. 826–839

[3] Aigner, D. J. ; Lovell, C.A.K. ; Schmidt, P.: Formulation and Estimation of

Stochastic Frontier Production Models. En: Journal of Econometrics 6 (1997), p.

21–37

[4] Al-Najjar, Sabah. M. ; Jaybajy.: Application of Data Envelopment Analysis to

Measure the Technical Efficiency of Oil Refineries: A Case Study. En: International

Journal of Business Administration 3 (2012)

[5] Ali, A.I. ; Seiford, L.M.: Translation invariance in data envelopment analysis. En:

Operations Research Letters 9 (1990), p. 403–405

[6] Andersen, P. ; Petersen, N.C.: A procedure for ranking efficient units in DEA.

En: Management Science 39 (1993), p. 1261–1264

[7] Anderson, T.R. ; Hollingsworth, K.B. ; Inman, L.B.: The fixed weighting nature

of a cross-evaluation model. En: Journal of Productivity Analysis 18(1) (2002), p. 249–

255

[8] Aparicio, J. ; Ruiz, J. ; Sirvent, I.: Closest targets and minimum distance to the

Pareto-efficient frontier in DEA. En: Journal of Productivity Analysis 28 (2007), p.

209–218

[9] Arnold, V. ; Bardhan, W.W. ; Kumbhakar, S.C.: New Uses of DEA and Sta-

tistical Regressions for Efficiency Evaluation and Estimation — With an Illustrative

Application to Public Secondary Schools in Texas. En: Annals of Operations Research

66 (1994), p. 255–278

[10] Ashrafi, A. ; Seow, H.V ; Lee, L.S. ; Lee, C.G.: The efficiency of the hotel industry

in Singapore. En: Tourism Management 37 (2013), p. 31–34

Bibliografıa 93

[11] Assaf, A. G.: Benchmarking the Asia Pacific tourism industry: A Bayesian com-

bination of DEA and stochastic frontier. En: Tourism Management 33 (2012), p.

1122–1127

[12] y Assaf A., Matawie K. M.: ayesian and DEA efficiency modelling: An Aplication to

hospital foodservice operation. En: Journal of Applied Statistics 37 (2010), p. 945–953

[13] Banker, R. ; Natarajan, R.: Statistical Tests Based on DEA Efficiency Scores:

Chapter 11 in in W.W. Cooper, L.M. Seiford and J. Zhu, eds. Handbook on Data

Envelopment Analysis. U.S.A : Norwell, Mass., Kluwer Academic Publishers, 2004

[14] Banker, R. D.: Estimating most productive scale size using data envelopment analy-

sis. En: European Journal of Operational Research 17 (1984), p. 35–44

[15] Banker, R. D.: Maximum Likelihood, Consistency and Data Envelopment Analysis:

A Statistical Foundation. En: Management Science 39 (1993), p. 1265–1273

[16] Banker, R. D.: Hypothesis Tests Using Data Envelopment Analysis. En: Journal of

Productivity analysis 7 (1996), p. 139–159

[17] Banker, R. D.: Portela, M., Thanassoulis, E. En: Journal of the Operational Research

Society 58(4) (2007), p. 481–490

[18] Banker, R.D. ; Chang, H. ; Cooper, W.W.: Simulation studies of efficiency, re-

turns to scale and misspecification with nonlinear functions in DEA. En: Annals of

Operations Research 66 (1996), p. 233–253

[19] Banker, R.D. ; Morey, E.C.: The use of categorical variables in data envelopment

analysis. En: Management Science 32(12) (1986), p. 1613–1627

[20] Banker, R.D. ; Morey, R.: Efficiency analysis for exogenously fixed inputs and

outputs. En: Operations Research 34 (1986), p. 513–521

[21] Bardhan, I.R. ; Cooper, W.W. ; Kumbhakar, S.C.: A Simulation Study of Joint

Uses of Data Envelopment Analysis and Stochastic Regressions for Production Fun-

ction Estimation and Efficiency Evaluation. En: Journal of Productivity Analysis 9

(1998), p. 249–278

[22] Bauer, P.W: Recent Development in Econometric Estimation of Frontiers. En: Jour-

nal of Econometrics 46 (1990), p. 39–56

[23] Bazaraa, Mokhtar S. ; Sherali, Hanif D. ; Shetty, C.M: Nonlinear Programming,

Theory an Algorithms, 3 ed. U.S.A : A John Wiley and sons, 2006

94 Bibliografıa

[24] Bilmes, Jeff A.: A Gentle Tutorial of the EM Algorithm and its Aplication to Pa-

rameter Estimation for Gaussian Mixture and Hidden Markov Models / Computer

Science & Division. Deparment of Electrical Engineering and Computer Science U. C.

Berkeley. 1998. – Informe de Investigacion. – 1–13 p.

[25] Box, G. E. P. ; Jenkins, G. M.: Time Series Analysis: Forecasting and Control. En:

Management Science 39 (1970)

[26] Briec, W.: Holder distance function and measurement of technical efficiency. En:

Journal of Productivity Analysis 11(2) (1999), p. 111–131

[27] Brockett, P.L. ; Cooper, W.W. ; Kumbhakar, S.C. ; Kwinn Jr, M.J. ;

McCarthy, D.: Alternative Statistical Regression Studies of the Effects of Joint and

Service-Specific Advertising on Military Recruitment. En: Journal of the Operational

Research Society 55 (2004), p. 1039–1048

[28] Bruni, M.E. ;Conforti, D. ;Beraldi, P. ;Tundis, E.: Probabilistically constrained

models for efficiency and dominance in DEA. En: International Journal Production

Economics 117 (2009), p. 219–228

[29] Bryan., Geoffrey: Random Effects Mixture Models for Clustering Time Series, Uni-

versity of Victoria, Tesis de Grado, 2004

[30] C., Wu. ; Li, Y. ; Liu, Q. ;Wang, K.: A Stochastic DEAmodel considering undesirable

outputs with weak disposability. En: Mathematical and Computer Modelling 58 (2012),

p. 980–989

[31] Chang, Y. ; Sueyoshi, T.: An interactive application of DEA in microcomputers.

En: Computer and Management 4(1) (1991), p. 51–64

[32] Chang, Young-Tae ; Zhang, Ning ; Danao, Denise ; Zhang, Nan.: Environmental

efficiency analysis of transportation system in China: A non-radial DEA approach. En:

Energy Policy 58 (2013), p. 277–283

[33] Charnes, A. ; Cooper, W.W.: Deterministic Equivalents for Optimizing and Satis-

ficing under Chance Constraints. En: Operations Research 11 (1963), p. 18–39

[34] Charnes, A. ; Cooper, W.W. ; Huang, Z.M. ; Sun, D.B.: Polyhedral cone-ratio

DEA models with an illustrative application to large commercial banks. En: Journal

of Econometrics 46 (1990), p. 73–91

[35] Charnes, A. ; Cooper, W.W. ; Rhodes, E.L.: Measuring the efficiency of decision

making units. En: European Journal of Operation Research 2 (1978), p. 429–444

Bibliografıa 95

[36] Charnes, A. ; Haag, S. ; Jaska, P. ; Semple, J.: Sensitivity of efficiency calculations

in the additive model of data envelopment analysis. En: International Journal of

System Sciences 23 (1992), p. 789–798

[37] Charnes, A. ; Neralic, L.: Sensitivity analysis in data envelopment analysis. En:

Glasnik Matematicki. 27 (1992), p. 191–201

[38] Charnes, A. ; Rousseau, J. ; Semple, J.: Sensitivity and stability of efficiency

classifications in data envelopment analysis. En: Journal of Productivity Analysis. 7

(1996), p. 5–18

[39] Chen, L.F. ; Hsiao, C.H ; C.F., Tsai: Three stage DEA model selections and ma-

nagerial decision. En: African Journal of Business Management 4(14) (2010), p.

3046–3055

[40] Chen, Y.: Measuring super-efficiency in DEA in the presence of infeasibility. En:

European Journal of Operational Research 161 (2005), p. 545–551

[41] Chen, Y. ; Zhu, J.: Measuring information technology’s indirect impact on firm

performance. En: Information Technology & Management Journal 5 (1-2) (1993), p.

9–22

[42] Chen, Y.C. ; Chiu, Y.H. ; Huang, C.W. ; Tu, C.H.: The analysis of bank business

performance and market risk-Applying Fuzzy DEA. En: Economic Modelling 32

(2013), p. 225–232

[43] Cherchye, L. ; Kuosmanen, T. ; Post, T.: What is the economic meaning of FDH?

A reply to Thrall. En: Journal of Productivity Analysis 13 (1993), p. 263–267

[44] Cherchye, L. ; Van Puyenbroeck, T.: A comment on multistage DEA methodo-

logy. En: Operational Research Letters 28(2) (2001), p. 143–149

[45] Chiu, Y. ; Huang, C. ; Ting, C.: A non-radial measure of different systems for

Taiwanese tourist hotels efficiency assessment. En: European Journal of Operations

Research 20 (2012), p. 45–63

[46] Coelli, T. ; Rao, D.S.P. ; Battese, G.E.: An Introduction to Efficiency and Pro-

ductivity Analysis, 2 ed. U.S.A : Springer, 2005

[47] Coke, Geoffrey. ; Tsao, Min.: Random effects mixture models for clustering electrical

load series. En: Journal of Time Series Analysis 31 (2010), p. 451–464

[48] Cook, Kress M. ; Seiford, L.M.: Data envelopment analysis in the presence of both

quantitative and qualitative factors. En: Journal of the Operational Research Society

47 (1996), p. 945–953

96 Bibliografıa

[49] Cook, W.D. ; Chai, D. ; Doyle, J. ; Green, R.H.: Hierarchies and groups in DEA.

En: Journal of Productivity Analysis 10 (1998), p. 177–198

[50] Cook, W.D. ; Green, R. ; Zhu, J.: Dual role factors in DEA. En: IIE Transactions

38 (2006), p. 1–11

[51] Cook, W.D. ; Green, R.H.: Evaluating power plant efficiency: A hierarchical model.

En: Computers and Operations Research 32 (2005), p. 813–823

[52] Cook, W.D. ; Hababou, M. ; Tuenter, H.: Multi-component efficiency measu-

rement and shared inputs in data envelopment analysis: An application to sales and

service performance in bank branches. En: Journal of Productivity Analysis 14 (2000),

p. 209–224

[53] Cook, W.D. ; Kress, M. ; Seiford, L.M.: On the use of ordinal data in data

envelopment analysis. En: Journal of the Operational Research Society 44 (1993), p.

133–140

[54] Cook, W.D. ; Liang, L. ; Zha, Y. ; Zhu, J.: A Modified Super-efficiency DEA Model

for Infeasibility. En: Journal of Operational Research Society 60 (2009), p. 276–281

[55] Cook, W.D. ; Roll, Y. ; Kazakov, A.: A DEA model for measuring the relative

efficiency of highway maintenance patrols. En: Infor 28 (1990), p. 113–124

[56] Cook, W.D. ; Zhu, J.: Rank order data in DEA: A general framework. En: European

Journal of Operational Research 174 (2006), p. 1021–1038

[57] Cook, W.D. ; Zhu, J.: Classifying inputs and outputs in data envelopment analysis.

En: European Journal of Operational Research 180(2) (2007), p. 692–699

[58] Cook, W.D. ; Zhu, J.: CAR-DEA: Context dependent assurance regions in DEA.

En: Operations Research, forthcoming (2008), p. 69–78

[59] Cook, W.W. ; Seiford, L.M.: Data Envelopment Analysis (DEA) - Thirty years on.

En: European Journal of Operational Research 192 (2009), p. 1–17

[60] Cooper, Seiford L.M. Tone K.: Introduction to Data Envelopment Analysis and its

Uses. N.Y. U.S.A : Springer Science, 2006

[61] Cooper, Seiford L.M. Tone K.: Data Envelopment Analysis. A comprehensive text

with models, aplications, References and DEA-solver sofware, Second edition. N.Y.

U.S.A : Springer, 2007

[62] Cooper, W.W. ; Deng, H. ; Huang, Z ; Li, S. X.: Chance constrained program-

ming approaches to congestion in stochastic data envelopment analysis. En: European


Bibliografıa 97

[63] Cooper, W.W. ;Huang, Z. ; Li, S.: Satisficing DEAmodels under chance constraints.

En: The Annals of Operations Research 66 (1996), p. 279–295

[64] Cooper, W.W. ; Li, S. ; Seiford, L.M. ; Tone, K. ; Thrall, R.M. ; Zhu, J.:

Sensitivity and stability analysis in DEA: Some recent developments. En: Journal of

Productivity Analysis 15 (2001), p. 217–246

[65] Cooper, W.W. ; Park, K.S. ; Yu, G.: IDEA and AR-IDEA: Models for dealing with

imprecise data in DEA. En: Management Science 45 (1999), p. 597–607

[66] Cooper, W.W. ; Seiford, R.M. ; Zhu, J.: Handbook on Data Envelopment Analysis.

N.Y. U.S.A : Springer, 2004

[67] Dempster, A.P. ; Laird, N.M. ; Rubin, D.B.: Maximum likelihood for incomplete

data via the em algorithm (with discussion). En: Journal of the Royal Statistical

Society 39 (1977), p. 1–38

[68] Deprins, L. ; Simar, L. ; Tulkens, H.: Measuring labor efficiency in post offices.

En: The Performance of Public Enterprises: Concepts and Measurement 10 (1984), p.

243–268

[69] Dıaz, L.G. ; Morales, M.: Analisis Estadıstico de datos Multivariados. Bogota :

Universidad Nacional de Colombia, 2012

[70] Diggle, P. ; Heagerty, P. ; Liang, K. ; Zeger, S.: Analysis of Longitudinal Data.

Oxford : Oxford University Press, 1977

[71] Diggle, P.J.: An approach to the analysis of repeated measurements. En: Biometrics

44 (1998), p. 959–971

[72] Doyle, J. ; Green, R. ; Cook, W.D.: Preference voting and project ranking using

DEA and cross-evaluation. En: European Journal of Operational Research 90 (1996),

p. 461–472

[73] Dyson, R.G. ; Thanassoulis, E.: Reducing weight flexibility in DEA. En: Journal

of Operational Research Society 39(6) (1998), p. 563–576

[74] E.G., Tsionas ; Papadakis, E.N.: A Bayesian approach to statistical inference in

stochastic DEA. En: Omega 38 (2010), p. 309–314

[75] Fare, Lovell C.: Measuring the technical efficiency of production. En: Journal of

Economic Theory 19 (1978), p. 150–162

[76] Fare, R. ; Grosskopf, S.: Modelling undesirable factors in efficiency evaluation:

Comment. En: European Journal of Operational Research 157 (2004), p. 242–245

98 Bibliografıa

[77] Fare, R.S. ; Grosskopf, S.: Network DEA. En: Socio-Economic Journal 5(1-2)

(2000), p. 9–22

[78] Farre R.S., S. Lovell C.: Production Frontiers. Reino Unido : Cambridge University

Press, 1994

[79] Farrell, M.J.: The Measurement of Productive Efficiency. En: Journal of the Royal

Statistical Society Series A 120(3) (1951), p. 253–281

[80] Feller, W.: An Introduction to Probability Theory and its Applications. U.S.A :

Wiley, 1966

[81] Ferrier, G.D. ; Lovell, C.A.K.: Measuring Cost Efficiency in Banking Econometric

and Linear Programming Evidence. En: Journal of Econometrics 6 (1993), p. 229–245

[82] Fethi, M.D. ; Jackson, P.M. ; Weyman-Jones, T.G.: An Empirical Study of Sto-

chastic DEA and Financial Performance: the Case of the Turkish Commercial Banking

Industry / INFORMS International Hawaii Conference. 2001. – Informe de Investiga-

cion. – 1–24 p.

[83] Fraley, C. ; Raftery, A.E.: How many Clusters? Wich clustering method? Answers

via model-based cluster analysis. En: Computer Journal 41 (1998), p. 578–588

[84] Fraley, C. ; Raftery, A.E.: Model-based clustering, discriminant analysis and

density estimation. En: Journal of the American Statistical Association 97 (2002), p.

611–631

[85] Frei, F. ; Harker, P.: Projections onto efficient frontiers: Theoretical and compu-

tational extensions to DEA. En: Journal of Productivity Analysis 11 (1999), p. 275–300

[86] Fried, H.O ; Lovell, C.A.K ; Schmidt, Yaisawarng S.: Accounting for environmen-

tal effects and statistical noise in data envelopment analysis. En: Journal of Producti-

vity Analysis 17 (2002), p. 157–174

[87] Gabriel, K.R.: Ante-dependence analysis of an ordered set of variables. En: The

Annals of Mathematical Statistics 33(1) (1962), p. 201–212

[88] Giraldo, G.N.: Notas de clase Procesos estocasticos, version preliminar / Escuela

Estadıstica Universidad Nacional sede Medellın. 2006. – Informe de Investigacion. –

1–20 p.

[89] Gonzalez, Alvarez A.: From efficiency measurement to efficiency improvement: The

choice of relevant benchmarks. En: European Journal of Operational Research 133

(2001), p. 512–520

Bibliografıa 99

[90] Goto, Tsutsui M.: Comparison of productive and cost efficiencies among Japanese

and US electric utilities. En: OMEGA 26 (1998), p. 177–194

[91] Green, R. ; Cook, W.D.: A free disposal hull approach to efficiency measurement.

En: Journal of the Operational Research Society 55 (2004), p. 1059–1063

[92] Guerra, M. ; Souza, A.A ; Moreira, D.R.: Performance Analysis: A Study Using

Data Envelopment Analysis in 26 Brazilian Hospitals. En: Health Care Finance 38(4)

(2012), p. 19–35

[93] Hernandez-Sancho, F. ; Molinos-Senante, M. ; Sala-Garrido, R.: Economic

valuation of environmental benefits from wastewater treatment proceses: an empirical

approach for Spain. En: Science of the Total Environment 408 (2010), p. 953–957

[94] Garcıa del Hoyo, J.J ; Castilla, E.D ; Jimenez, T.R.: Determination of technical

efficiency of fisheries by stochastic frontier models: A case on the Gulf of Cadiz (Spain).

En: ICES Journal of Marine Science 61 (2014), p. 416–421

[95] Hua, Z. ; Bin, Y.: DEA with undesirable factors. In: Zhu, J., Cook, W.D. (Eds.), Mo-

deling Data Irregularities and Structural Complexities in Data Envelopment Analysis.

London : Springer Science Series (Chapter6), 1977

[96] Jaffrezic, F. ; Thompson, R. ; Hill, W.G.: Structured antedependence models

for genetic analysis of repeated measures on multiple quantitative traits. En: Genetics

Research 82 (2003), p. 55–65

[97] James, G. M. ; Sugar, C.A.: Clustering for sparsely sampled functional data. En:

Journal of the American Statistical Association 98(462) (2003), p. 397–408

[98] Jondrow, J. ; Lovell, C.A.K. ; Materov, I.S. ; Schmidt, P.: On the Estimation

of Technical Inefficiency in the Stochastic Frontier Production Model. En: Journal of

Econometrics 51 (1982), p. 259–284

[99] Kamakura, W.A.: A note on the use of categorical variables in data envelopment

analysis. En: Management Science. 34(10) (1988), p. 1273–1276

[100] Klopp, G.: The Analysis of the Efficiency of Production System with Multiple Inputs

and Outputs. Kassel, Chicago:University of Illinois at Chicago, Industrial and Systems

Engineering College, Ph. D. Thesis, 1985

[101] Korostolev, A.P. ; Simar, L. ; Tsybakov, A.B.: Efficient Estimation of Monotone

Boundaries. En: Annals of Statistics 23 (1995), p. 476–489

100 Bibliografıa

[102] Korostolev, A.P. ; Simar, L. ; Tsybakov, A.B.: On Estimation of Monotone and

Convex Boundaries. En: Public Institute of Statistics of the University of Paris 39

(1995), p. 3–15

[103] Kumbhakar, S.C. ; Lovell, C.A.K.: Stochastic Frontier Analysis. Cambridge :

Cambridge University Press, 2000

[104] L., Brockett P. ; W.W., Cooper ; L., Golden L. ; C., Kumbhakar S. ; J., Kwinn

Jr M. ; Brian, Layton ; Parker, Barnett R.: Estimating elasticities with frontier

and other regressions in evaluating two advertising strategies for US Army recruiting.

En: Socio-Economic Planning Sciences 42 (2008), p. 1–17

[105] Land, K.C ; Lovell, C.A.K ; Thore, S.: Productive Efficiency under Capitalism and

State Socialism: the Chance Constrained Programming Approach. En: Supplement to

Public Finance 47 (1992), p. 109–121

[106] Land, K.C ; Lovell, C.A.K ; Thore, S.: Chance constrained data envelopment

analysis. En: Managerial and Decision Economics 14(6) (1993), p. 541–554

[107] Land, K.C ; Lovell, C.A.K ; Thore, S.: Chance-Constrained Data Envelopment

Analysis. En: Managerial and Decision Economics 14 (1993), p. 541–554

[108] Land, K.C ; Lovell, C.A.K ; Thore, S.: Productive Efficiency under Capitalism and

State Socialism: An Empirical Inquiry Using Chance-Constrained Data Envelopment

Analysis. En: Technological Forecasting and Social Change 46 (1994), p. 139–152

[109] Land, K.C ; Lovell, C.A.K ; Thore, S.: Four Papers on Capitalism and State

Socialism / Austin Texas: The University of Texas, IC2Institute. 1999. – Informe de

Investigacion. – 38 p.

[110] Lee, H.S. ; Chu, C.W. ; Zhu, J.: Super-efficiency DEA in the presence of infeasibility.

En: European Journal of Operational Research 212 (2011), p. 141–147

[111] Lee, H.S. ; Zhu, J.: Super-efficiency infeasibility and zero data in DEA. En: European


[112] Liang, L.F. ; Wu, J. ; Cook, W.D. ; Zhu, J.: The DEA cross efficiency model and

its Nash equilibrium. En: Operations Research, forthcoming 39 (2008), p. 1278–1288

[113] Lindsey, J.K: Models for Repeated Measurements. Oxford : Oxford University Press,

1999

[114] Lovell, Rouse A.: Equivalent standard DEA models to provide superefficiency scores.

En: Journal of the Operational Research Society 54(1) (2003), p. 101–108

Bibliografıa 101

[115] Luan, Y. ; Li, H.: Clustering of time-course gene expression data using a mixedeffects

model with b-splines. En: Bioinformatics 19(4) (2003), p. 474–482

[116] Macpherson, A.J. ; Principe, P.P. ; Shao, Y.b.: Controlling for exogenous envi-

ronmental variables when using data envelopment analysis for regional environmental

assessments. En: Journal of Environmental Management 119 (2013), p. 220–229

[117] Maldonado, H. ; Sepulveda, C. ; Vargas, A.: Metodologıa Encuesta Anual de

Manufactura / Departamento Nacional de Estadıstica DANE. 2009. – Informe de

Investigacion. – 1–108 p.

[118] Malmquist, S.: Index number and indifferences surfaces. En: Trabajos de Estatistica

4 (1953), p. 209–242

[119] Mardia, Kent J. ; Bibby, J. M.: Multivariate Analysis. London : London Academic

Press, 1979

[120] Martinez, U.F. ; Gomez, J.C. ; Perez, M.C. ; Gomez, J.: Comparacion de rankings

de eficiencia mediante analisis de componentes principales. En: Estadıstica espanola

54 (2012), p. 357–373

[121] McLachlan, G. ; Peel, D.: Finite Mixture Models. U.S.A : Wiley-Interscience, 2000

[122] Meeusen, Van den Broeck J.: Efficiency estimation from Cobb–Douglas production

functions with composed error. En: International Economic Review 18 (1977), p.

435–444

[123] Meng, F.Y. ; Fan, L.W. ; Zhou, P. ; Zhou, D.Q.: Measuring environmental per-

formance in China’s industrial sectors with non-radial DEA. En: Mathematical and

Computer Modelling 58(5-6) (2013), p. 1047–1056

[124] Meng, X. ; Rubin, D.B.: Likelihood estimation via the ecm algorithm: A general

framework. En: Biometrika 80(2) (1993), p. :267–278

[125] Meng, X. ; Van Dyk, D.: The em algorithm an old folk song sung to a fast new tune

(with discussion). En: Journal of the Royal Statistical Society 59(3) (1997), p. 511–567

[126] Molinos, M. ; Hernandez, F. ; Sala, R.: Economic feasibility study for wastewater

treatment: a cost-benefit analysis. En: Science of the Total Environment 408 (2010),

p. 4396–4402

[127] Muniz, Paradi J. Ruggiero J. Yang Z.: Evaluating alternative DEA models used to

control for non-discretionary inputs. En: Computers & Operations Research 33 (2006),

p. 1173–1183

102 Bibliografıa

[128] Nelder, Mead R.: A simplex method for function minimization. En: Computer

Journal 7 (1965), p. 308–313

[129] Neralic, L.: Sensitivity in data envelopment analysis for arbitrary perturbations of

data. En: Glasnik Matematicki 32 (1993), p. 315–335

[130] Neralic, L.: Preservation of efficiency and inefficiency classification in data envelop-

ment analysis. En: Mathematical Communications 9 (2004), p. 51–62

[131] Ng, S.K. ; McLachlan, G.J. ; Wang, K. ; Jones, L.Ben-Tovmin ; Ng, S.W: A

mixture model with random-effects components for clustering gene-expression profiles.

En: Bioinformatics 22 (14) (2006), p. 1745–1752

[132] Norman, Giraldo: Notas de clase Procesos Estocasticos Version Preliminar / Univer-

sidad Nacional de Colombia sede Medellın. 2006. – Informe de Investigacion. – 1–20

p.

[133] Nunez, A.V. ; Woodworth, G.G.: Analysis of longitudinal data with unequally

spaced observations and time-dependent correlated errors. En: Biometrics 50 (1994),

p. 445–456

[134] Oral, M. ; Kettani, O. ; Lang, P.: A methodology for collective evaluation and

selection of industrial R&D projects. En: Management Science. 37(7) (1991), p. 871–

883

[135] Pastor, J.T.: Translation invariance in DEA: A generalization. En: Annals of Ope-

rations Research 66 (1996), p. 93–102

[136] Pastor, J.T. ; Ruiz, J.L. ; Sirvent, I.: An enhanced DEA Russell graph efficiency

measure. En: European Journal of Operational Research 115 (1999), p. 596–607

[137] Portela, M. ; Castro, P. ; Thanassoulis, E.: Finding closest targets in non-

oriented DEA models: The case of convex and non-convex technologies. En: Journal

of Productivity Analysis 19 (2003), p. 251–269

[138] R., Christensen ; W., Johnson ; Branscum, A. ; Hanson, T.E.: Bayesian Ideas and

Data Analysis, An Introduction for Scientistits and Statisticians. U.S.A : CRC Press.

Taylor & Francis Group, 2011

[139] R.D., Banker ; Charnes, A. ; W.W., Cooper: Some models for estimating technical

and scale inefficiencies in data envelopment analysis. En: Management Science 30

(1984), p. 1078–1092

[140] Redner, R.A.: Note on the consistency of the maximum likelihood estimate for

nonidentifiable distributions. En: Annals of Statistics 9 (1981), p. 225–228

Bibliografıa 103

[141] Redner, R.A. ; Walker, H.F: Mixture densities, Maximum likelihood and the EM

algorithm. En: Social for Industrial and Applied Mathematics SIAM 26(2) (1984), p.

195–236

[142] Roa, Alfredo ; Centaro, L. ; Padilla, K ; Quesada, V.M. ; Villa, G.: Produc-

tividad y Eficiencia en la empresa: un enfoque practico. Cartagena : Universidad de

Cartagena. Editorial Universitaria, 2003

[143] Roll, Cook W.D. Golany B.: Controlling factor weights in data envelopment analysis.

En: IIE Transactions 23 (1991), p. 2–9

[144] Rousseau, J.J. ; Semple, J.H.: Categorical outputs in data envelopment analysis.

En: Management Science 39(3) (1993), p. 384–386

[145] Ruggiero, J.: On the measurement of technical efficiency in the public sector. En:


[146] Ruggiero, J.: Non-discretionary inputs in data envelopment analysis. En: European


[147] Sala-Garrido, R. ; Hernandez, F. ; M, Molinosm: Assessing the efficiency of

wastewater treatment plants in an uncertain context: a DEA with tolerances approach.

En: Research Article Environmental Science & Policy 18 (2012), p. 34–44

[148] Scheel, H.: Undesirable outputs in efficiency valuations. En: European Journal of

Operational Research 132 (2001), p. 400–410

[149] Schmidt, P.: Frontier Production Functions. En: Econometric Reviews 4 (1993), p.

289–328

[150] Schwarz, G.E.: Estimating dimension of a model. En: Annals of Statistics 6(2)

(1978), p. 461–464

[151] Seiford, L. ; Zhu, J.: Modelling undesirable factors in efficiency evaluation. En:


[152] Seiford, L.M. ; Zhu, J.: Infeasibility of super-efficiency data envelopment analysis

models. En: INFOR 37 (1999), p. 174–187

[153] Seiford, L.M. ; Zhu, J.: Profitability and marketability of the top 55 US commercial

banks. En: Management Science. 45(9) (1999), p. 1270–1288

[154] Seiford, Zhu J.: Sensitivity analysis of DEA models for simultaneous changes in all

of the data. En: Journal of the Operational Research Society 49 (1993), p. 1060–1071

104 Bibliografıa

[155] Sexton, R.H. ; Hogan, A.J.: Data envelopment analysis: Critique and extensions.

En: New Directions for Programm Evaluation 1 (1986), p. 73–105

[156] Sharpe, W.F.: Portfolio Theory and Capital Markets. N.Y U.S.A : McGraw Hill, Inc,

1970

[157] Simar, L.: Aspects of Statistical Analysis in DEA-Type Frontier Models. En: Journal

of Productivity Analysis 7 (1996), p. 177–186

[158] Simar, L. ; Wilson, P.W.: Sensitivity Analysis of Efficiency Scores: How to Bootstrap

in Nonparametric Frontier Models. En: Management Science. 44 (1998), p. 49–61

[159] Simar, L ; Wilson, P.W.: Statistical inference in non-parametric frontier models.

En: Journal of Productivity Analysis 13 (2000), p. 49–78

[160] Simon, H.A.: Models of Man. N.Y United States : John Wiley & Sons, Inc., 1957

[161] Soto, J.A. ; Arenas, W.: Analisis Envolvente de Datos de la teorıa a la practica.

Pereira : Universidad Tecnologica de Pereira, 2010

[162] Subhash, C.R.: Data Envelopment Analysis, Theory and Techniques for Economics

and Operations Research. N.Y United States : Cambrige University Press, 2004

[163] Sueyoshi, T.: A special algorithm for the additive model in DEA. En: Journal of

Operational Research Society 41(3) (1990), p. 249–257

[164] Sueyoshi, T. ; Goto, M.: DEA environmental assessment of coal fired power plants:

Methodological comparison between radial and non-radial models. En: Original Re-

search Article Energy Economics 34(6) (2012), p. 1854–1863

[165] Sueyoshi, T. ; Goto, M.: Efficiency-based rank assessment for electric power in-

dustry: A combined use of Data Envelopment Analysis (DEA) and DEA-Discriminant

Analysis (DA). En: Original Research Article Energy Economics 34(4) (2012), p.

634–644

[166] Sueyoshi, T. ; Goto, M.: DEA environmental assessment in a time horizont: Malm-

quist index on fuel mix, electricity and CO2 industrial nations. En: Energy Economics

40 (2013), p. 370–382

[167] Syrjanen, M.J.: Non-discretionary and discretionary factors and scale in data en-

velopment analysis. En: European Journal of Operational Research 158 (2004), p.

20–33

Bibliografıa 105

[168] Tehrani, R. ; Mehragan, M.R. ; Golkani, M.R.: A model for Evaluating Financial

Performance of companies by Data Envelopment Analysis: A case of Study of 36 Cor-

porations Affiliate with a Private Organization. En: International Business Research

5 (2012), p. 8–16

[169] Thompson, R.G. ; Langemeir, L.N. ; Lee, C. ; Lee, E. ; Thrall, R.M.: The role

of multiplier bounds in efficiency analysis with application to Kansas farming. En:

Journal of Econometrics 46 (1990), p. 93–108

[170] Thore, S. ; Kozmetsky, G. ; Phillips, F.: DEA of financial statements data: the

US computer industry. En: J. Prod. Anal 5 (1994), p. 229–248

[171] Thore87, S.: Chance-Constrained Activity Analysis. En: European Journal of Ope-

rational Research 30 (1987), p. 267–269

[172] Thrall, R.M.: The lack of invariance of optimal dual solutions under translation.

En: Annals of Operations Research 66 (1996), p. 103–108

[173] Thrall, R.M.: What is the economic meaning of FDH? En: Journal of Productivity

Analysis 11 (1999), p. 243–250

[174] Tone, K.: Slack-Based Measure of Efficiency in Data Envelopment Analysis. En:


[175] Tone, K.: A Hybrid Measure of Efficiency in DEA / Japan Society for the promotion

of Science. 2004. – Informe de Investigacion. – 1–20 p.

[176] Toshiyuki, S.: Stochastic DEA for restructure strategy: An application to a Japanese

petroleum company. En: The international Journal of Management Science 28 (2000),

p. 385–398

[177] Toshiyuki, S. ; Mika, G. ; Manabu, S.: DEA window analysis for environmental

assessment in a dynamic time shift: Performance assessment of U.S. coal-fired power

plants. En: Energy Economics 40 (2013), p. 845–857

[178] Tulkens, H.: On FDH efficiency analysis: Some methodological issues and applica-

tions to retail banking, courts and urban transit. En: Journal of Productivity Analysis

4 (1993), p. 183–210

[179] Udhayakumar, A. ; Charles, V. ; Kumar, M.: Stochastic simulation based genetic

algorithm for chance constrained data envelopment analysis problems. En: Omega 39

(2011), p. 387–397

106 Bibliografıa

[180] Varabyova, Y. ; Schreyogg, J.: International comparisons of the technical effi-

ciency of the hospital sector: Panel data analysis of OECD countries using parametric

and non parametric approaches. En: Health Policy 112(1-2) (2013), p. 70–79

[181] Verbeke, G. ; Molenberghs, G.: Linear Mixed Models for Longitudinal Data. N.Y

United States : Springer, 2000

[182] Vrbik, I. ; McNicholas, P.D.: Parsimonious skew mixture models for model-based

clustering and classification. En: Computational Statistics and Data Analysis 71

(2014), p. 196–210

[183] WEI, Z. ; Peng, Z. ; Shulin, A.I.: Efficiency Evaluation of Beijing Intelligent Traffic

Management System Based on super-DEA. En: Journal of Transportation Systems

Engineering and Information Technology 12(3) (2012), p. 19–23

[184] Wilson, P.W.: Detecting influential observations in data envelopment analysis. En:

Journal of Productivity Analysis. 6 (1995), p. 27–46

[185] Wu, C.F.J.: On the convergence properties of the em algorithm. En: Annals of

Statistics 11 (1983), p. 95–103

[186] Xiong, Y. ; Yeung, D.: Time series clustering with arma mixtures. En: Pattern

Recognition 37 (2004), p. 1675–1689

[187] Yan, L. ; Gongbing, B. ; L., Liang: Input/output indicator selection for DEA ef-

ficiency evaluation: An empirical study of Chinese commercial banks. En: Research

Article Expert Systems with Applications 39 (2012), p. 1118–1123

[188] Zhu, J.: Imprecise data envelopment analysis (IDEA): A review and improvement

with an application. En: European Journal of Operational Research 144 (2003), p.

513–529

[189] Zhu, J.: Quantitative Models for Performance Evaluation and Benchmarking: Data

Envelopment Analysis with Spreadsheets, 3 ed. N.Y United States : Springer, 2003

[190] Zhu, J. ; Cook, W.D.: Modeling Data Irregularities and Structural Complexities in

Data Envelopment Analysis. N.Y U.S.A : Springer Science Series, 1977

[191] Zimmerman, D.L. ; Vicente, N. ; Hammou, E.: Computational aspects of like-

lihood based estimation of first-order antedependence models. En: Journal of Statisti-

cal Computation and Simulation 60 (1998), p. 67–84

Planteamiento y soluci´on de un modelo DEA estoc´astico ...

Documents

Transcript of Planteamiento y soluci´on de un modelo DEA estoc´astico ...