Planteamiento y soluci´on de un modelo DEA estoc´astico ...
Transcript of Planteamiento y soluci´on de un modelo DEA estoc´astico ...
Planteamiento y solucion de un modelo DEA estocastico para datos
longitudinales con estructura de antedependencia
Approach and solution of stochastic DEA model for longitudinal data with
antedependence structure
Jhon Jairo Vargas Sanchez
Universidad Nacional de Colombia
Facultad de Ingenierıa y Arquitectura, Doctorado en Ingenierıa - Lınea Automatica
Manizales, Colombia
2016
Planteamiento y solucion de un modelo DEA estocastico para datos
longitudinales con estructura de antedependencia
Approach and solution of stochastic DEA model for longitudinal data with
antedependence structure
Jhon Jairo Vargas Sanchez
Tesis o trabajo de grado presentada(o) como requisito parcial para optar al tıtulo de:
Doctor en Ingenierıa
Director:
Ph.D. Gerard Olivar Tost
Co-Director:
Ph.D. Edilberto Cepeda
Universidad Nacional de Colombia
Facultad de Ingenierıa y Arquitectura, Departamento de Ingenierıa Electrica
Manizales, Colombia
2016
(Dedicatoria)
A mis padres Jesus Antonio Vargas Amonguie
(QPD) y Amparo Sanchez quienes me iniciaron
en un camino profesional.
A mi esposa Luz Aleyda Delgado por su
incondicional e inconmensurable apoyo.
A mis hijos Juan Angel y Marcelo, regalo
de Dios.
A mis hermanos Gloria Helena, Carlos Al-
berto, Ricardo Leon y Nelson Enrique, que Dios
los congregue en una sola bendicion.
Agradecimientos
Al grupo de personas del Departamento de Fısica y Matematicas de la Universidad Autono-
ma de Manizales por sus revisiones.
ix
Resumen
Para propositos de medir la eficiencia en las organizaciones se usa la tecnica DEA (Data
Envelopment Analysis). Los modelos DEA temporales reportados en la literatura no explo-
ran la estructura de correlacion en las variables ni el error aleatorio. Introducimos un nuevo
modelo DEA temporal estocastico capaz de capturar las caracterısticas de covarianza de las
variables de salida que pueden ser largas series de tiempo y capaz de modelar la naturaleza
aleatoria de las variables. Este nuevo modelo DEA podrıa aplicarse en el desarrollo de una
nueva metodologıa DEA en tiempo real.
Palabras clave: DEA estocastico, DEA temporal, Antedependencia, Modelo Mixtura
para series de tiempo.
Abstract
For purposes of measuring efficiency in organizations DEA (Data Envelopment Analysis)
technique is used. Temporary DEA models reported in the literature do not explore the
structure of correlation in the variables or random error. We introduce a new DEA model
capable of capturing stochastic and temporal characteristics covariance output variables that
can be long and time stochastic series capable of modeling the stochastic nature of the va-
riables. This new DEA model could be applied in the development of a new methodology
DEA in real time.
Keywords: Stochastic DEA, temporal DEA, Antedependence, Mixture model for time
series.
Contenido
Agradecimientos VII
Resumen IX
1. Introduccion 1
2. Marco teorico 5
2.1. Introduccion a la metodologıa DEA . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1. Primera definicion de productividad . . . . . . . . . . . . . . . . . . . 5
2.1.2. Modelo CCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.3. Conceptos basicos para construir un CCR . . . . . . . . . . . . . . . 9
2.1.4. Formas matriciales del CCR . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Otros modelos DEA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3. Modelos que cosideran la incertidumbre y la probabilidad . . . . . . . . . . . 13
2.3.1. Modelo CCP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.2. Modelo CCP en su forma dual . . . . . . . . . . . . . . . . . . . . . . 17
2.4. DEA estocastico sobre DEA convencional . . . . . . . . . . . . . . . . . . . . 19
2.5. Modelos DEA temporales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.6. Distribucion condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.7. Conceptos Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.8. Analisis cluster para series de tiempo . . . . . . . . . . . . . . . . . . . . . . 23
2.8.1. Mixturas normales multivariadas . . . . . . . . . . . . . . . . . . . . 24
2.8.2. Mixturas para altas dimensiones . . . . . . . . . . . . . . . . . . . . . 25
2.8.3. Asignacion a cluster y seleccion de un modelo de mixtura . . . . . . . 28
2.9. Algoritmos de estimacion de parametros en modelos de mixtura . . . . . . . 29
2.9.1. Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.9.2. Algoritmo EM para mixtura de densidades Gaussianas . . . . . . . . 31
2.9.3. Algoritmo AECM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.10. Estimacion de mixturas normales multivariadas . . . . . . . . . . . . . . . . 39
2.10.1. Estimacion del modelo esferico . . . . . . . . . . . . . . . . . . . . . . 39
2.10.2. Estimacion del modelo coeficientes aleatorios . . . . . . . . . . . . . . 40
2.10.3. Estimacion del modelo efectos aleatorios . . . . . . . . . . . . . . . . 41
Contenido xi
3. Modelo DEA propuesto 46
3.1. Partiendo de modelo CCP . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2. Desarrollo para el modelo DEA . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3. Desarrollo primer conjunto de restricciones parte I . . . . . . . . . . . . . . . 51
3.4. Desarrollo primer conjunto de restricciones parte II . . . . . . . . . . . . . . 54
3.4.1. Estructura de subsumando 1 . . . . . . . . . . . . . . . . . . . . . . . 56
3.4.2. Estructura de subsumandos 2 y 3 . . . . . . . . . . . . . . . . . . . . 57
3.4.3. Estructura de subsumando 4 . . . . . . . . . . . . . . . . . . . . . . . 58
3.4.4. Restriccion completa . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.5. Modelo DEA propuesto y uso con datos reales . . . . . . . . . . . . . . . . . 59
3.5.1. Modelo propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.5.2. Uso del modelo propuesto . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6. Presentacion de los algoritmos para correr el modelo DEA propuesto . . . . 68
3.6.1. Estructura de los algoritmos antedepenPRP, antedepenPB y antedepenVA 68
3.6.2. Calculando eficiencias DEA . . . . . . . . . . . . . . . . . . . . . . . 70
3.6.3. Otros algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4. Conclusiones y recomendaciones 72
4.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.2. Recomendaciones o sugerencias para trabajos futuros . . . . . . . . . . . . . 74
A. Estimacion de parametros Σwk 76
A.1. Personal Remunerado Permanente Σwk . . . . . . . . . . . . . . . . . . . . . . 76
A.2. Produccion Bruta Σwk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
A.3. Valor Agregado Σwk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
B. Anexo: Estimacion de parametros Σk 79
B.1. Personal Remunerado Permanente Σk . . . . . . . . . . . . . . . . . . . . . . 79
B.2. Produccion Bruta Σk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
B.3. Valor Agregado Σk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
C. Anexo: Estimacion µk, πk, y clasificacion cluster 83
C.1. Vectores de medias µk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
C.2. Parametros πk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
C.3. Calsificacon cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
D. Apendice 84
D.1. Algebra lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
D.1.1. Traza de una matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
D.1.2. Derivadas de matrices y determinantes . . . . . . . . . . . . . . . . . 84
xii Contenido
Bibliografıa 86
1. Introduccion
El Analisis Envolvente de datos o DEA (por sus siglas en ingles Data Envelopment Analysis),
es una tecnica no parametrica usada para evaluar las eficiencias relativas de un conjunto de
unidades de decision DMU’s (Decision Making Units). DEA fue creada por Charnes, Cooper
y Rhodes (Cooper et al., 1978)[35] y la metodologıa consiste en comparar las DMUs con una
frontera de eficiencia. Existen cuatro lıneas de investigacion DEA (Cook y Seiford, 2009)[59],
la cuarta que es la de interes en el presente trabajo, se conoce como la modelizacion de
variacion de los datos. Esta se divide en las siguientes tres: analisis de sensibilidad, modelos
basados en probabilidad y DEA temporal.
Los modelos basados en probabilidad tienen tres lıneas de investigacion: El estimador de
verosimilitud DEA, regresion de frontera estocastica y el CCP (por sus siglas en ingles
Chance Constrained Programming). La lınea DEA temporal posee dos modelos conocidos
en la literatura como analisis de ventana e ındice Malmquist.
El CCP es un modelo estocastico creado por Land, Lovell y Thore (Land et al., 1992)[105]
como un tercer metodo para tratar la incertidumbre en los datos de un modelo DEA. La ven-
taja de CCP, a diferencia los DEA determinısticos, es que considera el ruido o error aleatorio
en la estimacion de las eficiencias. Sin embargo los modelos estocasticos miden la eficiencia
en un instante de tiempo. CCP asume un conjunto de variables aleatorias univariadas para
la salida yrj (la r − esima salida de la DMUj).
Los modelos DEA temporales por su parte, buscan la variacion de las eficiencias en el tiempo.
Se conocen en la literatura DEA dos modelos dependientes del tiempo, el primero el analisis
de ventana (Klopp, 1985)[100], y el segundo el ındice Malmquist (Malmquist, 1953)[118].
Hasta el momento no se han registrado otros modelos de este tipo, esto se evidencia en el
estado del arte en Toshiyuki et al. (2013)[177] y en Sueyoshi y Goto (2013)[166]. En vez
de nuevos metodos se menciona una extension que combina analisis de ventana con ındice
Malmquist en Thore et al. (1994)[170] y en Goto y Tsutsui (1998)[90]. Tal combinacion
fue llamada “ındice de productividad Malmquist”(Toshiyuki et al., 2013)[166]. Este ultimo
artıculo, en su revision de estudios previos de DEA en un horizonte de tiempo, tambien
reporta los mismos dos metodos y una mezcla entre los dos, no ha referenciado nuevos
metodos, pero sı menciona aplicaciones de estas tecnicas en valoracion ambiental cuando se
tienen salidas deseables (electricidad) y salidas indeseables (emision de CO2) en una planta
de generacion de energıa electrica con carbon.
2 1 Introduccion
El analisis de ventana trata cada DMU como si fuera diferente en cada tiempo. Al tener
N perıodos de tiempo y n DMUs, se consideran n × N DMUs. Esta tecnica escoge una
“longitud de ventana” p (p < N) y evalua n × p eficiencias para cada ventana, en vez
de n × N, donde el numero de ventanas depende del lapso de tiempo considerado. Esta
ventana se va corriendo hasta llegar al ultimo perıodo. De esta forma se puede visualizar si
las eficiencias de determinada DMU experimentan tendencias al deterioro o se estabilizan en
cierto nivel de eficiencia. Luego se calcula media y varianza como medidas explicativas de
las eficiencias de cada DMU. Detalles del analisis de ventana en Cooper et al. (2007)[61].
El ındice Malmquist evalua el cambio de productividad de una DMU entre dos perıodos
de tiempo. En el Malmquist una medida de recuperacion, cuyo termino original es llamado
“Catch-up” es calculada para verificar si hubo progreso en la eficiencia relativa de un perıodo
1 al 2, o si hubo decrecimiento. Mediante una medida de efecto de frontera, cuyo termino
original es llamado “Frontier-shift”, estudia el progreso o deterioro, entre el perıodo 1 al 2,
de la frontera de eficienca para una DMU observada (DMUo).
Algunas debilidades pueden ser resaltadas en el analisis de ventana y en el ındice Malm-
quist, (1) ninguno de ellos exploran una estructura de autodependencia en las variables de
entrada y/o salida, ya que estas ultimas no son tratadas como una serie de tiempo; (2) no
consideran el error aleatorio en las variables de entrada y/o salida; (3) estan disenados para
perıodos cortos de tiempo; (4) no usan una tecnica estadıstica para estimar eficiencias y
(5) asumen independencia en el calculo de eficiencia de un perıodo a otro, por lo tanto no
consideran eficiencias en el tiempo como una serie estacionaria y mucho menos asumen series
no estacionarias que podrıa ser el caso mas comun en una situacion real.
Ninguno de los modelos revisados, DEA estocastico y DEA temporal, consideran variables
de entradas y/o salidas como datos longitudinales y por supuesto tampoco consideran una
estructura de correlacion de cada variable de entrada y/o salida en el tiempo. El DEA
estocastico asume que cada DMU tiene m entradas y s salidas; para una DMUj , la k− esimasalida (k = 1, 2, ..., s) es un numero, el cual es una realizacion de una variable aleatoria
univariada ykj medida en un instante del tiempo. No se considera entonces, que la k− esimasalida sea un vector aleatorio, donde cada componente del vector indica el nivel de salida de
la DMUj en el tiempo t.
No se conoce en la literatura DEA un modelo que sea estocastico y a la vez sea temporal. Serıa
de importancia y de alto poder aplicativo si se contara con un modelo DEA que cumpliera
con las siguientes tres caracterısticas: Que sea estocastico, que sea temporal y supere las
debilidades enunciadas en los modelos dependientes del tiempo.
Superar las debilidades enunciadas en los modelos dependientes del tiempo implica explorar
las estructuras de dependencia temporal en las variables de entrada y/o salida durante
perıodos largos de tiempo. Los modelos DEA temporales no lo hacen, ya que en el caso
3
de analisis de ventana, se calculan varias eficiencias en diferentes perıodos considerados
independientes y obtienen medidas descriptivas apartir de allı, medidas tales como media y
varianza, pero no consideran las variables de entrada y/o salida como variables aleatorias. En
el caso del ındice Malmquist solo considera cambios del perıodo 1 al 2 y tampoco consideran
las variables de entrada y/o salida como variables aleatorias.
En la presente tesis doctoral, se pretende investigar DEA estocastico como una extension
del CCP y en vez de considerar variables de salida univariadas yrj, se consideraran vectores
de salida aleatorios (yrj1, yrj2, ..., yrjt), es decir, el r-esimo vector aleatorio de salidas para la
DMUj . Cada componente del vector representa el nivel de la r-esima salida de la DMUj en
un tiempo t. La investigacion incluye el estudio de la estructura de autodependencia de los
vectores de salidas, estimando parametros como media poblacional y matriz de varianzas y
covarianzas del vector aleatorio.
La investigacion pretende unir las ventajas de un CCP extendido al caso multivariado y
las ventajas de los modelos temporales con una adecuada modelacion de la estructura de
correlacion. Un modelo de este tipo unirıa las ventajas de los dos enfoques, el estocastico
y el dependiente en el tiempo, y ademas fortalecerıa las debilidades que se han encontrado
en los modelos DEA temporales y permitirıa la exploracion de nuevas consideraciones en el
DEA estocastico, tal como el hecho de que las variables aleatorias de entrada y/o salida no
sean univariadas sino longitudinales con una estructura de autodependencia en el tiempo.
La naturaleza aleatoria y temporal del nuevo modelo se justifica si se tiene en cuenta la
siguiente situacion: Considerese un conjunto de DMUs que tienen valores en sus diferentes
salidas. Tales valores se han registrado en varios instantes de tiempo, es decir se tienen
series temporales para las diferentes salidas de cada una de las DMUs. Una DMU0 (DMU
observada) pudo haber tenido desempenos importantes en anteriores perıodos y un pobre
desempeno en el ultimo perıodo. Si se midiera el ultimo perıodo (en un instante como lo
hace DEA clasico y DEA estocastico) y se realizara una comparacion de eficiencias, la DMU0
tendrıa los ultimos puestos en la clasificacion de las eficiencias (ranking). Si se tuviera en
cuenta la historia, serıa una comparacion de alguna manera mas justa para la DMU0. Tener
en cuenta la historia significa ver cada entrada y cada salida de cada DMU como una serie
de tiempo y modelar una correcta estructura de correlacion en el tiempo.
El presente documento de tesis se encuentra estructurado de las siguiente forma. En el
presente capıtulo se ha mostrado lo que es el problema de investigacion, la justificacion y el
estado del arte que permita obtener una base para saber como se puede aportar a la literatura
DEA, como puede apreciarse, el aporte se enfoca sobre todo a los modelos dependientes del
tiempo DEA. En el segundo capıtulo se encuentra un marco teorico de la metodologıa DEA
necesaria y la teorıa estadıstica que se usara para desarrollar la presente tesis. En el capıtulo
3 se muestra el resultado de la tesis, mostrando el modelo propuesto, como se llego a el y
4 1 Introduccion
puesta a prueba con datos reales. En el capıtulo 4 las conclusiones y recomendaciones para
trabajos futuros. Los siguientes capıtulos corresponden a los anexos y apendice.
2. Marco teorico
2.1. Introduccion a la metodologıa DEA
El analisis envolvente de datos (DEA) es una tecnica no parametrica usada para evaluar
las eficiencias relativas de un conjunto de DMU’s (Decision Making Units) (Cooper et al.,
1978)[35].
DEA tiene multiples aplicaciones en diferentes sectores economicos y ademas se encuentran
aplicaciones en muchos paises. Algunas de la aplicaciones que se pueden destacar de la
metodologa DEA son:
Operacion de servicio de alimentos en varios hospitales de Australia y Estados unidos
(Matawie y Assaf, 2010)[12].
Las plantas de tratamiento de aguas residuales, aunque logran un gran beneficio am-
biental, tambien generan altos costos de mantenimiento, la valoracion de la eficiencia es
muy util para la reduccion de costos. En Espana se ha tomado una muestra de plantas
de tratamiento de aguas residuales para medir su eficiencia (Garrido et al., 2012)[147].
En Macpherson et al. (2013)[116], investigadores usan DEA para examinar la eficiencia
de polıticas ambientales y asignacion de recursos, estudiando variables exogenas o no
controlables como clima, hidrologıa, topografıa, produccion ambiental como especies
invasivas y fragmentacion forestal en la region media atlantica de Estados Unidos.
Estudios sobre aplicacion de analisis envolvente de datos en refinerıas petroleras en
Japon se registra en Sueyoshi (2000)[176] y recientemente en Irak en Al-Najjar y Al-
Jaybajy (2012)[4], donde se resalta la importancia que puede llegar a ser la herramienta
DEA para el desarrollo de un pais.
2.1.1. Primera definicion de productividad
DEA nace en el primer concepto de productividad. El primer trabajo sobre productividad
se remonta en los trabajos de Farrell (1957)[79]. La siguente definicion fue tomada de pagina
15 de Soto y Arenas (2010)[161].
6 2 Marco teorico
La productividad debe ser entendida como la relacion entre el nivel de produccion final obte-
nido y los recursos o insumos necesarios para lograrlo.
En 1950 la organizacion para la Cooperacion Economica Europea se refiera a la productividad
de factores como ”El cociente que se obtiene al dividir la produccion entre uno de los factores
de produccion”
La siguiente expresion fue introducida por Farrel (1957):
Productividad = ProduccionCreadaRecursoConsumido
= SalidaEntrada
,
donde salida y entrada hacen referencia respectivamente al resultado obtenido y al recurso
utilizado.
Difıcilmente la unidad a la cual se le calcula la productividad tiene una sola salida y una
sola entrada, en Roa (2003)[142] pagina 71:
Si se consideran unidades productivas con un solo resultado y un solo recurso causante de
este resultado, la formula de Farrell serıa suficiente para el analisis de la productividad. Sin
embargo se puede encontrar multitud de casos en donde son varios los resultados (salidas)
y tambien varios recursos (entradas) que posibilitan los resultados. Es aquı donde aparecen
algunas dificultades a la hora de evaluar la productividad.
Por ello la formula de Farrell tuvo inconvenientes en el calculo de la productividad. Este
concepto se mantuvo hasta el ano de 1978 cuando Charnes, Cooper y Rhodes retoman el
trabajo de Farrell para introducir, en Charnes et al. (1978)[35], una nueva forma de medir
la eficiencia.
Debido a que la unidad a la que se le calcula la productividad tiene la capacidad para decidir
modificar, bien sea la cantidad de cada uno de los recursos que estan siendo utilizados, o
bien la cantidad de los recursos producidos, dicha unidad se le ha llamado, en Charnes et al.
(1978)[35], unidad de decision o Decision Making Unit (DMU).
Estos autores lograron suplir las falencias que deja Farrell al implementar multiples entradas
y salidas, mediante una metodologıa que llamaron DEA y a su primer modelo lo llamaron
CCR (por las iniciales de los autores).
2.1.2. Modelo CCR
El primer modelo DEA que aparece en la literatura fue el CCR (Charnes, Cooper y Rhodes)
para afrontar la dificultad de tener que agrupar en una misma expresion recursos (entradas)
y resultados (salidas) que pueden tener muy distinta naturaleza y por consiguiente unidades
2.1 Introduccion a la metodologıa DEA 7
de medida diferentes. Para solucionar este problema aparecen los conceptos de entrada y
salida virtual, es decir, la agregacion de las salidas y las entradas escalonadas mediante un
peso ponderador, que la literatura llama “multiplicadores” (Cook y Seiford, 2009)[59], para
que el resultado sea adimensional y por tanto independiente de la escala utilizada. Ası en
Roa (2003)[142] paginas 71-74 o en Soto y Arenas (2010)[161] pagina 17 :
productividad = SumaPonderadaDeSalidasSumaPonderadaDeEntradas
.
En Soto y Arenas (2010)[161] pagina 17 se escribe:
Por lo tanto si denotamos como xij a la cantidad de entrada o mas especıficamente a la
cantidad de salida i utililizado por la DMU j y como yrj a la cantidad de recurso r que
produce la misma unidad DMU j, se obtienen las siguientes expresiones:
EntradaV irtual =m∑i=1
vij × xij
SalidaV irtual =s∑
r=1
urj × yrj.
En las anteriores expresiones de entrada y salida virtual, los terminos vij y urj son respecti-
vamente los pesos ponderadores correspondientes a cada entrada y salida, m el numero total
de las entradas consideradas, y s el numero total de salidas de la DMU. De esta forma se
logra definir la productividad como:
Productividad =∑s
r=1urj×yrj∑m
i=1vij×xij
.
La productividad se calcula cuando se trata de una sola DMU, pero cuando se van a comparar
varias DMUs, aparece el concepto de eficiencia de Charnes, Cooper y Rhrodes, que en Alfredo
Roa (2003)[142] (paginas 73 -74), la enuncian como:
Eficienciaj =Pr oductividadjPr oductividado
=SalidasV irtuales/EntradasV irtualesjSalidasV irtuales/EntradasV irtualeso
.
El subındice j indica la unidad (DMU) que esta siendo estudiada (a la que se le va a calcular
la eficiencia) y el subındice o la DMU que se toma como referencia.
La formula para calcular la eficiencia relativa basada en pesos ponderadores es la siguiente:
Eficiencia =
s∑r=1
urj∗yrj/m∑i=1
vij∗xij
s∑r=1
urj∗yrj/m∑i=1
vij∗xij |o.
8 2 Marco teorico
En el anterior cociente, el subındice “o” al lado derecho de la lınea vertical en el denominador
indica el hecho de que en el denominador se calcula la eficiencia de la DMU que esta sirviendo
de referencia. En este cociente se podrıa encontrar infinitos pesos ponderadores que dan la
misma eficiencia. En Soto y Arenas (2010)[161]:
Con los siguientes pares de pesos vij, urj y un multiplo de ellos, α ∗ vij; β ∗ urj , con α, β
cualquier numero real, se obtiene la misma eficiencia. Para simplificar de alguna forma el
numero de pesos que dan igual eficiencia relativa se establece de aquı en adelante que la
productividad de la unidad de referencia es uno. De esta forma, sea cual fuere la definicion
de eficiencia relativa utilizada, en el denominador siempre aparecera la unidad, ya que la
unidad de referencia es eficiente, y por lo tanto se puede expresar la eficiencia de DMU “j”
como:
Eficienciaj =
∑sr=1 urj × yrj∑mi=1 vij × xij
. (2-1)
En Charnes et al. (1978)[35] se presenta modelo CCR (Charnes, Cooper y Rhodes) como
un salto desde Farrell (1957) a un modelo mejorado, el modelo (2-2). Este calcula la efi-
ciencia de una DMU denotada por θ cuando es maximizada, y por lo tanto se necesitan n
optimizaciones, una para cada DMUj . En la literatura DEA θ maximizado se denota como
θ∗, que es el valor de la eficiencia de la DMU observada. Como se sugiere en Cooper et al.
(2007) en la pagina 23, (2-2) se resuelve para obtener los valores de los pesos de las entradas
(vi)(i = 1, ..., m) y los pesos de las salidas (ur)(r = 1, ..., s) como variables.
maxu,v
θ = u1y1o+u2y2o+...+usysov1x1o+v2x2o+...+vmxmo
sujeto a las restricciones: (2-2)u1y1j+u2y2j+...+usysjv1x1j+v2x2j+...+vmxmj
≤ 1 (j = 1, ..., n)
v1, v2, ..., vm ≥ 0
u1, u2, ..., us ≥ 0.
El modelo (2-2) puede tambien representarse como en Cook y Seiford (2009)[59] el cual
esta basado en [35]:
maxu,v
θ =
∑r
uryro∑i
vixio
sujeto a las restricciones: (2-3)∑r
uryrj −∑i
vixij ≤ 0 para toda j
ur, vi ≥ ε para toda r, i,
donde ε es un valor no arquimediano designado para forzar la estricta positividad de las
variables.
2.1 Introduccion a la metodologıa DEA 9
2.1.3. Conceptos basicos para construir un CCR
El modelo (2-3) esta presentado en la forma primal y esta basado en los pesos ponderadores,
tal como se conoce en la literatura DEA, pero existe un modelo equivalente en su forma
dual, el cual esta basado en la envolvente que limita un conjunto factible para las DMUs.
A continuacion se introducen unos conceptos basicos para construir un modelo CCR basado
en la envolvente, de allı el nombre analisis envolvente de datos.
Eficiencia Paretiana orientada a las entradas
Una DMU es Pareto eficiente si no es posible disminuir ninguno de sus niveles de entrada
sin tener que incrementar al menos uno de sus otros niveles de entrada o disminuir al menos
uno de sus niveles de salida (Soto y Arenas, 2010)[161].
La anterior definicion de eficiencia Paretiana orientada a las entradas matematicamente se
expresa como:
Sean yrj (r = 1, ..., s) los niveles de salida alcanzados por la DMU j y xij ( i = 1, ..., m)
los niveles de entradas que ella usa. Una DMU jo es pareto eficiente si no existe una DMU
j 6= jo tal que xi′j < xi′jo para algun i′ y xij ≤ xijo para todo i 6= i′ mientras que yrj ≥ yrjopara todo r.
Eficiencia de Pareto orientado a las salidas
Una DMU es Pareto Eficiente si no es posible aumentar ninguno de sus niveles de salida sin
tener que disminuir al menos uno de sus otros niveles de salida o aumentar al menos uno de
sus niveles de entrada (Soto y Arenas, 2010)[161].
La anterior definicion matematicamente se expresa como:
Sean yrj (r = 1, ..., s) los niveles de salida alcanzados por la DMU j y xij ( i = 1, ..., m)
los niveles de entradas que ella usa. Una DMU jo es pareto eficiente si no existe una DMU
j 6= jo tal que yr′j > yr′jo para algun r′ y yrj ≥ yrjo para todo r 6= r′ mientras que xij ≤ xijopara todo i.
Ası de acuerdo con la nocion paretiana de eficiencia se considera que una unidad es eficiente
si no existe otra en la muestra que produzca mas de alguno de las salidas sin producir
menos de algun otro y sin utilizar mas de alguno de los recursos productivos, o bien, si no
existe alguna unidad que produzca los mismas salidas con menos cantidad de algun factor
productivo y no mas de los restantes (Cooper et al., 2007)[61].
PPS o CPP
El conjunto PPS (por sus siglas en ingles production posibility set) o en espanol CPP(conjunto
de posibilidades de produccion) es un conjunto construido bajo unos supuestos y es el que
permite crear un espacio de posibilidades limitado por una frontera, aquella DMU que se
10 2 Marco teorico
encuentre en la frontera o cerca de ella se considera eficiente. La medida de eficiencia por
DEA basados en la definicion de eficiencia Pareto involucra dos pasos basicos, en pagina 58
de Soto y Arenas (2010)[161]:
1. La construccion de un conjunto de posibilidades de produccion CPP.
2. La estimacion de la maxima expansion factible de las salidas o contraccion factible del
nivel de entradas de la DMU dentro del conjunto de posibilidades de produccion.
El CPP o PPS se basa en los siguientes supuestos
1. La interpolacion entre correspondencias factibles de entradas y salidas conduce tam-
bien en principio a una nueva correspondencia factible de entradas y salidas. P =[(X, Y ) | x =
∑j λjxj ; y =
∑j λjyj;λj ≥ 0, ∀j
]
2. La produccion ineficiente es posible. Si (x′, y′) ∈ P y x ≥ x′ entonces (x, y′) ∈ P
donde x ≥ x′ significa que al menos un elemento de x es mayor que el correspondiente
elemento de x′. Si (x′, y′) ∈ P y y ≤ y′ entonces (x′, y) ∈ P.
3. La transformacion de entradas a salidas se caracteriza por un retorno a escala cons-
tante, formalmente: Si ((x′, y′) ∈ P ) entonces para todo λ > 0 ((λx′, λy′) ∈ P )
4. No es posible una salida a menos que alguna entrada sea usada (hablando informal-
mente es la suposicion de que el “almuerzo no es gratis”). Formalmente (x′, 0) ∈ P
pero si y′ ≥ 0 entonces (0, y′) /∈ P.
5. El CPP es el menor conjunto que satisface las mencionadas suposiciones y que ademas
contiene todas las correspondencias observadas entre las entradas y salidas.
¿Como construir un conjunto P de posibilidades de produccion(CPP)?. El conjunto de pro-
babilidades de produccion, CPP, que satisface los postulados arriba enunciados puede ser
construido a partir de la DMUs observadas (xj , yj, con j = 1, 2, ...N) como sigue:
P =[(x, y) | x ≥
∑j λjxj ; y ≤
∑j λjyj;λj ≥ 0, ∀j
]
Por lo que se ha visto hasta aquı, un modelo DEA puede estar basado en valores (modelo
primal (2-3)), o en la construccion de la frontera que envuelve el CPP (modelo dual). El
concepto de frontera se entiende mejor al observar la Figura 2-1, cada letra representa las
diferentes DMUs las cuales tienen dos entradas y una salida normalizada a uno. La curva
FCDQER es la frontera envolvente y la DMU A es mas eficiente que la B porque esta mas
cerca a la frontera de eficiencia.
2.1 Introduccion a la metodologıa DEA 11
Figura 2-1.: Conjunto de posibilidades de produccion PPS, fuente [61].
Un modelo basado en valores sigue la ecuacion (2-1), donde los ur son los pesos de cada una
de las salidas y los vi son los pesos de cada una de las entradas. Un modelo DEA basado
en valores escoge los pesos de una manera tal que asigna el mejor conjunto de pesos a cada
DMU, ası que si una DMU no ocupa el primer puesto de la clasificacion (ranking en la
teminologıa original DEA), no es porque se hayan asignado mal sus pesos ponderadores,
sino porque tiene problemas de utilizacion de sus recursos de entrada para producir salidas
mejores.
Un modelo basado en la envolvente, construye la frontera que envuelve el CPP y luego calcula
la maxima contraccion radial posible en las entradas o la maxima expansion radial posible
en sus salidas. Un modelo CCR en su forma dual se explica en la siguiente subseccion formas
matriciales del CCR.
2.1.4. Formas matriciales del CCR
Un modelo CCR primal orientado a las entradas se puede observar en la pagina 118 de Soto
y Arenas (2010)[161]:
Maxu,v zo = uyos.a
vxo = 1
uY − vX ≤ 0
u ≥ 0; v ≥ 0
12 2 Marco teorico
El anterior modelo esta basado en el cociente de salidas sobre las entradas con valores
ponderados para cada una de las salidas y de las entradas.
Un modelo CCR dual orientado a las entradas en su forma matricial se puede observar en
la pagina 119 [161]:
mın θ
sujeto a las restricciones: (2-4)
θxo −Xλ ≥ 0
Y λ ≥ yoλ ≥ 0
λ = (λ1, λ2, ..., λn)T .
En el anterior modelo, θ cuando es minimizado es el nivel de eficiencia de la DMU considera-
da, el modelo esta basado en el CPP y frontera que envuelve el CPP. Puede entenderse que
se esta minimizando la contraccion radial de las entradas, es decir aquella DMU que sufra
una contraccion cero, sera eficiente. Los vectores xo y yo son los niveles de las entradas y
de salidas respectivamente de la DMUo. Los tamanos de xo y yo corresponden al numero de
entradas y salidas respectivamente. Cuando θ es minimizado se denota como θ∗. El vector
λ = (λ1, λ2, ..., λn)T . La matriz X es la de entradas y se dispone de tal forma que el numero
de filas sean el numero de entradas y el numero de columnas sean el numero de DMUs. La
matriz Y es la de salidas y se dispone de tal forma que el numero de filas sean el numero de
salidas y el numero de columnas sean el numero de DMUs.
El siguiente es un modelo CCR dual orientado a las salidas en su forma matricial
max η
sujeto a las restricciones: (2-5)
x0 −Xµ ≥ 0
ηy0 − Y µ ≤ 0
µ ≥ 0.
La variable que se optimiza es η que corresponde a la eficiencia de la DMU observada cuando
es maximizada. El vector µ = (µ1, µ2, ..., µn)T . Cuando η es maximizado se denota como η∗.
La matriz X es la de entradas y se dispone de tal forma que el numero de filas sean el
numero de entradas y el numero de columnas sean el numero de DMUs. La matriz Y es la
de salidas y se dispone de tal forma que el numero de filas sean el numero de salidas y el
numero de columnas sean el numero de DMUs. Se cumple la relacion θ = 1/η. Las variables
µi cumplen la misma funcion de las variables λi en modelo (2-4), es decir, formar la frontera
de eficiencia a traves de interpolacion entre correspondencias factibles (ver conjunto CPP en
la construccion del modelo CCR).
2.2 Otros modelos DEA 13
2.2. Otros modelos DEA
Se destacan otros modelos DEA como el BCC (Banker et al., 1984)[139] caracterizado por
su retorno a escala variable; el modelo aditivo no esta basado en contraccion radial como
BCC y CCR sino en holguras (Charnes et al., 1985)[1], uno de los mas destacados es el SBM
en Tone (1997, 2001)[174]; trabajos posteriores por mantener una concordancia entre los
modelos CCR, BCC y aditivo se encuentran en Sueyoshi (1990)[163] y en Chang y Sueyoshi
(1991)[31].
Otros modelos DEA reportados en la literatura a cerca de modelos no radiales se han estu-
diado (Portela et al., 2003)[137] y Portela y Thanassoulis (2007)[17]. Los modelos hıbridos
permiten la posibilidad de elegir si hacer o no contraccion radial (Tone, 2004)[175]. Modelos
que permiten trabajar con unidades diferentes a las originales se estudian en la traslacion
invariante, en Cooper (2007)[61] se muestra que el modelo BCC orientado a las entradas es
invariante con respecto a la salida (pero no a las entradas) y que el BCC orientado a las
salidas es invariante con respecto a la entradas (pero no a las salidas).
El modelo libre disposicion (Deprins et al., 1984)[68] se basa solo en las observaciones encon-
tradas para construir la frontera y no en combinaciones lineales (como el CCR) o convexas
(como el BCC). Libre disposicion fue luego extendido por Tulkens (1993)[178]. Los modelos
de proyecciones de mınima distancia buscan otras distancias a la frontera de eficiencia dife-
rentes a la euclidiana (Frei y Harker, 1999)[85], (Charnes et al., 1992)[36], (Charnes et al.,
1996)[38]) y Briec (1999)[26].
Los modelos multinivel buscan eficiencias no en una situacion instantanea sino en redes
(Cook et al., 2009)[59]. Modelos en cadenas de suministro Seiford y Zhu (1999)[153] y Chen
y Zhu (2004)[41] proporcionan el modelo para un proceso con dos estaciones de trabajo.
Trabajos de Zhu (2003)[189] muestran un modelo para eficiencias tanto individuales como
del total de la cadena de suministro, aportes de eficiencias en cadena de suministros (Liang et
al., 2006)[112] son construidos bajo teorıa de juegos. Muchos modelos tratan sobre procesos
en serie, pero tambien existen estudios para evaluar eficiencia para procesos en paralelo en
actividades de ventas y de servicios en el sector bancario (Cook et al., 2000)[52]. Modelos
multicomponentes se ven en Portela et al. (2007)[17] y eficiencias de estructuras anidadas
como subsistemas dentro de otros sistemas en Cook et al. (1998)[49], Cook y Green (2005)[51]
toman el problema de un conjunto de plantas de energıa donde cada planta esta formada
de plantas individuales, entonces tienen en cuenta la eficiencia relativa de cada unidad de
planta de energıa y la totalidad del grupo.
Modelos con restriccion en los multiplicadores nacen de la necesidad de implementar su-
posiciones que esten mas alla de los datos y de las condiciones de no negatividad de los
componentes de los vectores de entrada y salida de las DMUs, se conocen 3 metodos: la
razon de cono (cone ratio) en Charnes et al. (1990)[34], donde los autores han reconocido
14 2 Marco teorico
situaciones donde hay pesos ponderadores indeseables y desean mayor realismo en ellos; el
metodo de region de seguridad (Assurance Region) (Thompson et al., 1990)[169], el cual se
considera un caso especial de razon de cono y restricciones absolutas (Roll et al., 1991)[143].
2.3. Modelos que cosideran la incertidumbre y la
probabilidad
En Cooper et al. (2009)[61] se han detectado tres lıneas de investigacion en el tratamiento
de variacion de datos por metodos estadısticos. La primera lınea basada en estimadores
para variaciones estocasticas en la ineficiencia tecnica, la segunda estudia regresiones de
frontera estocastica y la tercera denominada CCP (por sus siglas en ingles Chance constained
Programming).
Para el desarrollo de la presente tesis la categorıa de mayor interes es el CCP. Dada la
importancia de este tema para el desarrollo de la tesis doctoral, se extrae la demostracion
del modelo CCP, paginas 298-304 de [61].
2.3.1. Modelo CCP
Mediante investigaciones conjuntas en Thore (1987)[171] y Land y Lovell (1992-94)[105],
[107], [108] y [109], estos autores han creado el CCP como un tercer metodo para tratar la
incertidumbre en los datos en un modelo DEA.
Land, Lovell y Thore recurren a Cooper, Huang y Li (1996)[63] para mostrar como CCP
se desarrolla mediante un concepto usado en psicologıa por H.A. Simon (ver capıtulo 15
[160]), tal concepto tiene su termino original en ingles,“satisficing” pero es algo semejante
al concepto de aspiracion. Land, Lovell y Thore empiezan extendiendo el modelo CCR en
forma probabilıstica:
maxP(∑s
r=1uryro∑m
i=1vixio
≥ β0
)
sujeto a las restricciones: (2-6)
P(∑s
r=1 ur yrj∑mi=1 vixij
≤ βj
)≥ 1− αj , j = 1, 2..., n ,
ur, vi ≥ 0 ∀ r, i.
Aquı “P” significa “probabilidad” y “˜” identifica esas salidas y entradas como variables
aleatorias con distribucion de probabilidad conocida mientras 0 ≤ αj ≤ 1 es un escalar,
especificado de antemano, el cual representa un riesgo permitido que se incurre para satisfacer
las restricciones con las cuales esta asociado. El valor de β0 es interpretado como un “nivel
de aspiracion” especificado como una valoracion de eficiencia la cual se espera alcanzar.
2.3 Modelos que cosideran la incertidumbre y la probabilidad 15
Los βj tambien son constantes recomendadas por el individuo o por condiciones de salida
incluyendo niveles superiores de administracion. Para alinear el desarrollo con la version
CCR los autores hacen notar que:
P(∑s
r=1uryro∑m
i=1vixio
≤ βo
)+ P
(∑sr=1
ur yro∑mi=1
vixio≥ βo
)= 1
Removiendo la aleatoriedad de las variables de entrada CCP nace en modelo:
maxP(∑s
r=1uryro∑m
i=1vixio
≥ βo
).
sujeto a las restricciones: (2-7)
P(∑s
r=1ur yrj∑m
i=1vixij
≤ βj
)≥ 1− αj, j = 1, 2, ..., n.
Usando notacion matricial y operando las restricciones en (2-7) se llega a:
P
(u
Tyj
vTxj≤ βj
)= P
(u
Tyj ≤ βjv
Txj
). (2-8)
Si yj es el vector de las medias de las salidas y si∑
j representa la matriz de varianzas
y covarianzas (se asume que esta matriz es definida positiva ası pudiendo representar la
varianza por uT∑
j u, un escalar, el cual es tambien positivo para todas las opciones de
u 6= 0), entonces se hace una estandarizacion sustrayendo uTyj de ambos lados de la derecha
de la inecuacion en (2-8) y dividiendo por√
uT∑
j u para obtener
P
u
Tyj − u
Tyj√
uT∑
j u
≤βjv
Txj − u
Tyj√
uT∑
j u
≥ 1− αj, (2-9)
para cada j = 1, ..., n. La expresion en la derecha en el parentesis no contiene ningun elemento
aleatorio. La estandarizacion se basa en la nueva variable aleatoria normal definida por
zj =uTyj−u
Tyj√
uT∑
j u.
Entonces (2-9) es reemplazada con
P(zj ≤ kj(u
T , vT ))≥ 1− αj , j = 1, ..., n,
donde
kj(uT , vT ) =
βjvTxj−u
Tyj√
uT∑
j u,
16 2 Marco teorico
ası, usando distribucion normal acumulada se escribe
∫ kj(uT ,vT )
−∞f(zj)dzj = Φ
βjv
Txj − u
Tyj√
uT∑
j u
≥ 1− αj (2-10)
en lugar de 2-9. Se asume que Φ es la distribucion normal la cual ha sido estandarizada via
zj =uT (yj−yj)√uT
∑j u.
Si αj ≤ 0,5 se puede utilizar la propiedad de invertibilidad asociada con esta distribucion y
aplicarla a (2-10) para obtener
βjvTxj−u
Tyj√
uT∑
j u≥ Φ−1(1− αj),
donde Φ−1 es la funcion fractil asociada con la distibucion normal estandar. Por lo tanto
βjvTxj − u
Tyj ≥ Φ−1(1− αj)
√uT∑
j u.
En Charnes y Cooper (1963)[33] se usan las variables de separacion las cuales se simbolizan
por ηj para escribir
βjvTxj − u
Tyj ≥ ηj ≥ Φ−1(1− αj)
√uT∑
j
u. (2-11)
Para cada j = 1, ..., n la variable de separacion es no negativa por virtud de la expresion de
la derecha. Provista esta no negatividad se puede entonces usar esta variable para separar
la expresion en (2-11) en el siguiente par
βjvTxj − u
Tyj ≥ ηj ≥ 0
K2(1−αj)
uT∑
j u ≤ η2j ,
donde
K2(1−αj )
= Φ−1(1− αj)
j = 1, ..., n.
La primera relacion separada se refiere a una valoracion efectuada por los multiplicadores
asignados a las entradas y salidas mientras que la segunda relacion trata los riesgos en un
analisis portafolio de tipo Markowitz-Sharpe usado en finanzas ([156]). En lugar de (2-7)
ahora se tiene
maxP(
uTyo
vTxo≥ βo
)
2.3 Modelos que cosideran la incertidumbre y la probabilidad 17
sujeto a las restricciones: (2-12)
βjvTxj − u
Tj yj − ηj ≥ 0
K2(1−αj)
uT∑
j u− η2j ≤ 0
u, v ≥ 0, ηj ≥ 0, j = 1, 2, ..., n.
Las restricciones, pero no la objetivo, son determinısticas, (2-12) es reemplazada con
max γo
sujeto a las restricciones: (2-13)
P(
uTyo
vTxo≥ βo
)≥ γo
βjvTxj − u
Tyj − ηj ≥ 0
K2(1−αj)
uT∑
j u− η2j ≤ 0
u, v ≥ 0, ηj ≥ 0, j = 1, 2, ..., n.
Se tiene que (2-13) es reemplada por:
max γo
sujeto a las restricciones: (2-14)
uTyo − β0v
Txo ≥ Φ−1(γo)
√uT∑
j u
ηj + uTyj − βjv
Txj ≤ 0
η2j −K2(1−αj)
uT∑
j u ≥ 0
u, v ≥ 0, ηj ≥ 0, j = 1, 2, ..., n.
0 ≤ γo ≤ 1.
Esto es un equivalente determinıstico para (2-7) en el sentido que los valores optimos de u∗,
v∗ en (2-14) seran tambien optimos para (2-7).
2.3.2. Modelo CCP en su forma dual
Ya se ha visto que un modelo DEA se puede expresar en su forma dual o primal. En Ray
(2004)[162] pagina 314-317 se presenta el modelo CCP en su forma dual. Para empezar se
parte del siguiente modelo
maxφ
s.t Pr
{N∑j=1
λjyj ≥ φyo
}≥ (1− α);
N∑j=1
λjxj ≤ xo
N∑j=1
λj = 1; λj ≥ 0 (j = 1, 2, ..., N).
18 2 Marco teorico
Una nueva variable aletoria es definida haciendo u =N∑j=1
λjyj − φy0, donde
E(u) =N∑j=1
λjµj − φµo ≡ µu
y
V ar(u) =N∑
j=1,j 6=o
λ2jσ2j + (λo − φ)2σ2
o ≡ σ2u.
Dada la nueva variable u se obtiene la expresion
Pr
{N∑j=1
λjyj ≥ φyo
}= Pr {u ≥ 0} = Pr
{z ≥ −µu
σu
}.
Por la propiedad simetrica de la distribucion normal
Pr{z ≥ −µu
σu
}= Pr
{z ≤ µu
σu
}= Φ
(µu
σu
),
donde Φ (·) es la funcion distribucion normal acumulada, ası la inecuacion del CCP-DEA
puede ser reemplazado por
Φ(
µu
σu
)≥ (1− α).
Si α = 0,05
µu ≥ 1,96σu,
esto es
N∑j=1
λjµj − φµo ≥ 1,96
√N∑
j=1,j 6=o
λ2jσ2j + (λo − φ)2σ2
o .
Basado en lo anterior, el modelo CCP en forma dual queda como:
maxφ
sujeto a las restricciones: (2-15)
N∑j=1
λjµj − φµo ≥ 1,96
√N∑
j=1,j 6=o
λ2jσ2j + (λo − φ)2σ2
o para s = 1, ..., S
N∑j=1
λjxj ≤ xo para m = 1, ...,M
N∑j=1
λj = 1; λj ≥ 0 (j = 1, 2, ..., N)
2.4 DEA estocastico sobre DEA convencional 19
Donde S es el numero de salidas y M es el numero de entradas de cada DMU. Un supuesto
importante en Ray (2004)[162] es que en (2-15) se han observado los valores esperados de la
salida de cada DMU, por lo que este modelo se reemplaza por:
maxφ
sujeto a las restricciones: (2-16)
N∑j=1
λjyj − φyo ≥ 1,96
√N∑
j=1,j 6=o
λ2jσ2j + (λo − φ)2σ2
o para s = 1, ..., S
N∑j=1
λjxj ≤ xo m = 1, ...,M
N∑j=1
λj = 1; λj ≥ 0 (j = 1, 2, ..., N).
2.4. DEA estocastico sobre DEA convencional
El DEA estocastico y la limitada aplicacion de DEA convencional queda justificado en Ud-
hayakumar (2011)[179], donde advierten que las medidas de un DEA convencional puede
ser sensible a las variaciones de error, es decir, que una DMU eficiente puede llegar a ser
ineficiente si se consideran las variaciones aleatorias. En Matawie y Assaf (2010)[12] destacan
ventajas y desventajas de DEA y frontera estocastica, reconociendo el amplio e importante
uso de ambas tecnicas. DEA por ser una tecnica no estadıstica no permite modelar el ruido
aleatorio en la estimacion de la eficiencia, a pesar de ello es flexible y popular en la literatura.
Existe cierta dificultad al usar frontera estocastica ya que ella exige buscar una apropiada
forma funcional, comparada con DEA, este ultimo no necesita especificar ninguna funcion
por su naturaleza no parametrica.
No existe una tecnica que permitiera el establecimiento de intervalos de confianza para las
eficiencias en DEA, incluso hubo intentos con la tecnica del Broopstrap que mas adelante
fueron fuertemente criticados por otros autores, pero con el trabajo de Tsionas y Papadakis
(2010)[74] se logra la forma de tales intervalos de confianza para la eficiencia en DEA.
En este artıculo se escribe que el DEA estocastico puede trabajar el ruido en las medidas
no parametricas de eficiencia, pero desafortunadamente la inferencia estadıstica formal en
medidas de eficiencia no es posible. Ası que han trabajado un enfoque Bayesiano al rededor
del problema de tecnicas de simulacion que permita, para muestras finitas, inferencias en los
puntajes de eficiencia.
2.5. Modelos DEA temporales
Ya se menciono en la introduccion dos modelos DEA temporales: el analisis de ventana y el
ındice Malmquist. Analisis de ventana mas que un modelo es una forma de operar y correr
20 2 Marco teorico
varios modelos CCR en cada ventana que se va corriendo hasta llegar al ultimo perıodo.
Esta tecnica fue creada por G. Klopp en su tesis doctoral en 1985 (Cooper et al., 2007)[61].
Trata cada DMU como si fuera diferente en cada tiempo. Al tener N perıodos de tiempo y n
DMUs, se consideran n×N DMUs. Esta tecnica escoge una “longitud de ventana” p (p < N)
y evalua n× p eficiencias para cada ventana, en vez de n×N, donde el numero de ventanas
depende del lapso de tiempo considerado. Esta ventana se va corriendo hasta llegar al ultimo
perıodo. El siguiente es un ejemplo de una DMU que se ha observado durante 8 perıodos y
se tiene una ventana de tamano p = 4 que se va corriendo hasta alcanzar el perıodo 8, cada
ventana posee 4 eficiencias calculadas con un modelo CCR, igual procedimiento se repite
para las demas DMUs.
Peıodos P1 P2 P3 P4 P5 P6 P7 P8
ventana 1 0,83 1,00 0,95 1,00
ventana 2 0,85 0,92 1,00 0,90
ventana 3 0,80 1,00 1,00 1,00
ventana 4 0,99 0,95 1,00 1,00
ventana 5 0,95 1,00 1,00 1,00
Luego lo que hace el analisis de ventana es calcular media y varianza de las eficiencias calcu-
ladas en todas las ventanas. El inconveniente de esta tecnica es que considera las eficiencias
independientes en el tiempo y se usa para perıodos cortos. No maneja una estructura de
correlacion en las medidas de eficiencia.
El ındice Malmquist se define como sigue:
MI =
[δ1((x0, y0)
2)
δ1((x0, y0)1)× δ2((x0, y0)
2)
δ2((x0, y0)1)
]1/2(2-17)
En la ecuacion (2-17) δ1 se refiere a la frontera de eficiencia del primer perıodo y δ2 se
refiere a la frontera de eficiencia del segundo perıodo. La notacion (x0, y0) simboliza el vector
de entradas y salidas de la DMU observada y el superındice de (x0, y0) se refiere a si el
vector de entradas y salidas ha sido observado en el perıodo 1 o 2. Cada δs((x0, y0)t) en
(2-17) (s = 1, 2; t = 1, 2) se calcula corriendo un modelo CCR determinıstico orientado a
las entradas o a las salidas, segun si las DMUs controlan las primeras o las segundas. Si
se esta orientado a las salidas, el ındice Malmquist se calcula corriendo el siguiente modelo
matricial cuatro veces, donde (s = 1, 2; t = 1, 2):
δs((x0, y0)t) = mın
θ,λθ
sujeto a las restricciones: (2-18)
xt0 ≥ Xsλ
2.6 Distribucion condicional 21
(1/θ)yt0 ≤ Y sλ
L ≤ eλ ≤ U
λ ≥ 0
Si (L, U) = (1, 1) en el modelo (2-18), este se convierte en un BCC (Banker, Charnes y
Cooper), lo que se traduce en el calculo de eficiencias de retorno a escala variable (Banker et
al., 1984)[14], adecuado para comparar DMUs de diferente tamano. Si (L, U) = (0,∞), el mo-
delo (2-18) se vuelve un CCR, lo que se traduce en calculo de eficiencias con retorno a escala
constante, adecuado para comparar DMUs de igual tamano. El vector λ = (λ1, λ2, ..., λN)′
donde N es el numero de DMUs, los λi son las variables que ayudan a construir la envolvente
para formar la frontera de eficiencia. El vector e = (1, 1, ..., 1) de tamano 1 × N , X es la
matriz de entradas y Y es la matriz de salidas. Tanto X como Y se disponen de manera
que el numero de filas sean el numero de entradas y salidas respectivamente, y el numero de
columnas sean el numero de DMUs. El vector xto es el de las entradas de la DMU observada
en el perıodo t y yto es el de las salidas de la DMU observada en el perıodo t
2.6. Distribucion condicional
Este concepto se ha introducido en el presente marco teorico porque es importante para
entender algunas demostraciones de algoritmos para estimar parametros por el metodo de
maxima verosimilitud, en la seccion 2.9.
El valor esperado de una distribucion condicional se expresa ası:
E [h(Y )|X = x] =
∫
y
h(y)fY |X(y|x)dy (2-19)
En Giraldo (2006)[88] se da la siguiente definicion de esperanza condicional:
Definicion 1 Si (X, Y ) son dos variables aleatorias con fdp conjunta f (x, y) donde (x, y) ∈G ⊆ ℜ2, y
fX(x) :=∫∞−∞ f (x, y) dy
fY (y) :=∫∞−∞ f(x, y)dx
son las fdp marginales, la fdp condicional de Y dado X = x se define como:
fy (y|X = x) := f(x, y)/fX(x)
siempre que fX(x) 6= 0, y la esperanza condicional de Y dado X se define como:
E(Y |X = x) =∫∞−∞ yfY (y|X = x)dy
22 2 Marco teorico
Para entender la anterior definicion, en Giraldo (2006)[88] se da el siguiente ejemplo de la
normal bivariada.
Ejemplo 1 El vector (X1, X2) se distribuye Normal bivariado,
(X1, X2) ∼ N2
((µ1
µ2
),
[σ21 ρσ1σ2
ρσ1σ2 σ22
])
donde E(Xi) = µi, V ar(Xi) = σ2i , Cov(X1, X2) = ρσ1σ2, si la fdp conjunta esta dada por:
f(x1,x2) =1
(2π)σ1σ2
√1−ρ2
exp
[− 1
2(1−ρ2)
[(x1−µ1
σ1
)2+(
x2−µ2
σ2
)2− 2ρ
(x1−µ1
σ1
)(x2−µ2
σ2
)]]
para (x1,x2) ∈ ℜ2.
Para calcular la fdp condicional de X2 dado X1 = x1, utilizan completacion de cuadrados
para escribir la conjunta de la forma siguiente:
f(x1,x2) =1√2πσ1
exp
[−1
2
(x1−µ1
σ1
)2]1√
2πσ2
√1−ρ2
exp
[−1
2
(x2−µ2−ρ
(σ2σ1
)(x1−µ1)
σ2
√1−ρ2
)2]
luego, integrando con respecto a x2 entre −∞ e ∞, y aplicando la identidad:
∫∞−∞
1√2πe−
1
2(x−µ
σ)2dx = σ
se obtiene
fX1(x1) =
1σ1
√2πe− 1
2(x1−µ1
σ1)2
por lo tanto
fX2(x2|X1 = x1) =
f(x1,x2)fX1
(x1)
= 1√2πσ2
√1−ρ2
exp
[−1
2
(x2−µ2−ρ
(σ2σ1
)(x1−µ1)
σ2
√1−ρ2
)2]
en donde
X2 | X1 = x1 ∼ N
(µ2 + ρ
(σ2σ1
)(x1 − µ1) , σ
22
(1− ρ2
))(2-20)
Notese que ρ(
σ2
σ1
)= cov(X1,X2)
V ar(X1).
2.7 Conceptos Bayesianos 23
2.7. Conceptos Bayesianos
Distribuciones condicionales
La densidad condicional de un vector, por ejemplo θ, dado el valor de otro vector, por ejemplo
y = v, es obtenida por la division de la densidad de (θ′, y′)′ por la densidad de y evaluado
en v, (Christensen et al., 2011)[138], esto es
pθ|y(u|v) ≡ pθ,y(u, v)/fy(v). (2-21)
Similarmente,
fy|θ(v|u) ≡ pθ,y(u, v)/pθ(u). (2-22)
Como la densidad condicional (2-21) es una funcion de u, ası el termino fy(v) en el deno-
minador del lado derecho es una constante que hace la densidad integrada a 1. Al mismo
tiempo se tiene
pθ|y (u | v) ∝ p ∗ (u)para todo u, donde la constante de proporcionalidad puede depender de v pero no de u, se
tiene
pθ|y(u|v) = p∗u∫p∗(u)du ,
la expresion p ∗ u se llama kernel de la densidad condicional.
Conociendo fy|θ(v|u) y pθ(u) es, en principio, suficiente para permitir encontrar la densidad
condicional pθ|y(u|v). Desafortunadamente es a veces difıcil encontrar pθ|y(u|v).El siguiente teorema de Bayes se puede ver en Christensen et al. (2011)[138].
Teorema de Bayes
La densidad de θ dado y es
pθ|y(u|v) =fy|θ(v|u)pθ(u)∫fy|θ(v|u)pθ(u)du
(2-23)
donde la integral va desde −∞ a ∞ para cada componente de u. En el anterior teorema, el
numerador segun la ecuacion (2-22) podrıa reemplazarse por pθ,y(u, v) y el denominador es
justo∫fy|θ(v|u)pθ(u)du = fy(v).
Existe otra notacion y consiste en reemplazar los valores de las variables (placeholder varia-
bles) por los sımbolos de variables aleatorias por lo que el teorema de Bayes queda ası:
p(θ|y) = f(y|θ)p(θ)∫f(y|θ)p(θ)dθ . (2-24)
24 2 Marco teorico
2.8. Analisis cluster para series de tiempo
La meta de un analisis cluster es identificar estructuras de grupos similares en un conjunto de
datos o poblacion, Coke y Tsao (2010)[47]. Las diferencias intra grupos es minimizada. Se han
clasificado los metodos cluster en dos categorıas a saber, los metodos basados en distancias
heurısticas y los llamados metodos basados en modelos (Mardia et al., 1979)[119]. En la
primera categorıa estan los metodos basados en distancias heurısticas los cuales proponen
un analisis puramente descriptivo, generalmente basados en distancias Euclidianas. En la
segunda categorıa estan los metodos basados en modelos los cuales asumen un modelo para
cada uno de los K cluster generados. En la segunda categorıa se han desarrollado unos
modelos de mixtura llamados “metodos cluster basados en modelos de mixtura”.
Fraley y Raftery (2002)[84] propusieron una tecnica para el uso de los modelos de mixtura
para cluster. El uso de los modelos de mixtura para describir los cluster o agrupar los datos,
permiten la seleccion de un modelo en el marco de un modelo estadıstico. Esta tecnica
de Fraley y Raftery (2002)[84] estima los parametros del modelo de mixtura por maxima
verosimilitud y para la seleccion de un modelo usan un criterio de informacion, uno de ellos
es el criterio de informacion Bayesiano BIC (Schwarz, 1978)[150].
En Coke y Tsao (2010)[47] se define un “modelo de mixtura para clusterizacion basada en
metodos”.
Definicion 2 Supongase que x1,x2, ...,xN es una muestra aleatoria de un modelo de mix-
tura con K componentes. Sea fK(x; θk) la funcion de densidad de la k-esima componente
caracterizada por el vector parametro θk. La funcion de densidad de la mixtura para una
observacion aleatoria xi, f(xi) puede ser escrita como:
f (xi;Ψ) =K∑
k=1
πkfk (xi; θk) , (2-25)
donde πk es la probabilidad de que una observacion provenga de la k-esima componente y∑Kk=1 πk = 1. Por lo que π = (π1, π2, ..., πK); y el vector Ψ, que es el que contiene los
parametros desconocidos en la mixtura, esta dado por:
Ψ = (π, θ1, θ2, ..., θK).
Se debe especificar la densidad de la componente fk(xi; θk) y luego estimar los parametros en
Ψ. Una vez estimados los parametros, el cluster sera claramente definido y la asignacion de
las observaciones a esos cluster es realizada a traves de una probabilidad a posteriori (Bryan,
2004)[29]. En la seccion 2.9 se explica como se puede estimar Ψ.
2.8 Analisis cluster para series de tiempo 25
2.8.1. Mixturas normales multivariadas
Cuando las funciones de densidad de las componentes en un modelo de mixtura pueden ser
especificadas por una normal multivariada, la funcion de densidad de la componente k se
denota η (xi;µk,Σk).
Definicion 3 La densidad de la mixtura normal multivariada para una observacion xi,
f (xi;Ψ) puede ser escrita como
f (xi;Ψ) =
K∑
k=1
πkη (xi;µk,Σk) (2-26)
=
K∑
k=1
πk
[1
(2π)n/2 |Σk|1/2exp
[−(xi − µk)
TΣ−1k (xi − µk) /2
]]
(2-27)
donde Ψ es el vector de todos los parametros desconocidos cuyos elementos son la mezcla de
las proporciones π1, π2, ..., πK, la media es el vector µk y la matriz de varianzas y covarianzas
Σk para k = 1, 2, ..., K. El modelo de mixtura normal multivariado se denota por
M(Ψ) =K∑
k=1
πkMVN(µk,Σk). (2-28)
2.8.2. Mixturas para altas dimensiones
La alta dimensionalidad de los datos presenta problemas para la aplicacion de un modelo
normal porque este involucra n+ n(n + 1)/2 parametros donde n(n + 1)/2 es el numero de
parametros para la varianza (Coke y Tsao, 2010)[47]. El problema de muchos parametros en
la mixtura necesita modelar la matriz de covarianza cuidadosamente. Una primera alternativa
es el modelo esferico, el cual considera la matriz de covarianzas como la diagonal Σk = σ2I,
y ası se involucra solo un parametro. Aunque este modelo tiene una reduccion extrema en los
parametros, el supuesto de varianza constante y correlacion cero puede no modelar muy bien
una serie de tiempo. Una segunda alternativa es tratar una correlacion no trivial, asumiendo
que la observacion aleatoria xi sigue un modelo de regresion, este modelo es llamado en
Bryan (2004)[29] “modelo de mixtura de coeficientes aleatorios” y en Coke y Tsao (2010)[47]
es llamado “Growth mixture model”. Una tercera alternativa para modelar la matriz de
covarianza es considerar que las observaciones xi|(zi = k) tienen el modelo jerarquico
xi|(zi = k) = µk + eki
donde el error eki se descompone en dos terminos, el primero asume el efecto de correlacion
serial y el segundo la medida de error. Este modelo es llamado en Coke y Tsao (2010)[47]
“modelo de mixtura de efectos aleatorios”.
26 2 Marco teorico
Modelo de mixtura normal esferico
Definicion 4 El vector xi sigue un modelo de mixtura normal esferico si:
xi ∼K∑
k=1
πkMVN(µk, σ
2I)
(2-29)
Mixtura de coeficientes aleatorios
Tiene una computacion mas complicada, pero una tecnica mas flexible que asumir compo-
nentes esfericos, es especificar modelos de coeficientes aleatorios (Lindsey, 1999)[113], para
los componentes de mixtura en (2-28). Los modelos de coeficientes aleatorios fueron propues-
tos por James y Sugar (2003)[97], Luang y Li (2003)[115] y Ng et al. (2006)[131], y permiten
una modelacion no trivial de la correlacion. La idea basica de la “mixtura de coeficientes
aleatorios” es que xi sigue un modelo de regresion
xi ∼ Φβi + ǫi, (2-30)
donde Φ es una matriz de diseno de rango p, βi es vector p-dimensional de coeficientes de
regresion y ǫi es la medida del error. ǫi una variable aleatoria normal multivariada con media
0 y matriz de varianzas y covarianzas σ2I. En el modelo (2-30) βi puede representar los datos
reducidos cuando se hace reduccion de dimension a traves de Φ en los metodos heurısticos,
sin embargo, en este caso se usa para asumir que βi sigue un modelo de mixtura con K
componentes cada una de las cuales es p-dimensional multivariada normal (p ≪ n), con
media µβk y matrices de covarianzas Σβ
k :
βi ∼K∑
k=1
πkMV N(µkβ,Σk
β) (2-31)
Definicion 5 Una mixtura es de coeficientes aleatorios cuando la distribucion de la obser-
vacion es
xi ∼K∑
k=1
πkMVN(µk,Σk) (2-32)
donde
µk = Φpµkβ (2-33)
y
Σk = ΦpΣkβΦp
T + σ2I(k = 1, 2, ...K) (2-34)
El vector de parametros Ψ para el modelo (2-32) ahora consta de elementos de µβk , Σβ
k , σ2
mas el vector de mezcla de proporciones π1, π2, ..., πK.
2.8 Analisis cluster para series de tiempo 27
El modelo (2-32) es una “mixtura de coeficientes aleatorios” y tambien es llamado modelo
de hetereogeneidad en Verbeke Molenberghs (2000)[181]. Usualmente p se escoge para ser
suficientemente pequeno, ası el modelo (2-31) no involucra muchos parametros y en conse-
cuencia tampoco (2-32). O sea que el numero de elementos de Ψ es menor que el requerido
para especificar un total modelo de mixtura normal inestructurado de K componentes para
xi.
Modelos de mixtura de efectos aleatorios
El “modelo de mixtura de coeficientes aleatorios” es adecuado para datos cluster para series
de tiempo, aunque provee una parametrizacion parsimoniosa de las matrices de covarian-
za y permite una correlacion no trivial, su estructura de covarianza no es suficientemente
flexible para modelar estructuras de covarianzas inherentes a las series de tiempo (Lindsey,
1999)[113]. Para corregir estos problemas, el “modelo de mixtura de efectos aleatorios”, desa-
rrollado por Bryan (2004)[29], hace uso del modelo de covarianza para datos longitudinales
el cual captura efectos especıficos para un cluster y medidas independientes del error (Diggle
et al., 2002)[70]. En un analisis longitudinal, el foco esta usualmente en la relacion entre la
media de la respuesta de las series de tiempo y las covarianzas.
Definicion 6 El modelo de mixtura normal multivariado de efectos aleatorios esta definido
por
M(Ψ) ∼K∑
k=1
πkMV N(µk,Σk) (2-35)
donde Ψ representa la coleccion de parametros πk, µk y Σk . Sea x una observacion aleatoria
de la componente k. Se construye el modelo para Σk a traves del siguiente modelo jerarquico
para x, por lo que se asume que
x = µk + e (2-36)
donde µk es el vector de medias fijo y e ∼ MVN(0,Σk) es el error aleatorio. El termino
de error se puede descomponer en dos efectos, un efecto de correlacion serial y un efecto de
medida de error, esto es
e = w + ǫ (2-37)
donde w tiene una distribucion normal multivariada w ∼ MVN(0,Σwk ) captura la correla-
cion intra x, y ǫ es un vector de medida de error con ǫ ∼MV N(0, σ2I). Siguiendo ecuaciones
(2-36) y (2-37) la observacion x para la k-esima componente tiene una distribucion normal
multivariada
x ∼MVN(µk,Σk) (2-38)
28 2 Marco teorico
donde la matriz de covarianzas es
Σk = Σwk + σ2I (2-39)
Como w varıa dentro de cada cluster y su distribucion tambien varıa de cluster a cluster, esto
representa un efecto en la observacion x, o sea que la matriz Σk tiene un efecto aleatorio en
la estructura de covarianza, y como se refieren especıficamente a modelos normales de allı el
nombre “modelo de mixtura normal de efectos aleatorios”. El modelo del error en (2-37)
es muy usado en analisis de datos longitudinales (Diggle et al., 2002)[70]. Los objetivos
de los estudios longitudinales son caracterizar las medias de respuestas individuales y sus
cambios en el tiempo e investigar los efectos de covarianzas en el tiempo (Bryan, 2004)[29].
En modelos de mixtura con K componentes, se asume que las medias para cada serie de
respuesta individual es una de los K posibles valores de µ1, µ2, ..., µK . Sea xi una observacion
de toda la poblacion, entonces xi sigue el modelo de mixtura (2-35) y la densidad de xi es
f(xi;Ψ) =K∑
k=1
πkη(xi;µk,Σk) (2-40)
donde Σk es dado por la ecuacion (2-39) y η(·) es la densidad de la normal multivariada.
2.8.3. Asignacion a cluster y seleccion de un modelo de mixtura
Con la funcion de densidad de un modelo de mixtura y una vez estimados sus parametros,
se puede tanto encontrar la probabilidad de que una observacion provenga de un cluster,
ası como la posibilidad de elegir el mejor modelo de entre varios usados.
Asignacion a cluster
La clasificacion de las series en cluster se realiza mediante la regla optima de Bayes basada en
probabilidad a posteriori para asignar las observaciones a los cluster. El πk sera visto como
la probabilidad a priori para la asignacion de la observacion aleatoria xi al cluster (Bryan,
2004)[29]. La probabilidad posterior de xi pertenecer al k − esimo cluster esta dada por
τk(xi; Ψ) = πkfk(xi; θk)/f(x;Ψ), (2-41)
donde f(x;Ψ) es la funcion de densidad de la mixtura, es decir
f(xi;Ψ) =∑K
k=1 πkfk(xi; θk).
En (2-41), τk es la probabilidad a posteriori de que xi provenga de la k-esima componente
de la mixtura. Se usa τk(xi; Ψ) para asignar la observacion al cluster, se asigna xi al cluster
Ck con el maximo τk(xi; Ψ) para k = 1, 2, ..., K.
Seleccion de un modelo de mixtura
2.9 Algoritmos de estimacion de parametros en modelos de mixtura 29
La “clusterizacion basada en modelos” tienen una ventaja sobre los metodos heurısticos
en el sentido de que los primeros permiten establecer un criterio de seleccion del mejor
modelo de mixtura. Para seleccionar el modelo se tienen varios criterios, uno de ellos es la
tecnica Bayesiana de Fraley y Raftery (2002)[84]. Ellos basan su modelo de seleccion en un
modelo de probabilidad a posteriori, definen un conjunto de modelos M1,M2, ...,Mm para
ser candidatos a modelos con vectores de parametros Ψ1,Ψ2, ...,Ψm, respectivamente. Se
denota por P (Mj) la probabilidad apriori de que el verdadero modelo sea Mj . Entonces por
el teorema de Bayes la probabilidad a posteriori del modelo es dada por
P (Mj|x1,x2, ...,xN) =f(x1,x2,...,xN |Mj)P (Mj)∑mi=1 f(x1,x2,...,xN |Mj)P (Mj)
Note que el denominador del lado derecho es el mismo para todo j, si las probabilidades
apriori P (Mj) son las mismas para todos los modelos, entonces el modelo con la mas alta pro-
babilidad a posteriori es el que tiene la maxima verosimilitud integrada f(x1,x2, ...,xN |Mj).
Por la ley de probabilidad total f(x1,x2, ...,xN |Mj) es obtenida integrando sobre el espacio
de parametros Ψj
f(x1,x2, ...,xN |Mj) =∫f(x1,x2, ...,xN |Ψj,Mj)p(Ψj|Mj)dΨj,
donde p(Ψj|Mj) es la densidad condicional de Ψj dado que el verdadero modelo es Mj . Esa
integral en la verosimilitud es difıcil de calcular exactamente pero puede ser aproximada por
el criterio de informacion Bayesiano (BIC) (Schwarz, 1978)[150],
−2 log f(x1,x2, ...,xN |Mj)+constante≈ −2 logL(Ψj
)+ dj log(N) = BIC,
donde dj es el numero de parametros independientes en el modelo y Ψj es el MLE de Ψj .
Fraley y Raftery (2002)[84] justifican el uso del BIC en el contexto de mixtura de modelos.
El BIC mas pequeno es la mayor evidencia para el modelo.
2.9. Algoritmos de estimacion de parametros en modelos
de mixtura
La estimacion de parametros de un modelo de mixtura se hace por el metodo de maxima
verosimilitud. Un algoritmo que se usa en este caso es el algoritmo EM (Expectation Maxi-
mization). Suponga que las funciones de densidad de la componentes fk(xi; θk) son escogidas
y se asume que K es dado. Entonces el logaritmo de la verosimilitud (log-likelihood) de Ψ
basado en x1,x2, ...,xN es dado por
l(Ψ) =N∑
i=1
logK∑
k=1
πkfk(xi; θk) (2-42)
El algoritmo EM se hace necesario por lo que el estimador para Ψ, Ψ no puede escribirse
en forma explıcita, por lo que requiere computacion numerica.
30 2 Marco teorico
2.9.1. Algoritmo EM
Aunque con una notacion un poco diferente a la usada en Bryan (2004)[29], se explicara el
algoritmo EM basado en Bilmes (1998)[24]. El algoritmo EM se compone en dos pasos, el
primero llamado E-step y el segundo llamado M-step.
E-step
Si se tiene un conjunto de datos de tamano N , X = {x1,x2, ...,xN} y se asume que los
vectores de datos son independientes e identicamente distribuidos (i.i.d.) con distribucion p.
Entonces la densidad resultante para la muestra es
p(X|Θ) =N∏i=1
p(xi|Θ) = L(Θ|X)
Esta funcion L(Θ|X) es llamada la verosimilitud de los parametros dados los datos (Bilmes,
1998)[24]. La verosimilitud es pensada como una funcion de parametros Θ donde el dato X
es fijado. La meta entonces es encontrar Θ que maximice L. El algoritmo EM es una tecnica
para encontrar el estimador maximo verosımil de los parametros de una distribucion de un
conjunto de datos dado cuando el dato es incompleto o tiene observaciones perdidas, pero
este concepto de “valores perdidos” se aplica cuando la funcion de verosimilitud es difıcil de
optimizar analıticamente, X es observado y generalmente tiene una distribucion. La variable
X se llama dato incompleto. Se asume que un conjunto de datos completo existe Z= (X, Y )
y ası se asume una densidad conjunta.
p(z|Θ) = p(x,y|Θ) = p(y|x,Θ)p(x|Θ) (2-43)
El supuesto clave, esta en considerer que en la anterior expresion, la densidad de la conjunta
p(x,y|Θ) viene de la funcion de densidad de la marginal p(x|Θ) y del supuesto de variables
escondidas y los valores de los parametros a encontrar. Por lo tanto se establece una relacion
entre datos perdidos y valores observados. Con todo lo anterior se puede definir la funcion
de verosimilitud pero para datos completos, L(Θ|Z) = L(Θ|X, Y ) = p(X, Y |Θ) = hx,Θ(Y )
para alguna funcion de hx,Θ(·) donde X y Θ son constantes y Y es una variable aleatoria.
La verosimilitud original L(Θ|X) es la funcion de verosimilitud de datos incompletos. El
algoritmo EM encuentra en primera instancia, el valor esperado de la funcion del logaritmo
de la verosimilitud de los datos completos log p(X, Y |Θ) con respecto al dato desconocido
Y dado el dato observado X y las actuales estimaciones del parametro. Con lo anterior en
Bilmes (1998)[24] se define
Q(Θ,Θ(i−1)) = E[log p(X, Y |Θ)|X,Θ(i−1)
](2-44)
donde Θ(i−1) es el actual vector de parametros estimado que se usa para evaluar el valor
esperado y Θ es el vector de parametros que se optimiza para incrementar a Q, ası tambien
que X y Θ(i−1) son constantes, Θ es una variable aleatoria normal que se desea ajustar, y Y
es una variable aleatoria gobernada por la distribucion f(y|X,Θ(i−1)). El lado derecho de la
ecuacion (2-44) puede ser reescrita por
2.9 Algoritmos de estimacion de parametros en modelos de mixtura 31
E[log p(X, Y |Θ)|X,Θ(i−1)
]=
∫
yǫγ
log p(X,y|Θ)f(y|X,Θ(i−1))dy (2-45)
Notese que f(y|X,Θ(i−1)) es la distribucion marginal de los datos no observados y depende
tanto del dato observado X como de los parametros actuales y γ es el espacio de valores de y.
Se puede entender mejor la ecuacion (2-45) si se revisa la ecuacion (2-19). Analogamente si se
tiene una funcion h(θ,Y) donde θ es una constante y Y es una variable aleatoria gobernada
por alguna distribucion fY(y), por lo tanto EY [h(θ,Y)] =∫yh(θ,Y)fY(y)dy es una funcion
determinıstica y puede maximizarse.
M-step
El segundo paso del algoritmo EM es el M-step que consiste en maximizar el valor esperado
calculado en el anterior paso E-step. Esos dos pasos garantizan, en cada iteracion, el incre-
mento del logaritmo de la verosimilitud y garantiza tambien la convergencia a un maximo
local de la funcion de verosimilitud (Bilmes, 1998)[24].
2.9.2. Algoritmo EM para mixtura de densidades Gaussianas
Si la mixtura esta dada por
p(x|Θ) =∑M
i=1 αipi(x|θi),
donde Θ = (α1, α2, ..., αM , θ1, θ2, ..., θM) tal que∑M
i=1 αi = 1 y cada pi es una funcion de
densidad parametrizada por θi, la expresion “logaritmo de la verosimilitud para dato incom-
pleto” para esta densidad del dato x esta dada por
log(L(Θ|X)) = logN∏i=1
p(xi|Θ) =∑N
i=1 log(∑M
j=1 αjpj(xi|θj)),
la cual es difıcil de optimizar porque contiene el logaritmo de una suma. Un artificio valido es
considerar x como incompleto y considerar la existencia de un no observado y = {yi}Ni=1 cuyos
valores cumplen con informar cual componente de la densidad de la mixtura ha generado cada
dato, es decir de que componente de mixtura viene cada dato. Si se asume que yi ∈ {1, ...,M}para cada i, entonces yi = k si la k-esima muestra fue generada por la k-esima componente
de mixtura. Si se conocen los valores de y la verosimilitud viene dada por:
log(L(Θ|X, Y )) = log p(X, Y |Θ) =∑N
i=1 log (P (xi|yi)P (y)).
Lo anterior se da porque como se conoce y entonces esta variable deja de depender de Θ,
y la probabilidad marginal P (y) sera entonces αj = αyi en la mixtura. Ası que la ecuacion
anterior queda ası
N∑
i=1
log (P (xi|yi)P (y)) =N∑
i=1
log (αyipyi(xi|θyi)) . (2-46)
32 2 Marco teorico
La ecuacion (2-46) da una forma particular de densidades de las componentes que puede ser
optimizada por diferentes tecnicas, aunque la ecuacion (2-46) fue deducida bajo el supuesto
de que y es conocido, pero en realidad no lo es porque no se sabe una observacion de
que componente de la mixtura viene, por lo que se asume y como una vector aleatorio.
Lo que sigue es conseguir una expresion para la distribucion de los datos no observados.
Supongase un vector de parametros Θg = (αg1, ..., α
gM , θ
g1, ..., θ
gM) es dado, y que es apropiado
para la funcion de verosimilitud L(Θg|X, Y ), la idea es computar pj(xi|θgj ) para cada i y j.
La mezcla de parametros αj se considera como probabilidades a priori de cada componente
de mixtura, esto es αj = p(componente j). Si se usa el teorema de Bayes, ecuacion (2-24) se
tiene que:
p(yi|xi,Θg) =αgyipyi(xi|Θg
yi)
p(xi|Θg)=
αgyipyi(xi|Θg
yi)
∑Mk=1 α
gkpk(xi|Θ
gk)
(2-47)
y
p(y|X,Θg) =
N∏
i=1
p(yi|xi,Θg) (2-48)
donde y = (y1, ..., yN) es una instancia de los datos no observados independientemente. Lo
que se ha obtenido es la densidad de la marginal de la ecuacion (2-45) asumiendo la existencia
de variables escondidas y haciendo un supuesto en los parametros iniciales de su distribucion.
En este caso, la ecuacion (2-44) toma la forma:
Q(Θ,Θg) =∑
y∈γ log(L(Θ|X,y))p(y|X,Θg)
=∑
y∈γ∑N
i=1 log(αyipyi(xi|θyi))N∏j=1
p(yj|xj ,Θg)
=∑M
y1=1
∑My2=1 ...
∑MyN=1
∑Ni=1 log(αyipyi(xi|θyi))
N∏j=1
p(yj|xj ,Θg)
=∑M
y1=1
∑My2=1 ...
∑MyN=1
∑Ni=1
∑Nl=1 δl,yi log(αlpl(xi|θl))
N∏j=1
p(yj|xj,Θg)
Q(Θ,Θg) =
M∑
l=1
N∑
i=1
log(αlpl(xi|θl))M∑
y1=1
M∑
y2=1
...
M∑
yN=1
δl,yi
N∏
j=1
p(yj|xj,Θg) (2-49)
Para simplificar la forma Q(Θ,Θg) en la ecuacion (2-49) se debe revisar que l ∈ {1, ...,M} ,y la siguiente parte de la ecuacion (2-49):
∑My1=1
∑My2=1 ...
∑MyN=1 δl,yi
N∏j=1
p(yj|xj,Θg)
puede cambiarse por:
2.9 Algoritmos de estimacion de parametros en modelos de mixtura 33
(∑M
y1=1 ...∑M
yi−1=1
∑Myi+1=1 ...
∑MyN=1 δl,yi
N∏j=1,j 6=i
p(yj|xj ,Θg)
)p(l|xi,Θg)
=
N∏
j=1,j 6=i
(M∑
y1=1
p(yj|xj,Θg)
)p(l|xi,Θg) = p(l|xi,Θg), (2-50)
ya que∑M
i=1 p(i|xj ,Θg) = 1. La ecuacion (2-49), a partir de la ecuacion (2-50), queda de la
siguiente forma:
Q(Θ,Θg) =∑M
l=1
∑Ni=1 log(αlpl(xi|θl))p(l|xi,Θg)
Q(Θ,Θg) =
M∑
l=1
N∑
i=1
log(αl)p(l|xi,Θg)) +
M∑
l=1
N∑
i=1
log(pl(xi|θl))p(l|xi,Θg). (2-51)
Para maximizar la expresion (2-51), se maximiza el termino que contiene αl y el termino que
contiene a θl independientemente ya que el valor esperado del logaritmo de la verosimilitud
es de parametros separables. El primer sumando de la ecuacion (2-51) se maximiza intro-
duciendo un multiplicador de Lagrange λ con la restriccion∑
l αl = 1 (Bilmes, 1998)[24].
Entonces se resuelve la ecuacion:
∂
∂αl
[M∑
l=1
N∑
i=1
log(αl)p(l|xi,Θg)) + λ
(∑
l
αl − 1
)]= 0, (2-52)
obteniendo
N∑
i=1
1
αlp(l|xi,Θg) + λ = 0. (2-53)
Como αl = p(l|xi,Θg) (2-53) se reemplaza por:
N∑
i=1
1
αl
αl + λ = 0, (2-54)
simplificando, aplicando propiedades de sumatoria y despejando se obtiene:
λ = −N. (2-55)
Llevando el resultado de (2-55) a (2-53) se obtiene:
αl =1N
N∑i=1
p(l|xi,Θg).
34 2 Marco teorico
Para maximizar el segundo sumando de la ecuacion (2-51), la que contiene θl, se parte de la
distribucion Gaussiana con parametro θ = (µ,Σ) entonces
pl(x|µl,Σl) =1
(2π)d/2 |Σl|1/2e−
1
2(x−µl)
TΣ−1
l(x−µl). (2-56)
Como los terminos constantes desaparecen en las derivadas, estos se ignoran en la ecuacion
(2-56) y al sustituir en el segundo sumando de la ecuacion (2-51) se tiene:
M∑l=1
N∑i=1
log(pl(xi|µl,Σl))p(l|xi,Θg)
=M∑
l=1
N∑
i=1
(−1
2log(|Σl|)−
1
2(xi − µl)
TΣ−1l (xi − µl)
)p(l|xi,Θg). (2-57)
Derivando la funcion de la ecuacion (2-57) con respecto a µl e igualando a cero:
N∑
i=1
Σ−1l (xi − µl)p(l|xi,Θg) = 0, (2-58)
de donde se despeja µl
µl =
N∑i=1
xip(l|xi,Θg)
N∑i=1
p(l|xi,Θg)
. (2-59)
Para encontrar Σl se tiene en cuenta la ecuacion (D-3) y se aplican propiedades de la suma-
toria y de logaritmos, se reemplaza la ecuacion (2-57) como:
=M∑l=1
[12log(
∣∣Σ−1l
∣∣)N∑i=1
p(l|xi,Θg)− 12
N∑i=1
p(l|xi,Θg)tr(Σ−1
l (xi − µl)(xi − µl)T)]
=M∑l=1
[12log(
∣∣Σ−1l
∣∣)N∑i=1
p(l|xi,Θg)− 12
N∑i=1
p(l|xi,Θg)tr(Σ−1
l Nl,i
)]
Donde Nl,i = (xi − µl)(xi − µl)T . Tomando la derivada con respecto a Σ−1
l , tomando en
cuenta la ecuacion (D-7) y la ecuacion (D-8) se consigue
1
2
N∑
i=1
p(l|xi,Θg) (2Σl − diag(Σl))−1
2
N∑
i=1
p(l|xi,Θg) (2Nl,i − diag(Nl,i)) . (2-60)
Llamando Ml,i = (Σl −Nl,i) la ecuacion anterior se convierte en:
=1
2
N∑
i=1
p(l|xi,Θg)(2Ml,i − diag(Ml,i)). (2-61)
2.9 Algoritmos de estimacion de parametros en modelos de mixtura 35
Si S = 12
N∑i=1
p(l|xi,Θg)(Σl−Nl,i) y, en consecuencia diag(S) = 12
N∑i=1
p(l|xi,Θg)diag(Σl−Nl,i),
se tiene que la ecuacion (2-61) se convierte en:
2S − diag(S) (2-62)
Como la funcion dada en (2-62) es la derivada, entonces se iguala a cero, la solucion se da
cuando S = 0, lo que ocasiona que:
S = 12
N∑i=1
p(l|xi,Θg)(Σl −Nl,i) = 0
N∑i=1
p(l|xi,Θg)(Σl −Nl,i) = 0
N∑i=1
p(l|xi,Θg)Σl −N∑i=1
p(l|xi,ΘgNl,i) = 0
N∑i=1
p(l|xi,Θg)Σl =N∑i=1
p(l|xi,ΘgNl,i)
Σl =
N∑i=1
p(l|xi,Θg)Nl,i
N∑i=1
p(l|xi,Θg)
Σl =
N∑i=1
p(l|xi,Θg)(xi − µl)(xi − µl)T
N∑i=1
p(l|xi,Θg)
(2-63)
Por lo que con los anteriores resultados se resalta que los estimadores maximo verosımiles
en terminos de los viejos parametros o anteriores parametros son:
αnuevol =
1
N
N∑
i=1
p(l|xi,Θg) (2-64)
µnuevol =
N∑i=1
xip(l|xi,Θg)
N∑i=1
p(l|xi,Θg)
(2-65)
Σnuevol =
N∑i=1
p(l|xi,Θg)(xi − µnuevol )(xi − µnuevo
l )T
N∑i=1
p(l|xi,Θg)
(2-66)
36 2 Marco teorico
2.9.3. Algoritmo AECM
El Algoritmo AECM (por sus siglas en ingles Alternating Expectation Conditional Ma-
ximization) ha sido propuesto por Meng y van Dyk (1997)[125] cuando el algoritmo EM
estandar resulta muy complicado. AECM es una extension de algoritmo ECM (Meng y
Rubin, 1993)[124]. El algoritmo AECM reemplaza cada M-step del algoritmo EM por una
secuencia de G pasos (computacionalmente mas simples) de maximizacion condicional, CM-
steps (Coke y Tso, 2010)[47]. Por ejemplo, si el vector de parametros Ψ es dividido en
G grupos de parametros, (Ψ1,Ψ2, ...,ΨG), cada CM-step entonces consiste en maximizar
Q(Ψ;Ψ[l]) con respecto a un grupo de parametros, digamos Ψg con todos los otros grupos
mantenidos fijos.
La innovacion del algoritmo AECM es que permite la especificacion de los datos completos
para ser diferente en cada CM-step (Bryan, 2004)[29]. Entonces, en Coke y Tso (2010)[47]
implementan el algoritmo AECM dividiendo el vector de parametros desconocidos Ψ en el
conjunto (Ψ1,Ψ2), donde Ψ1 contiene la mezcla de proporciones, πk y la componente de
medias µk, y Ψ2 contiene los elementos de Σwk y σ2. Con esta agrupacion de parametros,
cada iteracion del AECM consiste en dos ciclos (un ciclo se refiere a un E-step seguido
de CM-step). Siguiendo a McLachlan y Peel (2000)[121] se explican los dos ciclos para un
modelo de mixtura.
Primer ciclo
Este ciclo consiste en un E-step seguido de un CM-step. El dato completo es especificado
para ser el observado xi y el vector zi que es el identificador de la afiliacion a la componente
de la mixtura. El desconocido zi es tratado como un dato perdido. La verosimilitud del dato
completo esta dada por:
l(Ψ) =N∑i=1
K∑k=1
zik log {πkη(xi;µk,Σk)} .
El E-step computa el esperado
Q(Ψ,Ψ[l]) = E(lc(Ψ|x,Ψ[l])) = E(lc(Ψ|x1,x2, ...,xN ,Ψ[l]))
=N∑i=1
K∑k=1
τ(xi;Ψ[l]) {log πk + log η(xi;µk,Σ
wk + σ2I)} ,
el cual es el esperado condicional del logaritmo de la verosimilitud del dato completo dado
el dato y el valor actual del parametro estimado. Es el mismo E-step del algoritmo estandar.
El CM-step en el primer ciclo maximiza Q1(Ψ,Ψ[l]) sobre Ψ donde Ψ2 permanece fijo en
Ψ[l]2 . La actualizacion estimada de Ψ
[l+1]1 ası obtenida contiene la nueva estimacion de πk y
µk dado por
π[l+1]k =
N∑i=1
τk(xi;Ψ[l])/N
2.9 Algoritmos de estimacion de parametros en modelos de mixtura 37
y
µ[l+1]k =
N∑i=1
τk(xi;Ψ[l])xi/
N∑i=1
τk(xi;Ψ[l])
para k = 1, ..., K. Ahora el conjunto Ψ[l+1/2] = (Ψ[l+1]1 ,Ψ
[l]2 ).
Segundo Ciclo
En el segundo ciclo para actualizar Ψ2 el cual contiene los elementos Σwk y σ2, se especifica
el dato perdido para ser los componentes de la correlacion serial w1,w2, ...wN ası como los
vectores indicadores de componentes z1, z2, ..., zN . Dados los datos aumentados, la densidad
completa es dada por f(x,w, z) =f(x|w, z)f(w|z)f(z). Como zi son MULT(1, π1, π2, ..., πk),
loswi son condicionalmenteMVN(0,Σwk ), y los xi son condicionalmenteMVN(µk+wi, σ
2I),
el logaritmo de la verosimilitud para datos completos es
lc(Ψ) =
N∑
i=1
K∑
k=1
zik log(πk) (2-67)
−1
2
N∑
i=1
K∑
k=1
zik
{log |Σw
k |+wTi Σ
w−1
k wi
}(2-68)
−1
2
N∑
i=1
K∑
k=1
zik
{n log(σ2) +
1
σ2‖xi−(µk +wi)‖2
}(2-69)
El E-step involucra el calculo de Q2(Ψ,Ψ[l+1/2]) el cual es el condicional esperado de lc(Ψ)
dado el dato observado y el parametro actual estimado Ψ[l+1/2]. Esto involucra el calculo de
E(zik|xi,Ψ[l+1/2]) = τk(xi;Ψ
[l+1/2]) y entonces los condicionales esperados
E{wT
i Σw−1
k wi|x,Ψ[l+1/2], zik = 1}
y
E{‖xi−(µk +wi)‖2 |x,Ψ[l+1/2], zik = 1
},
lo cual, en Bryan (2004)[29], puede ser calculado usando el hecho de que
wi|xi,Ψ[l+1/2], zik = 1 ∼MV N
((σ2,[l]Σ
w,[l]−1
k + I)−1
(xi−µ[l+1]k ),
(Σ
w,[l]−1
k + σ−2,[l]I)−1).
En Bryan (2004)[29] no explican la razon de este ultimo paso, pero este puede entenderse
observando la ecuacion (2-20) que es un resultado de la esperanza condicional para distribu-
ciones normales bivariadas, definicion y ejemplo que se da en Giraldo (2006)[132].
Q2(Ψ;Ψ[l+1/2]) =
N∑
i=1
K∑
k=1
τk(xi;Ψ[l+1/2]) log(πk) (2-70)
38 2 Marco teorico
−12
N∑i=1
K∑k=1
τk(xi;Ψ[l+1/2]){log |Σw
k | +tr(Σw−1
k (Σw,[l]−1
k + σ−2,[l]I)−1)
+((σ2,[l]Σw,[l]−1
k + I)−1(xi−µ[l+1]k ))TΣw−1
k
×((σ2,[l]Σw,[l]−1
k + I)−1(xi−µ[l+1]k ))} (2-71)
−12
N∑i=1
K∑k=1
τk(xi;Ψ[l+1/2]){n log(σ2) + 1
σ2
∥∥∥xi−µk − (σ2,[l]Σw,[l]−1
k + I)−1(xi−µ[l+1]k )
∥∥∥2
×tr((Σw,[l]−1
k + σ−2,[l]I)−1))} (2-72)
El CM-step en el segundo ciclo maximiza Q2(Ψ;Ψ[l+1/2]) sobre Ψ con Ψ1 fijo en Ψ[l+1].
Los terminos en (2-70), (2-71) y (2-72) pueden ser maximizados separadamente. El termino
(2-72) es maximizado por
σ2[l+1]k = 1
Nn
N∑i=1
K∑k=1
τk(x;Ψ[l+1/2]){
∥∥∥xi−µk − (σ2,[l]Σw,[l]−1
k + I)−1(xi−µ[l+1]k )
∥∥∥2
+tr((Σw,[l]−1
k + σ−2,[l]I)−1))}.El maximizador del segundo termino (2-71) no puede ser expresada en forma explıcita, y es
necesario un procedimiento de maximizacion numerica para maximizar
−12
N∑i=1
K∑k=1
τk(xi;Ψ[l+1/2]){log |Σw
k | +tr(Σw−1
k (Σw,[l]−1
k + σ−2,[l]I)−1)
+((σ2,[l]Σw,[l]−1
k + I)−1(xi−µ[l+1]k ))TΣw−1
k ×((σ2,[l]Σw,[l]−1
k + I)−1(xi−µ[l+1]k ))}
La computacion de (2-71) podrıa parecer un problema difıcil computacionalmente. Sin em-
bargo ahorros substanciales en computacion y que incrementan la estabilidad numerica puede
ser tenido en cuenta usando la formula explıcita de la inversa y el determinante de la matriz
de covarianza AD Σwk , dado en Zimmerman (1998)[191]. Sus formulas son las siguientes:
|Σwk | = (
n∏
t=1
σ2t )(
n−1∏
t=1
(1− ρ2t )) (2-73)
y
(Σwk )
−1 = [γij]n×n
donde
γij =
(σ21(1− ρ21))
−1 para i = j = 1
(σ2n(1− ρ2n))
−1 para i = j = n
(1− ρ2i−1ρ2i )(σ
2i (1− ρ2i−1)(1− ρ2i ))
−1 para i = j 6= 1, n
−ρi(σiσj(1− ρ2i ))−1 para i− j = −1
−ρj(σiσj(1− ρ2j))−1 para i− j = 1
0 para |i− j| > 1
Usando la formulas de Zimmerman (1998)[191] se puede resolver el problema con O(n)
computaciones en vez de O(n3).
2.10 Estimacion de mixturas normales multivariadas 39
2.10. Estimacion de mixturas normales multivariadas
El estimador de maxima verosimilitud MLE de Ψ, Ψ sera encontrado por la maximizacion
del logaritmo de la verosimilitud de Ψ basado en la muestra aleatoria x1,x2, ...,xN ,
l(Ψ) =N∑
i=1
logK∑
k=1
πkη(xi;µk,Σk), (2-74)
esta estimacion se logra usando el algoritmo EM. El estimador de maxima verosimilitud
MLE en el caso del supuesto de homocedasticidad en las componentes, es decir la matriz
Σk es la misma para todo k = 1, 2, ..., K, es sencillo de estimar. En este caso la funcion del
logaritmo de la verosimilitud tiene un global maximo finito, entonces MLE Ψ existe y es
fuertemente consistente para el verdadero parametro (Redner, 1981)[140]. Sin embargo en
el caso de heterocedasticidad donde Σk varıa de componente a componente el logaritmo de
la verosimilitud es ilimitado y el global maximo no existe (McLachlan y Peel, 2000)[121].
Redner y Walker (1984)[141] muestran que puede existir un maximo local, el cual bajo ciertas
condiciones de regularidad, es un consistente y eficiente estimador deΨ. En Bryan (2004)[29]
se refiere al mayor maximo local maximizador como el MLE de Ψ con el que se entiende
que, aunque no maximiza el logaritmo de la verosimilitud, este posee las buenas propiedades
asintoticas de un MLE.
2.10.1. Estimacion del modelo esferico
Una ventaja de este modelo es que la solucion del M-step es en forma explıcita. Los parame-
tros MLE estan dados por:
π[l+1]k =
N∑
i=1
τk(xi;Ψ[l])/N, (2-75)
µk[l+1] =
N∑
i=1
τk(xi;Ψ[l])xi/
N∑
i=1
τk(xi;Ψ[l]) (2-76)
y
σ2,[l+1] =
N∑
i=1
K∑
k=1
τk(xi;Ψ[l])(xi − µ
[l+1]k )T (xi − µk
[l+1])/Nn (2-77)
para k = 1, 2, ..., K.
Notese la semejanza de (2-75), (2-76) y (2-77) con ecuaciones (2-64), (2-65) y (2-66).
40 2 Marco teorico
2.10.2. Estimacion del modelo coeficientes aleatorios
El parametro Ψ para (2-32) puede estimarse por el metodo de maxima verosimilitud a traves
de un algoritmo EM. La completa funcion logaritmo de la verosimilitud para ser maximizada
en el algoritmo EM esta dada por:
ℓc (Ψ) =
n∑
i=1
K∑
k=1
zik
[log πk + log η
(xi;Φpµ
βk ,ΦpΣ
βkΦp
T + σ2I)]
(2-78)
donde zik esta definida como
zik =
1 si xi viene de la componente k
0 de otra forma
Los zik son los indicadores de la pertenencia de los vectores a la componente de mixtura, y son
asumidos para seguir una distribucion multinomial, MULT (1, π1, π2, ..., πK). El logaritmo
de la verosimilitud para datos completos viene dado por:
lc(Ψ) =
n∑
i=1
K∑
k=1
zik(log πk + log fk(xi; θk)) (2-79)
La ecuacion (2-79) es el equivalente a ecuacion (2-46). Como se explico en la seccion “Al-
goritmos de estimacion de parametros en modelos de mixtura”, con el algoritmo EM se
maximiza (2-79) en dos pasos, El E-step y el M-step. El E-step computa el valor esperado de
la distribucion condicional del logaritmo de la verosimilitud para datos completos dado los
datos observados y las estimaciones actuales de los parametros Ψ[l], lo que se denota como
Q(Ψ,Ψ[l]) = E(lc(Ψ|x1,x2, ...,xN ,Ψ[l])). (2-80)
La anterior ecuacion (2-80) del valor esperado, para entenderse mejor es el equivalente a las
ecuaciones (2-44), (2-45) y (2-51) que hacen parte de la explicacion matematica del algoritmo
EM. Especıficamente el valor esperado en (2-80) se puede reemplazar por
Q(Ψ,Ψ[l]
)=
n∑
i=1
K∑
k=1
τk(xi;Ψ
[l]) [
log πk + log η(xi;Φpµ
βk ,ΦpΣ
βkΦ
Tp + σ2I
)](2-81)
El M-step determina los parametros que maximizan el esperado de la funcion logaritmo de
la verosimilitud del E-step. Bajo condiciones leves regulares, el algoritmo EM puede mostrar
convergencia a un maximo local de la verosimilitud basada en los datos observados, mas
cuando se escongen cuidadosamente los valores iniciales, EM puede ser habil para identificar
el MLE, Ψ (Dempster et al., 1977; Wu, 1983)[67][185]. En M-step una estimacion actua-
lizada Ψ[l+1] es encontrada para maximizar Q(Ψ,Ψ[l]) con respecto a Ψ. El maximizador
de Q(Ψ,Ψ[l]) no tiene una solucion en forma explıcita y tiene que ser computado usando
2.10 Estimacion de mixturas normales multivariadas 41
metodos numericos, tal como el metodo Nelder-Mead (Nelder y Mead, 1965)[128]. Para altas
dimensiones la matriz Σk podrıa estar cerca de la singular y su inversa puede ser difıcil de
computar. La restriccion de que la matriz sea definida positiva podrıa no ser facil de compu-
tar en el proceso de maximizacion (Bryan, 2004)[29]. Para ello se presenta la alternativa de
regresion para (2-32). La ventaja de esta tecnica esta en la reduccion de espacio dimensional
donde las iteraciones EM son mas rapidas y tambien mas faciles de encontrar para el MLE.
Cluster de coeficientes de regresion estimados. Para resolver los problemas de estima-
cion de Ψ en el modelo (2-32) no se tiene en cuenta la estimacion MLE para Ψ directamente,
en lugar de ello se hace cluster para bi, el estimador de mınimos cuadrados de los coeficientes
βi usando el modelo de mixtura
bi ∼K∑
k=1
πkMVN(µbk,Σ
bk) (2-82)
donde bi se define como
bi = (ΦTpΦp)
−1ΦTp xi (2-83)
En Bryan (2004) muestran que bi aproximadamente preserva la afiliacion cluster en el xi,
mas especıficamente, muestran que las probabilidades posteriores asociadas con el xi son
aproximadamente iguales a las asociadas con bi y que la aproximacion mejora con el in-
cremento del tamano de la muestra. Entonces bi es una alternativa para xi, en tal caso el
enfoque de interes es bi. Las siguentes relaciones de parametros son encontradas
µbk = µβ
k (2-84)
y
Σbk = Σβ
k + σ2(ΦTpΦp)
−1 (2-85)
Los parametros µbk y Σb
k pueden ser estimados usando el EM de forma usual.
2.10.3. Estimacion del modelo efectos aleatorios
Para estimar los parametros, en los “modelos de mixtura de efectos aleatorios”, en Bryan
(2004)[29] se afirma que el algoritmo EM se vuelve inefectivo y en este caso adaptan el
AECM de Meng y van Dyck (1997)[125].
El vector de parametros Ψ ahora consiste en los elementos de µk,Σwk y σ2 y los parametros
de la mezcla de proporciones πk. Las ecuaciones (2-36) a (2-38) permiten separar la media,
la correlacion serial y el error aleatorio. El hecho de que la matriz de covarianza Σk dependa
42 2 Marco teorico
primordialmente de w hace que sea posible utilizar la estructura de covarianza de las series
de tiempo para construir Σk a traves de w; por ejemplo si se desea construir Σk usando
una estructura de covarianza AR (Autoregresivo), se necesita entonces asumir que w es
un proceso AR. Tanto el “modelo de mixtura esferico” como el “modelo de mixtura de
coeficientes” construyen la matriz de covarianza por simplicidad o conveniencia sin tomar en
cuenta la naturaleza de las series de tiempo (Bryan, 2004)[29]. El problema de cluster para
altas dimensiones de series de tiempo usando mixturas de modelos AR, fueron tratadas por
Xiong y Yeung (2004)[186].
Modelos Autoregresivos. Bajo un modelo AR(1), w en el tiempo t, wt puede ser escrito
como
wt = ρ1wt−1 + ǫt, (2-86)
donde ρ1 es el coeficiente de autoregresion y ǫt es una secuencia de variables aleatorias
N(0, σ2a) mutuamente independientes. Se asume que −1 < ρ1 < 1 ası que wt es estacionario.
Si el proceso inicializa en w1 ∼ N(0, σ21 = σ2
a/(1 − ρ21)) entonces la distribucion conjunta
de wt (o la distribucion del vector w) es normal multivariada con media µ = 0 y matriz de
varianzas y covarianzas Σwk donde Σw
k = [σij ]n×n y
σij = σ21ρ
|i−j|1 ,
lo cual escrito en forma matricial es
Σwk =
σ21 σ2
1ρ1 σ21ρ
21 ... σ2
1ρn−11
σ21ρ1 σ2
1 σ21ρ1 ... σ2
1ρn−21
σ21ρ
21 σ2
1ρ1 σ21 ... σ2
1ρn−31
. . . ... .
. . . ... .
. . . ... .
σ21ρ
n−11 σ2
1ρn−21 σ2
1ρn−31 ... σ2
1
.
Luego se sigue que Σk es
Σk = Σwk + σ2I =
σ21 + σ2 σ2
1ρ1 σ21ρ
21 ... σ2
1ρn−11
σ21ρ1 σ2
1 + σ2 σ21ρ1 ... σ2
1ρn−21
σ21ρ
21 σ2
1ρ1 σ21 + σ2 ... σ2
1ρn−31
. . . ... .
. . . ... .
. . . ... .
σ21ρ
n−11 σ2
1ρn−21 σ2
1ρn−31 ... σ2
1 + σ2
, (2-87)
lo cual tiene solo tres parametros en vez de n(n + 1)/2 que podrıa tener Σk si fuera inmo-
delada.
2.10 Estimacion de mixturas normales multivariadas 43
Modelos de antedependencia. Una forma mas general de modelar la covarianza son los
modelos de antedependencia (Gabriel, 1962)[87], dentro de los cuales se clasifican los AR.
Los modelos de antedependencia, ası como los modelos estacionarios AR, permiten una co-
rrelacion serial, pero los primeros son mas generales en el sentido de que no estipulan que
todas las varianzas sean iguales ni que las correlaciones entre todos los pares de medidas
equidistantes en el tiempo son iguales (Bryan, 2004)[29]. Para definir un modelo de antede-
pendencia, se considera que w1, w2, ..., wn es una secuencia de variables aleatorias cada una
normalmente distribuida con media cero. La secuencia se dice que es de antedependencia de
orden r si wt depende solo de sus r predecesores. En particular, la secuencia se dice que es
de antedependencia de primer orden (AD(1)) si wt depende solo del proceso inmediatamente
anterior wt−1. Esto es
w1 = ǫ1 (2-88)
wt = φtwt−1 + ǫt (t = 2, 3, ..., n) (2-89)
donde los ǫt son variables aleatorias normales con media cero y posiblemente varianza tiempo
dependiente v2t , y el φt son parametros irrestrictos. En Bryan (2004)[29] se encuentra la
afirmacion de que en principio, la antedependencia de la matriz de covarianza puede ser
expresada en terminos de φt y de v2t , pero la expresion es complicada y no se discute allı,
de hecho la secuencia de antedependencia sirve solo como una forma conveniente de generar
una apropiada pero aun simple matriz de covarianza para series de tiempo. Ası que Bryan
(2004)[29] se interesa en la forma del resultado de la matriz de covarianza pero no en los
parametros φt y v2t , por lo que usan los resultados de Feller (1966)[80] de donde se obtiene
la siguiente expresion de matriz de covarianza de una secuencia AD(1):
Σwk =
σ21 σ1σ2ρ1 σ1σ3ρ1ρ2 ... σ1σn
n−1∏i=1
ρi
σ1σ2ρ1 σ22 σ2σ3ρ2 ... σ2σn
n−1∏i=2
ρi
σ1σ3ρ1ρ2 σ2σ3ρ2 σ23 ... σ3σn
n−1∏i=3
ρi
. . . ... .
. . . ... .
. . . ... .
σ1σnn−1∏i=1
ρi σ2σnn−1∏i=2
ρi σ3σnn−1∏i=3
ρi ... σ2n
, (2-90)
donde σ2t para t = 1, 2, ..., , n son las varianzas y ρt para t = 1, 2, ..., , n−1 son los coeficientes
de correlacion entre wt y wt+1. El modelo (2-90) es un modelo de covarianza mas simple en el
que se involucran solo 2n−1 parametros. Ası que con este modelo, a diferencia del AR(1) se
puede modelar la covarianza de una serie de tiempo no estacionaria. En el caso de que en el
44 2 Marco teorico
modelo (2-90) ρt = ρ1 y σ2t = σ2
1 se obtiene el modelo AR(1) (2-87). Existen muchos casos de
series de tiempo donde la estimacion de la varianza es mas complicada, por lo que el proceso
no es estacionario, entonces los modelos de antedependencia resultan mas atractivos.
Modelos estructurados de antedependencia. Aunque el modelo AD es mas parsimo-
nioso que un modelo inestructurado de covarianza, este puede aun tener muchos parametros
para ser estimados. Una version parsimoniosa del modelo AD es conocida, por sus siglas en
ingles, como “Structured Antedependence Model (SAD)” propuesto por Zimmerman et al.
(1998)[191]. Lo que proponen es modelar las varianzas σ2t y los retrasos de rezago r de las
correlaciones en el modelo AD(r) como funciones parametricas en el tiempo. Por ejemplo
en el modelo SAD de primer orden, SAD(1), las varianzas y los retrasos de rezago r de las
covarianzas son expresados como:
σ2t = h(t; γσ2) t = 1, 2, ..., n (2-91)
y
ρt = g(t; γρ) t = 1, 2, ..., n− 1 (2-92)
donde h(·) y g(·) son funciones de nuevos parametros γσ2 y γρ, respectivamente. Esto permite
un nuevo modelo de covarianza para Σwk parametrizada en terminos de γσ2 y γρ. Cuando
la varianza σ2t se espera ser suavizada con una funcion del tiempo SAD(1) especifica una
funcion de varianza h(·) a traves de un polinomio de bajo orden en el tiempo, como por
ejemplo el siguiente polinomio cubico:
log(σ2t ) = a + bt + ct2 + dt3, (2-93)
y asume que los retrasos de rezago uno en las correlaciones son constantes en el tiempo (Jaf-
frezic et al., 2003)[96]. Notese que para este modelo SAD(1) se requiere estimar 4 parametros
y un parametro que especifique los retrasos de rezago uno en las correlaciones, es decir 5
parametros para Σwk en vez de 2n − 1 para el AD(1). Una alternativa para hallar las Σk
es el modelo de antedependencia de primer orden “modelo de estructuras” propuesto por
Zimmerman en Zimmerman (1998)[191] donde la correlacion
ρi = ρf(ti+1,λ)−f(ti,λ) (2-94)
es una funcion que depende de la siguiente funcion en el tiempo dada por Nunez y Woodworth
(1994)[133]:
f(t, λ) =
(tλ − 1)/λ si λ 6= 0
log t λ = 0
(2-95)
2.10 Estimacion de mixturas normales multivariadas 45
y la varianza
σi = σ2g(ti;ψ), (2-96)
es una funcion que depende de la siguiente funcion en el tiempo
g(t, ψ) = 1 + ψ1t + ψ2t2. (2-97)
Ası que ahora se tiene un nuevo vector de parametros para estimar a Σk, el nuevo vector es
θ = (ρ, λ, σ2, ψ1, ψ2)′. (2-98)
Zimmerman recomienda el algoritmo de Nelder y Mead (1965)[128] el cual a su vez tomo esta
idea de Diggle (1988)[71]. Con este nuevo vector de parametros se busca maximizar la funcion
logaritmo de la verosimilitud dada por
L(β, θ;Y1, ...,Yn) = −1
2
n∑
k=1
log |Σk(θ)| −1
2
n∑
k=1
(Yk −Xkβ)′Σ−1
k (θ)(Yk −Xkβ) (2-99)
donde los estimadores maximo verosımiles de θ y β son θ y β que maximizan L, o su
equivalente, θ es algun valor de θ que maximiza
L∗(β, θ;Y1, ...,Yn) = (2-100)
−12
∑nk=1 log |Σk(θ)| − 1
2
∑nk=1Y
′kΣ
−1k (θ)Yk +
12
[∑nk=1X
′kΣ
−1k (θ)Yk
]′ [∑nk=1X
′kΣ
−1k (θ)Xk
]−1 [∑nk=1X
′kΣ
−1k (θ)Yk
],
donde β esta dado por
β =[∑n
k=1X′kΣ
−1k (θ)Xk
]−1 [∑nk=1X
′kΣ
−1k (θ)Yk
]
La anterior notacion es usada en Zimmerman et. al (1998)[191], donde se argumenta que
muchas tecnicas de analisis de datos longitudinales son basados en varios casos en el modelo
lineal general
Yk = Xkβ + ek, k = 1, 2, ..., n
donde Yk es el vector de respuesta de tamano pk × 1 para el sujeto k, Xk es una matriz de
diseno pk × q de rango q para el sujeto k y los ek son errores aleatorios independientes que
se distribuyen de forma normal multivariada con vector de medias 0 y matriz de covarianzas
Σk = Σk(θ), β y θ son vectores de parametros desconocidos. Yk corresponde a las observa-
ciones independientes. Xk corresponde a la llaman matriz de diseno.
3. Modelo DEA propuesto
El objetivo del presente capıtulo es mostrar todo el desarrollo teorico que sustenta el plantea-
miento de un nuevo modelo DEA que cumpla con la caracterıstica de modelar la estructura
de correlacion de las variables de salida, las cuales no son de naturaleza univariada sino que
son series de tiempo y que cumpla con la otra caracterıstica de ser un modelo estocastico.
A parte de desarrollar el planteamiento del nuevo modelo DEA, este se aplicara a un conjunto
de datos obtenidos de una base de datos del DANE.
3.1. Partiendo de modelo CCP
El siguiente modelo define un modelo DEA estocastico conocido como el CCP de Land,
Lovell y Thore [106], [105] en su forma dual
maxφ
sujeto a las restricciones: (3-1)
Pr
{N∑j=1
λjyj ≥ φyo
}≥ (1− α);
N∑j=1
λjxj ≤ xo
N∑j=1
λj = 1; λj ≥ 0 (j = 1, 2, ..., N).
Una trasformacion del modelo anterior a su equivalente determinıstico se logra valiendose
de la creacion de una nueva variable, ver Ray (2004)[162].
u =
N∑
j=1
λjyj − φyo (3-2)
donde
E(u) =
N∑
j=1
λjµj − φµo ≡ µu (3-3)
3.1 Partiendo de modelo CCP 47
y
V ar(u) =
N∑
j=1,j 6=o
λ2jσ2j + (λo − φ)2σ2
o ≡ σ2u (3-4)
Con las ecuaciones (3-2), (3-3) y (3-4) se crea la siguiente transformacion de CCP estocastico
a su equivalente determinıstico
maxφ
sujeto a las restricciones: (3-5)
Pr(u ≥ 0) ≥ 1− αN∑i=1
λjxj ≤ xo,
asumiendo normalidad de la variable u, el modelo (3-5) continua transformandose a
maxφ
sujeto a las restricciones: (3-6)
Pr(z ≥ −µu
σu) ≥ 1− α
N∑i=1
λjxj ≤ xo
Ray (2004)[162] muestra como de (3-6) el modelo CCP dual llega al siguiente equivalente
determinıstico
maxφ
sujeto a las restricciones: (3-7)
N∑j=1
λjµj − φµo ≥ 1,96
√N∑
j=1,j 6=o
λ2jσ2j + (λo − φ)2σ2
o para s = 1, ..., S
N∑j=1
λjxj ≤ xo para m = 1, ...,M
N∑j=1
λj = 1; λj ≥ 0 (j = 1, 2, ..., N)
48 3 Modelo DEA propuesto
3.2. Desarrollo para el modelo DEA
El modelo (3-7) es un modelo DEA estocastico llamado CCP en su forma dual, propuesto
por Land, Lovell y Thore. A diferencia de (3-7), en la presente tesis se propone un modelo
DEA que considera como variables de salida un conjunto de series de tiempo. Como variables
de entrada se tomaran los m promedios de las series de tiempo de las entradas. Cada DMU
tiene como variables de salida una cantidad S de series de tiempo. Cada serie de tiempo
tiene observaciones en el perıodo t denotadas como yt, donde t = 1, ..., n.
En lugar de considerar la variable univariada u en ecuacion (3-2), en el nuevo modelo que
planteamos se considera el siguiente vector multivariado
U = (u1, ..., un) =
(N∑
j=1
λjyj1 − φyo1,
N∑
j=1
λjyj2 − φyo2, ...,
N∑
j=1
λjyjn − φyon
), (3-8)
donde la media de U es
E(U) = (µ1, ..., µn) (3-9)
yN∑j=1
λjyjt−φyot es la t− esima componente del vector U. Cada salida es una serie de tiempo
y yjt es el valor de la salida de la DMU j (j = 1, ..., N) en el perıodo t. El subındice o se
refiere a la DMU observada, es decir a la que se le quiere calcular la eficiencia, yot es el valor
de la salida en el perıodo t de la DMU observada.
Para una salida r se tiene que
Ur = (u1r, ..., unr) =
(N∑j=1
λjyj1r − φyo1r, ...,N∑j=1
λjyjnr − φyonr
),
dondeN∑j=1
λjyjtr − φyotr es la t − esima componente del vector Ur asociada a la salida r
(r = 1, ..., S). Ası, yjtr, simboliza el valor en el perıodo t de r-esima salida de la DMU j con
t = 1, ..., n; r = 1, ..., S; j = 1, ..., N.
La varianza en ecuacion (3-4) para la salida r la extendemos al caso multivariado como
V ar(Ur) =
N∑
j=1,j 6=o
λ2jΣjkr + (λo − φ)2Σokr ≡ ΣUr; r = 1, .., S; k = 1, ..., K (3-10)
Cada una de las r variables de salida tiene N series de tiempo correspondiente a N DMUs,
estas ultimas denotadas como DMUj con j = 1, ..., N . A cada una de las N series de tiempo
3.2 Desarrollo para el modelo DEA 49
de cada salida r, se le aplica el modelo de mixtura de “efectos aleatorios”, ecuaciones (2-26) y
(2-27), cuyos resultados entre otros, es la estimacion deK matrices de varianzas y covarianzas
Σk y la clasificacion de la j-esima serie de tiempo de una DMU j a un cluster k. Ası que Σjkr
es la k-esima matriz de varianzas y covarianzas dado que, en la r-esima salida, la j-esima
serie de tiempo de la DMU j fue asignada al cluster k mediante el modelo de mixtura de
efectos aleatorios. La matriz Σokr es la k-esima matriz de varianzas y covarianzas dado que,
en la r−esima salida, la serie de tiempo de la DMU o (observada) fue clasificada en el cluster
k en el modelo de mixtura de efectos aleatorios. Hemos ampliado la primera restriccion en
(3-6) para el caso multivariado y proponemos que nuestro modelo ahora sea
maxφ
sujeto a las restricciones: (3-11)
Pr(D2 ≥ [Ur−E(Ur)]TΣ−1
Ur[Ur−E(Ur)]) ≥ 1− α para r = 1, ..., SN∑j=1
λjxjl ≤ xol para l = 1, ..., m.
Como la primera restriccion en (3-6) considera u = 0, de manera analoga consideraremos
Ur = (0, ..., 0), ası que (3-11) se convierte en
maxφ
sujeto a las restricciones: (3-12)
Pr(D2 ≥ [E(Ur)]TΣ−1
Ur[E(Ur)]) ≥ 1− α para r = 1, ..., SN∑j=1
λjxjl ≤ xol para l = 1, ..., m
Como en (3-6) u es una variable aleatoria normal, entonces en (3-12) D2 se distribu-
ye como una chi cuadrado con n grados de libertad. El primer conjunto de restriccio-
nes en (3-12) se puede cambiar por Φn
([E(Ur)]
TΣ−1U [E(Ur)]
)≤ α, donde Φp es la fun-
cion acumulada de la distribucion chi cuadrado con n grados de libertad. Si hacemos que
α = 0,05, Φn
([E(Ur)]
TΣ−1U [E(Ur)]
)≤ 0,05. Si se tuvieran, por ejemplo, un numero de
perıodos n = 19, los grados de libertad son 19 y se puede calcular la inversa haciendo
[E(Ur)]TΣ−1
Ur [E(Ur)] ≤10,12. Entonces para un modelo particular con variables de salida
que son series de tiempo de 19 perıodos, el nuevo modelo DEA estocastico y temporal en su
version determinıstica lo expresamos de la siguiente forma:
maxφ
sujeto a las restricciones: (3-13)
50 3 Modelo DEA propuesto
[E(Ur)]TΣ−1
Ur[E(Ur)] ≤10,12 para r = 1, ..., SN∑j=1
λjxjl ≤ xol para l = 1, ..., m
Para desarrollar el primer conjunto de restricciones en (3-13) se asume que los valores yj1,
yj2, ..., yjn que se observan son los valores esperados tal como lo recomienda Ray (2004)[162].
Por ahora se desarrollara este conjunto de restricciones para un sistema con una unica salida
y luego los resultados se generalizan para un sistema con r salidas, ası que para una unica
salida se tiene que:
(N∑
j=1
λjyj1 − φyo1, ...,N∑
j=1
λjyjn − φyon
)Σ−1
U
N∑j=1
λjyj1 − φyo1
N∑j=1
λjyj2 − φyo2
.
.
.N∑j=1
λjyjn − φyon
≤ 10,12, (3-14)
teniendo en cuenta que
Σ−1U =
ΣU11 ΣU12 ΣU1n
ΣU21 ΣU22 ΣU2n
. .
. .
. .
ΣUn1 ΣUn2 ΣUnn
−1
= A,
el desarrollo de la inecuacion (3-14) se revisara la siguiente seccion.
3.3 Desarrollo primer conjunto de restricciones parte I 51
3.3. Desarrollo primer conjunto de restricciones parte I
Realizando multiplicaciones en (3-14) se sigue que esta expresion es igual a:
(N∑j=1
λjyj1 − φyo1
)Σ−1
U11 +
(N∑j=1
λjyj2 − φyo2
)Σ−1
U21 + ... +
(N∑j=1
λjyjn − φyon
)Σ−1
Un1
(N∑j=1
λjyj1 − φyo1
)Σ−1
U12 +
(N∑j=1
λjyj2 − φyo2
)Σ−1
U22 + ... +
(N∑j=1
λjyjn − φyon
)Σ−1
Un2
.
.
.(N∑j=1
λjyj1 − φyo1
)Σ−1
U1n +
(N∑j=1
λjyj2 − φyo2
)Σ−1
U2n + ...+
(N∑j=1
λjyjn − φyon
)Σ−1
Unn
T
×
(3-15)
N∑j=1
λjyj1 − φyo1
N∑j=1
λjyj2 − φyo2
.
.
.N∑j=1
λjyjn − φyon
≤ 10,12,
donde Σ−1Uij simboliza el elemento (i, j) de la matriz Σ−1
U . Para facilitar el desarrollo de la
multiplicacion matricial en (3-15) se asumira que esta desigualdad se convierte en
T1 + T2 + ...+ Tn ≤ 10,12, (3-16)
donde T1, T2, ..., Tn son los n terminos que resultan de la multiplicacion matricial en (3-15).
El termino T1 esta dado por la ecuacion (3-17), el termino T2 esta dado por la ecuacion
(3-18) y el termino Tn esta dado por la ecuacion (3-19).
T1 = (3-17)(
N∑j=1
λjyj1 − φyo1
)Σ−1
U11
(N∑j=1
λjyj1 − φyo1
)+
(N∑j=1
λjyj2 − φyo2
)Σ−1
U21
(N∑j=1
λjyj1 − φyo1
)+ ...
52 3 Modelo DEA propuesto
+
(N∑j=1
λjyjn − φyon
)Σ−1
Un1
(N∑j=1
λjyj1 − φyo1
)
T2 = (3-18)
(N∑j=1
λjyj1 − φyo1
)Σ−1
U12
(N∑j=1
λjyj2 − φyo2
)+
(N∑j=1
λjyj2 − φyo2
)Σ−1
U22
(N∑j=1
λjyj2 − φyo2
)+ ...
+
(N∑j=1
λjyjn − φyon
)Σ−1
Un2
(N∑j=1
λjyj2 − φyo2
)
Tn = (3-19)
(N∑j=1
λjyj1 − φyo1
)Σ−1
U1n
(N∑j=1
λjyjn − φyon
)+
(N∑j=1
λjyj2 − φyo2
)Σ−1
U2n
(N∑j=1
λjyjn − φyon
)+ ...
+
(N∑j=1
λjyjn − φyon
)Σ−1
Unn
(N∑j=1
λjyjn − φyon
)
Cada uno de los terminos (T1, T2, ..., Ti, ..., Tn) se expanden en los siguientes ıtems.
Termino 1
Realizando las multiplicaciones de (3-17) se llega a la siguiente suma
T1 = (3-20)
(
N∑j=1
λjyj1
)2
− 2φyo1N∑j=1
λjyj1 + φ2y2o1
Σ−1
U11+
[N∑j=1
λjyj1N∑j=1
λjyj2 − φyo1N∑j=1
λjyj2 − φyo2N∑j=1
λjyj1 + φ2yo1yo2
]Σ−1
U21 + ...
+
[N∑j=1
λjyj1N∑j=1
λjyjn − φyo1N∑j=1
λjyjn − φyonN∑j=1
λjyj1 + φ2yonyo1
]Σ−1
Un1
Notese que T1 representado en (3-20) tiene n sumandos, luego bien se puede hablar de la
pareja (T1, sumando i) donde i = 1, ..., n.
3.3 Desarrollo primer conjunto de restricciones parte I 53
Termino 2
Realizando las multiplicaciones de (3-18) se llega a la siguiente suma
T2 = (3-21)
[N∑j=1
λjyj1N∑j=1
λjyj2 − φyo2N∑j=1
λjyj1 − φyo1N∑j=1
λjyj2 + φ2yo1yo2
]Σ−1
U12+
[(N∑j=1
λjyj2
)− 2φyo2
N∑j=1
λjyj2 + φ2yo2
]Σ−1
U22 + ...
+
[N∑j=1
λjyjnN∑j=1
λjyj2 − φyo2N∑j=1
λjyjn − φyonN∑j=1
λjyj2 + φ2yonyo2
]Σ−1
Un2
Notese que el T2 representado en (3-21) tiene n sumandos, luego bien se puede hablar de la
pareja (T2, sumando i) donde i = 1, ..., n.
Termino i
Basado en los anteriores terminos, se puede encontrar una generalizacion para Ti
Ti = (3-22)
[N∑j=1
λjyj1N∑j=1
λjyji − φyoiN∑j=1
λjyj1 − φyo1N∑j=1
λjyji + φ2yo1yoi
]Σ−1
U1i+
[N∑j=1
λjyj2N∑j=1
λjyji − φyoiN∑j=1
λjyj2 − φyo2N∑j=1
λjyji + φ2yo2yoi
]Σ−1
U2i + ...
(
N∑j=1
λjyji
)2
− 2φyoiN∑j=1
λjyji + φ2y2oi
Σ−1
Uii + ...
+
[N∑j=1
λjyjnN∑j=1
λjyji − φyoiN∑j=1
λjyjn − φyonN∑j=1
λjyji + φ2yonyoi
]Σ−1
Uni
Notese en (3-22) el i-esimo sumando del termino Ti.
Termino n
Tn = (3-23)
54 3 Modelo DEA propuesto
[N∑j=1
λjyj1N∑j=1
λjyjn − φyonN∑j=1
λjyj1 − φyo1N∑j=1
λjyjn + φ2yo1yon
]Σ−1
U1n+
[N∑j=1
λjyj2N∑j=1
λjyjn − φyonN∑j=1
λjyj2 − φyo2N∑j=1
λjyjn + φ2yo2yon
]Σ−1
U2n + ...
+
(
N∑j=1
λjyjn
)2
− 2φyonN∑j=1
λjyjn + φ2y2on
Σ−1
Unn
Con el desarrollo de los n terminos, cada uno de ellos con n sumandos, y llamando al sumando
i sumi, la desigualdad en (3-16) se convierte en (3-24)
(T1, sum1) + ... + (T1, sumn) + (T2, sum1) + ...+ (T2, sumn) (3-24)
+(Ti, sum1) + ...+ (Ti, sumn) + ... + (Tn, sum1) + ...+ (Tn, sumn) ≤ 10,12.
3.4. Desarrollo primer conjunto de restricciones parte II
Esta parte tiene como objetivo continuar con las multiplicaciones de cada elemento de la
matriz inversa de ΣU en las expresiones (3-20) hasta (3-23). Igual que en la seccion anterior
se desarrollara por terminos.
Termino 1
T1 =
(
N∑
j=1
λjyj1
)2
Σ−1U11 − 2φyo1
N∑
j=1
λjyj1Σ−1U11 + φ2y2o1Σ
−1U11
+ (3-25)
[N∑j=1
λjyj1N∑j=1
λjyj2Σ−1U21 − φyo1
N∑j=1
λjyj2Σ−1U21 − φyo2
N∑j=1
λjyj1Σ−1U21 + φ2yo1yo2Σ
−1U21
]+ ...
+
[N∑j=1
λjyj1N∑j=1
λjyjnΣ−1Un1 − φyo1
N∑j=1
λjyjnΣ−1Un1 − φyon
N∑j=1
λjyj1Σ−1Un1 + φ2yonyo1Σ
−1Un1
]
Termino 2
T2 =
3.4 Desarrollo primer conjunto de restricciones parte II 55
[N∑
j=1
λjyj1
N∑
j=1
λjyj2Σ−1U12 − φyo2
N∑
j=1
λjyj1Σ−1U12 − φyo1
N∑
j=1
λjyj2Σ−1U12 + φ2yo1yo2Σ
−1U12
]+
(3-26)
[(N∑j=1
λjyj2
)Σ−1
U22 − 2φyo2N∑j=1
λjyj2Σ−1U22 + φ2yo2Σ
−1U22
]+ ...
+
[N∑j=1
λjyjnN∑j=1
λjyj2Σ−1Un2 − φyo2
N∑j=1
λjyjnΣ−1Un2 − φyon
N∑j=1
λjyj2Σ−1Un2 + φ2yonyo2Σ
−1Un2
]
Termino n
Tn =
[N∑
j=1
λjyj1
N∑
j=1
λjyjnΣ−1U1n − φyon
N∑
j=1
λjyj1Σ−1U1n − φyo1
N∑
j=1
λjyjnΣ−1U1n + φ2yo1yonΣ
−1U1n
]+
(3-27)
[N∑j=1
λjyj2N∑j=1
λjyjnΣ−1U2n − φyon
N∑j=1
λjyj2Σ−1U2n − φyo2
N∑j=1
λjyjnΣ−1U2n + φ2yo2yonΣ
−1U2n
]+ ...
+
(
N∑j=1
λjyjn
)2
Σ−1Unn − 2φyon
N∑j=1
λjyjnΣ−1Unn + φ2y2onΣ
−1Unn
Termino b y sumando s
El desarrollo de las restricciones en (3-15) ha mostrado que existe un patron, por lo que
podrıamos encontrar cualquier termino y cualquier sumando. En general el sumando s del
termino b sera determinado por la expresion
N∑
j=1
λjyjs
N∑
j=1
λjyjbΣ−1Usb − φyop
N∑
j=1
λjyjsΣ−1Usb − φyoq
N∑
j=1
λjyjbΣ−1Usb + φ2yoqyopΣ
−1Usb (3-28)
56 3 Modelo DEA propuesto
3.4.1. Estructura de subsumando 1
Hasta ahora hemos manejado la estructura terminos y sumandos, pero cada sumando con-
tiene a su vez unos subsumandos. Cada sumando consta de 4 subsumandos, ver (3-28). Por
ejemplo en la expresion (3-25) si desarrollamos el primer subsumando del primer sumando
del termino 1 y realizando la sumatoria se tiene la siguiente subseccion.
termino 1, sumando 1, subsumando 1.
(λ1y11 + λ2y21 + λ3y31 + ... + λNyN1)(λ1y11 + λ2y21 + λ3y31 + ...+ λNyN1)Σ−1U11
= Σ−1U11[λ
21y
211 + λ1λ2y11y21 + λ1λ3y11y31 + ...+ λ1λNy11yN1+
λ2λ1y21y11 + λ22y221 + λ2λ3y21y31 + ... + λ2λNy21yN1+
λ3λ1y31y11 + λ3λ2y31y21 + λ23y231 + ...+ λ3λNy31yN1 + ...+
λNλ1yN1y11 + λNλ2yN1y21 + λNλ3yN1y31 + ...+ λ2Ny2N1]
termino 1, sumando 2, subsumando 1.
(λ1y11 + λ2y21 + λ3y31 + ... + λNyN1)(λ1y12 + λ2y22 + λ3y32 + ...+ λNyN2)Σ−1U21
= Σ−1U21[λ
21y11y12 + λ1λ2y11y22 + λ1λ3y11y32 + ...+ λ1λNy11yN2+
λ2λ1y21y12 + λ22y222 + λ2λ3y21y32 + ... + λ2λNy21yN2+
λ3λ1y31y12 + λ3λ2y31y22 + λ23y31y32 + ...+ λ3λNy31yN2 + ...+
λNλ1yN1y12 + λNλ2yN1y22 + λNλ3yN1y32 + ...+ λ2NyN1yN2]
Para el termino 1, sumando 2, subsumando 1 se encuentra una logica correspondiente a una
suma de varias expresiones como la siguiente:
λpλqyp1yq2Σ−1U21,
donde p = 1, ..., N y q = 1, ..., N . Si denotamos los terminos con la letra b, y los sumandos
con la letra s, se tendra que en general para el subsumando 1, termino b y sumando s se
tiene una suma de expresiones
λpλqypbyqsΣ−1Usb,
tal sumatoria se expresa entonces con
N∑
q=1
N∑
p=1
λpλqypbyqsΣ−1Usb, (3-29)
donde b = 1, ..., n; s = 1, ..., n.
Por ejemplo si se desarrollara la sumatoria doble de la expresion (3-29) para el termino b y
sumando s, esta quedarıa ası
3.4 Desarrollo primer conjunto de restricciones parte II 57
[λ21y1by1s + λ2λ1y2by1s + λ3λ1y3by1s + ...+ λNλ1yNby1s+
λ1λ2y1by2s + λ22y2by2s + λ3λ2y3by2s + ...+ λNλ2yNby2s+
λ1λ3y1by3s + λ2λ3y2by3s + λ23y3by3s + ... + λNλ3yNby3s + ...+
λ1λNy1byNs + λ2λNy2byNs + λ3λNy3byNs + ...+ λ2NyNbyNs]Σ−1Usb
Separando las expresiones cuadraticas en la anterior expresion, se puede expresar como
[(λ21y1by1s + λ22y2by2s + λ23y3by3s + ...+ λ2NyNbyNs)+
λ2λ1y2by1s + λ3λ1y3by1s + ... + λNλ1yNby1s+
λ1λ2y1by2s + λ3λ2y3by2s + ... + λNλ2yNby2s+
λ1λ3y1by3s + λ2λ3y2by3s + ...+ λNλ3yNby3s + ...+
λ1λNy1byNs + λ2λNy2byNs + λ3λNy3byNs + ...+ λN−1λNyN−1byNs]Σ−1Usb
simplificando
[(λ21y1by1s + λ22y2by2s + λ23y3by3s + ...+ λ2NyNbyNs)+
λ1λ2(y1by2s +1 y2by1s) + λ1λ3(y1by3s + y3by1s) + ...+ λ1λN (y1byNs + yNby1s)+
λ2λ3(y2by3s + y3by2s) + ...+ λ2λN (y2byNs + yNby2s)+
λ3λ4(y3by4s + y4by3s) + ...+ λ3λN(y3byNs + yNby3s) + ...+ λN−1λN(yN−1byNs + yNbyN−1s)]Σ−1Usb
Expresando en forma de sumatoria quedarıa ası:(
N∑p=1
λ2pypbyps +N∑p=1
N∑q=p+1
λpλq(ypbyqs + yqbyps)
)Σ−1
Usb
Para todos los terminos y todos los sumandos se tendra
n∑
b=1
n∑
s=1
N∑
p=1
λ2pypbypsΣ−1Usb +
n∑
b=1
n∑
s=1
N∑
p=1
N∑
q=p+1
λpλq(ypbyqs + yqbyps)Σ−1Usb (3-30)
3.4.2. Estructura de subsumandos 2 y 3
Para descubrir la estructura matematica de los subsumandos 2 y 3 de cada uno de los
sumandos de cada uno de los terminos, se escogera el termino 2 y sumando 1 en (3-26) y se
desarrollara las sumatorias.
−φyo2 (λ1y11 + λ2y21 + λ3y31 + ...+ λNyN1)Σ−1U12 −
φyo1 (λ1y12 + λ2y22 + λ3y32 + ...+ λNyN2)Σ−1U12
= −φΣ−1U12 [λ1y11yo2 + λ2y21yo2 + λ3y31yo2 + ...+ λNyN1yo2+
λ1y12yo1 + λ2y22yo1 + λ3y32yo1 + ...+ λNyN2yo1]
= −φΣ−1U12 [λ1(y11yo2 + y12yo1) + λ2(y21yo2 + y22yo1) + λ3(y31yo2 + y32yo1) + ...
+λN(yN1yo2 + yN2yo1)]
= −λ1φ(y11yo2 + y12yo1)Σ−1U12 − λ2φ(y21yo2 + y22yo1)Σ
−1U12
−λ3φ(y31yo2 + y32yo1)Σ−1U12 − ...− λNφ(yN1yo2 + yN2yo1)Σ
−1U12
58 3 Modelo DEA propuesto
En general para un termino b y sumando s, los subsumandos 2 y 3 quedarıan ası
−λ1φ(y1syob + y1byos)Σ−1Usb − λ2φ(y2syob + y2byos)Σ
−1Usb
−λ3φ(y3syob + y3byos)Σ−1Usb − ...− λNφ(yNsyob + yNbyos)Σ
−1Usb
Al sumar todos los subsumandos 2 y 3 en todos los terminos y en todos los sumandos se
tiene
−n∑
b=1
n∑
s=1
N∑
p=1
λpφ(ypsyob + ypbyos)Σ−1Usb (3-31)
3.4.3. Estructura de subsumando 4
Para descubrir la estructura matematica del subsumando 4 de cada uno de los sumandos de
cada uno de los terminos, se escogera el termino 2 y sumando 1 en (3-26) y se desarrollara las
sumatorias.
Para termino 2 y sumando 1, el subsumando 4 es
φ2yo1yo2Σ−1U12.
Entonces para el termino b y sumando s
φ2yosyobΣ−1Usb
Para todos los sumandos y terminos, la sumatoria de los subsumandos 4 sera
n∑
b=1
n∑
s=1
φ2yosyobΣ−1Usb (3-32)
3.4.4. Restriccion completa
La restriccion completa del modelo (3-13) para cada una unica salida queda determinada
por la suma de las expresiones (3-30), (3-31) y (3-32)
n∑b=1
n∑s=1
N∑p=1
λ2pypbypsΣ−1Usb +
n∑b=1
n∑s=1
N∑p=1
N∑q=p+1
λpλq(ypbyqs + yqbyps)Σ−1Usb
−n∑
b=1
n∑s=1
N∑p=1
λpφ(ypsyob + ypbyos)Σ−1Usb + φ2
n∑b=1
n∑s=1
yosyobΣ−1Usb ≤ 10,12.
Si se hace que
3.5 Modelo DEA propuesto y uso con datos reales 59
Σ−1U =
ΣU11 ΣU12 ΣU1n
ΣU21 ΣU22 ΣU2n
. .
. .
. .
ΣUn1 ΣUn2 ΣUnn
−1
= A,
la restriccion se puede expresar como
n∑b=1
n∑s=1
N∑p=1
λ2pypbypsAsb +n∑
b=1
n∑s=1
N∑p=1
N∑q=p+1
λpλq(ypbyqs + yqbyps)Asb
−n∑
b=1
n∑s=1
N∑p=1
λpφ(ypsyob + yosypb)Asb + φ2n∑
b=1
n∑s=1
yosyobAsb ≤ 10,12
3.5. Modelo DEA propuesto y uso con datos reales
El proposito de esta seccion es presentar el modelo propuesto basado en todas las demostra-
ciones anteriores y su uso con datos reales suministrados por el Departamento Administrativo
Nacional de Estadıstica DANE.
3.5.1. Modelo propuesto
El modelo estocastico temporal que se propone, el cual sera capaz de considerar el error
aleatorio y ademas la estructura de correlacion de las series de tiempo que constituyen las
variables de salida, es llevado a su formulacion equivalente determinıstica por
maxφ
sujeto a las restricciones: (3-33)
n∑b=1
n∑s=1
N∑p=1
λ2pypbrypsrAsbr +n∑
b=1
n∑s=1
N∑p=1
N∑q=p+1
λpλq(ypbryqsr + yqbrypsr)Asbr
−n∑
b=1
n∑s=1
N∑p=1
λpφ(ypsryobr + yosrypbr)Asbr + φ2n∑
b=1
n∑s=1
yosryobrAsbr ≤ 10,12 para r = 1, ..., S
N∑p=1
λpxpl ≤ xol para l = 1, ..., m
λp ≥ 0 ∀p
Donde S es el numero de salidas, Asbr es la componente (s, b) de la matriz A para la salida
r, ypbr es la salida del b-esimo perıodo de la DMU p para la salida r. La notacion b y s
aparecen en el desarrollo matricial de (3-15) en donde resultan n terminos (b) y n sumandos
(s); b = 1, ..., n; s = 1, ..., n. La notacion S es para no confundir en este modelo la aparicion
de la variable s en las sumatorias en (3-33).
60 3 Modelo DEA propuesto
Como este modelo fue desarrollado para series de tiempo de 19 perıodos, el valor al lado
derecho del primer conjunto de restricciones es χ219, 0,95 = 10,12. En general para n perıodos
se tendra que el modelo (3-33) se extiende a
maxφ
sujeto a las restricciones: (3-34)
n∑b=1
n∑s=1
N∑p=1
λ2pypbrypsrAsbr +n∑
b=1
n∑s=1
N∑p=1
N∑q=p+1
λpλq(ypbryqsr + yqbrypsr)Asbr
−n∑
b=1
n∑s=1
N∑p=1
λpφ(ypsryobr + yosrypbr)Asbr + φ2n∑
b=1
n∑s=1
yosryobrAsbr ≤ χ2n, (1−α) para r = 1, ..., S
N∑p=1
λpxpl ≤ xol para l = 1, ..., m
λp ≥ 0 ∀p,
donde χ2n, (1−α) es el valor de la distribucion chi cuadrado con n grados de libertad que deja
un area de α a la izquierda y un area 1− α a la derecha.
Interpretacion de variables del modelo (3-34)
φ es la variable que sufre la maxima expansion posible sujeto a un conjunto de restricciones.
Cuando φ es maximizado, en la metodologıa DEA se acostumbra a notar como φ∗, que
significa el valor de la eficiencia de la DMU observada.
λp con p = 1, ..., N son las variables que ayudan a construir la frontera envolvente para las
N DMUs mediante la interpolacion entre correspondencias factibles de entradas y salidas
(ver conjunto CPP en capıtulo 2). En un modelo CCR, λp muestran la contribucion con que
los valores de la DMU p contribuye al punto usado (una DMU virtual la cual es eficiente)
para evaluar la DMU observada (Soto y Arenas, 2010)[161]. En el modelo presentado en
la tesis, por ser una extension de un modelo CCR probabilıstico, se puede adaptar esta
interpretacion.
El modelo (3-34) se corre tantas veces como DMUs hayan, con el fin de hallar la eficiencia
de cada DMU observada. El subındice o en los valores de y y x hacen referencia a la DMU
observada, por ejemplo, yobr es el valor que presenta la DMU observada en el b-esimo perıodo
de la salida r-esima serie de tiempo.
3.5.2. Uso del modelo propuesto
Aspectos iniciales
3.5 Modelo DEA propuesto y uso con datos reales 61
El DANE lleva anualmente el registro de informacion del sector fabril colombiano. En una
investigacion economica llamada Encuesta Anual de Manufactura (EAM) [117], tuvimos
acceso a datos desde 1992 hasta 2010. De EAM se recolecto la informacion para formar varias
series de tiempo. Para cada uno de los 22 departamentos de Colombia (DMU) se eligieron
tres series de tiempo para las variables de salida y cinco para las variables de entrada, es
decir 66 series en la salida y 110 en la entrada. Como variables de entrada se asumieron
1) el consumo de energıa electrica en KW/h, 2) total activos, 3) el consumo intermedio,
4) prestaciones sociales y 5) sueldos y salarios . Como variables de salida se asumieron 1)
Personal remunerado permanente (PRP), 2) Produccion Bruta (PB) y 3) Valor agregado
(VA). En las figuras 3-1, 3-2 y 3-3 se muestran las series de tiempo de las tres variables de
salida consideradas.
Figura 3-1.: Serie de tiempo para Personal Remunerado Permanente.
Se quizo elegir PRP como variable de salida tomando el hecho de que si un departamento
tiene mayor personal remunerado permanente aporta mas al empleo en Colombia, pero
desde otro punto de vista esta variable podrıa tomarse como una entrada y podrıa pensarse
que mientras mas personal remunerado permanente haya, mas se golpea negativamente la
eficiencia. Sin embargo lo hemos tomado como una salida del sistema fabril colombiano.
En la presente tesis se ha fijado K = 4 clusters y se ha hecho una clasificacion a priori de las
series de tiempo en los cluster. Tal como se ha descrito en la seccion 2.7, la “clusterizacion
basada en modelos” asume un modelo para cada uno de los cluster, por lo que despues de
la clasificacion apriori se uso el modelo “mixtura de efectos aleatorios” ecuaciones (2-26)
y (2-27). Lo que se sigue es estimar los parametros del modelo de mixtura, el criterio es
encontrar los parametros πk, µk y Σk que maximizan el logaritmo de la verosimilitud en
(2-99) capıtulo 2. Para la estimacion de los parametros πk, µk y Σk se ha usado el algoritmo
62 3 Modelo DEA propuesto
Figura 3-2.: Series de tiempo para Produccion Bruta
Figura 3-3.: Series de tiempo para Valor Agregado
AECM (ver capıtulo 2) mezclado con “modelo de estructuras” de Zimmerman (1998)[191] y
el algoritmo de Nelder y Mead (1965)[128].
Para estimar los parametros πk y µk el algoritmo AECM fue programado en Matlab usando
ecuaciones (2-64) a (2-72). Para cada una de las tres variables de salida consideradas (PRP,
PB y VA) se construyo un programa en Matlab que recibe 22 series de tiempo correspondiente
a 22 departamentos de Colombia (22 DMUs). Cada serie de tiempo tiene 19 perıodos (1992
hasta 2010). El objetivo de estos programas en Matlab es estimar los parametros de (2-26).
Para estimar Σk en cada una de las tres variables de salida, cada uno de los programas en
Matlab mencionados llaman a cuatro programas que estiman la matriz de varianzas y cova-
rianzas con la caracterıstica de que tanto la varianza como la correlacion son funciones que
dependen del tiempo. Para ello se usa el “modelo de estructuras” de Zimmerman (1998)[191]
donde la correlacion y la varianza son funciones que dependen del tiempo segun ecuaciones
3.5 Modelo DEA propuesto y uso con datos reales 63
(2-94) a (2-97) y se estimo el vector de parametros θ en (2-98) que hace que Σk(θ) maximice
el logaritmo de la verosimilitud.
La estimacion de θ se realizo mediante el algoritmo de Nelder y Mead (1965)[128], para ello se
construyeron 4 programas en Matlab para cada una de las 3 variables de salida consideradas
(PRP, PB y VA) para un total de 12 programas que estiman los vectores de parametros θkr,
donde r simboliza la salida, r = 1, 2, 3 y k simboliza el cluster, k = 1, 2, 3, 4, para un total
de 12 vectores θkr con el cual se construyen 12 matrices Σkr(θ) basandose esta construccion
en la estructura matricial de (2-90).
La ventaja de obtener los vectores θkr es que ayuda a modelar varianzas y correlaciones
variables en el tiempo, ası que bajo el esquema de “modelo de estructuras” de Zimmerman,
una estructura de varianza tiempo dependiente (2-96) y (2-97) es σi = σ2g(ti;ψ), donde
g(t;ψ) = 1 + ψ1t + ψ2t2, con ψ1 y ψ2 estimados anteriormente en vector θ. La figura 3-4
muestra la modelacion de la estructura de varianza en el tiempo para la variable PRP,
la figura 3-5 la modelacion de la varianza para variable PB y la figura 3-6 muestra la
modelacion de la estructura de varianza en el tiempo para la variable de salida VA.
Figura 3-4.: Varianzas observadas y estimadas por σ2i = σ2g(ti;ψ) en PRP
Una vez obtenidos todos los parametros de (2-26), se hace la clasificacion de las series de
tiempo de cada uno de los departamentos de Colombia mediante la regla optima de Bayes
en (2-41), con esta regla se asignan las series a uno de los K = 4 cluster para cada una de
las tres variables de salida PRP, PB y VA (un total de 12 cluster). Cada serie de tiempo
corresponde a la r-esima salida de la j-esima DMU (j = 1, ..., N ; r = 1, ..., S), donde las
64 3 Modelo DEA propuesto
Figura 3-5.: Varianzas observadas y estimadas por σ2i = σ2g(ti;ψ) en PB
DMUs son los departamentos de Colombia, por lo que la clasificacion permite saber para
cada salida de cada DMU cual es la matriz de varianzas y covarianzas que se seleccionara.
En nuestro modelo (3-33) para la salida r = 1, 2, 3 se usa Asbr como el elemento (s, b) de la
matriz inversa Σ−1Ur y de las series de tiempo se asume que se estan observando las medias
µpbr, µpsr, µqsr, µqbr, µobr, µosr (Ray, 2004)[162]), bajo el supuesto de que en las series se
estan observando los valores esperados por lo que tales elementos se igualan a ypbr, ypsr,
yqsr, yqbr, yobr, yosr, donde el subındice r denota la salida; p y q la DMU considerada; s
y b el perıodo de tiempo t, t = 1, ..., n, en este caso n = 19 perıodos desde 1992 hasta
2010. Con estos elementos se construyen las restricciones r = 1, ..., S del modelo (3-33), y
las restricciones l = 1..., m se construyen con los promedios de las series de tiempo de las
entradas (para futuras investigaciones se podrıa crear un modelo donde las entradas y las
salidas se modelan como series de tiempo).
Metodologıa para correr el modelo
En el modelo (3-33) Ar es la matriz inversa de ΣUr en (3-10). La obtencion Σ−1Ur es bastante
compleja ya que no esta compuesta por constantes sino por 23 variables que el modelo debe
calcular (λ1, ..., λ22, φ). Para solucionar tal dificultad se ha tenido en cuenta que en una
corrida a priori se han encontrado valores λj muy cercanos a cero, este hecho es aprovechado
para hacer en (3-10)N∑
j=1,j 6=o
λ2jΣjkr + (λo − φ)2Σokr ≈ φ2Σokr, y se usa la propiedad de las
matrices inversas que dice que para cualquier escalar λ 6= 0, (λA)−1 = λ−1A−1, por lo que
3.5 Modelo DEA propuesto y uso con datos reales 65
Figura 3-6.: Varianzas observadas y estimadas por σ2i = σ2g(ti;ψ) en VA
en este caso (φ2Σokr)−1 = 1
φ2 (Σokr)−1. Ası que ΣUr se resume a calcular Σokr, esta ultima se
obtiene eligiendo una de las Σkr estimadas, y el criterio para elegir es la clasificacion de la
serie observada en el cluster k. La serie observada es aquella que pertenece a DMUo (a la que
se le desea calcular la eficiencia). Las restricciones del modelo (3-33) quedan modificadas ya
que hay que multiplicar por 1φ2 donde exista Asb, por lo que el modelo (3-33) se modifica
por (3-35), el cual se corre tantas veces como DMUs hay, es decir 22 veces. De esta forma
en cada corrida de (3-35), un departamento pasa a ser la DMUo.
maxφ
sujeto a las restricciones: (3-35)
n∑b=1
n∑s=1
N∑p=1
1φ2λ
2pµpbrµpsr((Σokr)
−1)sb+n∑
b=1
n∑s=1
N∑p=1
N∑q=p+1
1φ2λpλq(µpbrµqsr+µqbrµpsr)((Σokr)
−1)sb−n∑
b=1
n∑s=1
N∑p=1
1φλp(µpsrµobr + µosrµpbr)((Σokr)
−1)sb +n∑
b=1
n∑s=1
µosrµobr((Σokr)−1)sb ≤ 10,12 para
r = 1, ..., SN∑p=1
λpxpl ≤ xol para l = 1, ..., m
λp ≥ 0 ∀p
Donde ((Σokr)−1)sb simboliza el elemento (s, b) de la inversa de la matriz Σokr, esta ultima
simboliza la k-esima matriz de varianzas y covarianzas dado que, en la r-esima salida, la
serie de tiempo de la DMUo (observada) fue clasificada en el cluster k usando la mixtura de
efectos aleatorios y la regla optima de Bayes.
66 3 Modelo DEA propuesto
A continuacion se muestran los resultados con datos de EAM. Con el algoritmo de punto
interior de Matlab se corre (3-35). En la Tabla 3-1 se muestran los resultados del DEA
propuesto comparado con el DEA CCR orientado a las salidas y con el ındice Malmquist.
En esta Tabla los valores maximizados de φ con el nuevo modelo se denotan por φ∗; los
valores de la columna “DEA CCR prom” fueron obtenidos con el promedio de las eficiencias
de los 19 perıodos (1992-2010), es decir, se corrio el modelo CCR (2-5) 19 veces para cada
departamento y se promediaron, por cada departamento, las 19 eficiencias encontradas. En
esta tabla, el ındice Malmquist fue calculado con la ecuacion (2-17), la cual exige que se
corran, para cada departamento (DMU), cuatro veces el modelo (2-18) que es equivalente
al modelo (2-5), como perıodos se tuvieron en cuenta el primer ano (1992) y el ultimo ano
(2010).
En la Tabla 3-2 se muestra la clasificacion de eficiencias por los tres metodos. Para efectos de
comparar los metodos, se han dividido cada uno por el dato mayor para que el maximo sea
1, la comparacion se observa graficamente en la figura 3-7, en esta figura, el CCR promedio
se construye con las eficiencias promedio de los 19 perıodos (se corre (2-5) 19 veces para
cada departamento y se promedia) y el CCR output fue construido con con los promedios de
los 19 perıodos de las variables de entrada y salida para cada departamento (se promedian
valores de entrada y salida y se corre (2-5) una sola vez para cada departamento).
Figura 3-7.: Comparacion modelos DEA orientados a las salidas
Resultados
Hubo DMUs que estuvieron en los ultimos puestos de la clasificacion con un CCR orientado
a las salidas, pero al considerar su historia ciertas DMUs pueden ocupar los primeros lugares
3.5 Modelo DEA propuesto y uso con datos reales 67
Tabla 3-1.: CCR y Malmquist vs DEA series
Departamento DEA CCR prom Malmquist φ∗ DEA Propuesto
1 Antioquia 1.1511 1.0873 2.9462
2 Atlantico 1.1647 1.0299 3.3913
3 Bogota 1.0370 0.8426 2.8598
4 Bolıvar 1.1025 0.7584 3.3417
5 Boyaca 1.1268 1.6981 1.8239
6 Caldas 1.1671 1.0924 3.3799
7 Caqueta 1.0000 1.7442 2.5927
8 Cauca 1.1588 0.5969 2.8879
9 Cesar 1.1205 0.7801 3.3314
10 Cordoba 1.0614 0.6184 2.4098
11 Cundinamarca 1.1112 0.7305 3.1072
12 Huila 1.0087 1.2064 2.5749
13 Magdalena 1.0513 1.1338 1.9317
14 Meta 1.1379 1.1974 2.8056
15 Narino 1.0143 1.4724 2.4659
16 N Santander 1.0218 0.2112 2.7551
17 Quindıo 1.0000 0.8964 2.7809
18 Risaralda 1.1406 1.0982 3.3345
19 Santander 1.0401 0.6560 3.1395
20 Sucre 1.0085 0.8472 2.5379
21 Tolima 1.0085 0.4590 2.7573
22 Valle Cauca 1.1839 0.9804 2.3809
68 3 Modelo DEA propuesto
Tabla 3-2.: Clasificacion CCR y Malmquist vs DEA series.
Clasificacion Departamento DEA CCR Departamento Malmquist Departamento φ∗ DEA propuesto
1 Valle Cauca 1.1839 Caqueta 1.7442 Atlantico 3.3913
2 Caldas 1.1671 Boyaca 1.6981 Caldas 3.3799
3 Atlantico 1.1647 Narino 1.4724 Bolıvar 3.3417
4 Cauca 1.1588 Huila 1.2064 Risaralda 3.3345
5 Antioquia 1.1511 Meta 1.1974 Cesar 3.3314
6 Risaralda 1.1406 Magdalena 1.1338 Santander 3.1395
7 Meta 1.1379 Risaralda 1.0982 Cundinamarca 3.1072
8 Boyaca 1.1268 Caldas 1.092 Antioquia 2.9462
9 Cesar 1.1205 Antioquia 1.0873 Cauca 2.8879
10 Cundinamarca 1.1112 Atlantico 1.0299 Bogota 2.8598
11 Bolıvar 1.1025 Valle Cauca 0.9804 Meta 2.8056
12 Cordoba 1.0614 Quindıo 0.8964 Quindıo 2.7809
13 Magdalena 1.0513 Sucre 0.8472 Tolima 2.7573
14 Santander 1.0401 Bogota 0.8426 N Santander 2.7551
15 Bogota 1.0370 Cesar 0.7801 Caqueta 2.5927
16 N Santander 1.0218 Bolıvar 0.7584 Huila 2.5749
17 Narino 1.0143 Cundinamarca 0.7305 Sucre 2.5379
18 Huila 1.0087 Santander 0.656 Narino 2.4659
19 Sucre 1.0085 Cordoba 0.6184 Cordoba 2.4098
20 Tolima 1.0085 Cauca 0.5969 Valle 2.3809
21 Caqueta 1.0000 Tolima 0.459 Magdalena 1.9317
22 Quindıo 1.0000 N Santander 0.2112 Boyaca 1.8239
3.5 Modelo DEA propuesto y uso con datos reales 69
de la clasificacion, tal fue el caso de Santander, ver Tabla 3-2, este caso puede mostrar el
problema que tiene un modelo DEA clasico para medir eficiencias cuyas variables de salida
y/o entrada son series de tiempo con una estructura de autodependencia que no se puede
ignorar.
Si se quiere encontrar una explicacion de por que Valle del Cauca esta en el puesto 20 de
la clasificacion de DEA series propuesto comparado con el primer puesto en un promedio
CCR convencional, la explicacion esta en que aunque ha tenido comportamientos similares
en PRP, PB y VA comparados con Antioquia y Bogota, por ejemplo (figuras 3-1, 3-2 y
3-3), no obstante se nota en la figura 3-8 que el consumo de una de las entradas (KWH) es
mucho mayor que las demas y presenta crecimientos mayores que los otros departamentos,
por ejemplo en esta figura se nota como Antioquia presenta caıdas del consumo de energıa
electrica en los ultimos perıodos y esto no favorece el puntaje de eficiencia de Valle del Cauca.
Notese entonces la ventaja del DEA propuesto en series de tiempo a un modelo CCR que
obtiene los promedios de todas las eficiencias. Una explicacion de por que Santander queda
Figura 3-8.: Consumo energıa electrica en KWH
en los primeros puestos de la clasificacion de DEA series propuesto, se puede apreciar en la
figura 3-2 y 3-3, donde en las salidas PB y VA Santander presenta crecimientos casi tan
importantes como Antioquia y Valle, pero si se observa la figura 3-8 Santander consume
mucho menos energıa electrica que Antioquia y Valle.
Observese que los departamentos de Caldas y Risaralda, unos de los mas eficientes en las
series, en la figura 3-9 se nota que aunque terminan con una cantidad de PRP similar a
Cauca y Boyaca, en la historia no siempre fue ası, ya que Caldas y Risaralda antes del
70 3 Modelo DEA propuesto
perıodo 8 (ano 1999) tuvo mucho mejor PRP que Boyaca y Cauca. Si se observa la figura
3-10 Caldas y Risaralda presentan los niveles mas bajos de consumo de energıa electrica,
una de las entradas, esto favorece la historia de estos departamentos en la clasificacion de
la tabla 3-2. Estas observaciones ayudan a explicar por que el nuevo DEA series ubica a
Caldas y Risaralda en una mejor clasificacion que estos otros departamentos mencionados.
Figura 3-9.: PRP para algunos departamentos
Figura 3-10.: Consumo energıa para algunos departamentos
Un modelo DEA para series de tiempo supera algunas debilidades de los DEA temporales
existentes, Malmquist y analisis de ventana, al capturar la autodependencia de las series
3.6 Presentacion de los algoritmos para correr el modelo DEA propuesto 71
este modelo es un avance hacia un DEA en tiempo real, donde en las empresas industriales
se pueden tener instrumentos de captura de datos en perıodos de tiempo y mediante un
programa de computador se puede calcular la eficiencias en los perıodos de tiempo, teniendo
en cuenta la historia de las variables.
3.6. Presentacion de los algoritmos para correr el modelo
DEA propuesto
El modelo DEA propuesto en la presente tesis se probo mediante datos de la Encuesta Anual
de Manufactura del DANE Colombia. Se han querido hallar las eficiencias de los departa-
mentos de Colombia a traves del nuevo modelo DEA estocastico para datos longitudinales,
para ello se eligieron unas variables de entrada y otras de salida. Como variables de salida
se han seleccionado 3, las cuales son series de tiempo y como variables de entrada se han
seleccionado 5, las cuales se tomo el promedio de la series de tiempo. Se escribieron 3 algo-
ritmos en Matlab llamados antedepenPRP, antedepenPB y antedepenVA, correspondiente
a las respectivas variabes de salida Personal Remunerado Permanente, Produccion Bruta y
Valor Agregado. A continuacion se muestra la estructura de cada uno de los programas, la
estructura es la misma para los tres programas.
3.6.1. Estructura de los algoritmos antedepenPRP, antedepenPB y
antedepenVA
Se explicara la estructura del algoritmo llamado antedepenPRP, la explicacion sirve para
entender los algoritmos antedepenPB y antedepenVA ya que llevan la misma estructura.
Introduccion de los datos
Lo primero es que al algortimo antedepenPRP y a los otros dos (antedepen PB y antedepen-
VA) se le introduce una matriz de datos, donde las filas corresponden a 22 departamentos
de Colombia y las columnas corresponden a datos desde el ano 1992 hasta el 2010. Los datos
de esa matriz son los valores por departamento y por ano de la salida Personal Remunerado
Permanente (PRP), por lo que para esta salida se tienen 22 series de tiempo. Como los datos
son muy grandes, de hasta el orden diez mil millones (al menos en Produccion Bruta y Valor
Agregado), se han transformado los datos aplicando logaritmo natural.
Estimacion parametros
Basado en la informacion visual se hizo una clasificacion a priori de las series de tiempo a
4 clusters. En el algoritmo construido en Matlab llamado antedepenPRP (y los otros dos)
se ha programado el algoritmo AECM con los ciclos correspondientes. En el primer ciclo
el E-step calcula el valor esperado Q1(Ψ;Ψ[l]) y el CM-step maximiza Q1(Ψ;Ψ[l]) sobre Ψ
72 3 Modelo DEA propuesto
con Ψ2 fijo en Ψ[l]2 , para obtener la actualizacion Ψ
[l+1]1 buscando estimar π
[l+1]k y µ
[l+1]1 . En
el segundo ciclo se actualiza Ψ2 que contiene los elementos Σwk y σ2, el E-step calcula
Q2(Ψ;Ψ[l+1/2]) y CM-step maximiza Q2(Ψ;Ψ[l+1/2]) sobre Ψ con Ψ1 fijo en Ψ[l+1]1 para
estimar Σw[l+1]k y σ2[l+1], (ver explicacion de AECM con ecuaciones (2-67) a (2-72)).
Los parametros de la mixtura normal multivariada se han obtenido mediante algoritmo
AECM, para ello el progama principal antedepenPRP (ası como antedepenPB y antede-
penVA) llama a cuatro funciones llamadas veros1, veros2, veros3 y veros4. Estos cuatro
programas construidos tambien en Matlab calculan la estructura de la matriz de varianzas
y covarianzas dada en (2-90), la cual se modela con el modelo de antedependencia de Zim-
merman (1998)[191], ecuaciones (2-91) y (2-92) y las ecuaciones (2-94), (2-95),(2-96), estas
ultimas se encuentran en Nunez y Woodworth (1994)[133].
Entonces veros1, veros2, veros3 y veros4 calculan las matrices de varianzas y covarianzas, pero
antes se estiman los parametros que conforman el vector de parametros θ en (2-98) que hace
que Σk(θ) maximice el logaritmo de la verosimilitud. La estimacion de θ se realizo mediante
el algoritmo de Nelder y Mead (1965)[128]. Entonces este algoritmo se programo en veros1,
veros2, veros3 y veros4 para maximizar la verosimilitud de la mixtura. El algoritmo de Nelder
y Mead exige que existan unos parametros α, β y γ y un punto inicial con el cual empezar
a explorar la solucion. Ası que α es una constante positiva, llamada coeficiente de reflexion,
β es el coeficiente de contraccion y γ el coeficiente de expansion. Mediante estructuras “for”
anidadas se construye la matriz de varianzas y covarianzas con las cuales se calcula la funcion
de logaritmo de verosimilitud y mediante procesos iterativos se busca la matriz que maximiza
la verosimilitud, ayudado del algoritmo de Nelder y Mead.
Para cada una de las 3 variables de salida, 4 matrices de varianzas y covarianzas son en-
contradas en veros1, veros2, veros3 y veros4 respectivamente. Estas matrices maximizan el
logaritmo de verosimilitud de la mixtura, y los resultados son llevados al algoritmo principal
de cada una de las variables, ya que la mixtura se trabajo con K = 4. En el algoritmo princi-
pal se ha programado el algoritmo AECM pero recibiendo las matrices calculadas en veros1,
veros2, veros3 y veros4. Ası que en los algoritmos llamados antedepenPRP, antedepen PB y
antedepenVA se introduce les ecuaciones y las iteraciones dadas en (2-64), (2-65) y (2-66),
las cuales estiman los parametros del modelo de mixtura por maxima verosimilitud.
Alimentando el modelo DEA series propuesto
Finalmente los algoritmos escritos en Matlab antedepenPRP, antedepen PB y antedepen-
VA con sus respectivas funciones veros1, veros2, veros3 y veros4 entregan los parametros
de la funcion de densidad de mixtura dada en (2-26) y (2-27), pero no solo entrega es-
tos parametros, tambien entrega, mediante estructuras “for” anidadas los coeficientes que
necesita modelo DEA propuesto (3-35).
3.6 Presentacion de los algoritmos para correr el modelo DEA propuesto 73
Tales coeficientes son los coeficientes ypbrypsr para1φ2λ
2p en la r-esima salida; los coeficientes
(ypbryqsr + yqbrypsr) para 1φ2λpλq en la r-esima salida; los coeficientes (ypsryobr + yosrypbr)
para 1φλp en la r-esima salida y los coeficientes yosryobr para el termino independiente del
cuarto sumando del primer conjunto de restricciones para la r-esima salida en (3-35). Es
necesario aclarar, como se ve en Ray (2004)[162], el supuesto de que en las series de tiempo
se esta observando los valores esperados, por lo tanto en el modelo, µi se cambia por yi.
Los subındices de las variables anteriores tienen los siguientes valores: p = 1, 2, ..., N ; b =
1, 2, ..., n; s = 1, 2, ..., n, donde N son las DMUs, en este caso los departamentos de Colombia,
n son los perıodos de las series, en este caso 19 perıodos desde el ano 1992 hasta 2010.
Una vez calculados los parametros de la mixtura y los coeficientes, el modelo (3-35) tiene la
informacion suficiente para correrlo y hallar las eficiencias φ∗ = (φ∗1, ..., φ
∗N), pues el modelo
(3-35) necesita todos los coeficientes y necesita la matriz de varianzas y covarianzas de cada
cluster. La informacion anterior se lleva a otros algoritmos tambien escritos en Matlab. Estos
algoritmos estan estructurados como se explica en la siguiente subseccion.
3.6.2. Calculando eficiencias DEA
Para calcular las eficiencias con el modelo DEA series propuesto, se ha escrito un algoritmo
llamado “Untitled3”, en este se introducen los promedios de las 5 variables de entrada, no se
introducen las series completas, sino los promedios. Este algoritmo llama a unas funciones
llamadas “confun” y “objfun”. La funcion “confun” contiene las matrices que contienen los
coeficientes de las siguientes variables (para una r-esima salida):
1φ2λ
2p, con
1φ2λ
21,
1φ2λ
22, ...,
1φ2λ
2N . Los coeficientes de estos N = 22 cocientes entre varia-
bles se encuentran conn∑
b=1
n∑s=1
N∑p=1
1φ2λ
2pµpbrµpsr((Σokr)
−1)sb, notese que se necesitan los
elementos de la inversa de la matriz de varianzas y covarianzas de la DMU observada.
La matriz escogida se ha hecho por el criterio de la regla optima de Bayes despues de
haber estimado los parametros de la mixtura.
1φ2λpλq, con
1φ2λ1λ2,
1φ2λ1λ3, ...,
1φ2λ1λN ,
1φ2λ2λ3,
1φ2λ2λ4, ...,
1φ2λ2λN , ...,
1φ2λ(N−1)λN ,
para un total de(N2
)coeficientes, en este caso
(222
)= 231, es una combinacion pues-
to que no importa el orden ya que λpλq = λqλp. Los coeficientes se calculan conn∑
b=1
n∑s=1
N∑p=1
N∑q=p+1
1φ2λpλq(µpbrµqsr + µqbrµpsr)((Σokr)
−1)sb
1φλp, con
1φλ1,
1φλ2, ...,
1φλN . Los coeficientes de estos N = 22 cocientes entre variables
se encuentran conn∑
b=1
n∑s=1
N∑p=1
1φλp(µpsrµobr + µosrµpbr)((Σokr)
−1)sb
El termino independiene se encuentra conn∑
b=1
n∑s=1
µosrµobr((Σokr)−1)sb.
74 3 Modelo DEA propuesto
La funcion “objfun” contiene la funcion objetivo del modelo (3-35). El algoritmo principal
llamado “Untitled3” minimiza −φ, que es lo mismo que maximizar φ sujeto a las restricciones
de (3-35). Tal minimizacion se realiza con el algoritmo del punto interior que tiene Matlab.
3.6.3. Otros algoritmos
Se han construido otros algoritmos para calcular las eficiencias con el ındice Malmquist y un
DEA convencional CCR orientado a las salidas con retorno a escala constante. El algoritmo
Malmquist se ha llamado “malmquist1”, este esta alimentado con los datos de los valores de
las variables de 1992 y los valores de las variables de 2010 para poder calcular el cambio de
eficiencia entre estos dos perıodos como lo indica la teorıa del ındice Malmquist. El modelo
DEA CCR orientado a las salidas con retorno a escala constante se ha programado en un
algoritmo llamado “deanormaltodosper”.
4. Conclusiones y recomendaciones
4.1. Conclusiones
Se han explorado modelos DEA temporales en la literatura y se ha encontrado que no se
han registrado nuevos metodos a parte del “ındice Malmquist” y el “analisis de ventana”,
la evidencia se ha observado en el estado del arte de DEA temporal en Toshiyuki, Mika y
Manabu (2013)[177], y Sueyoshi y Goto (2013)[166] por lo que ha motivado este trabajo de
tesis doctoral hacia el plantemiento de un nuevo modelo DEA temporal que ofrezca algunas
ventajas sobre los dos modelos DEA temporales existentes.
Un nuevo modelo DEA temporal ha sido encontrado logrando extender el CCP de Land
Lovell y Thore al caso multivariado. A diferencia del CCP, el modelo presentado en esta
tesis acepta como variables de salida series de tiempo. Estas series podrıan ser estacionarias
o no estacionarias y el nuevo modelo es capaz de modelar la estructura de correlacion de
las variables de salida, la estrategia para modelar dicha estructura es agrupar en K clusters
las series de tiempo que tengan similar media y estimar en cada cluster cual es la matriz de
varianzas y covarianzas que modela la correlacion de este grupo.
La estrategia para agrupar las series de tiempo homogeneas se basa en la regla optima de
Bayes (Schwarz, 1978)[150] y en el hecho de que cada cluster representa una funcion (Coke y
Tsao, 2010)[47], de hecho la mixtura compuesta por cada una de estas K funciones represen-
tan una distribucion de probabilidad conocida como la mixtura normal multivariada donde
la estimacion de parametros se ha hecho con el algoritmo AECM para el modelo “mixtura
de efectos aleatorios ”.
El modelo de mixtura de efectos aleatorios dado en el capıtulo 2 permite estimar los parame-
tros de la mixtura mejor que otras tecnicas de la literatura (mixtura de modelo esferico y
mixtura de coeficientes aleatorios). La estimacion de estos parametros, como los vectores de
medias y las matrices de varianzas y covarianzas de los diferentes cluster se hace mediante el
metodo de maxima verosimilitud para cluster, el cual es encontrado en el algoritmo AECM
(Alternating Expectation Conditional Maximization) usado en Coke y Tsao (2010)[47], pero
en este trabajo de tesis se ha logrado mezclar AECM con el modelo de antedependencia
Zimmerman (1998)[191] para modelar las matrices de varianzas y covarianzas con varianzas
que son variables en el tiempo.
76 4 Conclusiones y recomendaciones
El desarrollo de la presente tesis doctoral ha permitido encontrar un modelo de forma general
al cual se le ha denominado “DEA estocastico para datos longitudinales con estructura de
antedependencia”, simplificando se dirıa que se ha encontrado un modelo “DEA para series
de tiempo”, el cual puede estar dado en forma general por modelo (3-34), pero para efectos
practicos este podrıa aproximarse al modelo (4-1) el cual es una generalizacion del modelo
(3-35).
maxφ
sujeto a las restricciones (4-1)
n∑b=1
n∑s=1
N∑p=1
1φ2λ
2pypbrypsr((Σokr)
−1)sb +n∑
b=1
n∑s=1
N∑p=1
N∑q=p+1
1φ2λpλq(ypbryqsr + yqbrypsr)((Σokr)
−1)sb −n∑
b=1
n∑s=1
N∑p=1
1φλp(ypsryobr + yosrypbr)((Σokr)
−1)sb +n∑
b=1
n∑s=1
yosryobr((Σokr)−1)sb ≤ χ2
n, (1−α) para
r = 1, ..., SN∑p=1
λpxpl ≤ xol para l = 1, ..., m
λp ≥ 0 ∀p
El modelo (4-1) esta dado para S variables de salida que son series de tiempo cada una.
Tiene m variables de entrada. El valor χ2n, (1−α) es un chi cuadrado con n grados de libertad
que deja un area a la izquierda de α y un area derecha de 1− α. Esta dado para N DMUs.
Los valores de φ representan la eficiencia estimada al correr el modelo (4-1) para la DMU
observada. El modelo (4-1) es una version determinıstica que se ha logrado en la presente
tesis, partiendo de una version probabilıstica que se ha extendido del modelo CCP.
El nuevo modelo tiene comportamientos mas similares a uno de los pocos modelos DEA tem-
porales existentes en la literatura, el Malmquist, mas que a los modelo DEA determinısticos,
el CCR.
La ventaja del modelo DEA encontrado llamese “DEA estocastico para datos longitudinales
con estructura de antedependencia” o llamese “DEA para series de tiempo”, tiene la potencia
de modelar el error aleatorio como lo hace el CCP de Land, Lovell y Thore (1992-1994)[106],
[105] y ademas considerar que las variables de salida son series de tiempo, modelando la
estructura de correlacion de las mismas en el modelo, por lo tanto el nuevo modelo DEA
series tiene mas informacion en el calculo de la eficiencia que los modelos DEA temporales
de la literatura, el “ındice Malmquist” y el “analisis de ventana” ya que estos no exploran
estructura de correlacion, ni consideran variables de salida como series de tiempo.
4.2 Recomendaciones o sugerencias para trabajos futuros 77
4.2. Recomendaciones o sugerencias para trabajos futuros
Con el presente trabajo de tesis doctoral se ha avanzado hacia la construccion de un modelo
DEA con caracterısticas y capacidades nuevas que los DEA de su tipo no poseıan, es decir,
hasta ahora los modelos DEA temporales no consideraban que las variables de entrada
y/o salida fueran, en vez de datos puntuales, vectores de series de tiempo, mucho menos
entonces, los modelos existentes se preocupaban por explorar la estructura de correlacion
de las series. En la presente tesis se ha planteado un modelo que es capaz de medir la
eficiencia considerando la historia del sistema medido, y considerar la historia es capturar
la informacion que se da en los datos historicos, esto es la estructura de correlacion. En
este momento se han cumplido los objetivos de la tesis, sin embargo en cuanto a modelos
DEA estocastico temporales (que constituyen una lınea nueva), se pueden hacer muchas
exploraciones a partir del presente trabajo.
Las recomendaciones que se dejan a raız del presente trabajo son las siguientes:
Se puede considerar, para trabajos futuros, que tanto las variables de entrada como las
de salida sean series de tiempo. En la presente tesis doctoral se ha considerado que las
variables de salida sean series de tiempo, pero no las de entrada, pues en este trabajo
se calcularon los promedios de los valores de las entradas. Plantear un modelo para
que tanto las variables de entrada como de salida sean series de tiempo, requiere que
haya un desarrollo matematico similar al que se hizo en este trabajo, pero el trabajo
adelantado muestra mucha idea de como lograrlo.
Mejorar los algoritmos de tal manera que sean mas eficientes, serıa un buen trabajo
futuro por explorar, ya que lograr algoritmos eficientes puede llevarnos a estar cer-
ca de un DEA en tiempo real considerando la estructura de antedependencia de las
series, esto es equivalente a considerar la historia de las variabes y por lo tanto se
esta calculando una eficiencia que tiene en cuenta la historia.
En el modelo (3-34) la matriz Ar es la matriz inversa de ΣUr y la obtencion de Σ−1Ur es
bastante compleja pues no esta compuesta de constantes sino de N + 1 variables. En
la presente tesis se ha usado una aproximacionN∑
j=1,j 6=o
λ2jΣjkr+(λo−φ)2Σokr ≈ φ2Σokr,
pero en futuras investigaciones se puede explorar una forma de tener aproximacion
mejor o calcular la inversa sin tener que aproximar. Esto mejorarıa los resultados en
los calculos de las eficiencias.
Para las estimaciones de matrices de varianzas y covarianzas se ha usado la teorıa de los
modelos de mixtura, esta exige que hayan un numero deK cluster,K puede presentarse
como una constante, en este trabajo se uso K = 4, o puede ser un parametro a estimar
y hacer parte del vector de parametros Ψ en ecuacion (2-25). Entonces para trabajos
78 4 Conclusiones y recomendaciones
futuros se recomienda que K sea un parametro a estimar por el metodo de maxima
verosimilitud.
Otra recomendacion tiene que ver con el uso de modelos de mixtura no necesariamen-
te normales, por ejemplo en el artıculo Vrbik y McNicholas (2014)[182] se trabajan
modelos de mixtura “Skew-t” y modelos de mixtura “Skew-normal” para amoldarse
a la asimetrıa de los datos. Estas mixturas tambien estiman los parametros mediante
el agoritmo EM. Salirse del supuesto de normalidad, puede volver las mixtura mas
potentes.
Resumiendo los puntos anteriores, se puede llegar a obtener, en investigaciones futuras, una
forma mucho mejor de medir la eficiencia cuando hay datos de entrada y salida que son series
de tiempo. Esta mejor medida se obtiene consideranto variables de entrada y salida como
series de tiempo, mejorando la eficiencia de los algoritmos, mejorando la obtencion de Σ−1Ur,
estimando el numero de cluster a considerar y usando modelos de mixtura no necesariamente
normales.
Como se puede apreciar, este trabajo de tesis doctoral abre un amplio espectro de trabajos
investigativos por realizar, por lo que los modelos DEA pueden llegar a utilizarse mas de
lo que se aplican en la actualidad, cada vez con mayor aproximacion a la realidad de los
sistemas a medir.
A. Estimacion de parametros Σwk
A.1. Personal Remunerado Permanente Σwk
Los Anexos A-1, A-2, A-3 y A-4 son las estimaciones de Σwk para PRP
Figura A-1.: Estimacion Σw1 PRP
Figura A-2.: Estimacion Σw2 PRP
A.2. Produccion Bruta Σwk
Los Anexos A-5, A-6, A-7 y A-8 son las estimaciones de Σwk para PB
80 A Estimacion de parametros Σwk
Figura A-3.: Estimacion Σw3 PRP
Figura A-4.: Estimacion Σw4 PRP
A.3. Valor Agregado Σwk
Los Anexos A-9, A-10, A-11 y A-12 son las estimaciones de Σwk para VA
A.3 Valor Agregado Σwk 81
Figura A-5.: Estimacion Σw1 PB
Figura A-6.: Estimacion Σw2 PB
Figura A-7.: Estimacion Σw3 PB
82 A Estimacion de parametros Σwk
Figura A-8.: Estimacion Σw4 PB
Figura A-9.: Estimacion Σw1 VA
Figura A-10.: Estimacion Σw2 VA
A.3 Valor Agregado Σwk 83
Figura A-11.: Estimacion Σw3 VA
Figura A-12.: Estimacion Σw4 VA
B. Anexo: Estimacion de parametros Σk
B.1. Personal Remunerado Permanente Σk
Los Anexos B-1, B-2, B-3 y B-4 son las estimaciones de Σk para PRP
Figura B-1.: Estimacion Σ1 PRP
Figura B-2.: Estimacion Σ2 PRP
B.2 Produccion Bruta Σk 85
Figura B-3.: Estimacion Σ3 PRP
Figura B-4.: Estimacion Σ4 PRP
B.2. Produccion Bruta Σk
Los Anexos B-5, B-6, B-7 y B-8 son las estimaciones de Σk para PB
86 B Anexo: Estimacion de parametros Σk
Figura B-5.: Estimacion Σ1 PB
Figura B-6.: Estimacion Σ2 PB
B.3. Valor Agregado Σk
Los Anexos B-9, B-10, B-11 y B-12 son las estimaciones de Σk para VA
B.3 Valor Agregado Σk 87
Figura B-7.: Estimacion Σ3 PB
Figura B-8.: Estimacion Σ4 PB
Figura B-9.: Estimacion Σ1 VA
88 B Anexo: Estimacion de parametros Σk
Figura B-10.: Estimacion Σ2 VA
Figura B-11.: Estimacion Σ3 VA
Figura B-12.: Estimacion Σw4 VA
C. Anexo: Estimacion µk, πk, y
clasificacion cluster
C.1. Vectores de medias µk
La figura C-1 son las estimaciones de medias para logaritmo natural de los datos.
Figura C-1.: Estimacion medias del ln de PRP, PB y VA (µ1, µ2, µ3, µ4)
C.2. Parametros πk
La figura C-2 muestra las estimaciones de los πk para las tres variables y para los k = 1, ..., 4
cluster.
C.3. Calsificacon cluster
La figura C-3 muestra las clasificaciones a los cluster por la regla optima de Bayes.
90 C Anexo: Estimacion µk, πk, y clasificacion cluster
Figura C-2.: Estimacion medias del ln de PRP, PB y VA (µ1, µ2, µ3, µ4)
Figura C-3.: Estimacion medias del ln de PRP, PB y VA (µ1, µ2, µ3, µ4)
D. Apendice
D.1. Algebra lineal
D.1.1. Traza de una matriz
La traza de una matriz A, tr(A) es la suma de los elementos de las diagonales de A. La traza
de un escalar es igual al escalar. Tambien se tiene que
tr(A+B) = tr(A) + tr(B) (D-1)
tr(AB) = tr(BA) (D-2)
∑
i
xTi Axi = tr(AB), donde B =∑
i
xixTi (D-3)
D.1.2. Derivadas de matrices y determinantes
El determinante de una matriz A se denota como |A|, se cumple que:∣∣A−1
∣∣ = 1/A (D-4)
La derivada de una funcion de una matria f(A) con respecto a los elementos de la matriz es∂f(A)∂A
definida para ser la matriz con i, j esima entrada [∂f(A)∂ai,j
] donde ai,j es la i, jesima entrada
de A. La definicion tambien aplica para aplicar a derivadas con respecto a un vector.
∂xTAx
∂x= (A+ AT )x (D-5)
Cuando A es una matriz simetrica:
∂ |A|∂ai,j
=
{Ai,j si i = j
2Ai,j si i 6= j(D-6)
donde Ai,j es el i, jesimo cofactor de A. Tambien se da que:
∂ log |A|∂A
=
{Ai,j/ |A| si i = j
2Ai,j/ |A| si i 6= j
}= 2A−1 − diag(A−1) (D-7)
Por la inversa de una matriz se puede mostrar que:
∂tr(AB)
∂A= B +BT −Diag(B). (D-8)
Bibliografıa
[1] A., Charnes ;Cooper, W.W. ;Golany, B. ; Seiford, L.M. ; Stutz, J.: Foundations
of data envelopment analysis and Pareto–Koopmans empirical production functions.
En: Journal of Econometrics 30 (1985), p. 91–107
[2] Aigner ; Chu, S. F.: On Estimating the Industry Production Frontiers. En: American
Economic Review 56 (1968), p. 826–839
[3] Aigner, D. J. ; Lovell, C.A.K. ; Schmidt, P.: Formulation and Estimation of
Stochastic Frontier Production Models. En: Journal of Econometrics 6 (1997), p.
21–37
[4] Al-Najjar, Sabah. M. ; Jaybajy.: Application of Data Envelopment Analysis to
Measure the Technical Efficiency of Oil Refineries: A Case Study. En: International
Journal of Business Administration 3 (2012)
[5] Ali, A.I. ; Seiford, L.M.: Translation invariance in data envelopment analysis. En:
Operations Research Letters 9 (1990), p. 403–405
[6] Andersen, P. ; Petersen, N.C.: A procedure for ranking efficient units in DEA.
En: Management Science 39 (1993), p. 1261–1264
[7] Anderson, T.R. ; Hollingsworth, K.B. ; Inman, L.B.: The fixed weighting nature
of a cross-evaluation model. En: Journal of Productivity Analysis 18(1) (2002), p. 249–
255
[8] Aparicio, J. ; Ruiz, J. ; Sirvent, I.: Closest targets and minimum distance to the
Pareto-efficient frontier in DEA. En: Journal of Productivity Analysis 28 (2007), p.
209–218
[9] Arnold, V. ; Bardhan, W.W. ; Kumbhakar, S.C.: New Uses of DEA and Sta-
tistical Regressions for Efficiency Evaluation and Estimation — With an Illustrative
Application to Public Secondary Schools in Texas. En: Annals of Operations Research
66 (1994), p. 255–278
[10] Ashrafi, A. ; Seow, H.V ; Lee, L.S. ; Lee, C.G.: The efficiency of the hotel industry
in Singapore. En: Tourism Management 37 (2013), p. 31–34
Bibliografıa 93
[11] Assaf, A. G.: Benchmarking the Asia Pacific tourism industry: A Bayesian com-
bination of DEA and stochastic frontier. En: Tourism Management 33 (2012), p.
1122–1127
[12] y Assaf A., Matawie K. M.: ayesian and DEA efficiency modelling: An Aplication to
hospital foodservice operation. En: Journal of Applied Statistics 37 (2010), p. 945–953
[13] Banker, R. ; Natarajan, R.: Statistical Tests Based on DEA Efficiency Scores:
Chapter 11 in in W.W. Cooper, L.M. Seiford and J. Zhu, eds. Handbook on Data
Envelopment Analysis. U.S.A : Norwell, Mass., Kluwer Academic Publishers, 2004
[14] Banker, R. D.: Estimating most productive scale size using data envelopment analy-
sis. En: European Journal of Operational Research 17 (1984), p. 35–44
[15] Banker, R. D.: Maximum Likelihood, Consistency and Data Envelopment Analysis:
A Statistical Foundation. En: Management Science 39 (1993), p. 1265–1273
[16] Banker, R. D.: Hypothesis Tests Using Data Envelopment Analysis. En: Journal of
Productivity analysis 7 (1996), p. 139–159
[17] Banker, R. D.: Portela, M., Thanassoulis, E. En: Journal of the Operational Research
Society 58(4) (2007), p. 481–490
[18] Banker, R.D. ; Chang, H. ; Cooper, W.W.: Simulation studies of efficiency, re-
turns to scale and misspecification with nonlinear functions in DEA. En: Annals of
Operations Research 66 (1996), p. 233–253
[19] Banker, R.D. ; Morey, E.C.: The use of categorical variables in data envelopment
analysis. En: Management Science 32(12) (1986), p. 1613–1627
[20] Banker, R.D. ; Morey, R.: Efficiency analysis for exogenously fixed inputs and
outputs. En: Operations Research 34 (1986), p. 513–521
[21] Bardhan, I.R. ; Cooper, W.W. ; Kumbhakar, S.C.: A Simulation Study of Joint
Uses of Data Envelopment Analysis and Stochastic Regressions for Production Fun-
ction Estimation and Efficiency Evaluation. En: Journal of Productivity Analysis 9
(1998), p. 249–278
[22] Bauer, P.W: Recent Development in Econometric Estimation of Frontiers. En: Jour-
nal of Econometrics 46 (1990), p. 39–56
[23] Bazaraa, Mokhtar S. ; Sherali, Hanif D. ; Shetty, C.M: Nonlinear Programming,
Theory an Algorithms, 3 ed. U.S.A : A John Wiley and sons, 2006
94 Bibliografıa
[24] Bilmes, Jeff A.: A Gentle Tutorial of the EM Algorithm and its Aplication to Pa-
rameter Estimation for Gaussian Mixture and Hidden Markov Models / Computer
Science & Division. Deparment of Electrical Engineering and Computer Science U. C.
Berkeley. 1998. – Informe de Investigacion. – 1–13 p.
[25] Box, G. E. P. ; Jenkins, G. M.: Time Series Analysis: Forecasting and Control. En:
Management Science 39 (1970)
[26] Briec, W.: Holder distance function and measurement of technical efficiency. En:
Journal of Productivity Analysis 11(2) (1999), p. 111–131
[27] Brockett, P.L. ; Cooper, W.W. ; Kumbhakar, S.C. ; Kwinn Jr, M.J. ;
McCarthy, D.: Alternative Statistical Regression Studies of the Effects of Joint and
Service-Specific Advertising on Military Recruitment. En: Journal of the Operational
Research Society 55 (2004), p. 1039–1048
[28] Bruni, M.E. ;Conforti, D. ;Beraldi, P. ;Tundis, E.: Probabilistically constrained
models for efficiency and dominance in DEA. En: International Journal Production
Economics 117 (2009), p. 219–228
[29] Bryan., Geoffrey: Random Effects Mixture Models for Clustering Time Series, Uni-
versity of Victoria, Tesis de Grado, 2004
[30] C., Wu. ; Li, Y. ; Liu, Q. ;Wang, K.: A Stochastic DEAmodel considering undesirable
outputs with weak disposability. En: Mathematical and Computer Modelling 58 (2012),
p. 980–989
[31] Chang, Y. ; Sueyoshi, T.: An interactive application of DEA in microcomputers.
En: Computer and Management 4(1) (1991), p. 51–64
[32] Chang, Young-Tae ; Zhang, Ning ; Danao, Denise ; Zhang, Nan.: Environmental
efficiency analysis of transportation system in China: A non-radial DEA approach. En:
Energy Policy 58 (2013), p. 277–283
[33] Charnes, A. ; Cooper, W.W.: Deterministic Equivalents for Optimizing and Satis-
ficing under Chance Constraints. En: Operations Research 11 (1963), p. 18–39
[34] Charnes, A. ; Cooper, W.W. ; Huang, Z.M. ; Sun, D.B.: Polyhedral cone-ratio
DEA models with an illustrative application to large commercial banks. En: Journal
of Econometrics 46 (1990), p. 73–91
[35] Charnes, A. ; Cooper, W.W. ; Rhodes, E.L.: Measuring the efficiency of decision
making units. En: European Journal of Operation Research 2 (1978), p. 429–444
Bibliografıa 95
[36] Charnes, A. ; Haag, S. ; Jaska, P. ; Semple, J.: Sensitivity of efficiency calculations
in the additive model of data envelopment analysis. En: International Journal of
System Sciences 23 (1992), p. 789–798
[37] Charnes, A. ; Neralic, L.: Sensitivity analysis in data envelopment analysis. En:
Glasnik Matematicki. 27 (1992), p. 191–201
[38] Charnes, A. ; Rousseau, J. ; Semple, J.: Sensitivity and stability of efficiency
classifications in data envelopment analysis. En: Journal of Productivity Analysis. 7
(1996), p. 5–18
[39] Chen, L.F. ; Hsiao, C.H ; C.F., Tsai: Three stage DEA model selections and ma-
nagerial decision. En: African Journal of Business Management 4(14) (2010), p.
3046–3055
[40] Chen, Y.: Measuring super-efficiency in DEA in the presence of infeasibility. En:
European Journal of Operational Research 161 (2005), p. 545–551
[41] Chen, Y. ; Zhu, J.: Measuring information technology’s indirect impact on firm
performance. En: Information Technology & Management Journal 5 (1-2) (1993), p.
9–22
[42] Chen, Y.C. ; Chiu, Y.H. ; Huang, C.W. ; Tu, C.H.: The analysis of bank business
performance and market risk-Applying Fuzzy DEA. En: Economic Modelling 32
(2013), p. 225–232
[43] Cherchye, L. ; Kuosmanen, T. ; Post, T.: What is the economic meaning of FDH?
A reply to Thrall. En: Journal of Productivity Analysis 13 (1993), p. 263–267
[44] Cherchye, L. ; Van Puyenbroeck, T.: A comment on multistage DEA methodo-
logy. En: Operational Research Letters 28(2) (2001), p. 143–149
[45] Chiu, Y. ; Huang, C. ; Ting, C.: A non-radial measure of different systems for
Taiwanese tourist hotels efficiency assessment. En: European Journal of Operations
Research 20 (2012), p. 45–63
[46] Coelli, T. ; Rao, D.S.P. ; Battese, G.E.: An Introduction to Efficiency and Pro-
ductivity Analysis, 2 ed. U.S.A : Springer, 2005
[47] Coke, Geoffrey. ; Tsao, Min.: Random effects mixture models for clustering electrical
load series. En: Journal of Time Series Analysis 31 (2010), p. 451–464
[48] Cook, Kress M. ; Seiford, L.M.: Data envelopment analysis in the presence of both
quantitative and qualitative factors. En: Journal of the Operational Research Society
47 (1996), p. 945–953
96 Bibliografıa
[49] Cook, W.D. ; Chai, D. ; Doyle, J. ; Green, R.H.: Hierarchies and groups in DEA.
En: Journal of Productivity Analysis 10 (1998), p. 177–198
[50] Cook, W.D. ; Green, R. ; Zhu, J.: Dual role factors in DEA. En: IIE Transactions
38 (2006), p. 1–11
[51] Cook, W.D. ; Green, R.H.: Evaluating power plant efficiency: A hierarchical model.
En: Computers and Operations Research 32 (2005), p. 813–823
[52] Cook, W.D. ; Hababou, M. ; Tuenter, H.: Multi-component efficiency measu-
rement and shared inputs in data envelopment analysis: An application to sales and
service performance in bank branches. En: Journal of Productivity Analysis 14 (2000),
p. 209–224
[53] Cook, W.D. ; Kress, M. ; Seiford, L.M.: On the use of ordinal data in data
envelopment analysis. En: Journal of the Operational Research Society 44 (1993), p.
133–140
[54] Cook, W.D. ; Liang, L. ; Zha, Y. ; Zhu, J.: A Modified Super-efficiency DEA Model
for Infeasibility. En: Journal of Operational Research Society 60 (2009), p. 276–281
[55] Cook, W.D. ; Roll, Y. ; Kazakov, A.: A DEA model for measuring the relative
efficiency of highway maintenance patrols. En: Infor 28 (1990), p. 113–124
[56] Cook, W.D. ; Zhu, J.: Rank order data in DEA: A general framework. En: European
Journal of Operational Research 174 (2006), p. 1021–1038
[57] Cook, W.D. ; Zhu, J.: Classifying inputs and outputs in data envelopment analysis.
En: European Journal of Operational Research 180(2) (2007), p. 692–699
[58] Cook, W.D. ; Zhu, J.: CAR-DEA: Context dependent assurance regions in DEA.
En: Operations Research, forthcoming (2008), p. 69–78
[59] Cook, W.W. ; Seiford, L.M.: Data Envelopment Analysis (DEA) - Thirty years on.
En: European Journal of Operational Research 192 (2009), p. 1–17
[60] Cooper, Seiford L.M. Tone K.: Introduction to Data Envelopment Analysis and its
Uses. N.Y. U.S.A : Springer Science, 2006
[61] Cooper, Seiford L.M. Tone K.: Data Envelopment Analysis. A comprehensive text
with models, aplications, References and DEA-solver sofware, Second edition. N.Y.
U.S.A : Springer, 2007
[62] Cooper, W.W. ; Deng, H. ; Huang, Z ; Li, S. X.: Chance constrained program-
ming approaches to congestion in stochastic data envelopment analysis. En: European
Journal of Operational Research 155 (2004), p. 487–501
Bibliografıa 97
[63] Cooper, W.W. ;Huang, Z. ; Li, S.: Satisficing DEAmodels under chance constraints.
En: The Annals of Operations Research 66 (1996), p. 279–295
[64] Cooper, W.W. ; Li, S. ; Seiford, L.M. ; Tone, K. ; Thrall, R.M. ; Zhu, J.:
Sensitivity and stability analysis in DEA: Some recent developments. En: Journal of
Productivity Analysis 15 (2001), p. 217–246
[65] Cooper, W.W. ; Park, K.S. ; Yu, G.: IDEA and AR-IDEA: Models for dealing with
imprecise data in DEA. En: Management Science 45 (1999), p. 597–607
[66] Cooper, W.W. ; Seiford, R.M. ; Zhu, J.: Handbook on Data Envelopment Analysis.
N.Y. U.S.A : Springer, 2004
[67] Dempster, A.P. ; Laird, N.M. ; Rubin, D.B.: Maximum likelihood for incomplete
data via the em algorithm (with discussion). En: Journal of the Royal Statistical
Society 39 (1977), p. 1–38
[68] Deprins, L. ; Simar, L. ; Tulkens, H.: Measuring labor efficiency in post offices.
En: The Performance of Public Enterprises: Concepts and Measurement 10 (1984), p.
243–268
[69] Dıaz, L.G. ; Morales, M.: Analisis Estadıstico de datos Multivariados. Bogota :
Universidad Nacional de Colombia, 2012
[70] Diggle, P. ; Heagerty, P. ; Liang, K. ; Zeger, S.: Analysis of Longitudinal Data.
Oxford : Oxford University Press, 1977
[71] Diggle, P.J.: An approach to the analysis of repeated measurements. En: Biometrics
44 (1998), p. 959–971
[72] Doyle, J. ; Green, R. ; Cook, W.D.: Preference voting and project ranking using
DEA and cross-evaluation. En: European Journal of Operational Research 90 (1996),
p. 461–472
[73] Dyson, R.G. ; Thanassoulis, E.: Reducing weight flexibility in DEA. En: Journal
of Operational Research Society 39(6) (1998), p. 563–576
[74] E.G., Tsionas ; Papadakis, E.N.: A Bayesian approach to statistical inference in
stochastic DEA. En: Omega 38 (2010), p. 309–314
[75] Fare, Lovell C.: Measuring the technical efficiency of production. En: Journal of
Economic Theory 19 (1978), p. 150–162
[76] Fare, R. ; Grosskopf, S.: Modelling undesirable factors in efficiency evaluation:
Comment. En: European Journal of Operational Research 157 (2004), p. 242–245
98 Bibliografıa
[77] Fare, R.S. ; Grosskopf, S.: Network DEA. En: Socio-Economic Journal 5(1-2)
(2000), p. 9–22
[78] Farre R.S., S. Lovell C.: Production Frontiers. Reino Unido : Cambridge University
Press, 1994
[79] Farrell, M.J.: The Measurement of Productive Efficiency. En: Journal of the Royal
Statistical Society Series A 120(3) (1951), p. 253–281
[80] Feller, W.: An Introduction to Probability Theory and its Applications. U.S.A :
Wiley, 1966
[81] Ferrier, G.D. ; Lovell, C.A.K.: Measuring Cost Efficiency in Banking Econometric
and Linear Programming Evidence. En: Journal of Econometrics 6 (1993), p. 229–245
[82] Fethi, M.D. ; Jackson, P.M. ; Weyman-Jones, T.G.: An Empirical Study of Sto-
chastic DEA and Financial Performance: the Case of the Turkish Commercial Banking
Industry / INFORMS International Hawaii Conference. 2001. – Informe de Investiga-
cion. – 1–24 p.
[83] Fraley, C. ; Raftery, A.E.: How many Clusters? Wich clustering method? Answers
via model-based cluster analysis. En: Computer Journal 41 (1998), p. 578–588
[84] Fraley, C. ; Raftery, A.E.: Model-based clustering, discriminant analysis and
density estimation. En: Journal of the American Statistical Association 97 (2002), p.
611–631
[85] Frei, F. ; Harker, P.: Projections onto efficient frontiers: Theoretical and compu-
tational extensions to DEA. En: Journal of Productivity Analysis 11 (1999), p. 275–300
[86] Fried, H.O ; Lovell, C.A.K ; Schmidt, Yaisawarng S.: Accounting for environmen-
tal effects and statistical noise in data envelopment analysis. En: Journal of Producti-
vity Analysis 17 (2002), p. 157–174
[87] Gabriel, K.R.: Ante-dependence analysis of an ordered set of variables. En: The
Annals of Mathematical Statistics 33(1) (1962), p. 201–212
[88] Giraldo, G.N.: Notas de clase Procesos estocasticos, version preliminar / Escuela
Estadıstica Universidad Nacional sede Medellın. 2006. – Informe de Investigacion. –
1–20 p.
[89] Gonzalez, Alvarez A.: From efficiency measurement to efficiency improvement: The
choice of relevant benchmarks. En: European Journal of Operational Research 133
(2001), p. 512–520
Bibliografıa 99
[90] Goto, Tsutsui M.: Comparison of productive and cost efficiencies among Japanese
and US electric utilities. En: OMEGA 26 (1998), p. 177–194
[91] Green, R. ; Cook, W.D.: A free disposal hull approach to efficiency measurement.
En: Journal of the Operational Research Society 55 (2004), p. 1059–1063
[92] Guerra, M. ; Souza, A.A ; Moreira, D.R.: Performance Analysis: A Study Using
Data Envelopment Analysis in 26 Brazilian Hospitals. En: Health Care Finance 38(4)
(2012), p. 19–35
[93] Hernandez-Sancho, F. ; Molinos-Senante, M. ; Sala-Garrido, R.: Economic
valuation of environmental benefits from wastewater treatment proceses: an empirical
approach for Spain. En: Science of the Total Environment 408 (2010), p. 953–957
[94] Garcıa del Hoyo, J.J ; Castilla, E.D ; Jimenez, T.R.: Determination of technical
efficiency of fisheries by stochastic frontier models: A case on the Gulf of Cadiz (Spain).
En: ICES Journal of Marine Science 61 (2014), p. 416–421
[95] Hua, Z. ; Bin, Y.: DEA with undesirable factors. In: Zhu, J., Cook, W.D. (Eds.), Mo-
deling Data Irregularities and Structural Complexities in Data Envelopment Analysis.
London : Springer Science Series (Chapter6), 1977
[96] Jaffrezic, F. ; Thompson, R. ; Hill, W.G.: Structured antedependence models
for genetic analysis of repeated measures on multiple quantitative traits. En: Genetics
Research 82 (2003), p. 55–65
[97] James, G. M. ; Sugar, C.A.: Clustering for sparsely sampled functional data. En:
Journal of the American Statistical Association 98(462) (2003), p. 397–408
[98] Jondrow, J. ; Lovell, C.A.K. ; Materov, I.S. ; Schmidt, P.: On the Estimation
of Technical Inefficiency in the Stochastic Frontier Production Model. En: Journal of
Econometrics 51 (1982), p. 259–284
[99] Kamakura, W.A.: A note on the use of categorical variables in data envelopment
analysis. En: Management Science. 34(10) (1988), p. 1273–1276
[100] Klopp, G.: The Analysis of the Efficiency of Production System with Multiple Inputs
and Outputs. Kassel, Chicago:University of Illinois at Chicago, Industrial and Systems
Engineering College, Ph. D. Thesis, 1985
[101] Korostolev, A.P. ; Simar, L. ; Tsybakov, A.B.: Efficient Estimation of Monotone
Boundaries. En: Annals of Statistics 23 (1995), p. 476–489
100 Bibliografıa
[102] Korostolev, A.P. ; Simar, L. ; Tsybakov, A.B.: On Estimation of Monotone and
Convex Boundaries. En: Public Institute of Statistics of the University of Paris 39
(1995), p. 3–15
[103] Kumbhakar, S.C. ; Lovell, C.A.K.: Stochastic Frontier Analysis. Cambridge :
Cambridge University Press, 2000
[104] L., Brockett P. ; W.W., Cooper ; L., Golden L. ; C., Kumbhakar S. ; J., Kwinn
Jr M. ; Brian, Layton ; Parker, Barnett R.: Estimating elasticities with frontier
and other regressions in evaluating two advertising strategies for US Army recruiting.
En: Socio-Economic Planning Sciences 42 (2008), p. 1–17
[105] Land, K.C ; Lovell, C.A.K ; Thore, S.: Productive Efficiency under Capitalism and
State Socialism: the Chance Constrained Programming Approach. En: Supplement to
Public Finance 47 (1992), p. 109–121
[106] Land, K.C ; Lovell, C.A.K ; Thore, S.: Chance constrained data envelopment
analysis. En: Managerial and Decision Economics 14(6) (1993), p. 541–554
[107] Land, K.C ; Lovell, C.A.K ; Thore, S.: Chance-Constrained Data Envelopment
Analysis. En: Managerial and Decision Economics 14 (1993), p. 541–554
[108] Land, K.C ; Lovell, C.A.K ; Thore, S.: Productive Efficiency under Capitalism and
State Socialism: An Empirical Inquiry Using Chance-Constrained Data Envelopment
Analysis. En: Technological Forecasting and Social Change 46 (1994), p. 139–152
[109] Land, K.C ; Lovell, C.A.K ; Thore, S.: Four Papers on Capitalism and State
Socialism / Austin Texas: The University of Texas, IC2Institute. 1999. – Informe de
Investigacion. – 38 p.
[110] Lee, H.S. ; Chu, C.W. ; Zhu, J.: Super-efficiency DEA in the presence of infeasibility.
En: European Journal of Operational Research 212 (2011), p. 141–147
[111] Lee, H.S. ; Zhu, J.: Super-efficiency infeasibility and zero data in DEA. En: European
Journal of Operational Research 216 (2012), p. 429–433
[112] Liang, L.F. ; Wu, J. ; Cook, W.D. ; Zhu, J.: The DEA cross efficiency model and
its Nash equilibrium. En: Operations Research, forthcoming 39 (2008), p. 1278–1288
[113] Lindsey, J.K: Models for Repeated Measurements. Oxford : Oxford University Press,
1999
[114] Lovell, Rouse A.: Equivalent standard DEA models to provide superefficiency scores.
En: Journal of the Operational Research Society 54(1) (2003), p. 101–108
Bibliografıa 101
[115] Luan, Y. ; Li, H.: Clustering of time-course gene expression data using a mixedeffects
model with b-splines. En: Bioinformatics 19(4) (2003), p. 474–482
[116] Macpherson, A.J. ; Principe, P.P. ; Shao, Y.b.: Controlling for exogenous envi-
ronmental variables when using data envelopment analysis for regional environmental
assessments. En: Journal of Environmental Management 119 (2013), p. 220–229
[117] Maldonado, H. ; Sepulveda, C. ; Vargas, A.: Metodologıa Encuesta Anual de
Manufactura / Departamento Nacional de Estadıstica DANE. 2009. – Informe de
Investigacion. – 1–108 p.
[118] Malmquist, S.: Index number and indifferences surfaces. En: Trabajos de Estatistica
4 (1953), p. 209–242
[119] Mardia, Kent J. ; Bibby, J. M.: Multivariate Analysis. London : London Academic
Press, 1979
[120] Martinez, U.F. ; Gomez, J.C. ; Perez, M.C. ; Gomez, J.: Comparacion de rankings
de eficiencia mediante analisis de componentes principales. En: Estadıstica espanola
54 (2012), p. 357–373
[121] McLachlan, G. ; Peel, D.: Finite Mixture Models. U.S.A : Wiley-Interscience, 2000
[122] Meeusen, Van den Broeck J.: Efficiency estimation from Cobb–Douglas production
functions with composed error. En: International Economic Review 18 (1977), p.
435–444
[123] Meng, F.Y. ; Fan, L.W. ; Zhou, P. ; Zhou, D.Q.: Measuring environmental per-
formance in China’s industrial sectors with non-radial DEA. En: Mathematical and
Computer Modelling 58(5-6) (2013), p. 1047–1056
[124] Meng, X. ; Rubin, D.B.: Likelihood estimation via the ecm algorithm: A general
framework. En: Biometrika 80(2) (1993), p. :267–278
[125] Meng, X. ; Van Dyk, D.: The em algorithm an old folk song sung to a fast new tune
(with discussion). En: Journal of the Royal Statistical Society 59(3) (1997), p. 511–567
[126] Molinos, M. ; Hernandez, F. ; Sala, R.: Economic feasibility study for wastewater
treatment: a cost-benefit analysis. En: Science of the Total Environment 408 (2010),
p. 4396–4402
[127] Muniz, Paradi J. Ruggiero J. Yang Z.: Evaluating alternative DEA models used to
control for non-discretionary inputs. En: Computers & Operations Research 33 (2006),
p. 1173–1183
102 Bibliografıa
[128] Nelder, Mead R.: A simplex method for function minimization. En: Computer
Journal 7 (1965), p. 308–313
[129] Neralic, L.: Sensitivity in data envelopment analysis for arbitrary perturbations of
data. En: Glasnik Matematicki 32 (1993), p. 315–335
[130] Neralic, L.: Preservation of efficiency and inefficiency classification in data envelop-
ment analysis. En: Mathematical Communications 9 (2004), p. 51–62
[131] Ng, S.K. ; McLachlan, G.J. ; Wang, K. ; Jones, L.Ben-Tovmin ; Ng, S.W: A
mixture model with random-effects components for clustering gene-expression profiles.
En: Bioinformatics 22 (14) (2006), p. 1745–1752
[132] Norman, Giraldo: Notas de clase Procesos Estocasticos Version Preliminar / Univer-
sidad Nacional de Colombia sede Medellın. 2006. – Informe de Investigacion. – 1–20
p.
[133] Nunez, A.V. ; Woodworth, G.G.: Analysis of longitudinal data with unequally
spaced observations and time-dependent correlated errors. En: Biometrics 50 (1994),
p. 445–456
[134] Oral, M. ; Kettani, O. ; Lang, P.: A methodology for collective evaluation and
selection of industrial R&D projects. En: Management Science. 37(7) (1991), p. 871–
883
[135] Pastor, J.T.: Translation invariance in DEA: A generalization. En: Annals of Ope-
rations Research 66 (1996), p. 93–102
[136] Pastor, J.T. ; Ruiz, J.L. ; Sirvent, I.: An enhanced DEA Russell graph efficiency
measure. En: European Journal of Operational Research 115 (1999), p. 596–607
[137] Portela, M. ; Castro, P. ; Thanassoulis, E.: Finding closest targets in non-
oriented DEA models: The case of convex and non-convex technologies. En: Journal
of Productivity Analysis 19 (2003), p. 251–269
[138] R., Christensen ; W., Johnson ; Branscum, A. ; Hanson, T.E.: Bayesian Ideas and
Data Analysis, An Introduction for Scientistits and Statisticians. U.S.A : CRC Press.
Taylor & Francis Group, 2011
[139] R.D., Banker ; Charnes, A. ; W.W., Cooper: Some models for estimating technical
and scale inefficiencies in data envelopment analysis. En: Management Science 30
(1984), p. 1078–1092
[140] Redner, R.A.: Note on the consistency of the maximum likelihood estimate for
nonidentifiable distributions. En: Annals of Statistics 9 (1981), p. 225–228
Bibliografıa 103
[141] Redner, R.A. ; Walker, H.F: Mixture densities, Maximum likelihood and the EM
algorithm. En: Social for Industrial and Applied Mathematics SIAM 26(2) (1984), p.
195–236
[142] Roa, Alfredo ; Centaro, L. ; Padilla, K ; Quesada, V.M. ; Villa, G.: Produc-
tividad y Eficiencia en la empresa: un enfoque practico. Cartagena : Universidad de
Cartagena. Editorial Universitaria, 2003
[143] Roll, Cook W.D. Golany B.: Controlling factor weights in data envelopment analysis.
En: IIE Transactions 23 (1991), p. 2–9
[144] Rousseau, J.J. ; Semple, J.H.: Categorical outputs in data envelopment analysis.
En: Management Science 39(3) (1993), p. 384–386
[145] Ruggiero, J.: On the measurement of technical efficiency in the public sector. En:
European Journal of Operational Research 90 (1996), p. 553–565
[146] Ruggiero, J.: Non-discretionary inputs in data envelopment analysis. En: European
Journal of Operational Research 111 (1998), p. 461–469
[147] Sala-Garrido, R. ; Hernandez, F. ; M, Molinosm: Assessing the efficiency of
wastewater treatment plants in an uncertain context: a DEA with tolerances approach.
En: Research Article Environmental Science & Policy 18 (2012), p. 34–44
[148] Scheel, H.: Undesirable outputs in efficiency valuations. En: European Journal of
Operational Research 132 (2001), p. 400–410
[149] Schmidt, P.: Frontier Production Functions. En: Econometric Reviews 4 (1993), p.
289–328
[150] Schwarz, G.E.: Estimating dimension of a model. En: Annals of Statistics 6(2)
(1978), p. 461–464
[151] Seiford, L. ; Zhu, J.: Modelling undesirable factors in efficiency evaluation. En:
European Journal of Operational Research 142 (2002), p. 16–20
[152] Seiford, L.M. ; Zhu, J.: Infeasibility of super-efficiency data envelopment analysis
models. En: INFOR 37 (1999), p. 174–187
[153] Seiford, L.M. ; Zhu, J.: Profitability and marketability of the top 55 US commercial
banks. En: Management Science. 45(9) (1999), p. 1270–1288
[154] Seiford, Zhu J.: Sensitivity analysis of DEA models for simultaneous changes in all
of the data. En: Journal of the Operational Research Society 49 (1993), p. 1060–1071
104 Bibliografıa
[155] Sexton, R.H. ; Hogan, A.J.: Data envelopment analysis: Critique and extensions.
En: New Directions for Programm Evaluation 1 (1986), p. 73–105
[156] Sharpe, W.F.: Portfolio Theory and Capital Markets. N.Y U.S.A : McGraw Hill, Inc,
1970
[157] Simar, L.: Aspects of Statistical Analysis in DEA-Type Frontier Models. En: Journal
of Productivity Analysis 7 (1996), p. 177–186
[158] Simar, L. ; Wilson, P.W.: Sensitivity Analysis of Efficiency Scores: How to Bootstrap
in Nonparametric Frontier Models. En: Management Science. 44 (1998), p. 49–61
[159] Simar, L ; Wilson, P.W.: Statistical inference in non-parametric frontier models.
En: Journal of Productivity Analysis 13 (2000), p. 49–78
[160] Simon, H.A.: Models of Man. N.Y United States : John Wiley & Sons, Inc., 1957
[161] Soto, J.A. ; Arenas, W.: Analisis Envolvente de Datos de la teorıa a la practica.
Pereira : Universidad Tecnologica de Pereira, 2010
[162] Subhash, C.R.: Data Envelopment Analysis, Theory and Techniques for Economics
and Operations Research. N.Y United States : Cambrige University Press, 2004
[163] Sueyoshi, T.: A special algorithm for the additive model in DEA. En: Journal of
Operational Research Society 41(3) (1990), p. 249–257
[164] Sueyoshi, T. ; Goto, M.: DEA environmental assessment of coal fired power plants:
Methodological comparison between radial and non-radial models. En: Original Re-
search Article Energy Economics 34(6) (2012), p. 1854–1863
[165] Sueyoshi, T. ; Goto, M.: Efficiency-based rank assessment for electric power in-
dustry: A combined use of Data Envelopment Analysis (DEA) and DEA-Discriminant
Analysis (DA). En: Original Research Article Energy Economics 34(4) (2012), p.
634–644
[166] Sueyoshi, T. ; Goto, M.: DEA environmental assessment in a time horizont: Malm-
quist index on fuel mix, electricity and CO2 industrial nations. En: Energy Economics
40 (2013), p. 370–382
[167] Syrjanen, M.J.: Non-discretionary and discretionary factors and scale in data en-
velopment analysis. En: European Journal of Operational Research 158 (2004), p.
20–33
Bibliografıa 105
[168] Tehrani, R. ; Mehragan, M.R. ; Golkani, M.R.: A model for Evaluating Financial
Performance of companies by Data Envelopment Analysis: A case of Study of 36 Cor-
porations Affiliate with a Private Organization. En: International Business Research
5 (2012), p. 8–16
[169] Thompson, R.G. ; Langemeir, L.N. ; Lee, C. ; Lee, E. ; Thrall, R.M.: The role
of multiplier bounds in efficiency analysis with application to Kansas farming. En:
Journal of Econometrics 46 (1990), p. 93–108
[170] Thore, S. ; Kozmetsky, G. ; Phillips, F.: DEA of financial statements data: the
US computer industry. En: J. Prod. Anal 5 (1994), p. 229–248
[171] Thore87, S.: Chance-Constrained Activity Analysis. En: European Journal of Ope-
rational Research 30 (1987), p. 267–269
[172] Thrall, R.M.: The lack of invariance of optimal dual solutions under translation.
En: Annals of Operations Research 66 (1996), p. 103–108
[173] Thrall, R.M.: What is the economic meaning of FDH? En: Journal of Productivity
Analysis 11 (1999), p. 243–250
[174] Tone, K.: Slack-Based Measure of Efficiency in Data Envelopment Analysis. En:
European Journal of Operational Research 130 (1997), p. 498–509
[175] Tone, K.: A Hybrid Measure of Efficiency in DEA / Japan Society for the promotion
of Science. 2004. – Informe de Investigacion. – 1–20 p.
[176] Toshiyuki, S.: Stochastic DEA for restructure strategy: An application to a Japanese
petroleum company. En: The international Journal of Management Science 28 (2000),
p. 385–398
[177] Toshiyuki, S. ; Mika, G. ; Manabu, S.: DEA window analysis for environmental
assessment in a dynamic time shift: Performance assessment of U.S. coal-fired power
plants. En: Energy Economics 40 (2013), p. 845–857
[178] Tulkens, H.: On FDH efficiency analysis: Some methodological issues and applica-
tions to retail banking, courts and urban transit. En: Journal of Productivity Analysis
4 (1993), p. 183–210
[179] Udhayakumar, A. ; Charles, V. ; Kumar, M.: Stochastic simulation based genetic
algorithm for chance constrained data envelopment analysis problems. En: Omega 39
(2011), p. 387–397
106 Bibliografıa
[180] Varabyova, Y. ; Schreyogg, J.: International comparisons of the technical effi-
ciency of the hospital sector: Panel data analysis of OECD countries using parametric
and non parametric approaches. En: Health Policy 112(1-2) (2013), p. 70–79
[181] Verbeke, G. ; Molenberghs, G.: Linear Mixed Models for Longitudinal Data. N.Y
United States : Springer, 2000
[182] Vrbik, I. ; McNicholas, P.D.: Parsimonious skew mixture models for model-based
clustering and classification. En: Computational Statistics and Data Analysis 71
(2014), p. 196–210
[183] WEI, Z. ; Peng, Z. ; Shulin, A.I.: Efficiency Evaluation of Beijing Intelligent Traffic
Management System Based on super-DEA. En: Journal of Transportation Systems
Engineering and Information Technology 12(3) (2012), p. 19–23
[184] Wilson, P.W.: Detecting influential observations in data envelopment analysis. En:
Journal of Productivity Analysis. 6 (1995), p. 27–46
[185] Wu, C.F.J.: On the convergence properties of the em algorithm. En: Annals of
Statistics 11 (1983), p. 95–103
[186] Xiong, Y. ; Yeung, D.: Time series clustering with arma mixtures. En: Pattern
Recognition 37 (2004), p. 1675–1689
[187] Yan, L. ; Gongbing, B. ; L., Liang: Input/output indicator selection for DEA ef-
ficiency evaluation: An empirical study of Chinese commercial banks. En: Research
Article Expert Systems with Applications 39 (2012), p. 1118–1123
[188] Zhu, J.: Imprecise data envelopment analysis (IDEA): A review and improvement
with an application. En: European Journal of Operational Research 144 (2003), p.
513–529
[189] Zhu, J.: Quantitative Models for Performance Evaluation and Benchmarking: Data
Envelopment Analysis with Spreadsheets, 3 ed. N.Y United States : Springer, 2003
[190] Zhu, J. ; Cook, W.D.: Modeling Data Irregularities and Structural Complexities in
Data Envelopment Analysis. N.Y U.S.A : Springer Science Series, 1977
[191] Zimmerman, D.L. ; Vicente, N. ; Hammou, E.: Computational aspects of like-
lihood based estimation of first-order antedependence models. En: Journal of Statisti-
cal Computation and Simulation 60 (1998), p. 67–84