Download - INSTITUTO TECNOLÓGICO DE CD. JUÁREZtallerdeinvestigacion.weebly.com/uploads/8/6/7/1/86718672/0... · 3.2.5 Distribución Weibull ... 5.4 Efecto del Error en la Función de Sobrevivencia

1

INSTITUTO TECNOLÓGICO DE CD. JUÁREZ

DIVISIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN

ANÁLISIS DE CONFIABILIDAD DE UN

PROCESO DE PRODUCCIÓN MEDIANTE

SIMULACIÓN WINBUGS

TESIS

QUE PRESENTA

CARLOS ARTURO ÁVILA CHÁVEZ

COMO REQUISITO PARCIAL

PARA OBTENER EL GRADO DE

MAESTRO EN CIENCIAS EN INGENIERÍA INDUSTRIAL

CD. JUÁREZ, CHIH. SEPTIEMBRE DE 2010

ii

Oficio de aprobación

iii

DEDICATORIA

Dedico el presente trabajo a mi esposa Rita quien desde un inicio me

apoyó en esta iniciativa.

A mis hijas Dania y Cynthia para que este esfuerzo sirva de motivación en

la tarea que tienen ellas de alcanzar sus metas de realización.

A mi madre, quien con su ejemplo me supo dar luz y fuerza para abrirme

paso en la vida.

iv

AGRADECIMIENTOS

Le agradezco a mi asesor Dr. Manuel Arnoldo Rodríguez Medina que me

proporcionó todo el conocimiento y apoyo para la realización de esta

investigación y al Dr. Manuel Román Piña Monarrez por sus valiosos consejos

en el seguimiento del mismo.

Agradezco la participación del Dr. Alfonso Aldape Alamillo, al Dr. Adán

Valles Chávez y al M.C. Manuel Alonso Rodríguez Morachis, como miembros

del comité de revisión de la presente investigación, así como sus valiosas

recomendaciones.

v

RESUMEN

En este trabajo se define un modelo que simule un proceso de inserción

de terminales en cajas de centrales eléctricas basado en un modelo estadístico

Bayesiano en el que se aplica el Modelo de Riesgo Proporcional de Cox

modificado. Esto permitirá pronosticar el comportamiento del sistema a largo

plazo y determinar por anticipado los ajustes necesarios para la optimización del

período de vida de los sujetos en observación.

Este trabajo está estructurado bajo las siguientes secciones. En el

capítulo uno se proporciona una breve introducción de la investigación realizada.

En el capítulo dos se establecen las causas de la presente investigación. Se

define el problema, se establecen los objetivos, se plantean las hipótesis lo

mismo que la justificación y la delimitación del problema.

En el capítulo tres se contribuye al marco teórico con distribuciones de

probabilidad de tiempo de vida, elementos de análisis Bayesiano aplicado

mediante el software WinBugs® tales como verosimilitud, asignación de

distribuciones previas, algoritmo del modelo de Monte Carlo y Cadenas de

Markov, modelo de muestreo de Metropolis-Hastings, modelo de muestreo de

Gibbs, pruebas de vida acelerada y degradación.

En el capítulo cuatro se describe el desarrollo aplicado de las bases

teóricas vistas previamente. Se menciona la metodología seguida en la

aplicación del software Winbugs® en el ejemplo considerado como un método de

vi

inferencia Bayesiana. En el capítulo cinco se plantea el análisis de los resultados

obtenidos sobre una base comparativa de los métodos aplicados e igualmente

se mencionan las inferencias resultantes de este análisis. En el capítulo seis se

describen las conclusiones de esta investigación y las recomendaciones que

puedan servir de base a futuras investigaciones.

vii

ÍNDICE DE CONTENIDO

DEDICATORIA .................................................................................................... iii

AGRADECIMIENTO ............................................................................................ iv

RESUMEN ........................................................................................................... v

ÍNDICE DE CONTENIDO ................................................................................... vii

LISTA DE TABLAS............................................................................................. xii

LISTA DE FIGURAS ......................................................................................... xiii

CAPÍTULO

1. INTRODUCCIÓN ........................................................................................ 1

2. PLANTEAMIENTO DEL PROBLEMA .......................................................... 4

2.1 Definición del Problema ..................................................................... 5

2.2 Objetivos ........................................................................................... 6

2.3 Preguntas de Investigación ............................................................... 7

2.4 Hipótesis ........................................................................................... 7

2.5 Justificación del Problema ................................................................. 8

2.6 Delimitación del Problema ............................................................... 11

3. MARCO TEÓRICO .................................................................................... 13

3.1 Estadística del Muestreo ................................................................. 13

viii

3.1.1 La Distribución de la Media .................................................... 15

3.1.2 Teorema del Límite Central .................................................... 16

3.1.3 Muestreo de una Distribución Muestral .................................. 20

3.2 Distribuciones de Tiempo de Vida para la Descripción

de Confiabilidad ............................................................................... 23

3.2.1 Distribución Normal ................................................................ 23

3.2.2 Distribución Gama ................................................................. 27

3.2.3 Distribución Exponencial ........................................................ 31

3.2.4 Distribución Log-Normal......................................................... 35

3.2.5 Distribución Weibull ............................................................... 39

3.2.6 Distribución Beta .................................................................... 43

3.3 Datos de Degradación ..................................................................... 45

3.3.1 Modelos para Datos de Degradación ..................................... 46

3.3.1.1 Degradación Lineal .................................................... 47

3.3.1.2 Degradación Convexa ................................................ 47

3.3.1.3 Degradación Cóncava ................................................ 48

3.3.2 Modelo del Camino de Degradación General ......................... 49

3.3.3 Estimación de los Parámetros del Modelo de Degradación ... 50

3.3.4 Análisis de Degradación Aproximada..................................... 51

3.4 Pruebas de Vida Acelerada ............................................................. 53

3.4.1 Aceleración Verdadera........................................................... 54

3.4.2 Distribuciones de Aceleración y Falla Física .......................... 56

ix

3.4.2.1 Distribución Exponencial ............................................. 56

3.4.2.2 Distribución Weibull ..................................................... 57

3.4.2.3 Distribución Log-Normal .............................................. 59

3.4.2.4 Distribución Gama ...................................................... 60

3.4.3 Modelos de Aceleración ......................................................... 61

3.4.3.1 Modelo de Arrhenius ................................................... 61

3.4.3.2 Modelo de Eyring ........................................................ 63

3.5 Modelo Lineal Generalizado ............................................................ 64

3.5.1 Concepto de Modelo Lineal Generalizado ............................. 64

3.5.2 Curvas de Crecimiento Exponencial ...................................... 67

3.5.3 Modelo de Riesgo Proporcional ............................................. 68

3.6 Modelo de Riesgo Proporcional de Cox .......................................... 69

3.6.1 Estimación de los Coeficientes de Regresión ..................... 72

3.6.2 Verosimilitud Parcial para Distintos Tiempos de Falla ............ 72

3.6.3 Verosimilitud Parcial para Datos con Tiempos de Falla

Amarrados ............................................................................. 74

3.6.4 Estimación de las Funciones de Riesgo y Sobrevivencia ....... 75

3.6.5 Pruebas de Hipótesis ............................................................. 75

3.6.6 Pruebas de Wald ................................................................... 76

3.7 Modelo de Monte Carlo ................................................................... 76

3.7.1 Orígenes del Método ............................................................... 77

3.7.2 Planteamiento Matemático del Método de Monte Carlo .......... 78

x

3.8 Modelo de Metrópolis-Hastings ....................................................... 80

3.9 Algoritmo de Gibbs .......................................................................... 84

3.10 Software WinBUGS® ....................................................................... 86

3.10.1 Descripción del Uso del Software WinBUGS® ...................... 87

3.11 Software R....................................................................................... 90

4. MATERIALES Y MÉTODOS ..................................................................... 94

4.1 Introducción ..................................................................................... 94

4.2 Antecedentes .................................................................................. 95

4.3 Análisis Bayesiano del Modelo de Riesgo Proporcional ................ 103

4.3.1 Procedimientos Bayesianos no Paramétricos ....................... 103

4.3.2 Estimación de β en el Modelo de Riesgo Proporcional .......... 105

4.3.3 Distribución Posterior de la Función de Sobrevivencia .......... 108

4.4 Manejo del Software WinBUGS® ................................................... 111

4.4.1 Estructura del Modelo y Datos .............................................. 112

4.4.2 Distribuciones Comúnmente Usadas en WinBUGS® ............. 114

4.4.3 Funciones Comúnmente Usadas en WinBUGS®................... 114

4.4.4 Compilando y Ajustando un Modelo en WinBUGS® .............. 115

4.4.5 Respuesta y Monitoreo en WinBUGS® .................................. 116

4.4.6 Programas WinBUGS de las Distribuciones Previas ............. 119

5. ANÁLISIS DE RESULTADOS ................................................................. 120

5.1 Estimación de los Coeficientes de Regresión β ............................. 120

5.2 Estimación del Error ...................................................................... 124

xi

5.3 Estimación del Comportamiento del Riesgo Base Acumulado ...... 125

5.4 Comparación de Datos ................................................................. 127

6. CONCLUSIONES Y RECOMENDACIONES .......................................... 133

APÉNDICE

A PROGRAMAS WinBUGS® PARA LA DETERMINACIÓN DE

PARÁMETROS EN LA MODELACIÓN BAYESIANA .............................. 136

BIBLIOGRAFÍA .............................................................................................. 140

xii

LISTA DE TABLAS

Tabla Página

4.1 Variables Significativas del Proceso de Maquinado ..................................... 95

4.2 Datos del Diseño de Experimentos.............................................................. 96

4.3 Análisis de Varianza de los Datos del Proceso de Maquinado .................... 97

4.4 Datos del Proceso Histórico ........................................................................ 98

4.5 Prueba de Bondad de Ajuste de los Datos Históricos .................................. 99

4.6 Estimación de Confiabilidad del DOE de Tiempo de Falla ......................... 100

4.7 Análisis de Varianza del Modelo de Regresión .......................................... 101

4.8 Tabla de Resultados "Node Statistics" ...................................................... 118

5.1 Resultados Obtenidos de los Parámetros beta0, beta1, beta2 y BZmed ... 123

5.2 Resultados Generados de los Parámetros error, alpha y beta................... 125

5.3 Tabla de Resultados Generados de los Parámetros L0, R192 y Sobrev ... 125

5.4 Efecto del Error en la Función de Sobrevivencia ...................................... 131

xiii

LISTA DE FIGURAS

Figura Página

3.1 Distribución de Probabilidad Alrededor de la Media en una

Distribución N(μ,σ) ....................................................................................... 24

3.2 Función de Densidad de Probabilidad Normal f(t) con μ=2.5 ...................... 25

3.3 Función de Probabilidad de Falla Normal F(t) con μ=2.5 ............................ 26

3.4 Función de Sobrevivencia Normal R(t) con μ=2.5 ....................................... 26

3.5 Función de Razón de Falla Normal (t) con μ=2.5 ....................................... 27

3.6 Función de Densidad de Probabilidad Gama f(t) con =1 ........................... 30

3.7 Función de Probabilidad de Falla Gama F(t) con =1 ................................ 30

3.8 Función de Densidad de Probabilidad Exponencial f(t) ............................... 33

3.9 Función de Probabilidad de Falla Exponencial F(t) ...................................... 34

3.10 Función de Confiabilidad Exponencial R(t) ................................................ 34

3.11 Función de Razón de Falla Exponencial (t) ............................................. 35

3.12 Función de Densidad de Probabilidad Log-Normal f(t) con =0 y β=1 ...... 36

3.13 Función de Densidad de Probabilidad Weibull f(t) con =1y t0=0 ............. 41

3.14 Función de Probabilidad de Falla Weibull F(t) con =1y t0=0 ................... 41

xiv

3.15 Función de Confiabilidad Weibull R(t) con =1y t0=0 ................................ 42

3.16 Función de Riesgo de Falla Weibull (t) con =1y t0=0 ............................ 42

4.1 Ventana de "Specification Tool" ............................................................... 115

4.2 Ventana de "Sample Monitor Tool" ........................................................... 117

4.3 Ventana de "Update Tool" ........................................................................ 117

4.4 Botones Activados de la Ventana de "Sample Monitor Tool" .................... 118

4.5 Gráfico de Densidad de la Variable beta .................................................. 118

5.1 Gráfica de Traza de beta0 ........................................................................ 120



5.4 Gráfica de la Historia del Parámetro beta0 ............................................... 121



5.7 Gráfica de Densidad del Parámetro beta0 ................................................ 122



5.10 Gráfica de Densidad del error ................................................................. 124

5.11 Gráfica de la Historia del error ................................................................ 124

5.12 Gráfica de Traza del Parámetro L0 ......................................................... 126

5.13 Gráfica de Traza del Parámetro Sobrev ................................................. 126

5.14 Gráfica de la Historia del Parámetro L0 .................................................. 126

5.15 Gráfica de la Historia del Parámetro Sobrev ........................................... 127

xv

5.16 Gráfica de Densidad del Parámetro L0 ................................................... 127

5.17 Gráfica de Densidad del Parámetro Sobrev ........................................... 127

1

1. INTRODUCCIÓN

Es de suma importancia en el área de la industria de manufactura el

evaluar la calidad de los productos en términos de su funcionalidad o

durabilidad. El control de la calidad de estos productos mediante técnicas

matemáticas, inicia en 1924 con el desarrollo de los gráficos de control

estadístico por Walter A. Shewart (Montgomery, 1997), y así ha continuado

hasta nuestros días. Estas técnicas y sus aplicaciones han permitido evaluar y

mejorar la calidad de los productos lo mismo que sus sistemas de fabricación

aumentando la productividad con más bajo costo.

El interés por desarrollar técnicas matemáticas para evaluar el período de

vida de un producto y mejorar su durabilidad o calidad, ha dado nacimiento a la

ingeniería de confiabilidad. En ella, la confiabilidad es usada para significar la

probabilidad en que un sistema realizará su función propuesta por un intervalo

de tiempo específico bajo condiciones establecidas (Ramakumar, 1993). La

estadística matemática se apoya en la teoría del muestreo para procesar los

datos y determinar el grado de confiabilidad que el sistema de estudio pueda

tener.

En algunos casos, los estudios a realizar implican la obtención de una

cantidad definida de datos muestrales para analizarlos estadísticamente y

establecer así los estimadores requeridos de confiabilidad. La fabricación de

productos actualmente es muy diversa, y no siempre se contará con las

condiciones ideales para la obtención total de los datos requeridos. En muchos

2

casos la obtención de datos es limitada por la aplicación de pruebas destructivas

del producto, en especial, si el producto final es de alto costo, o bien si la prueba

exige un largo período de tiempo.

Para darle una solución a las situaciones arriba mencionadas, se han

desarrollado métodos de inferencia estadística a través de la teoría del

muestreo. Una pequeña base de datos servirá de apoyo para procesarla y

obtener los resultados deseados sin tener que invertir mucho en recursos

materiales o en largos períodos de tiempo. Este procesamiento de datos

involucra técnicas de simulación, diseño de experimentos, funciones de

verosimilitud y la aplicación de modelos de riesgo y de probabilidad entre otros.

La temática de este trabajo considera casos donde se aplica el análisis de

sobrevivencia, o el comportamiento que se presenta en el tiempo cuando ocurre

un evento como una falla catastrófica. Los modelos de sobrevivencia consideran

los efectos que tienen las variables implicadas sobre la razón de riesgo en su

conjunto creando un efecto multiplicativo. Se considera para este trabajo la

aplicación del modelo de riesgo proporcional de Cox (1972).

En esta investigación se aplican los análisis estadísticos convencionales

partiendo de una muestra y ajustando su comportamiento a una distribución de

probabilidad ya conocida. También se aplicarán análisis estadísticos de

inferencia Bayesiana sobre los mismos datos.

El enfoque Bayesiano aplicado a la inferencia estadística, está

principalmente sustentado por principios axiomáticos. El proceso inicia con un

modelo de muestreo postulado a ser considerado tentativamente. Una

distribución de probabilidad previa también es postulada para aquellos

parámetros desconocidos en el modelo de muestreo asumido. Los datos de

muestra y la distribución previa son combinados por el uso del Teorema de

3

Bayes. El razonamiento deductivo es entonces usado en combinación con la

distribución posterior resultante para producir las inferencias deseadas sobre los

parámetros del modelo de muestreo asumido (Martz y Waller, 1982).

En la siguiente investigación, se analiza el modelo de Cox bajo la

perspectiva de la estadística Bayesiana con el mismo modelo pero ajustado por

un elemento de error adicional (Rodríguez, 2007). Se aplica la técnica sobre el

caso de manufactura estudiado por Arredondo (2005), para evaluar los

resultados de este método respecto al análisis muestral tradicional.

La investigación se sustenta en el experimento de un sistema de inserción

de terminales en cajas centrales eléctricas aplicando métodos estadísticos

tradicionales y se utilizan sus resultados como elementos de comparación con

los resultados del modelo de simulación implementado mediante el software

WinBUGS®. Se evalúan los elementos conocidos del medio ambiente

operacional y aquellas fuentes desconocidas de variación que tienen un efecto

directo sobre el nivel de riesgo del proceso.

4

2. PLANTEAMIENTO DEL PROBLEMA

En la actualidad el enfoque de formación académica en las áreas físico-

matemáticas está orientado a aplicar el uso de fórmulas en base a datos

iniciales proporcionados. La experiencia en el desarrollo de la razón aplicada a

cuestiones estadísticas se limita a someter una serie de datos en fórmulas y en

crear gráficos que ayuden a interpretar los resultados obtenidos facilitando la

toma de decisiones.

Los resultados obtenidos mediante diversas técnicas de aplicación

estadística han proporcionado un sólido avance en varias áreas como en la

medicina, la psicología, la ingeniería y la sociología entre otros. Sin embargo, a

pesar de los resultados obtenidos, estas técnicas no han considerado la

experiencia del investigador o del experto en sus aplicaciones directas. La

metodología se apoya únicamente en lo que los datos puedan aportar y por lo

tanto, quedar limitados a ello.

La aplicación directa de los datos limita al proceso del pensamiento a

depender de dicha aplicación y no considerando otros atributos disponibles en la

solución de un problema como lo pueden ser los conocimientos históricos, la

intuición del experto o el conocimiento a profundidad de los principios del

sistema que da origen a los datos utilizados. Tal situación es tratada y resuelta

mediante la estadística Bayesiana lo que permite ampliar el horizonte de

posibilidades de solución o mostrar nuevas alternativas de acción superando así

las limitaciones presentadas por la estadística tradicional de la teoría del

muestreo.

5

Por otro lado, la inferencia probabilística es un enfoque atractivo para el

aprendizaje empírico en la inteligencia artificial. Problemas relacionados con

dificultades computacionales se han abordado usando métodos como Monte

Carlo simulación basado en muestreo usando cadenas de Markov,

proporcionando varias técnicas que pueden ser aplicadas en problemas de

inteligencia artificial. El algoritmo de Metropolis ha sido usado para resolver

problemas complejos de física estadística por más de cincuenta años y después

el método derivado de muestreo de Gibbs ha sido aplicado a problemas de

inferencia estadística. Así, los modelos mencionados se aplican mediante el uso

del software WinBugs® en problemas de inferencia estadística Bayesiana como

es el caso presentado en esta investigación.

Actualmente no hay muchos ingenieros especialistas en la aplicación de

la estadística Bayesiana y aún quedan muchos campos por ser investigados tras

la óptica de esta especialidad. Por lo tanto, es necesario ampliar e implementar

nuevas técnicas y modelos matemáticos que aporten nuevas opciones de

respuesta que, en esta investigación, se aplica a problemas de confiabilidad.

2.1 Definición del Problema

Los modelos de distribución paramétrica aplicados a los procesos de

tiempo de falla han permitido, pronosticar, controlar, simular y mejorar los

sistemas y variables que afectan la confiabilidad de un producto. Entre éstos

modelos podemos mencionar la distribución exponencial, la distribución log-

normal o la distribución Weibull como los más apropiados en su aplicación para

evaluar la variación del riesgo de falla o la supervivencia del objeto respecto del

tiempo.

6

Sin embargo, estos modelos por sí mismos no integran la aplicación de

los conocimientos previos que un experto tiene tanto del problema como de las

condiciones del ambiente operacional, por lo que no permiten una simulación

que pueda replicarse y aplicarse en el ambiente de trabajo con exactitud.

Tampoco ofrecen adecuadas alternativas de solución si dependen de muchos

datos de muestra y resulta difícil, costoso, o inadecuado contar con esos datos o

si el proceso corre con un sistema de cero fallas como sucede en la industria

aeroespacial.

Esta investigación aborda el problema específico de considerar una

metodología para resolver problemas de confiabilidad mediante técnicas de

inferencia semi-paramétrica Bayesiana en simulación aplicada que atienda

condiciones especiales que bajo la perspectiva de la estadística tradicional

resultan limitados o inadecuados.

2.2 Objetivos

Los objetivos que se persigue cumplir en la presente investigación al

implementar un método alternativo de solución de problemas de confiabilidad se

presentan a continuación.

1) Con la aplicación de este modelo, se busca evaluar los cambios en los

límites de confianza de la distribución de sobrevivencia del análisis muestral

con respecto a la estimación de la población considerando elementos de

error no estimados, mediante la aplicación de modelos replicables de

simulación de muestras.

7

2) Establecer la diferencia en porcentaje de las predicciones y pronósticos de

falla obtenidos mediante la aplicación de los métodos tratados.

3) Evaluar los estimadores de confiabilidad obtenidos por el método de la

teoría de la inferencia Bayesiana para establecer sugerencias de respuesta

al comportamiento de falla del estimador poblacional.

2.3 Preguntas de Investigación

Las preguntas generales de investigación son las siguientes:

1. ¿Es posible simular el comportamiento de riesgo de falla de la muestra

para estimar el comportamiento del riesgo de la población?

2. ¿El rango de variación de la función de sobrevivencia es menor en

relación al modelo inicial después de ser simulado?

3. ¿El efecto del error en el modelo de riesgo proporcional incrementa el

nivel de riesgo en un 20%?

4. ¿Se pueden establecer supuestos en el modelo de simulación sobre el

comportamiento de los coeficientes de regresión, el error aleatorio y el riesgo

base acumulado?

5. ¿El modelo desarrollado permite estimar los parámetros de función de

falla para el proceso estudiado?

2.4 Hipótesis

Se presenta enseguida las hipótesis planteadas en la presente

investigación al considerar un modelo de simulación del sistema junto con un

8

elemento de error derivado de factores desconocidos en el modelo de riesgo

proporcional. Las hipótesis propuestas son:

H0: El comportamiento de riesgo de falla del proceso derivado del análisis

de la muestra puede ser simulado para conocer el comportamiento de riesgo del

proceso de la población.

H0: El rango de variación de la función de sobrevivencia es menor en un

10% respecto a su valor inicial al aplicar el modelo simulado con el elemento de

error integrado.

H0: El efecto del error en el modelo de riesgo proporcional aumenta el

nivel de riesgo del sistema en un 20%.

H0: El enfoque Bayesiano del modelo de simulación involucra información

subjetiva sobre el riesgo base acumulado, el comportamiento lineal de las

variables significantes y sobre el error aleatorio asignado a otras fuentes de

variación.

H0: El nuevo modelo desarrollado permite estimar los parámetros de

función de falla para el análisis de vida de las partes producidas por el sistema

en estudio.

2.5 Justificación del Problema

Con el surgimiento de la actividad industrial se han creado elementos de

control que ayuden tanto al sistema de producción como al producto terminado a

mejorar su calidad. Podemos definir calidad como la capacidad que tiene un

producto de cumplir con las funciones para las que fue fabricado. Este concepto

9

ha sido fundamental en el marco de la competitividad industrial y de la

preferencia del consumidor.

Es por ello que se han enfocado muchos esfuerzos en realizar trabajos de

investigación con miras a mejorar los estándares de calidad. El recurso sobre el

que se sustenta la medición y control de la calidad es la estadística matemática.

Actualmente la ciencia estadística abarca la ciencia de basar las inferencias

sobre los datos observados y la totalidad del problema de tomar decisiones en

presencia de la incertidumbre (Freund y Miller, 1999).

La estadística moderna puede proporcionar el marco de referencia para

examinar estas situaciones que implican incertidumbres en forma lógica y

sistemática. Existen dos ramas principales en el estudio de la estadística: la

descriptiva y la inferencial (Downing y Clark, 1983).

La estadística descriptiva es el proceso de obtener información

significativa de grupos de números o datos. La estadística de inferencias es el

proceso de obtener información de un grupo mayor o población partiendo del

estudio de un grupo menor o muestra. Ambas partes constituyen el cuerpo de la

estadística matemática. Un nuevo brote de aplicación surge de las ideas del

Rev. Thomas Bayes (1702-1761), mismo que son usadas como referencia en los

trabajos de Lindley (1965) y Savage (1954), dando nacimiento a la estadística

Bayesiana.

El apoyo que se tiene sobre los sistemas computacionales para efectuar

cálculos matemáticos se ha desenvuelto en un nivel cada vez mayor desde la

aparición de la primera máquina de cómputo a mediados del siglo pasado. Estas

máquinas han sido de gran ayuda para el científico y el investigador al

programar los modelos matemáticos o algoritmos y validando su replicabilidad.

Una encuesta llevada a cabo coloca al algoritmo de Metrópolis de entre los diez

10

algoritmos que han tenido la mayor influencia en el desarrollo y práctica de la

ciencia y la ingeniería en el siglo veinte (Beichl y Sullivan, 2000). Este algoritmo

es un ejemplo de una clase más grande de algoritmos de muestreo, conocidos

como Monte Carlo y Cadenas de Markov. Estos algoritmos han jugado un papel

muy significativo en estadísticas, econometría, física y ciencia computacional

durante las dos últimas décadas. En los últimos años, el método relacionado de

muestreo de Gibbs ha sido aplicado a problemas de inferencia Bayesiana.

El entendimiento y uso de estos modelos matemáticos, y su aplicación en

tópicos de estadística Bayesiana, ha sido limitado en cuanto a su integración en

los programas de formación profesional en el área de la ingeniería.

En el sistema de formación académica en México, la instrucción sobre

matemáticas está totalmente sustentada en el sistema de la estadística

matemática. Desde los primeros usos de la aritmética en la educación elemental,

pasando por el manejo algebraico y el manejo de técnicas más complejas en la

educación media y superior encontramos que el único enfoque aplicado radica

en conocer y manejar las fórmulas de estudio. El desarrollo de la capacidad de

trabajar con inferencias matemáticas es limitado. Es en este punto en que se

hace evidente que la difusión y la relevancia del estudio del enfoque estadístico

Bayesiano son bajos en el contexto del plan educativo actual en México.

Al implementar un esfuerzo en dar a conocer estas nuevas técnicas de

trabajo probabilístico, se contará con más elementos de respuesta ante

condiciones nuevas o de excesivo control. Ello es producto de una industria que

es más demandante en cumplir estándares de calidad muy exigentes.

El desarrollo industrial que empiezan a tener las empresas de

manufactura de artículos médicos o productos para el área aeroespacial en la

región, solicitan altos estándares de control y calidad. Sus sistemas de

11

producción lo mismo que sus productos son costosos y el seguimiento de las

normas de calidad y producción se pueden ver muy favorecidas por la aplicación

de métodos estadísticos de inferencia Bayesiana. La especialización de la

industria exige un mayor nivel de desarrollo profesional en el personal

involucrado.

En la presente investigación se plantea una nueva metodología que

permita al ingeniero contar con una herramienta más efectiva en la aplicación de

estándares de control para mejorar el período de vida del producto atendiendo a

condiciones especiales de manufactura.

2.6 Delimitación del Problema

La aplicación de los métodos analizados toma sus datos de un proceso

de manufactura en el que una máquina inserta terminales eléctricas de un

producto. Se evalúan las condiciones de operación de la máquina para detectar

las variables que inciden directamente sobre el comportamiento de falla del

producto terminado (Arredondo, 2005).

Los estudios realizados se limitan a las características del medio

productivo arriba mencionados aunque el enfoque principal radica en la

aplicación del método Bayesiano con miras a evaluar el período de vida del

producto con medidas de control ajustadas.

La simulación de los modelos matemáticos de muestreo se aplica sólo al

uso del software WinBugs® con sus respectivas limitaciones propias del

programa.

12

Se consideran únicamente funciones de probabilidad aplicadas a

problemas de período de vida y al modelo de riesgo proporcional de Cox.

13

3. MARCO TEÓRICO

En este capítulo se describen los conceptos fundamentales que sustentan

este trabajo de investigación. Se incluye los temas de muestreo y las

distribuciones de período de vida más comunes de aplicación en la ingeniería de

confiabilidad. También se tratan los temas de degradación y pruebas de vida

acelerada, modelo lineal generalizado, modelo de riesgo proporcional de Cox y

finalmente aquellos temas relacionados con la simulación de modelos como el

modelo de Monte Carlo Cadenas de Markov, el modelo de Metrópolis-Hastings y

el modelo de muestreo de Gibbs, terminando con una breve semblanza de los

softwares WinBUGS® y R.

3.1 Estadística del Muestreo

La estadística se ocupa principalmente de las conclusiones y predicciones

provenientes de los resultados fortuitos que ocurren en experimentos o

investigaciones cuidadosamente planeadas. En el caso finito, esos resultados

fortuitos constituyen un subconjunto, o muestra, de las mediciones u

observaciones de un conjunto mayor de valores llamado población o población

infinita muestreada. La palabra "infinita" implica que, hablando en forma lógica,

no hay límite al número de valores que podrán observarse.

Se establece como una suposición que las muestras se prestan a

generalizaciones válidas sobre la población de donde vinieron aunque en la

realidad no siempre es así. La mayoría de los métodos de inferencia se basan

en la suposición de se que está tratando con muestras aleatorias. En la práctica

14

se trata con muestras aleatorias de poblaciones finitas, pero suficientemente

grandes para tratarse como si fueran infinitas.

La aleatorización es la piedra angular que subyace bajo el uso de los

métodos estadísticos. Por aleatorización se entiende que la selección de los

elementos de muestra son determinados aleatoriamente. Los métodos

estadísticos requieren que las muestras aleatorias sean independientemente

distribuidas, de este modo, eliminamos los efectos de factores no pertinentes

que puedan estar presentes.

Como definición de muestra aleatoria se tiene:

Si son variables aleatorias independientes y distribuidas en

forma idéntica, se dice que constituyen una muestra aleatoria de la población

infinita dada su distribución común.

Si es el valor de la distribución conjunta de un conjunto tal

de variables aleatorias en , podemos escribir

donde es el valor de la distribución de la población en .

Las inferencias se basan en los datosestadísticos, esto es, en variables

aleatorias que son funciones de un conjunto de variables aleatorias

que constituyen una muestra aleatoria. Ejemplos de estándares estadísticos son

la media de la muestra y la varianza de la muestra.

Si constituyen una muestra aleatoria entonces la media de la

muestra se define por

(3.1.1)

y la varianza de la muestra queda definida por

(3.1.2)

15

Estas definiciones sólo se aplican a muestras aleatorias, pero la media de

la muestra y la varianza de la muestra se pueden definir de la misma manera

para cualquier conjunto de variables aleatorias

Es común aplicar los mismos términos a los valores de las variables

aleatorias en vez de las variables aleatorias en sí. Así se podría calcular

Para los datos observados de la muestra y referirse a estas estadísticas como la

media de la muestra y la varianza de la muestra.

3.1.1 La Distribución de la Media

Puesto que los datos muestrales son variables aleatorias, sus valores

variarán de muestra a muestra y es costumbre referirse a sus distribuciones

como distribuciones de muestreo. Primero se hará mención de la distribución de

muestreo de la media partiendo de algunas suposiciones:

Si constituyen una muestra aleatoria de una población infinita

con la media y la varianza , entonces

Demostración.- Haciendo y basados en el siguiente teorema: Si son

variables aleatorias y donde son constantes, entonces

y haciendo , se obtiene

(3.1.3)

puesto que Entonces se concluye que

(3.1.4)

16

Se acostumbra escribir como y como y referirse a

como el error estándar de la media. La fórmula para el error estándar de la

media, muestra que la desviación estándar de la distribución de ,

disminuye cuando , el tamaño de la muestra, se aumenta. Esto implica que

cuando se vuelve mayor podemos esperar valores de más cercanos a , la

cantidad que se propone estimar. Haciendo referencia al teorema de

Chebyshev, esto se puede expresar de la siguiente manera:

Para cualquier constante positiva , la probabilidad de que asumirá un

valor entre y es cuando menos

Cuando , esa probabilidad se aproxima a 1.

3.1.2 Teorema del Límite Central

El teorema del límite central es uno de los teoremas más importantes de

la estadística y tiene que ver con la distribución límite de la media estandarizada

de variables aleatorias cuando .

Si constituye una muestra aleatoria de una población infinita

con la media , y la varianza y la función generatríz de momentos ,

entonces la distribución límite de

(3.1.5)

conforme es la distribución normal estándar.

Para demostrar el teorema del límite central se necesita de funciones

generadoras de momentos. Primero se demostrará el lema concerniente a la

esperanza matemática:

17

Si y son variables aleatorias independientes, y y son funciones,

entonces .

Prueba: Si y son variables continuas aleatorias y

es su función de densidad conjunta, entonces

La demostración del teorema de límite central se apoya en otro lema:

Sea sea una secuencia infinita de variables aleatorias, la

función de distribución acumulada y la función de generación de momento .

Sea una variable aleatoria con distribución acumulada y la función de

generación de momento . Entonces si para toda ,

entonces para toda donde es continua. Esto es, si la

secuencia de las funciones generadoras de momento convergen en un límite

particular, entonces las correspondientes funciones de distribución acumuladas

deben converger al límite correspondiente.

Asumiendo que este lema sea verdadero, entonces se necesita demostrar

que si

entonces

(3.1.6)

Hay que tener en mente que es la función generadora de momento

para la distribución normal estándar.

Primero se asume que y . Entonces

18

Dado que todas las tienen distribuciones idénticas, podemos permitir

que sea su función común generadora de momento. Entonces

y

(3.1.7)

Ahora se expande como una serie de Taylor.

es el término residual de tercer orden, y / .

Luego, ya que , se tiene:

(3.1.8)

(3.1.9)

Sea

Por la regla de L'Hôpital, luego

19

(3.1.10)

Sea .

y

(3.1.11)

Esta es la función generadora de momento para la distribución normal

estándar.

Si cada no tiene establecer ; luego

(3.1.12)

20

3.1.3. Muestreo de una Distribución Normal

Suponga que es una variable aleatoria normalmente distribuida con

media y varianza . Si es una muestra aleatoria de tamaño de

este proceso, entonces la distribución de la media de la muestra es .

Esto sigue directamente de los resultados en la distribución de combinaciones

lineales de variables aleatorias normales.

Esta propiedad de la media de la muestra no está restringida

exclusivamente para el caso de muestreo de poblaciones normales. Advierta

que podemos escribir

(3.1.13)

Del teorema del límite central se sabe que, a pesar de la distribución de la

población, la distribución de es aproximadamente normal con media y

varianza . Por lo tanto, a pesar de la distribución de la población, la

distribución de la muestra de la media de la muestra es aproximadamente

Una distribución de muestreo importante definida en términos de una

distribución normal es la distribución chi-cuadrada o distribución X2. Si

son variables aleatorias independientes normalmente distribuidas

con media cero y varianza uno, entonces la variable aleatoria

es distribuida como chi-cuadrada con grados de libertad. La distribución de

probabilidad de la chi-cuadrada es

(3.1.14)

21

Para ilustrar el uso de la distribución chi-cuadrada, supongamos que

es una muestra aleatoria de una distribución . Entonces la

variable aleatoria

(3.1.15)

tiene una distribución chi-cuadrada con grados de libertad. Sin embargo,

usando la ecuación (3.1.2) se puede redefinir la ecuación (3.1.15) como

(3.1.16)

Esto es, la distribución de la muestra de es cuando se

toma la muestra de una distribución normal.

Otra distribución de muestreo útil es la distribución t. Si y son

normales estándar independientes y variables aleatorias chi-cuadrado,

respectivamente, entonces la variable aleatoria

(3.1.17)

es distribuida como con grados de libertad. La distribución de probabilidad de

es

(3.1.18)

y la media y la varianza de son y para ,

respectivamente. Los grados de libertad para son los grados de libertad

asociados con la variable aleatoria chi-cuadrado en el denominador de (3.1.17).

Cuando , la distribución se reduce a la distribución normal estándar.

Como un ejemplo de una variable aleatoria que está distribuida como ,

suponga que es una muestra aleatoria de una distribución .

Si y son calculadas de este ejemplo, entonces

22

(3.1.19)

usando el hecho de que . Consecuentemente, la variable aleatoria

(3.1.20)

La última distribución de muestreo basada en el proceso normal es la

distribución F. Si y son dos variables aleatorias independientes chi-

cuadrado con y grados de libertad, respectivamente, entonces la razón

(3.1.21)

es distribuida como con grados de libertad en el numerador y grados de

libertad en el denominador, entonces la distribución es

(3.1.22)

Como un ejemplo de una variable aleatoria que es distribuida como ,

supongamos que tenemos dos procesos normales independientes, digamos

, y . Sea una variable aleatoria de

observaciones del primer proceso normal y sea una muestra

aleatoria de tamaño de la segunda. Si y son las varianzas de las

muestras, entonces las razón

(3.1.23)

23

Esto se deriva directamente de la distribución de muestreo de

mencionada anteriormente. La distribución será usada para hacer inferencias

sobre las varianzas de dos distribuciones normales.

3.2 Distribuciones de Tiempo de Vida para la Descripción de

Confiabilidad

El comportamiento de falla puede ser representada gráficamente con

varias funciones. Lo que resulta de interés es ver cuál curva tienen estas

funciones para un caso específico y como describirlas matemáticamente. La

distribución normal es la más aceptada ampliamente. Sin embargo, pocas veces

es usada en ingeniería de confiabilidad. La distribución exponencial es usada a

menudo en ingeniería eléctrica, mientras que la distribución Weibull es la

distribución de tiempo de vida más común usada en ingeniería mecánica. La

distribución Log-normal es usada ocasionalmente en la ciencia de los materiales

y en ingeniería mecánica.

3.2.1 Distribución Normal

Como un modelo de variabilidad, la distribución normal tiene una larga

historia en el uso de muchas áreas de aplicación. Esto se debe a la simplicidad

de la teoría de la distribución normal y al teorema del límite central. El teorema

del límite central establece que la distribución de la suma de un número grande

de cantidades aleatorias independientes e idénticamente distribuidas tiene,

aproximadamente, una distribución normal.

En el análisis de datos de confiabilidad, el uso de la distribución normal,

es menos común. La distribución normal ha probado ser una distribución útil

24

para ciertos datos de vida cuando μ > 0 y el coeficiente de variación ( σ / μ ) es

pequeño. Algunos ejemplos incluyen dispositivos con filamentos eléctricos

(como los focos de luz incandescente y elementos de calentado en tostadoras),

y la fuerza en lazos de alambre en circuitos integrados (el componente de fuerza

es a menudo una medida sustituta fácil de obtener como un indicador de

confiabilidad eventual). También la distribución normal es a menudo un modelo

útil para los logaritmos de tiempos de falla.

Enseguida se enumeran algunas de las propiedades más esenciales si

bien la mayoría de estas propiedades son conocidas. Se enumeran del siguiente

modo:

1. Es simétrica respecto de su media μ (Véase figura 3.1);

Figura 3.1 Distribución de probabilidad alrededor de la media en una distribución

,N.

2. La moda y la mediana son ambas iguales a la media μ;

3. Los puntos de inflexión de la curva se dan para x = μ - σ y x = μ + σ.

4. Distribución de probabilidad en un entorno de la media:

a. En el intervalo [ μ-σ, μ+σ ] se encuentra comprendida,

aproximadamente, el 68.26% de la distribución;

25

b. En el intervalo se encuentra, aproximadamente, el

95.44% de la distribución;

c. Por su parte, en el intervalo se encuentra

comprendida, aproximadamente, el 99.74% de la distribución. Estas

propiedades son de gran utilidad para el establecimiento de intervalos

de confianza. Por otra parte, el hecho de que prácticamente la

totalidad de la distribución se encuentre a tres desviaciones típicas de

la media justifica los límites de las tablas empleadas habitualmente en

la normal estándar.

Las funciones de confiabilidad de la distribución normal estándar se

definen por las ecuaciones siguientes con correspondientes figuras (Ver figuras

3.2 a 3.5):

Función de densidad de probabilidad

(3.2.1)

Figura 3.2 Función de densidad de probabilidad normal f(t) con μ=2.5

26

Función de probabilidad de falla

(3.2.2)

Figura 3.3 Función de probabilidad de falla normal F(t) con μ=2.5

Función de sobrevivencia

(3.2.3)

Figura 3.4 Función de sobrevivencia normal R(t) con μ=2.5

27

Función de razón de falla

(3.2.4)

Figura 3.5 Función de razón de falla normal (t) con μ=2.5

3.2.2 Distribución Gama

La distribución gama es una extensión natural de la distribución Erlang y

algunas veces es usada como un modelo de tiempo de falla. También es usada

como una distribución a priori en confiabilidad Bayesiana.

La distribución gama puede ser derivada al considerar el tiempo de la

ocurrencia del enésimo evento en un proceso Poisson. Por ejemplo, si el tiempo

entre fallas sucesivas de un sistema tiene una distribución Erlang, luego

el tiempo acumulativo a la enésima falla, sigue una distribución

gama con parámetro de escala y parámetro de forma . Se dice entonces que

la distribución gama es una convulsión de n-pliegues de una distribución Erlang.

28

Hay un modo alternativo en el que la distribución gama puede surgir como

una distribución de tiempo de falla. Considere la situación en la que un sistema

opera en un ambiente donde impactos de magnitud común ocurren conforme a

un proceso Poisson. Posteriormente, suponga que el sistema falla al recibir

exactamente n impactos y no antes. El tiempo de falla del sistema , que denota

el tiempo aleatorio de ocurrencia del enésimo impacto, sigue una distribución

gamma con parámetros y .

La densidad de probabilidad de la distribución gama está dada por

(3.2.5)

donde es un valor de la función gama, definida por

(3.2.6)

Integrando por partes se obtiene lo siguiente: Haciendo

(3.2.7)

para toda y así se tiene cuando es un entero positivo.

Los parámetros de la distribución gama, es decir, la media y la varianza

se pueden obtener utilizando la función gama y sus propiedades. Para obtener la

media se tiene

29

y haciendo y se obtiene . Así

(3.2.8)

La varianza de la distribución gama se obtiene mediante

y haciendo de nuevo y se obtiene . Así

(3.2.9) Las fórmulas de funciones de confiabilidad para la distribución gama se

muestran a continuación y sus gráficas correspondientes (Ver figuras 3.6 y 3.7):

30

Función de densidad de probabilidad (3.2.10)

Figura 3.6 Función de densidad de probabilidad gama f(t) con α=1

Función de probabilidad de falla (3.2.11)

Figura 3.7 Función de probabilidad de falla gama F(t) con α=1

Las gráficas de la distribución Gama (Gráficas 3.6 y 3.7), se muestran

arriba y corresponden a la función de densidad de probabilidad y a la función de

probabilidad de falla respectivamente para un y diversos valores de .

31

Función de sobrevivencia (3.2.12)

Razón de falla (3.2.13)

3.2.3 Distribución Exponencial

La distribución exponencial de un parámetro, donde , es la

distribución más simple que es comúnmente usada en el análisis de datos de

confiabilidad. La distribución exponencial tiene la característica que la función de

riesgo es constante (no depende del tiempo ). Una función de riesgo constante

implica que, para una unidad que no ha fallado, la probabilidad de que falle en el

siguiente intervalo pequeño de tiempo es independiente de la edad de la unidad.

Físicamente, una función de riesgo constante sugiere que la población de

unidades bajo consideración no se está desgastando. La distribución

exponencial es una distribución popular para algunos tipos de componentes

electrónicos (capacitores o circuitos integrados de alta calidad robustos). Esta

distribución exponencial no sería apropiada para una población de componentes

electrónicos teniendo fallas causadas por defectos de calidad (tales defectos son

difíciles de controlar completamente y son la causa principal de problemas de

confiabilidad en sistemas electrónicos). Por otro lado, la distribución exponencial

puede ser útil para describir tiempos de falla en componentes que exhiben

desgaste físico si el desgaste no se muestra sino hasta mucho después de la

vida tecnológica esperada del sistema en la que el componente estaría instalado

(componentes electrónicos en equipo de cómputo teniendo fallas causadas por

eventos aleatorios externos).

32

Bajo circunstancias muy especiales, la distribución exponencial puede ser

apropiada para tiempos de falla entre sistemas, arribos de cola, y otras

distribuciones tiempo entre llegadas. Específicamente, la distribución

exponencial es la distribución de tiempos de intervalo de un proceso homogéneo

Poisson.

La distribución exponencial es usualmente inadecuada para modelar la

vida de componentes mecánicos (baleros), sujetos a alguna combinación de

fatiga, corrosión o desgaste. También es usualmente inapropiada para

componentes electrónicos que exhiben propiedades de desgaste sobre su vida

tecnológica (láseres y dispositivos de filamento). Una distribución con una

función de riesgo que se incrementa es, en tales aplicaciones, usualmente más

apropiada. Similarmente, para poblaciones que contienen mezclas de unidades

buenas y malas, la función de riesgo de la población puede decrecer en vida,

porque conforme las unidades malas fallan y dejan la población, sólo las

unidades más fuertes permanecen.

Dada la distribución gama

y haciendo se tiene

(3.2.14)

la cual es la densidad de probabilidad de la distribución exponencial. El valor

esperado se obtiene como sigue:

e integrando por partes y haciendo

33

(3.2.15)

Las ecuaciones de confiabilidad y sus correspondientes gráficos (Ver

figuras 3.8 a 3.11) para la distribución exponencial se muestran a continuación:


Figura 3.8 Función de densidad de probabilidad exponencial f(t)

34


Figura 3.9 Función de probabilidad de falla exponencial F(t)

Función de confiabilidad (3.2.18)

Figura 3.10 Función de confiabilidad exponencial R(t)

35

Función de razón de falla (3.2.19)

Figura 3.11 Función de razón de falla exponencial (t)

3.2.4 Distribución Log-Normal

La distribución log-normal es un modelo común para tiempos de falla.

Procediendo del teorema del límite central (mencionado en la sección 3.1.2), la

aplicación de la distribución log-normal puede ser justificada para una variable

aleatoria que surge del producto de un número de cantidades aleatorias

positivas, independientes e idénticamente distribuidas. Se ha sugerido que el

log-normal es un modelo apropiado para tiempo de falla causado por un proceso

de degradación con combinaciones de constantes de razón aleatoria que se

combinan multiplicativamente. La distribución log-normal es ampliamente

utilizada para describir los tiempos de fractura por crecimiento de fisuras por

fatiga en los metales. También es una distribución usada como modelo para una

población de componentes electrónicos que exhiben una función de riesgo

decreciente. Se ha sugerido que el endurecimiento en la vida temprana de

ciertos tipos de materiales puede llevar a una función de riesgo de este tipo.

36

Su densidad de probabilidad está dada por

(3.2.20)

Una representación gráfica de la distribución Log-normal con

se muestra en la siguiente gráfica (Ver figura 3.12):

C1

Freq

uenc

y

24201612840

200

150

100

50

0

Mean 1.744

StDev 2.182

N 1000

Histogram of C1Normal

Figura 3.12 Función de densidad de probabilidad log-normal f(t) con α=0 y =1

Para determinar la probabilidad de que una variable aleatoria con la

distribución Log-normal adopte un valor entre y , se debe evaluar

la integral

Modificando la variable al considerar que e identificar el

integrando como la densidad normal con , encontramos que la

probabilidad deseada está dada por

37

donde F es la función de distribución de la distribución normal estándar.

El valor esperado de la distribución Log-normal se da por la siguiente

ecuación:

(3.2.21)

y haciendo se tiene y

Y completando el cuadrado de la expresión

(3.2.22)

y de la misma manera

y haciendo de nuevo se tiene y y sustituyendo en

38

y de nuevo completando el binomio cuadrado de la expresión

quedando de la manera siguiente

y así

(3.2.23)

Y la varianza será

. (3.2.24)

39

Las fórmulas de densidad de probabilidad y de densidad acumulada son:

(3.2.25)

(3.2.26)


donde


donde

3.2.5 Distribución Weibull

La teoría de los valores extremos muestra que la distribución Weibull

puede ser usada para modelar el mínimo de un gran número de variables

aleatorias positivas independientes de una cierta clase de distribuciones. Así la

teoría del valor extremo también sugiere que la distribución Weibull puede ser

conveniente. La justificación más común para su uso es empírico: la distribución

Weibull puede ser usada para modelar datos de tiempos de falla con una función

de riesgo decreciente o en incremento. La distribución Weibull es útil por su

capacidad de modelar diferentes modos de falla.

La distribución Weibull de dos parámetros exhibe la característica de

tiempo de vida (parámetro de escala), y el parámetro de forma . La

40

característica del tiempo de vida es un estimado de la media y muestra la

localización de la distribución. El parámetro de forma es una medida de la

dispersión estadística de los tiempos de falla y para la forma de densidad de

falla. Una distribución Weibull de dos parámetros siempre describe fallas

iniciando del tiempo

La confiabilidad de la distribución Weibull corresponde a una función

exponencial inversa. Para esta distribución Weibull el exponente de esta función

exponencial es definida como el cociente el cual puede ser variado por el

exponente .

La relación entre la distribución Weibull y la exponencial puede

observarse si calculamos la probabilidad de que una variable aleatoria con

comportamiento Weibull tome un valor menor que . Integremos

y haciendo y sustituyendo en

la función de densidad de probabilidad, se tiene

donde, como puede observarse, es una variable aleatoria con distribución

exponencial.

Las ecuaciones y las gráficas (Véanse figuras 3.13 a 3.16) para las

funciones de confiabilidad se muestran a continuación:

41


Figura 3.13 Función de densidad de probabilidad Weibull f(t) con α=1 y t0=0


Figura 3.14 Función de probabilidad de falla Weibull F(t) con α=1 y t0=0

42

Función de sobrevivencia o confiabilidad (3.2.31)

Figura 3.15 Función de Confiabilidad Weibull R(t) con α=1 y t0=0

Función de riesgo de falla (3.2.32)

Figura 3.16 Función de riesgo de falla Weibull (t) con α=1 y t0=0

43

3.2.6 Distribución Beta

La distribución Beta es ampliamente usada en confiabilidad Bayesiana

como una distribución a priori sobre la probabilidad de sobrevivencia aleatoria en

una distribución binomial.

La distribución beta puede asumir una variedad de formas simétricas y

asimétricas. Para una media de 0.5, las formas generales varían de uniforme a

forma de campana hasta forma en U.

La distribución beta tiene una densidad de probabilidad para una variable

aleatoria que adopta valores en el intervalo entre 0 y 1. Tal densidad de

probabilidad está dada por

(3.2.33)

Una variable aleatoria tiene una distribución beta si es una variable

aleatoria continua que tiene una densidad de probabilidad con respecto a la

distribución de longitud dada por la fórmula

(3.2.34)

donde a y b son constantes positivas (parámetros).

Demostración. Para ello nos valemos del hecho que

44

y por tanto que

(3.2.35)

Esta integral define la función beta, cuyos valores se denotan ; en

otras palabras .

La media y la varianza de la distribución beta están dadas por

Demostración. Por definición,

(3.2.36)

donde se reconoce la integral como y se usa el hecho de que

y . Pasos similares dan

y se sigue que

(3.2.37)

Las fórmulas de las funciones de confiabilidad correspondientes son:

Función de de densidad de probabilidad

(3.2.38)


(3.2.39)

45



3.3 Datos de Degradación

Muchos mecanismos de falla pueden ser rastreados por un proceso de

degradación subyacente. Cuando es posible medir la degradación, tales

medidas a menudo proporcionan más información que los datos de tiempo de

falla para propósitos de evaluar y mejorar la confiabilidad del producto. Para

algunos productos la observación directa del nivel de degradación es imposible,

pero puede ser que los datos del desempeño del producto sean un sustituto útil.

En algunos estudios de confiabilidad, es posible medir la degradación

física como una función del tiempo (desgaste de neumático). En otras

aplicaciones la degradación no puede observarse directamente, pero mediciones

de la degradación del desempeño del producto (salida de voltaje) pueden estar

disponibles. Ambos tipos de datos son referidos generalmente como "datos de

degradación". El modelar la degradación del desempeño puede ser útil pero

podrá ser complicado debido a que el desempeño puede ser afectado por más

de un proceso de degradación subyacente. Dependiendo de la aplicación, los

datos de degradación pueden estar disponibles continuamente o en puntos

específicos en el tiempo donde las mediciones pueden tomarse.

En la mayoría de las aplicaciones de prueba de confiabilidad, los datos de

degradación, si están disponibles, tendrán ventajas prácticas importantes. En

particular:

Los datos de degradación pueden, especialmente en aplicaciones

con pocas o ninguna falla, proveer considerablemente más

46

información de confiabilidad que los datos tradicionales de tiempos

de falla censurados.

Las pruebas de aceleración son comúnmente usadas para obtener

información de pruebas de confiabilidad más rápidamente.

Observaciones directas de la degradación física del proceso o

algunos sustitutos cercanamente relacionados podrán permitir una

modelación directa del mecanismo causante de la falla,

proporcionando estimadores de confiabilidad más creíble y

precisas y una base más firme para una extrapolación a menudo

necesitada.

3.3.1 Modelos para Datos de Degradación

La mayoría de las fallas pueden ser rastreadas a través de un proceso

subyacente de degradación. Algunos ejemplos muestran generalmente tres

curvas de degradación en unidades arbitrarias de degradación respecto al

tiempo: lineares, convexas y cóncavas.

Los ingenieros y los científicos deben encontrar tales modelos en su

literatura o desarrollarlos partiendo de principios básicos relacionando al proceso

de degradación subyacente. Usualmente tales modelos inician con una

descripción determinística - a menudo en la forma de ecuaciones diferenciales o

sistemas de ecuaciones diferenciales. La aleatorización puede ser introducida,

siendo apropiada, usando distribuciones de probabilidad para describir la

variación en condiciones iniciales y con los parámetros del modelo tales como

constantes de proporción o propiedades de los materiales.

47

3.3.1.1 Degradación Lineal

La degradación lineal surge en algunos procesos simples de desgaste.

Por ejemplo, si es la cantidad de desgaste por rodamiento de una llanta de

automóvil al tiempo y la tasa de desgaste es , entonces

. (3.3.1)

Los parámetros y pueden ser tomados como constantes para

unidades individuales, pero aleatorias de unidad en unidad.

3.3.1.2 Degradación Convexa

Modelos para los que la tasa de degradación incrementa con el nivel de

degradación son, por ejemplo, usados en modelar el crecimiento de grietas por

fatiga. Sea que denota el tamaño de una grieta en el tiempo . Una versión

simple del modelo determinístico de Paris-rule,

(3.3.2)

Provee un modelo útil para grietas dentro de un cierto margen de tamaño. Aquí

y son propiedades de los materiales y (conocido como la "función de

rango de intensidad de estrés) es una función del tamaño de la grieta , el rango

de estrés aplicado, dimensiones de la parte y geometría.

48

3.3.1.3 Degradación Cóncava

Meeker y LuValle (1995) describen modelos para crecimiento de

filamentos de compuestos cloro-cobre causantes de falla en tablillas de circuitos

integrados. Estos filamentos causan fallas cuando llegan de un agujero a otro.

En su modelo, es la cantidad de cloro disponible para la reacción y

es proporcional a la cantidad de componentes de cloro-cobre en el tiempo .

Bajo condiciones apropiadas de temperatura, humedad, y carga eléctrica, el

cobre se combina con el cloro para producir el compuesto cloro-cobre a

una tasa constante .

Las ecuaciones de cambio para este proceso son

y

La solución a este sistema de ecuaciones diferenciales da

(3.3.3)

(3.3.4)

donde y son cantidades iniciales. Para simplificar la anotación,

hagamos , la solución para (la cantidad de interés

primario) puede ser expresada como

(3.3.5)

49

Meeker y LuValle también sugieren otros modelos más elaborados para

este proceso de falla. Carey y Koening (1991) usan modelos similares para

describir la degradación de componentes electrónicos.

3.3.2 Modelo del Camino de Degradación General

El camino de degradación verdadera de una unidad particular en el

tiempo está denotada por . En las aplicaciones, los valores de

son muestreados en puntos discretos en el tiempo ….La degradación de la

muestra observada de la unidad en el tiempo es

(3.3.6)

donde es el camino verdadero de la unidad en el

tiempo (los tiempos no necesitan ser los mismos para todas las unidades) y

es una desviación residual para la unidad en el tiempo . El

número total de inspecciones de la unidad es denotada por . El tiempo

puede ser tiempo real, tiempo de operación, o alguna otra medida de uso como

millas para llantas de automóviles o ciclos en pruebas de fatiga. Para la i-ésima

unidad, es un vector de parámetros desconocidos. Típicamente,

caminos de muestra tienen 1, 2, 3, o 4 parámetros. Algunos de los

parámetros serán aleatorios de unidad en unidad.

Las escalas de y pueden ser escogidas, como lo sugiere la teoría

física y los datos para simplificar la forma de . Por ejemplo, la

relación entre el logaritmo de degradación y el logaritmo del tiempo puede ser

modelada por la relación aditiva en (3.3.6). La elección del modelo de

degradación requiere no solo la especificación de la forma de la función

, sino también la especificación de cuál de las son

50

aleatorias (difiriendo de unidad en unidad) y cuáles son fijas (comunes a todas

las unidades). Debido a la flexibilidad al especificar la forma de , y

por la forma en la que llega a esta forma, se puede, por simplicidad,

modelar la variabilidad de unidad en unidad en con una distribución

normal multivariada con vector de media y matriz de covarianza .

Es generalmente asumido que las aleatorias son

independientes de las desviaciones . Otra asunción común es que es

constante. La adecuación de esta suposición puede ser afectada al transformar

.

3.3.3 Estimación de los Parámetros del Modelo de Degradación

La verosimilitud para el modelo de degradación de parámetros aleatorios

(3.3.6) puede ser expresada como

(3.3.7)

donde y es la función de

densidad de la distribución normal multivariada y es la función de densidad

de probabilidad normal. Cada evaluación de (3.3.7) requerirá, en general,

aproximaciones numéricas de integrales de dimensión (donde es el

número de caminos de muestreo y es el número de parámetros aleatorios en

cada camino). Maximizando (3.3.7) con respecto a directamente, aún

con las capacidades computacionales de hoy en día, es extremadamente difícil a

menos que sea una función lineal.

51

3.3.4 Análisis de Degradación Aproximada

Considere el modelo de degradación general (3.3.6). Hay dos pasos en el

método aproximado. El primer paso consiste de un análisis separado para cada

unidad para predecir el tiempo en el que la unidad llegará al nivel de

degradación crítica correspondiendo a la falla. Estos tiempos se denominan

"tiempos de pseudo-falla". En el segundo paso, los tiempos de pseudo-falla

son analizados como muestras completas de tiempos de falla para estimar la

función acumulada de falla . Formalmente, el método es como sigue:

Para la unidad , use el camino de modelo y los

datos del camino de muestra para

encontrar la función de verosimilitud (condicional) de

, digamos . Esto se puede hacer usando

mínimos cuadrados no lineales.

Resolver la ecuación para y denominar a la solución

.

Repetir el procedimiento para cada camino de muestra para

obtener los tiempos de pseudo-falla .

Hacer un análisis de distribución simple de los datos para

estimar .

Para problemas simples el análisis de degradación aproximada es

atractivo porque los cálculos son relativamente simples. El método aproximado

es menos interesante cuando los caminos de degradación son no lineales.

52

El método aproximado puede dar un adecuado análisis si:

Los caminos de degradación son relativamente simples.

El camino del modelo ajustado es aproximadamente correcto.

Hay datos suficientes para la estimación precisa de los valores de

.

La cantidad del error de medición es pequeña.

No hay mucha extrapolación al predecir los "tiempos de falla" .

Hay, sin embargo, problemas potenciales con el análisis de degradación

aproximada debido a lo siguiente:

El método ignora el error de predicción en y no explica el error de

medición en los caminos de muestra observados.

Las distribuciones ajustadas a los tiempos de pseudo-fallas, en

general, no corresponderán a la distribución inducida por el modelo

de degradación.

Para algunas aplicaciones, habrá caminos de muestra que no

contienen suficiente información para estimar todos los parámetros

del camino (por ejemplo, cuando el modelo del camino tiene una

asíntota pero el camino de muestra no ha empezado a

estabilizarse). Esto puede requerir ajustar modelos diferentes para

diferentes caminos de muestra con el fin de predecir el tiempo de

paso.

En general, la extrapolación en las colas de las distribuciones de tiempos

de falla pueden ser más válidas con la distribución de paso real implicada por el

modelo de degradación (3.3.6) que con los tiempos de falla pronosticados

empíricamente.

53

3.4 Pruebas de Vida Acelerada

Sistemas complejos y altamente confiables requieren componentes

extremadamente confiables. La llegada de tales componentes ha traído con ellos

la dificultad de demostrar su confiabilidad dentro de un período razonable de

tiempo y un tamaño realista de muestra y de presupuesto. Simplemente no

podemos esperar a acumular datos de falla del campo de desempeño. Debido a

los largos períodos de vida esperados, tal espera haría a los componentes

obsoletos antes que las respuestas requeridas sean averiguadas.

Un enfoque para sobreponerse a este dilema es el de acelerar las fallas

de los componentes al someterlos, en un ambiente de laboratorio, a condiciones

de estrés, temperatura, ciclos por unidad de tiempo, etc., que sean más

rigurosas que lo normal. Los datos de pruebas de vida acelerada así obtenidos

son ajustadas a modelos de distribución convenientes, los cuales son usados

después en conjunción con modelos de aceleración para estimar tasas de falla

bajo condiciones de uso normal.

Seleccionando los niveles apropiados de estrés para pruebas de vida

acelerada requiere suposiciones basadas en un juicio de ingeniería profundo y

en experiencia con verdaderas condiciones de uso. Los niveles de estas

tensiones pueden ser constantes, incrementando en pasos, o progresivamente

incrementados. Las tensiones que resultan en un cambio de estado de los

materiales de los componentes y tensiones que no serán experimentados bajo

condiciones normales de uso no deben ser empleadas en pruebas de vida

acelerada.

54

3.4.1 Aceleración Verdadera

La manera más sencilla de entender la aceleración verdadera es

considerar una videocasetera funcionando en un modo de avance rápido. Todos

los eventos suceden, pero a una velocidad más alta. En otras palabras, la

secuencia y naturaleza de los eventos no cambia; simplemente suceden a un

ritmo más rápido. Si una declaración así es verdadera para la operación de un

componente sometido a niveles de estrés más alto de lo normal, entonces se

tiene una aceleración verdadera, significando que se han acelerado fallas sin

alterar los mecanismos de falla o la secuencia de los eventos. Bajo aceleración

verdadera, simplemente se tiene una transformación de la escala de tiempo.

Esta transformación de la escala del tiempo será aplicable sólo sobre un rango

limitado de estrés. Mientras que cualquier valor simple, o una función de

comportamiento normal puedan ser usadas para modelar la aceleración

verdadera, la suposición de linearidad es comúnmente realizada por su

simplicidad y aplicabilidad. Bajo la aceleración verdadera lineal, cada tiempo de

falla y cada distribución de percentiles es multiplicada por la misma constante

para obtener los valores correspondientes bajo diferentes niveles de estrés. Se

cuantifica el monto de aceleración por un factor de aceleración

(3.4.1)

donde tiempo de falla bajo condiciones normales y tiempo de falla

bajo condiciones aceleradas (estrés más alto).

Si y son funciones de densidad de las variables aleatorias

y , respectivamente, entonces, ya que , tenemos

(3.4.2)

55

Bajo condiciones de uso normal, la función de densidad es igual al

producto del recíproco del factor de aceleración y la función de densidad bajo

condiciones de aceleración con la variable de tiempo sustituida por .

Remplazando por una variable de tiempo general , se obtiene

(3.4.3)

La relación entre las funciones de distribución correspondientes se sigue

fácilmente y es

o bien

(3.4.4)

Dado que la función de riesgo se relaciona con las funciones de

densidad y distribución por

(3.4.5)

se tiene

o bien

(3.4.6)

56

Las ecuaciones (3.4.3), (3.4.4) y (3.4.6) son completamente generales y

son aplicables en tanto sean válidas las suposiciones de aceleración lineal y

verdadera.

3.4.2 Distribuciones de Aceleración y Falla Física

Supóngase que los datos de falla en la condición de un estrés se ajustan

a cierta distribución. ¿Cuál será la distribución de falla bajo diferentes

condiciones de estrés si las suposiciones de aceleración lineal y verdadera son

válidas? esta interrogante se responderá para algunas de las funciones de

distribución más comunes.

3.4.2.1 Distribución Exponencial

Asumamos que los datos de falla obtenidos bajo condiciones de prueba

acelerada se ajustan a un modelo exponencial con una tasa constante de falla

de . La función de distribución correspondiente es

(3.4.7)

Entonces, usando la ecuación (3.3.4), encontramos que la función de

distribución de falla bajo condiciones normales de uso es

(3.4.8)

57

Ya que es la tasa de falla constante bajo condiciones de prueba

acelerada, podemos definir la tasa de falla constante bajo condiciones

normales de uso como

(3.4.9)

Claramente, la distribución de falla permanece exponencial bajo ciertas

condiciones de uso normal, con una tasa de falla es igual a veces la tasa

de falla bajo condiciones de prueba acelerada.

3.4.2.2 Distribución Weibull

Asumamos que los datos de falla acelerada se ajustan a una distribución

Weibull con un parámetro de escala y un parámetro de forma . Entonces

(3.4.10)

La distribución de falla bajo condiciones de uso normal es

(3.4.11)

En términos de los parámetros de escala y forma y ,

respectivamente, bajo condiciones normales de uso, tenemos

(3.4.12)

donde

(3.4.13)

y

58

(3.4.14)

Se ha demostrado que si los tiempos de falla a un nivel de estrés tienen

una distribución Weibull, entonces, bajo la aceleración lineal verdadera, la

distribución en cualquier otro nivel de estrés es también Weibull con el mismo

parámetro de forma y un nuevo parámetro de escala igual al recíproco del factor

de aceleración por el viejo parámetro de escala.

Si los datos de falla obtenidos en dos diferentes niveles de estrés no

tienen el mismo parámetro de forma, entonces ya sea que esté mal la suposición

de una distribución Weibull, o no se tiene la aceleración lineal verdadera, o

ambas.

La función de riesgo (la cual es la misma que la razón de falla) bajo

condiciones de prueba acelerada es

(3.4.15)

o

(3.4.16)

Por lo tanto, usando la ecuación (3.4.6), podemos obtener la función de

riesgo bajo las condiciones normales de uso:

o

59

(3.4.17)

A pesar de que la razón de falla cambia linealmente, la multiplicación del

factor es solo para , en cuyo caso revertimos de nuevo a la

distribución exponencial. Para otros valores del parámetro de forma, el factor

multiplicador es , y la razón de falla ya no cambia inversamente con .

3.4.2.3 Distribución Log-Normal

Ahora se asume que los tiempos de falla bajo condiciones de prueba

acelerada tienen una función de densidad Log-normal

(3.4.18)

Asumiendo la aceleración lineal verdadera, la correspondiente función de

densidad bajo condiciones de uso normal llega a ser

(3.4.19)

Ya que , donde es el tiempo medio de falla bajo

condiciones de aceleración, podemos definir como igual a , con la

varianza (parámetro de forma) permaneciendo igual bajo aceleración lineal

verdadera. Como en el caso de la distribución Weibull, la aceleración lineal

verdadera no cambia el parámetro de forma; sólo el parámetro de escala es

multiplicado por el recíproco del factor de aceleración . Más aún, si los datos

de falla obtenidos a dos niveles de estrés no tienen la misma varianza, entonces

60

ya sea que la suposición de la distribución Log-normal no es correcta, o no

tenemos aceleración lineal verdadera o ambas.

3.4.2.4. Distribución Gama

Finalmente, asumamos que los tiempos de falla acelerada tienen una

función de densidad gama

(3.4.20)

con . La función de densidad para los tiempos de falla bajo

las condiciones normales de uso serán entonces

(3.4.21)

donde

(3.4.22)

y

(3.4.23)

Una vez más, bajo aceleración lineal verdadera, el parámetro de forma no

cambia, y el parámetro de escala es multiplicado por el recíproco del factor de

aceleración.

61

3.4.3. Modelos de Aceleración.

El desarrollo de los modelos aceleración involucra suposiciones convenientes

respecto a la relación entre dos variables aleatorias

variable continua aleatoria denotando el tiempo de falla bajo

condiciones de estrés acelerado

y

variable continua aleatoria denotando el tiempo de falla bajo

condiciones de uso normal

Se ha visto que bajo la suposición de la aceleración lineal verdadera, la

relación entre y es lineal y es dada por

(3.4.24)

También, bajo la suposición de la aceleración lineal verdadera, las

distribuciones exponencial, Weibull, gama, y log-normal se preservan bajo

condiciones de estrés variable.

3.4.3.1. El Modelo de Arrhenius

Las fallas de dispositivos electrónicos sencillos y aislamiento eléctrico se

deben a procesos químicos de degradación, los cuales son acelerados por

temperaturas elevadas. El modelo de Arrhenius, desarrollado a finales del siglo

62

IXX para describir las tasas de reacción de procesos químicos, ha encontrado

aplicación en la tecnología de prueba acelerada.

El modelo de Arrhenius es aplicable si

si los estreses más significativos son térmicos,

para cualquier temperatura, el tiempo de vida sigue una

distribución log-normal,

la desviación estándar del logaritmo natural de los tiempos de falla

es independiente de la temperatura , y

el valor medio del logaritmo natural de los tiempos de falla como

una función de la temperatura es expresado por la relación de

Arrhenius

(3.4.25)

donde los parámetros y dependen de las características del material a

prueba y los métodos de prueba.

El tiempo medio de falla a la temperatura K es

(3.4.26)

Similarmente, el tiempo medio de falla a la temperatura K es

(3.4.27)

Asumiendo una aceleración verdadera, el factor de aceleración para

conducir las pruebas a la temperatura K en vez de K, para , puede

ser calculado como

(3.4.28)

63

Una vez que el parámetro es conocido, el factor de aceleración entre

cualquiera de las dos temperaturas puede ser fácilmente calculada usando la

ecuación (3.4.22). A la inversa,

(3.4.29)

o bien

(3.4.30)

La ecuación (3.4.24) provee una manera conveniente de estimar el

parámetro de datos de falla obtenidos al muestrear a dos temperaturas

diferentes.

3.4.3.2 El Modelo Eyring

A menudo, más que estreses térmicos están involucrados en la falla de

los componentes. El modelo de Arrhenius no puede manejar múltiples estreses.

El modelo de Eyring ofrece un enfoque general para manejar estos estreses

adicionales. Específicamente, para el caso del estrés térmico y estreses

adicionales, el tiempo medio de falla se asume ser de la forma

(3.4.3.1)

donde son los estreses aplicados en el componente adicionalmente

al estrés térmico. Con y sin estreses adicionales, el modelo de Eyring se

reduce al modelo de Arrhenius.

El modelo de Eyring tiene tres parámetros en el término de la

temperatura, y dos parámetros son agregados para cada estrés adicional a ser

considerado. Así, la aplicación de este modelo llega a ser muy difícil cuando

64

varios estreses están involucrados, ya que el número de células de estrés deben

al menos ser iguales al número de parámetros a ser estimados. En realidad, se

requieren más células de estrés para probar la adecuación del modelo.

Para el caso especial de dos estreses, el térmico y algún otro,

(3.4.3.2)

3.5 Modelo Lineal Generalizado

Los modelos lineales generalizados (MLG) son una unificación de

modelos de regresión lineales y no lineales que también permiten la

incorporación de distribuciones de respuesta no lineales. En un MLG, la

distribución de variable de respuesta debe ser solo un miembro de la familia

exponencial, la cual incluye a las distribuciones normal, Poisson, binomial,

exponencial y gama como miembros. Es más, el modelo lineal error-normal es

solo un caso especial de MLG, de modo que, de muchas maneras, los MLG

pueden ser vistos como un enfoque unificante a muchos aspectos del

modelamiento empírico y del análisis de datos.

Estos modelos involucran varias categorías como lo son los modelos de

regresión logística, modelo de regresión Poisson, y el modelo lineal generalizado

entre otros.

3.5.1 Concepto de Modelo Lineal Generalizado

El modelo lineal generalizado es, de hecho, un enfoque de unificación de

los modelos de regresión y de diseño experimental, uniendo la teoría normal

65

usual de los modelos de regresión lineal y los modelos no lineales tales como

regresión logística y de Poisson.

Una suposición clave en el MLG es que la distribución de la variable de

respuesta sea un miembro de la familia de distribuciones exponencial las cuales

tienen la forma general

(3.5.1)

donde es un parámetro de escala y es denominado el parámetro de

localización natural. Para miembros de la familia exponencial,

(3.5.2)

Sea

(3.5.3)

donde denota la dependencia de la varianza de respuesta sobre su

media. Esta es una característica de todas las distribuciones que son miembros

de la familia exponencial, excepto por la distribución normal. Como resultado de

la ecuación (3.5.3), se tiene

(3.5.4)

La idea básica de un MLG es desarrollar un modelo lineal para una

función apropiada del valor esperado de la variable de respuesta. Sea el

predictor lineal definido por

(3.5.5)

66

Note que la respuesta esperada es solo

(3.5.6)

Se denomina a la función la función de enlace. Hay muchas opciones

posibles para la función de enlace, pero si se selecciona

(3.5.7)

se dice que es el enlace canónico.

Hay otras funciones de enlace que pueden ser usadas con un MLG,

incluyendo:

1. El enlace probit,

donde representa la función de distribución normal acumulada

estándar.

2. El enlace complementario log-log

3. El enlace de familia de potencia

Una idea fundamental es que hay dos componentes en el MLG: la

distribución de respuesta y la función de enlace. Podemos ver la selección de la

función de enlace en una vena similar a la elección de una transformación en la

respuesta. Sin embargo, diferente a una transformación, la función de enlace

67

toma ventaja sobre la distribución natural de respuesta. Solo al no usar una

transformación apropiada puede resultar con problemas con un modelo lineal

ajustado, elecciones inapropiadas de la función de enlace también pueden

resultar con problemas significativos con un MLG.

3.5.2 Curvas de Crecimiento Exponencial

Una de las curvas más simples de crecimiento tiene la forma funcional

exponencial no lineal:

(3.5.8)

Esto puede ser realista en las etapas iniciales de crecimiento; nada puede

continuar creciendo exponencialmente por siempre. Por otro lado, con ,

puede ser un modelo razonable de decline exponencial. Además, es sólo una

relación determinística entre la respuesta y el tiempo. Un elemento estocástico

(la "estructura de error") puede ser introducido en al menos dos modos. La

respuesta logarítmica puede tener alguna distribución en la familia exponencial,

tal como la normal o gama, proporcionando una distribución log-normal o log-

gama con el enlace de identidad y predictor lineal,

(3.5.9)

Otra posibilidad es usar la respuesta no transformada en una distribución

normal o gama con un enlace logarítmico tal que el predictor es

o

(3.5.10)

Ambos modelos son fácilmente ajustados como modelos lineales

generalizados; las curvas resultantes pueden diferir significativamente, tanto

68

como en su ajuste a los datos observados como en las predicciones que

producen.

En el primer modelo, la curva va a través de la media geométrica de los

datos, mientras que en el segundo, va a través de la media aritmética. Note que

la variación modelada por los dos modelos es también muy diferente. Por

ejemplo, en el primer modelo, con una distribución normal, la varianza de la

respuesta logarítmica es constante, implicando que la varianza de la respuesta

se está incrementando con el tamaño. En el segundo, de nuevo con una

distribución normal, la varianza de la respuesta es constante. Si la ecuación

(3.5.10) es usada con una distribución gama, la razón de la desviación estándar

a la media, el coeficiente de variación, se asume constante. Otras distribuciones

llevarán aún otras suposiciones sobre como la varianza está cambiando con la

respuesta media sobre el tiempo.

3.5.3 Modelos de Riesgo Proporcional

Suponga que la función de riesgo pueda ser escrito en la forma

(3.5.11)

donde es un vector de variables explicativas. Este es un modelo denominado de

riesgo proporcional. Note como depende sólo del tiempo , y el otro factor sólo en

las variables explicativas de modo que las curvas de riesgo para diferentes valores

de las variables explicativas serán proporcionales a en todos los puntos en el

tiempo, de ahí el nombre del modelo. Si , una constante, tenemos la función

de riesgo de una distribución exponencial, y si , la tendremos de una

distribución Weibull. Si se deja sin especificar de modo que un factor variable en

el tiempo deba ser usado, tenemos el modelo semi paramétrico de Cox.

69

Tales modelos pueden ser ajustados simplemente como modelos lineales

generalizados sobre la distribución Poisson en al menos dos modos: uno para los datos

de sobrevivencia y el otro para eventos históricos.

3.6 Modelo de Riesgo Proporcional de Cox

El modelo de riesgo proporcional es el modelo más utilizado para de

tiempo de cambio (tiempo de supervivencia), o más bien sobre la función de

riesgo. Se supone que para cada sujeto se tiene un vector de variables

explicativas o predictores que se supone son independientes del tiempo de falla.

Los componentes de este vector de covariables pueden representar propiedades

intrínsecas de los sujetos o bien las propiedades ambientales del problema

(ambiente operacional).

El modelo de regresión de Cox (1972), viene determinado por la relación:

(3.6.1)

donde la dependencia temporal está incluida en la tasa de riesgo de base o(t), y

las variables concomitantes actúan en forma log-lineal, donde es

un vector de coeficientes de regresión desconocidos que parametrizan el

modelo.

Este modelo puede describirse como semiparamétrico o parcialmente

paramétrico. Es paramétrico ya que especifica un modelo de regresión con una

forma funcional específica; es no paramétrico en cuanto que no especifica la

forma exacta de la distribución de los tiempos de supervivencia.

70

En este modelo las variables concomitantes actúan sobre la función de

riesgo en forma multiplicativa. Las variables explicativas además pueden ser

dependientes o independientes del tiempo.

El modelo de Cox puede utilizarse en los siguientes casos:

- Cuando no se tiene información previa acerca de la dirección temporal

de la función de riesgo.

- Cuando siendo conocida la dirección, no puede ser determinada por un

modelo paramétrico.

- Cuando se está únicamente interesado en la magnitud y dirección de los

efectos de las variables concomitantes, teniendo controlada la dirección

temporal.

Debido a la existencia de datos incompletos, los parámetros del modelo

de Cox no pueden ser estimados por el método ordinario de máxima

verosimilitud al ser desconocida la forma específica de la función de riesgo. Cox

propuso un método de estimación denominado verosimilitud parcial siendo las

verosimilitudes condicionales y marginales casos particulares del anterior.

El método de verosimilitud parcial se diferencia del método de

verosimilitud ordinario en el sentido de que mientras el método ordinario se basa

en el producto de las verosimilitudes para todos los individuos de la muestra, el

método parcial se basa en el producto de las verosimilitudes de todos los

cambios ocurridos.

Para estimar los coeficientes en el modelo de Cox, en ausencia de

conocimiento de o(t), éste propuso la siguiente función de verosimilitud:

71

(3.6.2)

Esta expresión L(β) no es una verdadera función de verosimilitud ya que

no puede derivarse como la probabilidad de algún resultado observado bajo el

modelo de estudio, si bien, como indica Cox, puede tratarse de una función de

verosimilitud ordinaria a efectos de realizar estimaciones de .

Cuando en un mismo instante ti se produce más de un cambio, lo cual

puede ocurrir cuando la variable tiempo se mide de forma discreta, la

probabilidad de ocurrencia de los di cambios observados, condicionados al

conjunto de riesgo Ri, viene dado por:

) / (3.6.3)

donde cada elemento zj del vector Z es la suma de los valores xj sobre los di

individuos que realizan un cambio en el instante ti y la suma del denominador se

efectúa sobre los Ri sujetos expuestos al riesgo en ti.

Los modelos de riesgo proporcional semi-paramétricos incluyen el modelo

paramétrico Weibull como un caso especial. Para ver esto, la distribución

Weibull con densidad y función de sobrevivencia

, parametriza el parámetro como exp , entonces el

riesgo de falla dado es:

, (3.6.4)

donde es una función con dos parámetros, en vez de no

especificado en el caso del modelo de riesgo proporcional. También se puede

72

mostrar que el modelo Weibull es también un caso especial de modelo semi-

paramétrico de tiempo de falla acelerada. De hecho, el modelo Weibull es el

modelo paramétrico más general que tiene propiedades tanto de riesgo

proporcional como de tiempos de falla acelerada.

3.6.1 Estimación de los Coeficientes de Regresión

El método de verosimilitud parcial fue introducido por Cox para estimar los

parámetros de regresión en el modelo de riesgo proporcional para los tiempos

de falla con posible censura derecha. Cuando el tiempo de falla sigue una

distribución continua, es muy improbable que dos sujetos fallen al mismo tiempo.

En realidad, el tiempo medido siempre tiene una distribución discreta, ya que

solo puede tomar valores de un conjunto finito de números. Así los tiempos de

falla amarrados pueden suceder en un estudio real, y se requiere especial

atención en esta situación.

3.6.2 Verosimilitud Parcial para Datos con Distintos Tiempos de Falla

Supongamos que no hay amarre entre los tiempos de falla. Sea t1

donde la N denota los tiempos de falla ordenados y donde (j) denota la

etiqueta del individuo que falla a tj. Sea el conjunto de riesgo en el tiempo tj,

por ejemplo .

73

La verosimilitud parcial del modelo queda definido como:

(3.6.5)

y la verosimilitud log parcial es entonces

(3.6.6)

La matriz de información definida como la negativa de la segunda matriz

derivativa de la log verosimilitud, está dada por

(3.6.7)

donde para cualquier vector .

Se puede mostrar que es un estimador consistente de , y es

un estimador consistente para la matriz de covarianza de , donde

es el numero de todos los sujetos, censurados o no censurados. Así, para

grandes muestras, tiene aproximadamente distribución normal con media y

matriz de varianza-covarianza .

74

3.6.3 Verosimilitud Parcial para Datos con Tiempos de Falla Amarrados

Supongamos que hay distintos tiempos de falla observados ,

y que a cada tiempo hay fallas observadas. Sea el conjunto

de todos los individuos que mueren en el tiempo , por ejemplo .

Cuando hay muchos amarres en los datos, el cómputo de los estimadores

de la máxima verosimilitud parcial, son muy prolongados. Por ello se utilizan dos

aproximaciones que se deben a Breslow y Efron.

Breslow sugirió la siguiente verosimilitud log parcial para datos con

amarres entre los tiempos de falla

(3.6.8)

Esta aproximación trabaja bien cuando no hay muchos amarres. Otra

aproximación de la verosimilitud log parcial es dada por Efron

(3.6.9)

El método de Breslow es fácil de usar pero la aproximación de Efron es

generalmente la más exacta de las dos. También ambas verosimilitudes se

reducen a la verosimilitud parcial cuando no hay amarre.

75

3.6.4 Estimación de las Funciones de Riesgo y Sobrevivencia

La función de riesgo acumulativa base puede ser

estimada por Breslow

, (3.6.10)

donde . Note que es una función de pasos continuos derechos

con saltos en los tiempos de falla observados, y a menudo se refieren a el como

el estimador de Breslow. En el caso de eventos amarrados, cada uno de los

objetos en amarre contribuye su propio término a la suma, y este término es el

mismo para todos los sujetos que fallaron al momento específico. Este estimador

también puede ser derivado a través de un planteamiento de verosimilitud de

perfil. La función de sobrevivencia base puede ser estimado

por . La función de sobrevivencia estimada de un individuo

con un valor de covarianza está dada por:

. (3.6.11)

3.6.5 Prueba de Hipótesis

La prueba estadística para la prueba de la razón de verosimilitud está

dada por

(3.6.12)

76

donde y maximiza cuando está fijado en . Bajo la

hipótesis nula, la distribución asintótica de es .

3.6.6 Prueba de Wald

Sea la máxima verosimilitud parcial estimada para el vector

de parámetros total , y la partición de la inversa de la matriz de

información como

, (3.6.13)

donde es una matriz . Es estadístico de prueba para la prueba de

Wald está dado por

. (3.6.14)

Bajo la hipótesis nula, la distribución asintótica de es .

3.7 Método de Monte Carlo

El método de Monte Carlo es un método no estadístico numérico usado

para aproximar expresiones matemáticas complejas con exactitud. El método se

llamó así en referencia al Casino de Monte Carlo (Principado de Mónaco) por ser

“la capital del juego de azar”, al ser la ruleta un generador simple de números

aleatorios. El nombre y el desarrollo sistemático de los métodos de Monte Carlo

77

datan aproximadamente de 1944 y se mejoraron enormemente con el desarrollo

de la computadora.

El método de Monte Carlo proporciona soluciones aproximadas a una

gran variedad de problemas matemáticos posibilitando la realización de

experimentos con muestreos de números pseudoaleatorios en una

computadora. El método es aplicable a cualquier tipo de problema, ya sea

estocástico o determinista. A diferencia de los métodos numéricos que se basan

en evaluaciones en N puntos en un espacio M-dimensional para producir una

solución aproximada, el método de Monte Carlo tiene un error absoluto de la

estimación que decrece como en virtud del teorema del límite central.

3.7.1 Orígenes del Método

La invención del método de Monte Carlo se asigna a Stan Ulam y a John

Von Neuman. Ulam ha explicado cómo se le ocurrió la idea mientras jugaba un

solitario durante una enfermedad en 1946. Advirtió que resulta mucho más

simple tener una idea del resultado general del solitario haciendo pruebas

múltiples con las cartas y contando las proporciones de los resultados que

computar todas las posibilidades de combinación formalmente. Se le ocurrió que

esta misma observación debía aplicarse a su trabajo de Los Álamos sobre

difusión de neutrones, para la cual resulta prácticamente imposible solucionar

las ecuaciones íntegro-diferenciales que gobiernan la dispersión, la absorción y

la fisión. “La idea consistía en probar con experimentos mentales las miles de

posibilidades, y en cada etapa, determinar por casualidad, por un número

aleatorio distribuido según las probabilidades, qué sucedería y totalizar todas las

posibilidades y tener una idea de la conducta del proceso físico”.

Podían utilizarse máquinas de computación, que comenzaban a estar

disponibles, para efectuar las pruebas numéricas y en efecto reemplazar el

78

aparato experimental del físico. Durante una de las visitas de Von Neumann a

Los Álamos en 1946, Ulam le mencionó el método. Después de cierto

escepticismo inicial, Von Neumann se entusiasmó con la idea y pronto comenzó

a desarrollar sus posibilidades en un procedimiento sistemático. Ulam expresó

que Monte Carlo “comenzó a tener forma concreta y empezó a desarrollarse con

todas sus fallas de teoría rudimentaria después de que se lo propuse a Johnny”.

A principios de 1947 Von Neumann envió una carta a Richtmyer a Los

Álamos en la que expuso de modo influyente tal vez el primer informe por escrito

del método de Monte Carlo. Su carta fue encuadernada junto con la respuesta

de Richtmyer como un informe de Los Álamos y distribuida entre los miembros

del laboratorio. Von Neumann sugería aplicar el método para rastrear la

generación isotrópica de neutrones desde una composición variable de material

activo a lo largo del radio de una esfera. Sostenía que el problema era adecuado

para el ENIAC y estimaba que llevaría 5 horas calcular la acción de 100

neutrones a través de un curso de 100 colisiones cada uno.

Ulam estaba particularmente interesado en el método Monte Carlo para

evaluar integrales múltiples. Una de las primeras aplicaciones de este método a

un problema determinista fue llevada a cabo en 1948 por Enrico Fermi, Ulam y

Von Neumann cuando consideraron los valores singulares de la ecuación de

Schrödinger.

3.7.2 Planteamiento Matemático del Método Monte Carlo

Matemáticamente el método Monte Carlo es utilizado para obtener una

aproximación numérica de integrales cuyo valor no es inmediato. Básicamente

se calcula una integral en términos del valor esperado de alguna función con

79

respecto a alguna distribución de probabilidad. Suponga que desea calcular la

integral de una función continua en el intervalo ; es decir:

b

aI f x dx

(3.7.1)

Para encontrar un valor aproximado a se requiere de una función de

densidad , definida en . Entonces

b b

a a

g xI f x dx f x dx

g x (3.7.2)

A través de esta expresión se reconoce el valor esperado de la función

, por medio del cual se obtiene el valor de , es decir

/b

a

g xI f x dx h x f x g x E h x

g x (3.7.3)

Para obtener este valor esperado es posible simular variables aleatorias

independientes e idénticamente distribuidas , con función de

densidad . Por la ley fuerte de los grandes números,

1

1lim

n

in

i

h X In c.s. (3.7.4)

80

Por lo tanto,

1

1ˆn

i

i

I h xn

(3.7.5)

es un estimador insesgado y consistente de .

3.8 Modelo de Metrópolis Hastings

Este es el algoritmo que permite construir una cadena de 80 Markov al

definir las probabilidades de transición de la siguiente forma.

Sea una distribución de transición (arbitraria) y se define así:

* *

**, min ,1

p x Q

p x Q (3.8.1)

El punto principal es generar un valor de una distribución auxiliar y

aceptarla con una probabilidad dada. Este mecanismo de corrección garantiza la

convergencia de la cadena a su distribución de equilibrio. Suponiendo que la

cadena esta en el estado y se genera un valor de una distribución

propuesta . Un nuevo valor es aceptado con probabilidad . La cadena

puede permanecer en un mismo estado a lo largo de muchas iteraciones. En la

práctica, es importante monitorear esto para calcular el porcentaje medio de

iteraciones para los cuales los nuevos valores se aceptan.

El algoritmo de Metrópolis Hastings se especifica de la siguiente manera:

Dado un valor inicial , la t-ésima iteración consiste en:

1. Generar una observación de ;

81

2. Generar una variable

3. Si , hacer ; en caso contrario, hacer

1t t

.

Al hacer este procedimiento se genera una cadena de Markov con

distribución de transición

1 1 1,

t t t t t tP Q

(3.8.2)

La probabilidad de aceptación solo va a depender de a

través de un cociente, por lo tanto la constante de normalización no es

necesaria. La versión original del algoritmo de Metrópolis toma a tal que

en cuyo caso:

*

*, min ,1p x

p x (3.8.3)

Frecuentemente en la práctica se utiliza alguno de los dos casos

siguientes:

Caminata aleatoria. Sea , donde es una

densidad de probabilidad simétrica centrada en el origen. Entonces,

*

*, min ,1p x

p x (3.8.4)

Independencia. Sea , donde es una

densidad de probabilidad sobre . Por lo tanto,

*

*, min ,1w

w,

(3.8.5)

con

82

En la práctica es común utilizar, después de una reparametrización

apropiada, distribuciones de transición normales ó t Student ligeramente

sobredispersas,

* * ˆ,dQ N kV (caminata aleatoria) (3.8.6)

o

* *

0ˆ ˆ,dQ N kV

(independencia), (3.8.7)

donde y denotan a la medida y a la matriz de varianzas-covarianzas de la

aproximación asintótica normal para , respectivamente, y es un

factor de sobredispersión. Ilustraremos este algoritmo con el siguiente ejemplo.

Suponga que desea simular una distribución gamma con parámetros

y .

1 exp , 0.p si

(3.8.8)

Como anteriormente se mencionó, se acostumbra hacer una

reparametrización, en este caso con el fin de lograr una mejor aproximación

normal. Se aplica el cambio de variable

exp p e (3.8.9)

A continuación se obtienen los estimadores para los parámetros de la

distribución normal.

log .p e (3.8.10)

Estimador para la media:

log pe

83

logˆ0 log .

p

(3.8.11)

Estimador para la varianza:

2

2

log 1ˆ .

pe

(3.8.12)

El siguiente código de R corresponde a la simulación de una distribución

gamma con parámetros , utilizando el caso de independencia

discutido anteriormente.

1. Especificar un vector inicial cada

2. Generar un vector , cada

3. Calcular:

1 0

0 1

p Q

p Q

(3.8.13)

4. Generar un vector , donde cada

1

0 0 si t t

i i i iu p (3.8.14)

1

0 1 si t t

i i i iu p

5. Incrementar el contador de para y volver al paso 2.

6. Vector de observaciones de la distribución gamma,

donde

1 110,1 0,0 ,..., .t tt

ne e e (3.8.15)

84

3.9 Algoritmo de Gibbs

El algoritmo de Gibbs permite simular una cadena de Markov

con distribución de equilibrio . Cada valor nuevo de la cadena se obtiene

al generar muestras de distribuciones cuya dimensión es menor que y que en

la mayoría de los casos tiene una forma más sencilla que la de .

Sea una partición del vector , donde 1

y .i

nd

i i

i

d d

En este caso es un vector, pero en general cada componente puede ser

un escalar, un vector o una matriz. Las siguientes densidades para cada son

conocidas como densidades condicionales completas

1 2

1 1 1

1 1

,..., ,

,..., , ,..., , 2,..., 1

,..., ,

n

i i i n

n n

p x

p x i n

p x

(3.9.1)

Estas densidades pueden identificarse fácilmente al inspeccionar la forma

de la distribución final . De hecho para cada

1 1 1,..., , ,..., , ,i i i np x p x

(3.9.2)

donde es vista sólo como función de

Dado un valor inicial

0 0 0

1 ,..., ,n el algoritmo de Gibbs

simula una cadena de Markov en la que se obtiene a partir de de la

siguiente forma:

generar una observación

1

1 1 2 de ,..., , ;t t t

np x

85


1 1

2 2 1 3 de , ,..., , ;t t t t

np x


1 1 1

3 3 1 2 4 de , , ,..., , ;t t t t t

np x


1 1 1 1 1

1 2 3 1 de , , ,..., , .t t t t t

n n np x

La sucesión así obtenida es una realización de una

cadena de Markov cuya distribución de transición está dada por:

1 1 1 1

1 1 1

1

,..., , ,..., , .n

t t t t t t t

i i i n

i

p p x

(3.9.3)

Para ilustrar el funcionamiento de este algoritmo se realizará la simulación

de una normal bivariada.

Ejemplo:

Sea la distribución de una normal bivariada, cuya distribución

condicional para dado un valor fijo de es

2

2

1

22 1

2

1,

2 1

xx y

y

px y

px

x

p x y ep

la cual representar una función de densidad normal univariada, con media

x

y

p yx

y

y varianza 2 21x p

. La densidad condicional de dado es

análoga. El procedimiento consiste en generar un nuevo valor de ó a partir

de sus respectivas funciones de distribución condicional. Dado un valor inicial de

, el algoritmo simula una cadena de Markov que se obtiene de la siguiente

manera:

generar una observación 1 0 de ;y p y x

86

generar una observación 1 1 de ;x p x y

generar una observación 1 de ;n ny p y x

generar una observación de .n nx p x y

3.10 Software WinBUGS®

WinBUGS® es un software de libre acceso en la red. Fue diseñado por

Spiegelhalter, Thomas y Best y es parte del proyecto BUGS que desarrollaron

estos investigadores para el análisis bayesiano de modelos estadísticos a través

de métodos Monte Carlo basados en Cadenas de Markov.

WinBUGS® permite que métodos complejos de simulación sean

accesibles para los usuarios de la estadística bayesiana aplicada en diversas

disciplinas. Además, WinBUGS® es una herramienta muy flexible ya que permite

al usuario construir su propio modelo y, una vez construido, puede realizar un

análisis bayesiano de éste. Lo anterior representa una gran ventaja para el

usuario, ya que puede invertir más tiempo en la construcción de su modelo y en

la interpretación de los resultados del mismo, que en la codificación del análisis

MCMC. Por otra parte, la ejecución del modelo usualmente es rápida aun

cuando los modelos sean complicados y manejen grandes cantidades de

información.

El software ofrece una interfaz con el usuario basada en cuadros de

dialogo y comandos a través de los cuales se analiza el modelo, por lo que el

ambiente de WinBUGS® se vuelve más amigable. Además, también es posible

realizar una interfaz con R o S-Plus, los cuales manejan una sintaxis muy similar

87

a la que usa WinBUGS®, aunque WinBUGS® no cuenta con tantos comandos

como R o S-Plus.

En WinBUGS® los modelos pueden ser especificados textualmente por

medio del lenguaje BUGS, o a través de gráficos al usar una interfaz grafica

llamada DoodleBUGS.

El concepto del diseño del software se basa en la representación interna

del modelo de probabilidad, que es análogo al que se construye gráficamente.

En el modelo grafico, los parámetros o las variables se representan por un nodo

y los nodos se conectan por flechas, las cuales muestran una dependencia

directa. Este tipo de propiedades permiten una representación abstracta del

modelo, lo cual resulta natural para la filosofía orientada a objetos en el diseño

del software.

La forma de operar de WinBUGS® está fundamentada en el muestreo de

Gibbs; es decir, dada una función de verosimilitud y una distribución inicial, el

propósito es muestrear valores de los parámetros del modelo a partir de la

distribución final. Una vez obtenidos estos valores es posible obtener

estimadores de los parámetros y hacer todo tipo de inferencias sobre ellos.

3.10.1 Descripción del Uso del Software WinBUGS®

Spiegelhalter, Thomas y Best desarrollaron en los últimos años 90 el

proyecto BUGS, para el análisis Bayesiano de modelos estadísticos complejos

utilizando técnicas MCMC.

En principio consistió en el diseño del programa BUGS, Bayesian

Inference Using Gibbs Sampling, WinBUGS® es la versión para Windows que

88

incorpora un menú de visualización gráfica de los modelos, Doodle, y utiliza no

sólo muestreo de Gibbs, sino también Metropolis-Hastings.

La última versión puede obtenerse desde la dirección web:

http://www.mrc-bsu.com.ac.uk/bugs, así como diferentes materiales, numerosos

ejemplos, enlaces interesantes y la subscripción a la lista de correo de usuarios.

Asimismo, el programa incluye el manual y una amplia gama de ejemplos

detallados.

El esquema de trabajo recomendado pasa por las siguientes etapas:

1) Formulación del modelo, con la especificación de las informaciones

muestral y a priori.

2) Diseño del “doodle”, que es la herramienta gráfica característica del

WinBUGS para la visualización del modelo, donde se introducirán todos los

elementos del modelo y las relaciones entre ellos.

3) Cargar datos y valores iniciales, directamente o utilizando una

herramienta externa, como un editor o una hoja de cálculo.

4) Ejecutar la simulación, en la que se tendrá en cuenta que una parte de

las realizaciones muestreadas se desecharán a modo de “burn in”.

5) Analizar los resultados, estudiando las cantidades a posteriori

calculadas así como algunas gráficas (densidades, trazas de la cadena, gráfica

de los coeficientes de autocorrelación, …).

Veamos de forma más detallada cómo llevar a cabo cada una de estas

etapas.

89

1) Por supuesto, la formulación del modelo es un paso previo al uso del

programa.

Deben quedar claramente establecidos todos los elementos que

intervienen en el modelo así como cuál es la cantidad a posteriori de interés.

2) Con el modelo formulado, se creará el “doodle”. Para ello se abre una

ventana“doodle” en WinBUGS® donde se introducirán todos los nodos del

problema, que pueden ser: -nodos estocásticos (los parámetros del problema y

los datos), se representan por óvalos y ha de especificarse su distribución y sus

características, -nodos lógicos, también representados por óvalos, y que se

derivan mediante distintas relaciones de los nodos estocásticos, y, finalmente, -

nodos constantes, representados por rectángulos.

Además, existe una herramienta para la representación de los subíndices,

denominada “plate”, que no es más que un marco que incluye a los nodos

vectoriales o matriciales.

Por último, las relaciones entre nodos se representan por flechas, finas

para dependencia estocástica y huecas para dependencia lógica, con origen en

el nodo “hijo” y destino en el nodo “padre”. Una vez creado el “doodle”, puede

crearse su código BUGS (correspondiente a la primera versión del programa) o

manipularse directamente con la herramienta de especificación de modelos.

Tanto de una forma como de otra, esta etapa culmina con la verificación de la

corrección sintáctica del modelo.

3) Una vez comprobado que el modelo es sintácticamente correcto, hay

que cargar los datos y los valores iniciales. Para ello WinBUGS® no cuenta con

ninguna herramienta específica, aunque permite que sean exportados desde

cualquier editor u hoja de cálculo, también pueden escribirse directamente

respetando la sintaxis que establece.

90

Ofrece diferentes posibilidades para mostrar los datos cuando éstos son

vectoriales o matriciales. En lo que respecta a los valores iniciales, éstos sólo

deben corresponder a los parámetros del problema, que son los que serán

muestreados. El programa también ofrece la posibilidad de generar la semilla. Si

esta etapa finaliza con éxito, WinBUGS® habrá iniciado el modelo, pero no ha

empezado a simular la cadena.

4) La simulación se realiza con una instrucción que nos permitirá decidir

el número de muestras a realizar, ésta ha de incluir la parte “burn in” de la

muestra. Para ello se ejecutará un número de realizaciones de la cadena sin que

sean almacenadas, esto se consigue siempre que los nodos de interés no hayan

sido fijados. Una vez fijados los nodos, se procederá a la parte de la simulación

que será almacenada, y que intervendrá en el cálculo de las cantidades a

posteriori. A partir de ese momento será posible analizar los resultados.

5) WinBUGS® ofrece diferentes resultados estadísticos sobre los nodos

de interés (media, mediana, cuantiles, intervalos de confianza, varianza), así

como la medida del error cometido. Además realiza las gráficas de la densidad a

posteriori de cada nodo (un histograma muestral), la traza de la serie generada,

así como la representación de los coeficientes de autocorrelación. Esta última

gráfica junto con la medida del error son instrumentos que nos permitirán decidir

si el tamaño muestral y del “burn in” han sido adecuados.

3.11 Software R

R es un conjunto integrado de programas para manipulación de datos,

cálculo y gráficos.

91

Entre otras características dispone de:

Almacenamiento y manipulación efectiva de datos

Operadores para cálculo sobre variables indexadas (Arrays), en

particular matrices

Una amplia, coherente e integrada colección de herramientas para

análisis de datos

Posibilidades graficas para análisis de datos, que funcionan

directamente sobre pantalla o impresora

Un lenguaje de programación bien desarrollado, simple y efectivo,

que incluye

Condicionales, ciclos, funciones recursivas y posibilidad de

entradas y salidas. (Debe destacarse que muchas de las funciones

suministradas con el sistema están escritas en el lenguaje R)

El término “entorno" lo caracteriza como un sistema completamente

diseñado y coherente, antes que como una agregación incremental de

herramientas muy especificas e inflexibles, como ocurre frecuentemente con

otros programas de análisis de datos.

R es en gran parte un vehículo para el desarrollo de nuevos métodos de

análisis interactivo de datos. Como tal es muy dinámico y las diferentes

versiones no siempre son totalmente compatibles con las anteriores. Algunos

usuarios prefieren los cambios debido a los nuevos métodos y tecnología que

los acompañan, a otros sin embargo les molesta ya que algún código anterior

deja de funcionar. Aunque R puede entenderse como un lenguaje de

programación, los programas escritos en R deben considerarse esencialmente

efímeros.

R está disponible en varias formas: el código fuente está escrito

principalmente en C (y algunas rutinas en Fortran), esencialmente para

92

máquinas Unix y Linux, o como archivos binarios pre compilados para Windows,

Linux (Debian, Mandrake, RedHat, SuSe), Macintosh y Alpha Unix.

Los archivos necesarios para instalar R, ya sea desde las fuentes o

binarios pre compilados, se distribuyen desde el sitio de internet Comprehensive

R Archive Network (CRAN) junto con las instrucciones de instalación. Para las

diferentes distribuciones de Linux, los binarios están disponibles generalmente

para las versiones más actualizadas de éstas y de R; visite el sitio CRAN si es

necesario.

R posee muchas funciones para análisis estadísticos y gráficos; estos

últimos pueden ser visualizados de manera inmediata en su propia ventana y ser

guardados en varios formatos (jpg, png, bmp, ps, pdf, emf, pictex, xfig; los

formatos disponibles dependen del sistema operativo). Los resultados de

análisis estadísticos se muestran en la pantalla, y algunos resultados

intermedios (como valores P-, coeficientes de regresión, residuales,...) se

pueden guardar, exportar a un archivo, o ser utilizados en análisis posteriores.

El lenguaje R permite al usuario, por ejemplo, programar bucles («loops»

en inglés) para analizar conjuntos sucesivos de datos. También es posible

combinar en un solo programa diferentes funciones estadísticas para realizar

análisis más complejos. Usuarios de R tienen a su disponibilidad un gran

número de programas escritos para S y disponibles en la red; la mayoría de

estos pueden ser utilizados directamente con R.

Al principio, R puede parecer demasiado complejo para el no especialista.

Esto no es cierto necesariamente. De hecho, una de las características más

sobresalientes de R es su enorme flexibilidad. Mientras que programas más

clásicos muestran directamente los resultados de un análisis, R guarda estos

resultados como un «objeto», de tal manera que se puede hacer un análisis sin

http://cran.r-project.org/

http://cran.r-project.org/

93

necesidad de mostrar su resultado inmediatamente. Esto puede ser un poco

extraño para el usuario, pero esta característica suele ser muy útil. De hecho, el

usuario puede extraer solo aquella parte de los resultados que le interesa.

R es un lenguaje orientado a objetos: bajo este complejo término se

esconde la simplicidad y flexibilidad de R.

94

4. MATERIALES Y MÉTODOS

Se considera la situación de la selección de variables Bayesianas para un

modelo de riesgo proporcional. Se propone un enfoque semi-paramétrico en el

cual una distribución a priori es especificada para la tasa de riesgo base y una

distribución a priori completa se especifica para los coeficientes de regresión.

Para el riesgo base se utiliza un proceso gama discreto previo y para los

coeficientes de regresión se propone una a priori paramétrica informativa que se

enfoca más en las observaciones que en los parámetros. Para implementar la

metodología, se propone un método Monte Carlo Cadenas de Markov para

calcular el modelo de probabilidades posterior mediante el uso del software

WinBUGS®. Se trabaja sobre un caso con datos reales para demostrar la

metodología.

4.1 Introducción

El análisis semi-parmétrico Bayesiano de los modelos de riesgo

proporcional han llegado a ser computacionalmente posibles debido a la

tecnología moderna y a los recientes avances en técnicas de cómputo tales

como el muestreo de Gibbs y otros métodos de Monte Carlo Cadenas de Markov

(MCCM).

Una ventaja potencial en el uso de métodos Bayesianos es que se puede

modelar conjuntamente el riesgo base y los coeficientes de regresión y luego

computar modelos de probabilidades posteriores y sus errores estándares

usando técnicas de simulación de MCCM.

95

En la presente investigación, nos apoyamos en los trabajos de

investigación previos, uno que proporciona los datos iniciales de una muestra y

las características del ambiente operacional llevada a cabo por Arredondo

(2005), sobre el cual se implementará una metodología de inferencia Bayesiana

y simulación, del proceso en cuestión, sustentado en el enfoque aplicado por

Rodríguez (2007). Se implementa el uso de los modelos de MCCM, de

Metrópolis-Hastings y el modelo de muestreo de Gibbs en un enfoque Bayesiano

a través de la aplicación del software WinBUGS®.

4.2 Antecedentes

El propósito de la investigación realizada por Arredondo (2005), fue la de

estimar el riesgo en un proceso de inserción de terminales. Se encontraron las

variables del medio que incorporan sobre la falla y se estimaron los controles de

las variables para reducir el nivel de riesgo del proceso. Se aplica una estrategia

semiparamétrica modelando los efectos de las covarianzas sobre el riesgo por

medio de un modelo de regresión lineal múltiple ajustado a un DOE aplicando

mínimos cuadrados. Los datos de aplicación corresponden a la máquina de

inserción de terminales. Las variables significativas y sus niveles

correspondientes se presentan a continuación en la tabla 4.1:

Variable Nivel

Profundidad del insertador (pulg.) -0.015 0 0.015

Velocidad de inserción (ciclos/seg) 28.10 30.91 34.00

Distancia entre el alimentador y el cortador (pulg.) -0.015 0 0.015

Tabla 4.1 Variables significativas del proceso de maquinado

96

Nota: Para la variable de velocidad los rangos definidos por la máquina

son: 7 para 34 c/seg.; 8 para 30.91 c/seg. y 9 para 28.10 c/seg.

Para su análisis fue realizado un diseño experimental de 23 aumentado

con cuatro puntos centrales (dos puntos por bloque), mostrando los datos como

sigue (ver tabla 4.2):

StdOrder RunOrder CenterPt Blocks Profundidad Velocidad Distancia Tiempo

(hrs.)

1 1 1 1 -1 -1 -1 135.84

2 2 1 1 1 1 -1 12

3 3 1 1 1 -1 1 103.92

4 4 1 1 -1 1 1 58

5 5 0 1 0 0 0 79.92

6 6 0 1 0 0 0 80.16

7 7 1 2 1 -1 -1 88.08

8 8 1 2 -1 1 -1 64.08

9 9 1 2 -1 -1 1 135.84

10 10 1 2 1 1 1 24

11 11 0 2 0 0 0 72

12 12 0 2 0 0 0 87

Tabla 4.2 Datos del diseño de experimentos

Para lograr el diseño de la tabla 4.2 se utilizó el programa MINITAB de la

siguiente manera:

Del menú principal se selecciona la función "Stat" y de las opciones

derivadas, escoger "DOE". Se continúa seleccionando la función "Factorial" y

luego "Create Factorial Design".

Seleccionar: "2-level factorial default".

Seleccionar en "Number of Factors": 3

Seleccionar luego: "Designs…." y en la ventana que aparece seleccionar:

Designs Runs Resolution 2**(k-p)

Full Factorial 8 Full 2**3

97

La pantalla que aparece se llena de la siguiente manera:

Number of center points: 2

Number of replicates: 1

Number of blocks: 2

Hacer click en "OK"

Seleccionar "Options…" y quitar la selección de "Randomize Runs" y de

nuevo hacer click en "OK". Luego en el menú que aparece dar click en "OK".

La columna "A" se le cambia el título a "Profundidad"

La columna "B" se le cambia el título a "Velocidad"

La columna "C" s la cambia el título a "Distancia"

La columna C8 se titula como "Tiempo" y se integran en esa columna los

doce datos obtenidos al correr los experimentos.

El análisis del ANOVA del DOE con los factores significantes se presenta

en la tabla siguiente:

Estimated Effects and Coefficients for Tiempo (coded units)

Term Effect Coef SE Coef T P

Constant 77.72 2.173 35.76 0.000

Block -0.10 1.774 -0.05 0.960

Profundi -41.44 -20.72 2.173 -9.53 0.002

Velocida -76.40 -38.20 2.173 -17.58 0.000

Distanci 5.44 2.72 2.173 1.25 0.299

Profundi*Velocida -1.60 -0.80 2.173 -0.37 0.737

Profundi*Distanci 8.48 4.24 2.173 1.95 0.146

Velocida*Distanci -2.48 -1.24 2.173 -0.57 0.608

Ct Pt 2.05 3.764 0.54 0.624

Analysis of Variance for Tiempo (coded units)

Source DF Seq SS Adj SS Adj MS F P

Blocks 1 0.1 0.1 0.11 0.00 0.960

Main Effects 3 15167.7 15167.7 5055.88 133.83 0.001

2-Way Interactions 3 161.2 161.2 53.75 1.42 0.389

Curvature 1 11.2 11.2 11.21 0.30 0.624

Residual Error 3 113.3 113.3 37.78

Lack of Fit 1 0.8 0.8 0.81 0.01 0.916

Pure Error 2 112.5 112.5 56.26

Total 11 15453.6

Tabla 4.3 Análisis de varianza de los datos del proceso de maquinado

98

Los valores de P de 0.002 y 0.000 definen que las variables significativas

son la profundidad y la velocidad, y en el análisis de varianza los efectos

principales resultaron ser significativos P = 0.001.

Los resultados de la tabla 4.3 fueron arrojados haciendo uso de MINITAB

del siguiente modo:

Del menú principal se selecciona la función "Stat" y de las opciones

derivadas, escoger "DOE". Se continúa seleccionando la función "Factorial" y

luego "Analyze Factorial Design".

En el espacio de "Responses" anotar "Tiempo". Hacer click en "OK".

El análisis de bondad de ajuste se realiza sobre los datos históricos como

se muestran en la tabla 4.4, usando un estimador de máxima verosimilitud,

indica que el proceso sigue una distribución Weibull con parámetros β = 1.3949 y

η = 73.679.

Muestra Tiempo de Falla






1 48.00 13 72.00 25 24.00 37 12.00 49 24.00 61 31.92

2 32.16 14 104.16 26 15.84 38 64.08 50 72.00 62 12.00

3 55.92 15 79.92 27 12 39 48.00 51 48.00 63 112.08

4 48.00 16 55.92 28 80.16 40 144.00 52 160.08 64 120.00

5 12.00 17 16.08 29 120.00 41 160.08 53 31.92 65 12.00

6 12.00 18 48.00 30 55.92 42 79.92 54 64.08 66 88.08

7 80.16 19 55.92 31 48.00 43 127.92 55 103.92 67 12.00

8 39.84 20 40.08 32 31.92 44 192.00 56 128.16 68 112.08

9 12.00 21 48.00 33 12.00 45 144.00 57 87.84 69 175.92

10 15.84 22 103.92 34 24.00 46 120.96 58 160.08 70 88.08

11 24.00 23 48.00 35 16.08 47 31.20 59 79.92 71 175.92

12 12.00 24 56.16 36 24.00 48 135.84 60 56.16 72 24.00

Tabla 4.4 Datos del proceso histórico

99

Variable: Fallas

Censoring Information Count

Uncensored value 72

Estimation Method: Maximum Likelihood

Distribution: Weibull

Parameter Estimates

Standard 95.0% Normal CI

Parameter Estimate Error Lower Upper

Shape 1.3949 0.1299 1.1622 1.6742

Scale 73.679 6.574 61.858 87.759

Log-Likelihood = -369.244

Goodness-of-Fit

Anderson-Darling (adjusted) = 0.9211

Characteristics of Distribution

Standard 95.0% Normal CI

Estimate Error Lower Upper

Mean(MTTF) 67.1914 5.7528 56.8115 79.4680

Standard Deviation 48.7956 5.4426 39.2137 60.7188

Median 56.6540 5.6550 46.5872 68.8962

First Quartile(Q1) 30.1604 4.2281 22.9144 39.6978

Third Quartile(Q3) 93.1192 7.8934 78.8653 109.9494

Interquartile Range(IQR) 62.9588 5.9808 52.2633 75.8431

Tabla 4.5 Prueba de bondad de ajuste de los datos históricos

Para realizar la prueba de bondad de ajuste, se utilizan los datos

históricos de los tiempos de falla, mismos que aparecen en la tabla 4.4.

Utilizando de nuevo el MINITAB y con una nueva hoja de trabajo ingresar los

datos en la columna "C1" y titularla "Fallas".

Del menú principal seleccionar "Stat", luego se selecciona

"Reliability/Survival" y finalmente "Distribution ID Plot - Right Cens…". En el

cuadro que aparece, para el espacio de "Variables" anotar "Fallas" y hacer click

en "OK".

Aparecen los datos de bondad de ajuste para algunas distribuciones. Por

comparación, el valor más bajo indica el ajuste más adecuado que para este

caso es la distribución Weibull y su reporte parcial se aprecia en la tabla 4.5.

100

Aplicando los parámetros de la distribución Weibull, la confiabilidad

correspondiente para los tiempos de falla del DOE, se muestran en la tabla 4.6:

Profundidad Velocidad R(t)

-1 -1 0.0956

1 1 0.9235

1 -1 0.1987

-1 1 0.4886

0 0 0.3262

0 0 0.3247

1 -1 0.2772

-1 1 0.4391

-1 -1 0.0956

1 1 0.8112

0 0 0.3797

0 0 0.2834

Tabla 4.6 Estimación de confiabilidad del DOE de tiempo de falla

Una vez obtenidos los resultados de la confiabilidad para cada tiempo de

falla del diseño inicial, se procede a procesar la información para obtener los

valores de la matriz de regresores, usando los parámetros de la distribución

Weibull.

En una hoja de trabajo de MINITAB integrar las columnas "Profundidad"

en "C1"; "Velocidad" en "C2" y "R(t)" en "C3". Se selecciona del menú la opción

de "Stat", después "Regression" y posteriormente "Regression…".

101

En el cuadro que aparece para el espacio de "Response" anotar "R(t)" y

para el espacio de "Predictors" anotar "Profundidad" y "Velocidad". Hacer click

en "OK"

Los resultados obtenidos se muestran en la tabla 4.7 con los valores

esperados.

The regression equation is

R(t) = 0.370 + 0.0707 Profundidad + 0.312 Velocidad

Predictor Coef SE Coef T P

Constant 0.37017 0.02753 13.45 0.000

Profundi 0.07065 0.03371 2.10 0.066

Velocida 0.31227 0.03371 9.26 0.000

S = 0.09535 R-Sq = 90.9% R-Sq(adj) = 88.9%

Analysis of Variance

Source DF SS MS F P

Regression 2 0.82006 0.41003 45.10 0.000

Residual Error 9 0.08182 0.00909

Total 11 0.90188

Source DF Seq SS

Profundi 1 0.03993

Velocida 1 0.78013

Unusual Observations

Obs Profundi R(t) Fit SE Fit Residual St Resid

2 1.00 0.9382 0.7531 0.0551 0.1851 2.38R

R denotes an observation with a large standardized residual

Tabla 4.7 Análisis de varianza del modelo de regresión

El modelo de regresión a ser usado para el cálculo de la confiabilidad

queda:

Confiabilidad = 0.370+0.0707*Profundidad+0.312*Velocidad

Decodificando los valores para las variables significantes (véase tabla 4.1

y nota al calce), y realizando el cálculo de los valores óptimos para la matriz de

predictores se tiene:

Z0 = 1 Z1 = -0.15 Z2 = 7

102

En base a los resultados obtenidos mediante el análisis de la muestra y

sin decodificar los valores de la matriz de predictores se consideran los

siguientes datos que son considerados a prioris para el análisis Bayesiano.

El comportamiento de falla de la muestra define una distribución Weibull

como se observó en la prueba de bondad de ajuste. Aplicando las fórmulas de

confiabilidad de una distribución Weibull con parámetros y

y un tiempo máximo de falla horas, se tiene:


Función de falla acumulada

Función de confiabilidad

Función de riesgo

Función de riesgo acumulada

Estos datos representan condiciones de operación del sistema sin

considerar el efecto que tiene el medio ambiente sobre la función de riesgo en el

proceso. A través del modelo de riego proporcional se evalúan los factores del

medio de operación que afectan al riesgo del sistema.

Aplicando el modelo de Cox:

Sobrevivencia: S(t) = = S(192) = 0.8364

103

4.3 Análisis Bayesiano del Modelo de Riesgo Proporcional

En esta sección se proporciona una breve semblanza del análisis

Bayesiano no paramétrico de datos de tiempos de sobrevivencia que surgen del

modelo de riesgo proporcional. Esto requiere un breve comentario de algunos de

los métodos propuestos de inferencia Bayesiana no paramétrica.

4.3.1 Procedimientos Bayesianos no Paramétricos

Se consideran aplicaciones específicas de algunos procedimientos

Bayesianos no paramétricos de distribuciones de sobrevivencia. Una explicación

más detallada matemáticamente de estos métodos pueden ser encontrados en

Ferguson (1973).

Suponga que la función de sobrevivencia (condicional) de la variable

aleatoria es

.

La declaración de probabilidad se muestra condicional sobre ya que

, el parámetro en el modelo, es la realización e un proceso estocástico a ser

definido. Se considera la partición de en un infinito número de intervalos

disjuntos

y define la contribución de riesgo al -ésimo intervalo como

104

(4.3.1)

si y donde sea . Claramente entonces se

tiene

(4.3.2)

Se ha demostrado que una distribución de probabilidad puede estar

definida en el espacio al especificar las distribuciones dimensionales

finitas de para cada partición . Por consiguiente, a

prioris de densidad de probabilidad independientes pueden ser especificadas

para el subconjunto para algunas condiciones de consistencia.

Examinando (4.3.2), sin embargo, deja en claro que es, bajo esta

construcción, un proceso no decreciente con incrementos independientes y el

problema se reduce a la especificación de este proceso para . Para hacer

esto, solo se necesitan especificar las a prioris independientes para las ( o las

) sujeto a la condición de que la distribución de debe ser la misma

como la que se hubiera obtenido por aplicación directa de las reglas al intervalo

combinado .

El proceso gama, similar al proceso Dirichlet (Ferguson, 1973), es

obtenido en función de . Específicamente, sea que

tenga las distribuciones gama independientes

, (4.3.3)

donde siendo un número positivo real y

una función de sobrevivencia completamente especificada. La notación

105

indica que tiene la distribución gama con parámetros (forma) y

(escala). Las convenciones adoptadas son que es la distribución con

masa unitaria en 0 y o es la distribución con masa unitaria

en . Escribiremos para describir este proceso para .

Ferguson (1973), proporciona una interpretación de los parámetros y

del proceso Dirichlet. Interpretaciones similares están disponibles para el

proceso gama de riesgo. Si se considera la partición y hacemos que

,

entonces

y

.

Más adelante, el proceso gama de riesgo es usado como una distribución

a priori al analizar los datos que surgen del modelo de riesgo proporcional.

4.3.2 Estimación de en el Modelo de Riesgo Proporcional

Sea una variable aleatoria con una función de sobrevivencia

condicional

(4.3.4)

independientemente. Este es el modelo de riesgo proporcional con covariables

de tiempo independiente . De momento se considera el caso sin censuras.

Suponemos que y se considera el problema de estimar sobre la

106

base de datos . Una manera de proceder es calcular la

densidad de probabilidad condicional de sobre las , teniendo que ser

eliminado , e interpretar esto como la función de verosimilitud de . La

condicional sobre ,

(4.3.5)

donde es la matriz de diseño con la -ésima columna . Sin pérdida de

generalidad, se considera y definir

donde . Las ahora

juegan el papel de las de la sección precedente. Se tiene posteriormente que

(4.3.6)

siendo independientemente, y ya que

, (4.3.5) implica que

(4.3.7)

donde

(4.3.8)

y es el conjunto de individuos en riesgo en el tiempo . Integrando

(4.3.7) con respecto a la distribución (4.3.6) de nos da

107

(4.3.9)

donde .

La expresión (4.3.9) es válida para cualquier riesgo acumulado . Con

el fin evitar problemas con discontinuidades fijas, sin embargo, asumimos que

es absolutamente continua. La función de decremento múltiple (4.3.8) es

por lo tanto absolutamente continua excepto a lo largo de cualquier hiperplano

con para algún . Así, si no hay amarres en los datos,

la función de densidad de probabilidad de es

calculada por diferenciación y da

(4.3.10)

donde . La expresión (4.3.10) puede ser interpretada como la

función de verosimilitud para sobre los datos . La censura

derecha es fácilmente acomodada ya que la verosimilitud apropiada es obtenida

por diferenciar (4.3.9) solo con respectos a los tiempos de falla observados. Esto

nos da

(4.3.11)

donde para tiempos censurados o de falla , respectivamente. La

convención estándar es adoptada aquí de modo que los tiempos censurados

con los tiempos de falla son ajustados una cantidad infinitesimal a la derecha.

108

Dos casos son de interés particular. Si vale casi 0, entonces u una

aproximación de primer orden

(4.3.12)

El último término en (4.3.12) es proporcional a la verosimilitud parcial o la

verosimilitud marginal de . Pequeños valores de corresponden a tener poca

fe en la estimación a priori de . Por otro lado,

lo cual es la verosimilitud apropiada si es asumido que al principio.

En efecto, (4.3.12) proporciona un espectro de verosimilitudes que van

desde situaciones verdaderamente no paramétricas ( con valor casi 0) a

situaciones donde se asume completamente conocida. Un examen de la

verosimilitud al variar puede llevar a una evaluación de cómo el análisis

depende de las suposiciones.

4.3.3 Distribución Posterior de la Función de Sobrevivencia

En esta sección, la distribución posterior del proceso subyacente es

obtenida cuando una muestra es obtenida del modelo (4.3.4).

La distribución a priori de es el proceso gama con parámetros y como se

mencionó anteriormente.

Considere de nuevo una partición de en intervalos disjuntos

y suponga que el dato es de modo que

109

. La extensión a otros valores se siguen fácilmente de los resultados para

. Como antes donde es la contribución de riesgo para el

-ésimo intervalo . Asuma que y sea y

, donde y son las contribuciones de riesgo de los

intervalos y , respectivamente. Entonces

(4.3.13)

y

es obtenido al integrar (4.3.13) con respecto a las distribuciones a priori gama

independientes de sobre el rango apropiado. La

distribución posterior de dado es entonces especificada por

Se usan enseguida las funciones generatrices de momentos. Los cálculos

muestran que

donde

110

para . La función del momento generatriz de es

(4.3.14)

Aquí como antes , y . Así es

distribuido como la suma de tres variables aleatorias independientes

donde y son variables gama y con densidad

cuya función generatriz de momentos es el último factor en (4.3.14). Todas las

distribuciones dimensionales finitas del proceso posterior han sido ahora

obtenidas y la caracterización del proceso es directa.

La generalización de estos resultados para obtener la distribución

posterior de dado es directa. Dado , es

un proceso de incrementos independientes. En el incremento es

y entre los los incrementos ocurren conforme al proceso gama

. Este resultado es fácilmente visto al insertar primero luego

. La inserción de afecta al proceso sólo en los puntos .

La estimación de la función de sobrevivencia puede ser realizada de

varias maneras. Por ejemplo, producirá un estimador óptimo si las

pérdidas fueran pérdidas de error al cuadrado en . Si y

, entonces la distribución posterior de es la suma de las

111

variables independientes donde

. Ahora

los cálculos muestran que

y

.

Siendo pequeño, y de

manera que

(4.3.15)

Donde está definida por la ecuación (4.3.8).

4.4 Manejo del Software WinBUGS®

WinBUGS® (Bayesian inference Using Gibbs Sampling), es un software

de computadora relativamente amigable para análisis Bayesiano usando

métodos Monte Carlo Cadenas de Markov. WinBUGS® implementa los

algoritmos tanto de Gibbs y Metrópolis-Hastings. Fue desarrollado y respaldado

conjuntamente entre el Medical Research Council (Reino Unido) Biostatistics

Unit y el Imperial College School of Medicine en Saint Mary, Londres.

112

El software es gratis actualmente y puede ser bajado en el sitio de

internet de BUGS. Hay disponible extensa documentación y numerosos

ejemplos, fundamentalmente para aplicaciones médicas.

4.4.1 Estructura del Modelo y Datos

Se ilustra el formato del lenguaje WinBUGS® en el siguiente ejemplo

estimando la media y la varianza de 20 observaciones usando una a priori para

la media y la varianza como se muestra:

# el modelo

model {

# A priori en la media de la normal

mu ~ dnorm(0,0.00001)

# A priori en la precisión de la normal

tau ~dgamma(0.01, 0.01)

# varianza = 1/precision

sigma2 <-1/tau

# verosimilitud observar que tau es precision no varianza

for (i in 1:N) { y[i] ~ dnorm(mu,tau)}

}

# los datos

list(N=20,

Y=c(98,160,136,128,130,114,123,134,128,107,123,125,129,132,154,115,126,132,136,1

30))

Los modelos se definen usando llaves “{}” y están encabezados por el

comando model.

Los comentarios están delimitados “#”.

113

Las variables aleatorias (también llamadas nodos estocásticos) se

representan por el nombre de la variable seguida de un rizo “~”, el nombre de la

distribución, y una lista de los parámetros separada por una coma encerradas

entre paréntesis “( )”. Para el ejemplo de arriba, el parámetro mu es

normalmente distribuido "dnorm" con una media de cero y una precisión de

0.00001, mientras que el parámetro tau está distribuido como una gama

"dgamma" con forma 0.01 y una escala inversa de 0.01.

Las asignaciones lógicas se representan por el nombre de la variable

seguida por una flecha izquierda “<-” y la expresión lógica. Por ejemplo, sigma2

(la varianza), es calculada por uno dividido por tau. Como se verá, una función

de enlace puede ser especificada en el lado izquierdo de una asignación lógica,

tales como un enlace logit usado en el modelo de regresión logística:

logit(p[i]) <- beta0 + beta1 * x[i]

Las matrices están indexadas usando corchetes “[ ]” y están en la forma

[fila, columna]. Operaciones de enteros básicas tales como adición,

substracción, y multiplicación están permitidas están permitidas dentro de los

corchetes, por ejemplo, [(i +1), j]. Otras convenciones para matrices incluyen: i:j

incluye los valores, i, i + 1, ..., j.

x[ ] incluye todos los valores del vector x.

x[,2] incluye todos los valores de la segunda columna en una matriz de

dos dimensiones x.

Para el ejemplo de arriba, Y[i] representa el i-ésimo valor en el vector Y.

Los bucles son usados para una variedad de tareas incluyendo, lo más

importante, lectura de datos. Son especificados usando la estructura para-bucle

“for (j in a:b)” delimitada usando llaves “{}”. Para el ejemplo de arriba, un para-

bucle es usado para leer un vector de fila (largo N) de datos Y para actualizar la

media mu y la precisión tau.

114

El formato de la lista de datos puede consistir de escalares, vectores de

fila y matrices. Las listas completas de los datos se delinean usando paréntesis

“( )” y están encabezados por el comando list. Los elementos de la lista de datos

están separados por una coma. El formato de la lista de datos depende del tipo

de datos y los tipos múltiples de datos (escalares, vectores, matrices), pueden

ser contenidos dentro de una lista simple de datos. Para escalares, el formato

consiste en el nombre de la variable, un signo igual, y el valor de la variable.

Para el ejemplo de arriba, el número de observaciones N es un escalar con en

valor de 20. Los vectores de fila son identificados usando el nombre de la

variable, un signo igual, y los valores del vector separados por comas y

contenidas dentro de “c(valores separados por comas aquí).”

4.4.2 Distribuciones Comúnmente Usadas en WinBUGS®

r ~ dbin(p, n) Binomial con n intentos y probabilidad de éxito p

r ~ dpois(lambda) Poisson con media lambda

p ~ dbeta(a, b) Beta con parámetros a, b

x ~ dgamma(a, b) Gama con forma a y escala inversa b

x ~ dnorm(mu, tau) Normal con media mu y precisión (1/varianza) tau

4.4.3 Funciones Comúnmente Usadas en WinBUGS®

+ adición, - substracción, * multiplicación, / división,

abs(x) valor absoluto de x,

exp(x) exponencial,

log(x) logaritmo de x,

ln(x) logaritmo natural de x,

115

logit(p) enlace logit, ln(p/ (1 - p)) ,

max(x1, x2) retorna x1 si x 1 > x 2; x 2 de otro modo,

mean(v) media de los componentes en el vector v,

min(x1, x2) retorna x 1 si x 1 < x 2; x 2 de otro modo,

sqrt(x) raíz cuadrada de x, round(x) redondear x al entero más próximo,

sd(v) desviación estándar de los componentes del vector v,

sum(v) suma de los componentes en el vector v.

4.4.4 Compilando y Ajustando un Modelo en WinBUGS®

Una vez que el modelo está escrito y los datos formateados, el modelo

debe ser compilado. Los modelos son compilados en WinBUGS® usando los

pasos siguientes:

Paso 1: Seleccionar "Model" y "Specification" del menu de WinBUGS®. La

ventana de Specification Tool debe aparecer.

Paso 2: Resaltar el comando model al inicio del modelo y dar clic en el

botón de "check model" de la ventana de Specification Tool (Véase figura 4.1).

Si hay algún problema con la sintaxis del modelo, un mensaje aparecerá al

fondo de la ventana del modelo.

Figura 4.1. Ventana de "Specification Tool"

116

En la esquina inferior izquierda de la caja de diálogo principal debe verse

las palabras "model is syntactically correct". El botón de

compilación en la Herramienta de Especificación (Specification Tool) se activa.

Paso 3: Resalta el comando list al inicio de la lista de datos y dar clic en

"load data".

Paso 4: Dar clic en "compile" . Si hay algunos problemas con

el modelo, un mensaje se desplegará al fondo de la ventana del modelo, de no

presentarse algún problema el mensaje "model compiled" aparecerá.

Paso 5: Cargar los valores iniciales (a) al dar clic en "gen inits" ,

lo cual genera aleatoriamente los valores iniciales o (b) al ingresar valores

específicos usando la lista de datos y al resaltar los comandos apropiados de

list. El mensaje “initial values generated, model initialized” se presentará al no

haber problemas.

4.4.5 Respuesta y Monitoreo en WinBUGS®

La estimación de parámetros solo se proporcionará para los parámetros

que están explícitamente identificados antes del ajuste del modelo. Una vez que

el modelo ha sido compilado, entonces se necesita identificar los parámetros de

interés. Esto se puede llevar a cabo al seleccionar "Inference" y "Samples…" del

menú de WinBUGS®. La herramienta de "Sample Monitor Tool" aparecerá

(Véase figura 4.2).

117

Figura 4.2 Ventana de "Sampling Monitor Tool"

Escriba el nombre del parámetro en la ventana "node" y hacer clic en

"set". Repita el proceso para parámetros adicionales. Finalmente escriba

un asterisco "*" y hacer clic en "set".

Para iniciar el ajuste del modelo, seleccione "Model" y "Update" del menú

de WinBUGS® y la herramienta "Update Tool" aparecerá (Véase figura 4.3).

Figura 4.3 Ventana de "Update Tool"

Anote el número de iteraciones del modelo Monte Carlo en la ventana de

"updates" y haga clic en el botón de "update" . La traza revelará el

progreso de cada cadena de Monte Carlo. Después de que las iteraciones se

hayan completado, dar clic en el botón de "density" en la ventana de

"Samle Monitor Tool" (Ver figura 4.4) para analizar la distribución posterior de los

parámetros estimados y "stats" para analizar los parámetros estadísticos.

118

Figura 4.4 Botones activados de la ventana de "Sample Monitor Tool"

Luego de presionar , la ventana despliega un gráfico mostrando la

distribución de los valores previos (Ver figura 4.5). El eje x es el conjunto de

todos los valores posibles para las variables de salida y el eje y indica que tan

seguido el modelo escoge un valor particular.

beta sample: 5000

0.0 2.0 4.0 6.0 8.0

0.0

1.0

2.0

3.0

Figura 4.5 Gráfico de densidad de la variable beta

Al presionar el botón "stats" aparece la tabla siguiente (Ver tabla

4.8):

Tabla 4.8 Tabla de resultados "Node Statistics"

119

El valor de la media para nuestra variable de ejemplo es de 0.349 con el

95% de los 5000 valores en el rango comprendido entre 0.113 y 0.5869.

4.4.6 Programas WinBUGS® de las Distribuciones Previas

Para la simulación del modelo, se tienen definidas algunas distribuciones

previas que forman parte del modelo de riesgo proporcional de Cox mismas que

son el fundamento para el análisis Bayesiano que se aplicó en la presente

investigación.

El modelo de riesgo proporcional de Cox está modelado del siguiente

modo

Las distribuciones previas a considerar basadas en este modelo son:

El riesgo base acumulado sigue un proceso gama en la que los

incrementos del riesgo acumulado presentan una distribución gama con

parámetros (c , c).

Los coeficientes de efectos de regresión tienen asignada una

distribución normal con parámetros (0.0, 0.0001).

Se asume que el efecto de error ocasionado por fuentes desconocidas

sigue un comportamiento normal de parámetros (0, ) y sigue un

comportamiento de gama inversa.

Los programas generados bajo estas condiciones se encuentran en el

apéndice A.

120

5. ANÁLISIS DE RESULTADOS

Utilizando las técnicas Bayesianas presentadas previamente, se muestra

la estimación de los parámetros requeridos con el fin de realizar un análisis del

comportamiento de falla del proceso. Los parámetros β y son estimados

basados en la programación por computadora usando el software WinBUGS® al

igual que el comportamiento del riesgo base acumulado.

5.1 Estimación de los Coeficientes de Regresión β

Al correr el programa "Modelo de Regresión Inicial" para la estimación de

los coeficientes de regresión se obtuvieron los resultados que se mencionan a

continuación.

El gráfico de traza para los coeficientes obtenidos por el análisis

Bayesiano se muestra en las figuras 5.1, 5.2 y 5.3

beta0

iteration

950900850

-0.2 0.0 0.2 0.4 0.6 0.8

Figura 5.1 Gráfica de traza de beta0

121

beta1

iteration

950900850

-0.2 0.0 0.2 0.4 0.6 0.8


beta2

iteration

950900850

-0.2

0.0

0.2

0.4

0.6


Los coeficientes convergen rápidamente casi de inmediato. El histórico

del muestreo se presenta el fin de ver esta convergencia en las figuras 5.4, 5.5 y

5.6.

beta0

iteration

1 250 500 750 1000

-0.2

0.0

0.2

0.4

0.6

0.8

Figura 5.4 Gráfica de la historia del parámetro beta0

122

beta1

iteration

1 250 500 750 1000

-0.2

0.0

0.2

0.4

0.6

0.8


beta2

iteration

1 250 500 750 1000

-0.2

0.0

0.2

0.4

0.6


Las curvas de aproximación de densidad se muestran en las figuras 5.7,

5.8 y 5.9.

beta0 sam ple: 1000

-0.2 0.0 0.2 0.4 0.6

0.0

5.0

10.0

15.0

Figura 5.7 Gráfica de densidad del parámetro beta0

123

beta1 sam ple: 1000

-0.2 0.0 0.2 0.4 0.6

0.0

5.0

10.0

15.0


beta2 sam ple: 1000

-0.2 0.0 0.2 0.4

0.0

5.0

10.0

15.0


Finalmente, el resumen de los resultados del muestreo de los coeficientes

de β se encuentran desplegados en la tabla 5.1. El valor medio de las

muestras, como un estimado de los coeficientes de β son 0.3866, 0.1395 y

0.2499.

node mean sd MC error 2.5% median 97.5% start sample beta0 0.3866 0.03678 0.001061 0.3223 0.3856 0.4515 1 1000 beta1 0.1395 0.0432 0.001132 0.06003 0.1395 0.2254 1 1000 beta2 0.2499 0.04168 0.001205 0.1654 0.2512 0.3314 1 1000 BZmed 1.163 0.06757 0.001889 1.034 1.162 1.298 1 1000

Tabla 5.1 Resultados obtenidos de los parámetros beta0, beta1, beta2 y BZmed.

La variable BZmed está en función de beta0, beta1, y beta2 mediante la

fórmula BZmed = BZ + beta0 + beta1+ beta2 por lo que el valor real del producto

de la matriz Z con la matriz de regresores β es igual a

124

BZ = BZmed - beta0 - beta1 - beta2 = 0.387

5.2 Estimación del Error

La estimación del error en el modelo de Cox es la siguiente:

El gráfico de traza obtenido por el análisis Bayesiano para el error se

muestra en la figura 5.10 y se puede apreciar que converge poco después de las

800 iteraciones por lo que son descartadas las primeras 500 iteraciones.

error

iteration

950900850

0.0

2.0

4.0

6.0

8.0

Figura 5.10 Gráfica de traza del error

También se tiene la gráfica de la historia del muestreo en la figura 5.11

misma que verifica los resultados anteriores.

error

iteration

1 250 500 750 1000

0.0

2.0

4.0

6.0

8.0

Figura 5.11 Gráfica de la historia del error

125

Finalmente, el resumen de los resultados para el error se observan en la

tabla 5.2 generada por WinBUGS®.

node mean sd MC error 2.5% median 97.5% start sample error 2.945 0.9566 0.1047 1.496 2.802 5.053 501 500 alpha 2.048 0.7631 0.08116 0.9026 1.902 3.77 501 500 beta 0.5102 0.2155 0.02377 0.1939 0.4865 1.05 501 500

Tabla 5.2 Resultados generados de los parámetros error, alpha y beta.

El valor del error obtenido no es el error definitivo. Dado que en el

programa su valor está en función de una distribución, para obtener el resultado

esperado se debe expresar por medio de una ecuación, esto se realizó

utilizando el valor de los parámetros de la distribución gama (alpha, beta), de la

cual se deriva mediante la ecuación de Error = error + alpha + beta.

Basándonos en los valores obtenidos y sustituyéndolos en la ecuación se

obtiene:

Error = error - alpha - beta = 2.945 - 2.048 - .05102 = 0.3868

5.3 Estimación del Comportamiento del Riesgo Base Acumulado

Aplicando los supuestos en la elaboración del programa WinBUGS®

"riesgo acum inicial 2" y al correr la simulación se obtienen los siguientes

resultados. Ver tabla 5.3.

node mean sd MC error 2.5% median 97.5% start sample L0 0.2432 0.004941 1.408E-4 0.2527 0.2432 0.2334 1 1000 R192 0.02763 0.001676 5.123E-5 0.02444 0.0276 0.03099 1 1000 Sobrev 0.6998 0.005075 1.447E-4 0.69 0.6998 0.7099 1 1000

Tabla 5.3 Tabla de resultados generados de los parámetros L0, R192 y Sobrev.

126

La variable "L0" representa a la función de riesgo base acumulada para

un tiempo de falla de192 horas, y nos arroja un resultado de 0.2432.

La variable "R192" representa el valor de la función de riesgo para un

tiempo de falla de 192 horas tomando un valor de 0.02763.

La variable "Sobrev" es el valor de la función de sobrevivencia obtenida

conforme al modelo de Cox en base a la función de riesgo base acumulada y

agregándole el elemento de error:

Las gráficas de traza, de historia y de densidad para la función de riesgo

base acumulada y la función de sobrevivencia se muestran a continuación. Ver

gráficas 5.12 a 5.17.

L0

iteration

950900850

-0.27 -0.26 -0.25 -0.24 -0.23 -0.22

Sobrev

iteration

950900850

0.56

0.58

0.6

0.62

Figura 5.12 Gráfica de traza del parámetro L0 Figura 5.13 Gráfica de traza del parámetro Sobrev

L0

iteration

1 250 500 750 1000

-0.27

-0.26

-0.25

-0.24

-0.23

-0.22

Figura 5.14 Gráfica de la historia del parámetro L0

127

Sobrev

iteration

1 250 500 750 1000

0.56

0.58

0.6

0.62

Figura 5.15 Gráfica de la historia del parámetro Sobrev

L0 sam ple: 1000

-0.27 -0.25 -0.23

0.0

25.0

50.0

75.0

100.0

Sobrev sample: 1000

0.56 0.58 0.6

0.0

20.0

40.0

60.0

80.0

Figura 5.16 Gráfica de densidad del parámetro L0 Figura 5.17 Gráfica de densidad del parámetro Sobrev

5.4 Comparación de Datos

Los datos obtenidos por medio de la simulación se comparan con los

datos originales para validar el modelo y determinar así las conclusiones

pertinentes.

Para el caso de la matriz de regresión de efectos fijos se aprecia que

inicialmente se obtuvieron los valores de los coeficientes mediante un análisis de

regresión partiendo de un diseño de experimentos. La matriz obtenida fue la

siguiente

128

Mediante la modelación del sistema y considerando los supuestos para el

análisis Bayesiano la matriz obtenida mediante la simulación fue

Multiplicando esta matriz, por la matriz de predictores que optimizan los

resultados esperados , obtenemos el resultado que aplicaremos

al modelo de Cox posteriormente Z β = -0.0028.

El elemento de error que se sumará al valor de la matriz tiene un valor

de 0.3868 y sumado a -0.0028 obtenemos 0.384 como valor el exponente para

la exponencial en el modelo. De manera inicial este valor para el exponente

es de -0.3457 y pasa a tomar un valor de 0.384 luego de agregar el elemento de

error en la simulación.

El valor de la función de riesgo acumulada no cambia demasiado, pasa

de un valor inicial de 0.2524 a uno de 0.2432, luego de simular el proceso se

tiene una diferencia de 0.0092 entre estas cantidades. Después de 1000

iteraciones, los valores se ajustan sin representar mucha diferencia como es

este caso.

Con los valores anteriores ya podremos aplicar la fórmula para la

sobrevivencia del modelo de Cox: para un panorama

inicial de condiciones y para las

condiciones de simulación.

Sobrevivencia inicial = exp[-0.2524*e(-0.3457)] = 0.8364

Sobrevivencia posterior = exp[-0.2432*e(0.384)] = 0.6997

129

Con esta información se puede conocer la función de falla acumulada del

proceso real y simulado que nos da:

F(t) inicial = 1-0.8364 = 0.1636

F(t) posterior = 1-0.6997 = 0.3003

El comportamiento de falla acumulada casi se duplica debido al efecto

inducido del error por causas aleatorias desconocidas sumado en la ecuación

del modelo de Cox.

Estableciendo un comparativo de los indicadores de las funciones de

confiabilidad, falla acumulada y riesgo acumulado, se aprecia que el nivel de

probabilidad de sobrevivencia para un tiempo de falla de 192 horas disminuye en

un 13.67%, esta disminución se presenta como resultado directo del valor que

tomó el exponente de la función exponencial al sumarle el elemento de error. El

efecto de la función de riesgo en esta diferencia de valores está descartado ya

que su valor no cambia después de la simulación del modelo y la diferencia en

valores para la función de riesgo acumulada es tan sólo de 0.0092 como ya se

mencionó arriba.

Aplicando la fórmula del modelo de Cox y sin sumar el error para estimar

el valor de la función de riesgo para el tiempo de falla de 192 horas se tiene:

Con datos iniciales: 0.02763*e-0.3457 = 0.01955

Mediante la simulación: 0.02763*e-0.0028 = 0.02755

Se observa una diferencia de 0.008 entre los valores por lo que no resulta

altamente significativa la diferencia de los resultados obtenidos.

130

Mediante el análisis comparativo de los resultados obtenidos mediante la

simulación en WinBUGS®, se observa que el elemento significante de variación

lo provoca el efecto de error agregado al modelo de Cox. El efecto de este error

hace que el valor de la función de probabilidad de sobrevivencia disminuya en

0.1367 y consecuentemente el valor de probabilidad de falla F(t) aumente en la

misma proporción pasando de un valor de 0.1636 a 0.3003.

Finalmente, en base a estos resultados se evalúan las hipótesis

propuestas en el capítulo dos:

H0: El comportamiento de riesgo de falla del proceso derivado del análisis

de la muestra puede ser simulado para conocer el comportamiento de riesgo del

proceso de la población.

La diferencia observada entre los datos obtenidos mediante el análisis

estadístico de la muestra y aquellos generados mediante el modelo de

simulación presenta una diferencia máxima de 0.008 para el cálculo del riesgo

proporcional y una diferencia de 0.0092 para el riesgo acumulado. Estos datos

están por debajo de un porcentaje de 5% por lo que el comportamiento del

proceso es viable de ser simulado y por lo tanto hipótesis no se rechaza.

H0: El rango de variación de la función de sobrevivencia es menor en un

10% respecto a su valor inicial al aplicar el modelo simulado con el elemento de

error integrado.

El efecto observado al agregar el elemento de error en el modelo de Cox

provoca únicamente que la función de sobrevivencia disminuya un 13.67%.

Junto con esta disminución se observa una amplitud en los límites de confianza

como puede apreciarse en la tabla 5.4

131

R(t) LSC Valor Medio LIC Rango

Función de sobrevivencia 0.8332 0.8364 0.8396 0.0032

Función de sobrevivencia más error 0.69 0.6998 0.7099 0.01

Tabla 5.4 Efecto del error en la función de sobrevivencia

Por lo mencionado arriba, los límites de confianza son más amplios y la

variación de la función de falla es mayor al 10% por lo que esta hipótesis no se

acepta para los valores de los límies de confianza.

H0: El efecto del error en el modelo de riesgo proporcional aumenta el

nivel de riesgo del sistema en un 20%.

El valor del error obtenido es de 0.3868 por lo que se aumenta el nivel de

riesgo del modelo en un 38.68% al tener un efecto aditivo en el exponente de la

función lineal y por lo tanto la hipótesis no se acepta ya que se aporta un

porcentaje de nivel de riesgo mayor al estimado.

H0: El enfoque Bayesiano del modelo de simulación involucra información

subjetiva sobre el riesgo base acumulado, el comportamiento lineal de las

variables significantes y sobre el error aleatorio asignado a otras fuentes de

variación.

Los supuestos considerados para la inferencia Bayesiana se realizan

sobre la función de riesgo acumulado considerando un comportamiento de un

proceso gama, también sobre la matriz de regresores de la función lineal del

modelo de Cox siguiendo un comportamiento normal con media cero y varianza

de 0.0001 y se asume del error un comportamiento de distribución normal con

media cero y una varianza con un comportamiento de gama inversa por lo que la

hipótesis planteada no se rechaza.

132

H0: El nuevo modelo desarrollado permite estimar los parámetros de

función de falla para el análisis de vida de las partes producidas por el sistema

en estudio.

Al obtener los cálculos directos de la función de sobrevivencia se

obtienen, por consecuencia, los resultados de la función de falla, por lo que el

modelo de simulación sí permite el análisis de vida de la producción del proceso,

y como consecuencia la hipótesis no se rechaza.

133

6. CONCLUSIONES Y RECOMENDACIONES

El desarrollo, extensiones y mejoramiento de los programas

computacionales para simular modelos de comportamiento de sistemas reales

se han generalizado en las últimas décadas involucrando métodos de

investigación estadística. El modelamiento Bayesiano se desarrolla a la par de

este cambio tomando auge desde finales de la década de los ochentas

(Ztzoufras, 2009), hasta la fecha. Esta investigación ofrece una modesta pauta

en la aplicación de estos modelos.

En la diversidad de situaciones del campo productivo actual, la aplicación

del modelamiento Bayesiano aporta atractivas ventajas especialmente si no se

tiene un historial registrado de eventos que definan el comportamiento del

sistema en observación, o bien si no se cuenta con la posibilidad de crear un

gran número de experimentos para su análisis estadístico y si sólo se cuenta

con la experiencia de los expertos o con conocimientos científicos que son

implementados en el proceso. Para salvar esta limitación, la estadística

Bayesiana, aunada a técnicas computacionales específicas provee información

que ayuda en la implementación de mejoras, cambios, o en la toma de

desiciones en sistemas de producción.

Este trabajo establece una aplicaión práctica de estos modelos de

inferencia Bayesiana y se compara con experimento real para establecer

comparativos junto con cambios en el modelado para estimar el comportamiento

futuro del sistema. Se aplica el modelo de riesgo proporcional de Cox junto con

134

algunos cambios y supuestos que alimentan y definen la implementación

estadística Bayesiana, finalmente se comparan los resultados con el modelo

original basado en la estadística tradicional.

Con la realización de esta investigación se comprueba que la inferencia

Bayesiana llega a los mismos resultados que los obtenidos mediante métodos

tradicionales de inferencia estadística. Sin embargo, se requiere la validación del

modelo de simulación mediante un muestreo adicional del sistema real para

refinar el diseño del modelo. Esto se puede realizar de manera iterativa con el fin

de mejorar los niveles de respuesta y calidad de la información generada por el

modelo hasta llegar a un nivel de confiable aceptación.

Como conclusión se pueden definir algunos puntos que den como

respuesta a los objetivos planteados en el capítulo dos de esta investigación:

El modelo diseñado para la simulación del sistema de producción es

viable de ser implementado en un ambiente de operación real.

El modelo propuesto proporciona confiabilidad en sus respuestas

comparadas con resultados similares obtenidos del análisis de la muestra

en una proporción menor al 5%.

El efecto que produce el agregar un elemento de error al modelo de

riesgo proporcional aumenta la proporción de falla acumulada en un

13.67%.

Los límites de confianza de la función de sobrevivencia estimados para un

nivel de confianza del 95% en el modelo ajustado (con error), aumentan

hasta en un 66% en relación a los límites de confianza del modelo inicial.

El valor del riesgo proporcional cambia de 0.01955 a 0.02755 en el

modelo simulado representando una diferencia de 0.008 por lo que la

diferencia de valores no de considera significativa.

135

El modelo propuesto representa limitantes, ya que se aplica

exclusivamente a un solo tipo de sistema de producción y bajo condiciones de

operación únicas. El modelamiento podrá ser adaptado a otros sistemas ya que

cuenta con la flexibilidad de poder hacerlo conociendo fondo los principios del

manejo del WinBUGS®, sobre todo si el sistema de operación es más complejo

en su estructura y variables.

Otra limitante es la incapacidad de validar el modelo diseñado con los

cambios implementados en el sistema real para comprar los valores estimados

con los reales y poder mejorar el modelo.

Para investigaciones futuras se recomienda implementar el modelo de

simulación en otros campos de aplicación, establecer una base comparativa, si

las condiciones lo permiten, mediante análisis estadísticos tradicionales y

posteriormente comparar con el sistema real. La aplicación de inferencia

Bayesiana y más específicamente el modelo de riesgo proporcional ha tenido

mucho impacto en el campo de la medicina pero en el área de la ingeniería de

confiabilidad su aplicación ha sido menos intensa por lo que existe un campo

amplio de oportunidades en esta dirección.

Es importante estar a la vanguardia de los cambios en cuanto a las

versiones del software que van apareciendo ya que es un campo de desarrollo

acelerado y continuamente se está modificando.

136

APÉNDICE A

PROGRAMAS WinBUGS® PARA LA DETERMINACIÓN DE PARÁMETROS

EN LA MODELACIÓN BAYESIANA

137

MODELO DE REGRESIÓN INICIAL

model { for ( i in 1:N) { BZ[i] ~ dnorm (med[i], tau1) med[i] <- beta0 + beta1*Z1[i] + beta2*Z2[i] } tau1 ~ dgamma (0.01, 0.01) beta0 ~ dnorm (0.0, 0.0001) beta1 ~ dnorm (0.0, 0.0001) beta2 ~ dnorm (0.0, 0.0001) s2<-1/tau1 s<-sqrt(s2) BZmed <- mean(BZ[ ]) + beta0 + beta1 + beta2 } Data list(N = 12, BZ = c(0.0956, 0.9235, 0.1987, 0.4886, 0.3262, 0.3247, 0.2772, 0.4391, 0.0956, 0.8112, 0.3797, 0.2834) , Z1=c(-1, 1, 1, -1, 0, 0, 1, -1, -1, 1, 0, 0), Z2=c(-1, 1, -1, 1, 0, 0, -1, 1, -1, 1, 0, 0) ) Inits list( beta0=1, beta1=0, beta2=0, tau1=1 )

138

GAMA INVERSA INICIAL

model { for (i in 1:N) { E[i] ~ dnorm(0.0, tau[i]) } for (i in 1:N) { y[i] <- 1 / tau[i] y[i] ~ dgamma(alpha,beta) } alpha ~ dgamma(0.001, 0.001) beta ~ dgamma(0.001, 0.001) error <- mean(E[ ]) + alpha + beta } Data list( N=12, tau =c(0.0956, 0.9235, 0.1987, 0.4886, 0.3262, 0.3247, 0.2772, 0.4391, 0.0956, 0.8112, 0.3797, 0.2834), E =c(0.0956, 0.9235, 0.1987, 0.4886, 0.3262, 0.3247, 0.2772, 0.4391, 0.0956, 0.8112, 0.3797, 0.2834)) Inits list( alpha=1, beta=1 )

139

RIESGO ACUM INICIAL

model { for (i in 1:N) { dL0[i] ~ dgamma(mu[i], c) mu[i] <- dL0.inic[i] * c } c <- 0.01 r <- 1000000 # Funcion de riesgo para un tiempo de falla de 192 horas R192 <- dL0[12 ] / 1000000 #Sumatoria de la funcion de riesgo L0 <- -sum(dL0[1:12])/1000000 # Funcion de sobrevivencia Sobrev <- pow(exp(L0), exp(0.384)) #0.384 (-0.0028+.3868) es el valor de

exp(BZ+error) for (i in 1:T) { dL0.inic[i] <- r * (t[i+1]-t[i]) } } Data list( N=12, T=12, t =c(0.009246, 0.021403, 0.038628, 0.056544, 0.075304, 0.094853, 0.114426, 0.134588, 0.154903, 0.176589, 0.200694, 0.224800,

0.252435) ) Inits list( dL0 =c(1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0 ) )

140

BIBLIOGRAFÍA

Abernethy, R.B. (2010). The New Weibull Handbook. Roberth B. Abernethy.

Amendola, A., Bustamante, A. (1986). Reliability Engineering. Kluwer Academic

Publishers.

Andrieu, C., Freitas, N., Doucet, A., Jordan, M. (2003). An Introduction to MCMC

for Machine Learning. Machine Learning. Vol. 50, pp 5-43

Arredondo, R.D., (2005). Análisis de Confiabilidad del Dado de Máquina de

Inserción de Terminales y Construcción de un Modelo de Riesgo Proporcional. Tesis de

Maestría. ITCJ.

Beichl, I., Sullivan, F. (2000). The Metropolis algorithm. Computing in Science

and Engineering. Vol. 2, no. 1. pp 65-69

Bertsche, B. (2008). Reliability in Automotive and Mechanical Engineering.

Springer.

Cox, D.R. (1972). Regression Models and Life-Tables. Journal of the Royal

Statistical Society. Series B. Vol. 34, Issue 2. pp 187 - 220

Dezfuli, H., Kelly, D., Vedros, K., Galyean, W. (2009). Bayesian Inference for

NASA Probabilistic Risk and Reliability Analysis. NASA Special Publication.

Downing, D., Clark, J. (1983). Business Statistics. Barron´s Educational Series.

141

Ferguson, T. (1973). A Bayesian Analysis of Some Nonparametrics Problems.

Annals of Statistics. Vol 1, Issue 2, pp 209-230

Freund, J.E., Miller, I., Miller, M. (2000). Estadística Matemática con

Aplicaciones. Prentice Hall.

Gelman, A., Rubin, D. (1992). Inference from Iterative Simulation Using Multiple

Sequences. Statistical Science. Vol. 7, No. 4, pp 457-472

Ibrahim, J., Chen, M., MacEachern, S. (1999). Bayesian Variable Selection for

Proportional Hazards Model. The Canadian Journal of Statistics. Vol. 27, Issue 4, pp

701-707

Kalbfleisch, J., Pretince, R. (1980). The Statistical Analysis of Failure Time Data.

Wiley Interscience

Kalbfleisch, J. (1978). Non-parametric Bayesian Analysis of Survival Time Data.

Journal of the Royal Statistical Society. Series B. Vol 40, Issue 2. pp 214-221

Kim, Y., Lee, J. (2003). Bayesian Bootstrap for Proportional Hazards Model. The

Annals of Statistics. Vol. 31, No. 6, pp 1905-1922

Lindley, D. (1965). Probability and Statistics from a Bayesian Viewpoint.

Cambridge University Press.

Martz, H., Waller, R. (1982). Bayesian Reliability Analysis. John Wiley & Sons.

Meeker, W.Q., Escobar, L.A. (1998). Statistical Methods for Reliability Data. John

Wiley & Sons.

142

Lin, D.Y. and Wei, L.J. (2006). The Robust Inference for the Cox Proportional

Hazards Model. Journal of the American Statistical Association. Vol. 84, No. 408. pp

1074 -1078

Montgomery, D.C. (1997). Design and Analysis of Experiments. John Wiley &

Sons.

Montgomery, D.C. (1997). Introduction to Statistical Quality Control. John Wiley

& Sons.

Montgomery, D.C., Peck, E.A., Vining, G.G. (2006). Introduction to Linear

Regression Analysis. Wiley Interscience.

Ntzoufras, I. (2009). Bayesian Analysis Using WinBUGS. John Wiley & Sons.

Pham, H. (2006). Springer Handbook of Engineering Statistics. Springer.

Piña, M.R., González, D.S., Noriega, S.A. (2010). Joint estimation of the pdf

parameters and factors coefficients when a parametric hazard model is used.

International Journal of Industrial Engineering. 2010 Special Issue

Ramakumar, R. (1993). Engineering Reliability. Prentice Hall.

Rodrìguez, M. (2007). Bayesian Analysis for Cox´s Proportional Hazards Model

with Error Effect and Applications to Accelerated Life Testing Data. Master´s theses No.

6476. University of Texas at El Paso.

Ryan, T.P. (2000). Statistical Methods for Quality Improvement. Wiley

Interscience.

Savage, L. (1954). Fundations of Statistics. Wiley: New York.

143

Vaida, F., Xu, R. (2000). Proportional Hazards Model with Random Effects.

Statistics in Medicine. Vol. 19, pp 3309-3324

Wei, L. (1992). The Accelerated Failure Time Model: A Useful Alternative to the

Cox Regression Model in Survival Analysis. Statistics in Medicine. Vol. 2, pp 1871-1879