Universidad Nacional de Misiones Facultad de Ciencias Exactas Qumicas y Naturales
Trabajo Final
Estudio Estadstico sobre mediciones de calidad diaria de aire en la ciudad de New York ,1973.
Ctedra: Estadstica AplicadaProfesor: Mgter. Piris da Motta, MarcialAlumnos Brtez, CelesteIQ01396 Salvia, ArianaIQ01368
Ao: 2015
Universidad Nacional de MisionesFacultad de Ciencias Exactas Qumicas y Naturales
ndice
Introduccin3Descripcin4Objetivo4Metodologa41. Anlisis descriptivo52. Correlacin entre variables133. Modelo de Regresin143.1 Ajuste de diseo153.2 Introduccin de trminos de interaccin entre las variables explicativas en el modelo183.3 Comparacin de Modelos214. Validacin de Modelo elegido234.1 Anlisis de los residuos4.1.1 Linealidad234.1.2 Independencia244.1.3 Homocedasticidad254.1.4 Normalidad274.1.5 No-Colinealidad28Conclusin29Bibliografa30
Introduccin
Cuando el ozono se sita en la capa ms baja de la atmsfera y supera ciertos niveles, deja de ser el gas protector de la vida en el planeta para convertirse en un peligroso contaminante. El ozono se produce de forma natural, dando lugar a pequeas concentraciones inocuas en el aire, a partir de emisiones procedentes de la vegetacin, procesos de fermentacin o volcanes, y se encuentra tanto en la tropsfera- la regin de la atmsfera ms prxima a la superficie terrestre- como en la estratsfera, situada en las capas altas de la atmsfera, en donde cumple su conocido papel protector contra los letales rayos ultravioleta. Sin embargo, cuando el ozono troposfrico aumenta en mayores cantidades, provocado por medios artificiales, se convierte en un contaminante txico. A diferencia de otros contaminantes que son emitidos directamente por sus fuentes, el ozono surge a partir de otros productos, principalmente xidos de nitrgeno (NOx) y contaminantes orgnicos voltiles (COV's).Adems de la presencia de NOx y COV's, hay otros factores que contribuyen a la formacin de ozono a nivel del suelo, denominados factores meteorolgicos.Se requiere altos niveles de radiacin solar para iniciar las reacciones fotoqumicas que forman ozono. Las radiaciones estimulan los COV's y NOx a recombinarse para formar el ozono.Temperaturas superiores a 80 F (26,7C) tambin influyen en la formacin de ozono. Las temperaturas ms altas aumentan la qumica de la formacin de ozono y las emisiones de evaporacin de COV's. Cuanto mayor sea la temperatura, se producirn altos niveles de ozono.Bajas velocidades del viento (menores a 10 MPH) son necesarias para la acumulacin de los precursores de la formacin de ozono (COV's y NOx) y la posterior formacin de ozono. Velocidades del viento ms altas tienden a diluir o dispersar las emisiones. Sin embargo, todava pueden transportar ozono desde otros lugares.
DescripcinEl estudio citado muestra las variaciones de: Concentracin de Ozono en partes por billn de 13:00 a 15:00 horas en Roosevelt Island. Radiacin solar en Langleys en la banda de frecuencias 4000-7700 Angstroms de 08:00-12:00 horas en Central Park. Velocidad media del viento en millas por hora de 07:00 a 10:00 horas en el aeropuerto de La Guardia. Temperatura diaria mxima en grados Fahrenheit en el aeropuerto La Guardia. Meses del ao (05-09).Estos datos fueron tomados en la ciudad de Nueva York por el Departamento de Estado de Nueva York de la Naturaleza (datos de la capa de ozono) y del Servicio Meteorolgico Nacional, a partir del 1 de Mayo al 30 de Septiembre de1973.Objetivo Evaluar si existe correlacin entre la concentracin de ozono y los factores temperatura diaria mxima, radiacin solar, velocidad media del viento.MetodologaSe efectuar un anlisis descriptivo de la concentracin de ozono (Ozone), temperatura diaria mxima (Temp), radiacin solar (Solar.R) y velocidad media del viento (Wind) que sern las variables en estudio.La metodologa a aplicar consiste en realizar una Regresin Lineal Mltiple para comprobar si existe asociacin entre la concentracin de ozono (variable dependiente) y las variables explicativas: temperatura mxima diaria, radiacin solar y velocidad media del viento. Si existiese dicha asociacin o relacin se proceder a la bsqueda del modelo que mejor se ajuste al estudio y la validacin del mismo. Para el procesamiento de la informacin y la evaluacin de la relacin entre las variables se utilizar el Software R.2.12.2.Resultados 1. Anlisis descriptivoEn la tabla 1 se muestran los datos que fueron extrados del conjunto de datos de paquetes New York Air Quality Measurements del Programa R.2.12.2. La misma cuenta con 153 mediciones de concentracin de ozono, velocidad media del viento, radiacin solar, temperatura, tomadas durante 5 meses en la ciudad de New York.Para introducir los datos en el programa, se carga en la ventana de R Console>library (Rcmdr), y en la nueva ventana abierta de Rcmdr mediante la seleccin de las opciones del men Datos Conjunto de datos en paquetesLeer datos desde paquete adjunto, en el cuadro de dialogo se elije el paquete datasets y dentro de ste el juego de datos airquality. (Imagen1).Imagen 1ObsOzoneSolar.RWindTempMonthDay
1411907.46751
23611887252
31214912.67453
41831311.56254
5NANA14.35655
628NA14.96656
7232998.66557
8199913.85958
981920.16159
10NA1948.669510
117NA6.974511
12162569.769512
13112909.266513
141427410.968514
15186513.258515
161433411.564516
17343071266517
1867818.457518
193032211.568519
2011449.762520
21189.759521
221132016.673522
234259.761523
2432921261524
25NA6616.657525
26NA26614.958526
27NANA857527
2823131267528
294525214.981529
301152235.779530
31372797.476531
32NA2868.67861
33NA2879.77462
34NA24216.16763
35NA1869.28464
36NA2208.68565
37NA26414.37966
38291279.78267
39NA2736.98768
407129113.89069
413932311.587610
42NA25910.993611
43NA2509.292612
4423148882613
45NA33213.880614
46NA32211.579615
472119114.977616
483728420.772617
4920379.265618
501212011.573619
511313710.376620
52NA1506.377621
53NA591.776622
54NA914.676623
55NA2506.376624
56NA135875625
57NA127878626
58NA4710.373627
59NA9811.580628
60NA3114.977629
61NA138883630
621352694.18471
63492489.28572
64322369.28173
65NA10110.98474
66641754.68375
674031410.98376
68772765.18877
69972676.39278
70972725.79279
71851757.489710
72NA1398.682711
731026414.373712
742717514.981713
75NA29114.991714
7674814.380715
77482606.981716
783527410.382717
79612856.384718
80791875.187719
816322011.585720
821676.974721
83NA2589.781722
84NA29511.582723
85802948.686724
86108223885725
8720818.682726
8852821286727
89822137.488728
90502757.486729
91642537.483730
92592549.281731
9339836.98181
9492413.88182
9516777.48283
9678NA6.98684
9735NA7.48585
9866NA4.68786
9912225548987
1008922910.39088
10111020789089
102NA2228.692810
103NA13711.586811
1044419211.586812
1052827311.582813
106651579.780814
107NA6411.579815
108227110.377816
10959516.379817
110231157.476818
1113124410.978819
1124419010.378820
1132125915.577821
11493614.372822
115NA25512.675823
116452129.779824
1171682383.481825
11873215886826
119NA1535.788827
120762039.797828
1211182252.394829
122842376.396830
123851886.394831
124961676.99191
125781975.19292
126731832.89393
127911894.69394
12847957.48795
129329215.58496
1302025210.98097
1312322010.37898
1322123010.97599
133242599.773910
1344423614.981911
1352125915.576912
136282386.377913
13792410.971914
1381311211.571915
139462376.978916
1401822413.867917
141132710.376918
1422423810.368919
14316201882920
1441323812.664921
14523149.271922
1463613910.381923
14774910.369924
148142016.663925
149301936.970926
150NA14513.277927
1511419114.375928
15218131876929
1532022311.568930
Tabla1.Datos de mediciones de Calidad de Aire en New York.Por distintos motivos, la tabla 1 presenta celdas con NA (NotAvailable), esto se debe a que no se ha podido medir un dato o que se ha perdido la medicin.En la tabla 2 se muestran los resultados obtenidos para los estadsticos descriptivos bsicos correspondientes a los valores de la concentracin de ozono, radiacin solar, temperatura, velocidad media del viento.VariablesMediaSDCV (%)IQRAsimetraCurtosis0%25%50%75%100%
Ozone42,129332,987978,301645,251,20991,11221,0018,0031,5063,25168,00
Solar. R185,931590,058448,4363143-0,4193-1,00407,00115,75205,00258,75334,00
Temp77,88239,465212,153213-0,3705-0,462956,0072,0079,0085,0097,00
Wind9,95753,523035,38044,10,34100,02891,707,409,7011,5020,70
Tabla 2. Anlisis DescriptivoLas medidas bsicas recomendadas son la media, rango intercuartlico y la desviacin tpica. Se calculan desde EstadsticosResmenesResmenes numricos, seleccionando para las variables (Imagen 2).
Imagen 2
Para el clculo de la curtosis y asimetra se cargan los paquetes abind y e1071 respectivamente, en la ventana de instrucciones del paquete Rcmdr se ingresaron los siguientes comandos. Curtosis:kurtosis(airquality$Ozone, na.rm=TRUE)Kurtosis (airquality$Solar.R, na.rm=TRUE)Kurtosis (airquality$Temp)kurtosis(airquality$Wind) Asimetra: skewness(airquality$Ozone, na.rm=TRUE)skewness(airquality$Solar.R, na.rm=TRUE)skewness(airquality$Temp)skewness(airquality$Wind)Se puede observar en la tabla 2 que las variables Ozone y Solar.R presentan la mayor dispersin ya que cuentan con los ms elevados valores de coeficientes de variacin CV, seguidos por Wind y Temp.En cuanto a la forma de distribucin, el valor obtenido para el coeficiente de curtosis las variables Ozone y Wind presentan valores positivos, la distribucin es Leptocrtica (elevado grado de concentracin alrededor de los valores centrales de la variable; K>0), en cambio las variables Solar.R y Temp presentan valores negativos, la distribucin es platicrtica (reducido grado de concentracin alrededor de los valores centrales de la variable; K |t|)
(intercept)-64,342123,0547-2,791 0,0062**
Solar.R0,05980,02322,58 0,012*
Temp1,65210,25356,516 2,42E-9***
Wind-3,33360,6544-5,094 1,52E-6***
Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1Tabla 5. Prueba de significacin de la constante
R^2R^2 ajustadaError tpico de estimacinp-value residuals
Modelo 0,60580,594821,18< 2,2E-16
Tabla 6.Resumen del modelo.En la tabla 5 se observa que cada variable presenta un p-valor menor a 0,05, por lo tanto contribuyen de forma significativa a explicar lo que ocurre con la variable dependiente.La tabla 6 muestra los resultados del ajuste del modelo de regresin. El valor de R^2, corresponde al coeficiente de determinacin, mide la bondad del ajuste de la recta de regresin a la nube de puntos, el rango de valores es de 0 a 1. Valores pequeos de R^2 indica que el modelo no se ajusta bien a los datos. R^2 indica que el 60,58% de la variabilidad de Temp, Wind y Solar.R es explicada por la relacin lineal con el Ozono. El valor R=0,7783 representa el valor absoluto del coeficiente de correlacin, es decir es un valor entre 0 y 1. Valores prximos a 1 indica una fuerte relacin entre las variables. 3.1 Ajuste de diseoSe procede al ajuste de diseo del modelo de regresin lineal utilizando el criterio de stepwise o paso a paso para el estudio en cuestin.Esta tcnica permite, de forma rpida y automtica, refinar un modelo con distintos procedimientos. La idea es probar a quitar y aadir variables a un modelo ya existente, evaluar los efectos de dichos cambios y elegir qu variables mantener y cules omitir.Para la evaluacin de la bondad del ajuste se utiliza el mtodo BIC (criterio de informacin bayesiano) y la tcnica para quitar y aadir variables adelante/atrs el cual arranca con el modelo sin variables explicativas y va aadiendo una a una las variables hasta que se queda con el mejor ajuste.Los pasos a seguir son (Imagen 11)
Imagen 11
Direction: forward/backwardCriterion: BIC
Start: AIC=814.81Ozone ~ 1
DfSum of Sq RSS AIC+ Temp 1 59434 62367738.74+ Wind 1 45694 76108 761.83+ Solar.R 1 14780 107022801.37 121802 811.67Step: AIC=741.93Ozone ~ TempDfSum of Sq RSS AIC+ Wind 1 11378 50989 720.08+ Solar.R 1 2723 59644 738.27 64110 741.93- Temp 1 61033 125143 814.81
Step: AIC=726.68Ozone ~ Temp + Wind
DfSum of SqRSS AIC+ Solar.R 1 2986.2 48003717.7953973 726.68- Wind 1 10136.9 64110741.93- Temp 1 25886.0 79859 767.41
Step: AIC=692.55Ozone ~ Temp + Wind + Solar.R
Df Sum of Sq RSS AIC 48003 692.55- Solar.R 1 2986.2 50989 694.54- Wind 1 11641.6 59644 711.94- Temp 1 19049.9 67053 724.94
Call:lm(formula = Ozone ~ Temp + Wind + Solar.R, data = airquality)
IntercepTempWindSolar.R
Coeficientes -64.34208 1.65209 -3.33359 0.05982
Tabla7 . Tabla de Coeficientes
El criterio AIC tiene en cuenta los cambios en la bondad de ajuste y las diferencias en el nmero de parmetros entre dos modelos. El mejor modelo es aquel que presenta el menor valor de AIC.El BIC es calculado para diferentes modelos como una funcin de la bondad de ajuste del log LiK[footnoteRef:2], el nmero de parmetros ajustados (K) y el nmero total de datos (N). El modelo con el ms bajo valor de BIC es considerado el mejor en explicar los datos con el mnimo nmero de parmetros. [2: Log-likelihood (log Lik), que es el logaritmo de mxima verosimilitud, y sustraen un trminoproporcional al nmero de parmetros (K) en el modelo.]
Mediante este procedimiento llegamos a la conclusin que un modelo que incluye a todas las variables es el que mejor describe al estudio.
La ecuacin que describe el modelo es:
3.1 3.1 Introduccin de trminos de interaccin entre las variables explicativas en el modelo.Para la introduccin de las interacciones entre las variables explicativas se siguen los siguientes pasos (Imagen 12)
Imagen 12Call:lm(formula = Ozone ~ Solar.R + Temp + Wind + (Solar.R:Temp) + (Solar.R:Wind) + (Temp:Wind), data = airquality)
Min1QMedian3QMax
-38.685-11.727 -2.169 7.360 91.244
Tabla 8. Anlisis descriptivo de Residuos.EstimateStd. Errort value Pr(> |t|)
(intercept)-1,408e+026,419e+01-2,193 0,03056*
Solar.R-2,260e-012,107e-01-1,073 0,28591
Temp2,322e+008,330e-012,788 0,00631**
Wind1,055e+014,290e+002,460 0,01555*
Solar.R:Temp5,061e-032,445e-032,070 0,04089*
Solar.R:Wind-7,231e-036,688e-03-1,081 0,28212
Temp:Wind-1,613e-015,896e-02-2,735 0,00733**
Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1Tabla 9. Prueba de significacin de la constante
R^2R^2 ajustadaError tipico de estimacionp-valueresiduals
Modelo 0,68630,668237,93< 2,2E-16
Tabla 10.Resumen del modelo.
Se procede al ajuste de diseo del modelo de regresin lineal utilizando el criterio de stepwise o paso a paso para el estudio en cuestin.Direction: forward/backwardCriterion: BIC
Start: AIC=814.81Ozone ~ 1DfSum of Sq RSS AIC+ Temp 1 59434 62367 738.74+ Wind 1 45694 76108 761.83+ Solar.R 1 14780 107022801.37121802 811.67
Step: AIC=741.93Ozone ~ TempDfSum of Sq RSS AIC+ Wind 1 11378 50989 720.08+ Solar.R 1 2723 59644 738.2764110 741.93- Temp 1 61033 125143 814.81
Step: AIC=726.68Ozone ~ Temp + Wind
Df Sum of Sq RSS AIC+ Temp:Wind1 6594.8 44394 708.72+ Solar.R1 2986.2 48003 717.7953973 726.68- Wind 1 10136.9 64110 741.93- Temp 1 25886.0 79859 767.41
Step: AIC=714.81Ozone ~ Temp + Wind + Temp:Wind
DfSum of SqRSS AIC+ Solar.R1 3618.4 40776 703.5746787 714.81- Temp:Wind1 7185.653973 726.68
Step: AIC=679.15Ozone ~ Temp + Wind + Solar.R + Temp:Wind
DfSum of Sq RSS AIC+ Solar.R:Temp1 2141.1 38635 677.8740776 679.15+ Solar.R:Wind1 995.7 39780 681.11- Solar.R1 3618.4 44394 683.88- Temp:Wind1 7227.0 48003 692.55
Step: AIC=677.87Ozone ~ Temp + Wind + Solar.R + Temp:Wind + Temp:Solar.R
DfSum of SqRSS AIC38635 677.87- Temp:Solar.R1 2141.1 40776 679.15+ Solar.R:Wind1 429.4 38205 681.34- Temp:Wind1 4339.8 42975 684.98
Call:lm(formula = Ozone ~ Temp + Wind + Solar.R + Temp:Wind + Temp:Solar.R, data = airquality)
IntercepTempWindSolar.RTemp:WindTemp:Solar
Coeficientes -1,37e+022,4511,115e+01-3,53e-01-1,86e-015,72e-03
Tabla 11. Tabla de Coeficientes
El mejor modelo con interaccin entre las variables explicativas incluye adems de las variables independientes las interacciones entre Temp-Wind y Temp-Solar.R.Min1QMedian3QMax
-38.398-10.889 -2.445 7.132 93.485
Tabla 12. Anlisis descriptivo de Residuos.
EstimateStd. Errort value Pr(> |t|)
(intercept)-1,368e+026,414e+01-2,1330,035252*
Solar.R-3,531e-011,750e-01-2,0180,046184*
Temp2,451e+008,250e-012,9710,00368**
Wind1,115e+014,259e+002,6170,01018*
Solar.R:Temp5,717e-032,370e-032,4120,01759*
Temp:Wind-1,863e-015,425e-02-3,4340,00085***
Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1Tabla 13. Prueba de significacin de la constante
R^2R^2 ajustadaError tipico de estimacionp-valueresiduals
Modelo 0,68280,667745,21< 2,2E-16
Tabla 14.Resumen del modelo.
La ecuacin que describe el modelo es:
3.1 Comparacin de ModelosAl disponer de dos modelos posibles Modelo1 y Modelo2, para explicar la concentracin de ozono, se plantea cul ajusta mejor los datos mediante un test (ANOVA) que contrasta si ambos modelos se comportan de forma similar o bien difieren significativamente.Realizando un anlisis de varianza (ANOVA) entre los modelo con interaccin y sin interaccin (Imagen 13).
Imagen 13
Modelos a compararModelo 1: Modelo 2:
Model 1: Ozone ~ Solar.R + Temp + WindModel 2: Ozone ~ Solar.R + Temp + Wind + Solar.R:Temp + Temp:Wind
ModelosRes.DfRSSDfSum of SqF Pr(> F)
110748003
21053863529368,112,731,122e-05***
Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1Tabla 15. Tabla de Anlisis de Varianza
Evaluando la tabla 15 se observa que el modelo 2 que incluye a las interacciones Solar.R-Temp y Temp-Wind es estadsticamente significativo para explicar el fenmeno. Se acepta que y son distintos de cero, y el mejor modelo que explica el fenmeno es el 2.La ecuacin lineal del modelo elegido es:
4. Validacin de Modelo elegidoLos supuestos de un modelo estadsticos se refieren a una serie de condiciones que deben darse para garantizar la validez del modelo. 1. Linealidad: La ecuacin de regresin adopta una forma particular. La variable dependiente es la suma de un conjunto de elementos: el origen de la recta, una combinacin lineal de variables independientes y los residuos. El incumplimiento del supuesto suele denominarse error de especificacin. Algunos ejemplos son: omisin de variables independientes importantes, inclusin de variables independientes irrelevantes, no linealidad (la relacin entre las variables independientes y la dependiente no es lineal), parmetros cambiantes (los parmetros no permanecen constantes durante el tiempo que dura la recogida de datos), no aditividad (el efecto de alguna variable independiente es sensible a los niveles de alguna otra variable independiente), etc.2. Independencia: Los residuos son independientes entre s, es decir, los residuos constituyen una variable aleatoria (los residuos son las diferencias entre los valores observados y los pronosticados).3. Homocedasticidad: Para cada valor de la variable independiente(o combinacin de valores de las variables independientes), la varianza de los residuos es constante.4. Normalidad: Para cada valor de la variable independiente(o combinacin de valores de las variables independientes), los residuos se distribuyen normalmente con media cero.5. No-Colinealidad: No existe relacin lineal exacta entre ninguna de las variables independientes. El incumplimiento de este supuesto da origen a colinealidad o multicolinealidad. La colinealidad es un problema porque, en el caso de colinealidad perfecta no es posible estimar los coeficientes de la ecuacin de regresin; y en el caso de colinealidad parcial, aumenta el tamao de los residuos tipificados y esto produce coeficientes de regresin muy inestables.La independencia, homocedasticidad y normalidad, estn estrechamente asociados al comportamiento de los residuos, por tanto, un anlisis cuidadoso de los residuos puede informarnos sobre el cumplimiento de los mismos.
4.1 Anlisis de los residuos4.1.1 LinealidadPara comprobar la linealidad se procede a realizar el test de Reset de no linealidad siguiendo estos pasos: Modelos DiagnsticosnumricosTest RESET de no linealidad (Imagen 14)
Imagen 14
RESET testdata: Ozone ~ Solar.R + Temp + Wind + Solar.R:Temp + Temp:WindRESET = 5.824, df1 = 3, df2 = 102, p-value = 0.001029Como el p-valor es menor a 0.05, se concluye que el modelo lineal no ajusta adecuadamente.Tambin puede obtenerse informacin sobre la linealidad a partir de una inspeccin del diagrama de dispersin (Imagen 9).4.1.2 IndependenciaUno de los supuestos bsicos de los modelos de regresin lineal es el de independencia entre los residuos. El estadstico de Durbin-Watson proporciona informacin sobre el grado de independencia existente entre ellos. El estadstico oscila entre cero y cuatro y toma el valor 2 cuando los residuos son independientes. Los valores menores que 2 indican autocorrelacin positiva, y los mayores que 2 autocorrelacin negativa. Podemos asumir independencia entre los residuos cuando toma valores entre 1,5 y 2,5.Para el clculo de Durbin-Watson se procede de la siguiente manera:ModelosDiagnsticos Numricos Test de Durbin-Watson para autocorrelacin (Imagen 15).
Imagen 15Durbin-Watson testdata: Ozone ~ Solar.R + Temp + Wind + Solar.R:Temp + Temp:WindDW = 1.9438, p-value = 0.6657Puesto que el valor DW= 1,9438 se encuentra entre 1,5 y 2,5, podemos asumir que los residuos son independientes.4.1.3 HomocedasticidadSe dispone de una serie de grficos que permite obtener informacin sobre el grado de cumplimiento de los supuestos de homocedasticidad.
Imagen 16Para obtener los grficos se procede de la siguiente manera Modelos GrficasGrficas bsicas de diagnstico (Imagen 16).
Imagen 17. Grficas Bsicas de Diagnstico del Modelo 2.
En el grfico de dispersin (Residuos vs valores ajustados) que se muestra en la Imagen 17, los residuos deberan formar una nube de puntos sin estructura y con aproximadamente la misma variabilidad para todas las zonas alrededor del valor cero del residuo; esto no se cumple, podemos ver que la variabilidad crece a medida que los valores ajustados crecen y se tendra duda acerca de la homocedastidad del modelo.El p-valor del test de Breusch-Pagan (Imagen 18) es menor a 0.05, lo que confirma la Heterocedasticidad:Breusch-Pagan testdata: Ozone ~ Solar.R + Temp + Wind + Solar.R:Temp + Temp:WindBP = 23.4355, df = 1, p-value = 1.292e-06
Imagen 18
4.1.4 NormalidadEn cuanto a la grfica Normal Q-Q de residuos estandarizados vs cuartiles tericos (Imagen 19), se observa que existen valores anmalos en los extremos de la grfica, la mayora de los valores estandarizados se encuentran entre -2 y +2, por lo que se considera que cumple con la normalidad el modelo propuesto.
Imagen 19
4.1.5 No colinealidadPara el estudio de la colinealidad se sigue los siguientes pasos: Modelos Diagnsticos numricos Factores de inflacin de varianza (Imagen 20).
Imagen 20
En la ventana de resultados se obtiene:Solar.RTemp WindSolar.R:Temp Temp:Wind 76.06339 18.48100 68.63490 92.31022 53.36437Si alguno de los valores supera el valor 4 implica que hay colinealidad. En este modelo todos los valores superan dicha cantidad y por lo tanto, hay colinealidad.
Conclusin
El anlisis de regresin lineal mltiple es un mtodo estadstico empleado en muchas reas del conocimiento. En este estudio, dicho anlisis se aplic a los datos de concentracin de ozono, velocidad media del viento, temperatura diaria mxima y radiacin solar, monitoreadas en la ciudad de New York. El periodo que abarco el estudio fue de mayo a septiembre de 1973. El objetivo fue evaluar si existe correlacin entre la variable dependiente (concentracin de ozono) y las independientes (velocidad media del viento, temperatura diaria mxima y radiacin solar). El fenmeno se ajust a un modelo de Regresin lineal mltiple (Modelo 2) que incluye adems de todas las variables independientes la interaccin entre Solar.R-Temp y Temp-Wind.Con el anlisis tambin se observa que la variable con mayor efecto sobre la concentracin de ozono es la interaccin Temp-Wind con un nivel de significancia de 0,00085 seguido de la Temp con 0,00368 seguido del Wind, Solar.R-Temp y Solar.R.Este modelo no cumple con la mayor parte de los supuestos estadsticos para un modelo de regresin lineal, por ende no se puede garantizar la validez del mismo.Respecto al comportamiento del modelo: Presenta mayor correlacin entre las variables en comparacin con el Modelo 1, confirmando que la inclusin de las interacciones al modelo aumenta el grado de asociacin lineal (R^2). No presenta linealidad. Los residuos se distribuyen normalmente pero existen observaciones atpicas. Los residuos no son homocedsticos (la varianza de los residuos no es constante). Los residuos son independientes. Existe colinealidad.Evidentemente se podra cambiar el modelo propuesto y ensayar un modelo no lineal y as elaborar una ecuacin ms precisa para dicho estudio.
Bibliografa
Piris da Motta R.; 2011. Apunte de clase Anlisis de Varianza. http://www.wmcac.org/airquality/factors.html http://prezi.com/xf9tunzpqn1d/regresion-lineal-simple-v20/ Walpole R., Myers R., Myers S.; 1999. Probabilidad y Estadstica para Ingenieros. 6ta. Ed. Prentice-Hall. http://www.scielo.org.mx/scielo.php?pid=S018629792010000100005&script=sci_arttext http://ocw.bib.upct.es/pluginfile.php/5253/mod_resource/content/1/Regresion_lineal_con_R_Commander.pdf http://uce.uniovi.es/CURSOICE/Informese4.html
Pgina 30