Geoestadistica- FCFM Xavier Emery 2011.pdf

download Geoestadistica- FCFM Xavier Emery 2011.pdf

of 149

Transcript of Geoestadistica- FCFM Xavier Emery 2011.pdf

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    1/149

    Geoestadstica

    Profesor: Xavier Emery2011

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    2/149

    ndice

    Captulo 1. Introduccin...................................................................................................... 11. Nocin de variable regionalizada ................................................................................... 1

    2. Nocin de soporte ........................................................................................................... 23. Datos y modelos ............................................................................................................. 3

    4. Los problemas de estimacin ......................................................................................... 4

    5. Algunas notaciones ......................................................................................................... 5

    Captulo 2. Estudio exploratorio de datos.......................................................................... 61. Despliegue de datos (mapas) .......................................................................................... 72. Distribucin estadstica de valores ................................................................................. 8

    2.1. Histograma .............................................................................................................. 8

    2.2. Estadsticas elementales .......................................................................................... 9

    2.3. Desagrupamiento ................................................................................................... 102.4. Diagrama de caja ................................................................................................... 12

    2.5. Histograma acumulado .......................................................................................... 12

    2.6. Grfico de probabilidad ......................................................................................... 133. Anlisis multivariable ................................................................................................... 14

    3.1. Grfico cuantil contra cuantil ................................................................................ 14

    3.2. Nube de dispersin o de correlacin...................................................................... 153.3. Matriz de correlacin ............................................................................................. 15

    3.4. Anlisis en componentes principales ..................................................................... 16

    4. Comportamiento espacial ............................................................................................. 19

    4.1. Nube direccional .................................................................................................... 194.2. Nube de correlacin diferida ................................................................................. 19

    Captulo 3. Conceptos generales sobre el modelamiento geoestadstico de datos........ 211. Lmites de la estadstica clsica .................................................................................... 21

    2. Nocin de funcin aleatoria .......................................................................................... 22

    3. Caracterizacin de una funcin aleatoria...................................................................... 233.1. Distribucin espacial ............................................................................................. 23

    3.2. Distribuciones univariable y bivariables ............................................................... 24

    3.3. Momentos .............................................................................................................. 253.4. Inferencia estadstica Hiptesis de estacionaridad ............................................. 26

    3.5. Relaciones entre momentos ................................................................................... 28

    Captulo 4. Anlisis variogrfico: 1. Variograma experimental.................................... 291. El variograma experimental tradicional ....................................................................... 29

    1.1. Definicin e interpretacin .................................................................................... 29

    1.2. Ejemplo .................................................................................................................. 301.3. Tolerancias en los parmetros de clculo .............................................................. 30

    1.4. Propiedades del variograma experimental ............................................................. 32

    1.5. Nube variogrfica .................................................................................................. 331.6. Mapa variogrfico.................................................................................................. 34

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    3/149

    2. Consideraciones prcticas ............................................................................................ 35

    3. Complemento: otras herramientas para el anlisis variogrfico ................................... 37

    3.1. Covarianza experimental ....................................................................................... 373.2. Covarianza no centrada ......................................................................................... 38

    3.3. Correlograma experimental ................................................................................... 39

    3.4. Variograma desagrupado ....................................................................................... 403.5. Otras herramientas ................................................................................................. 40

    Captulo 5. Anlisis variogrfico: 2. Variograma modelado.......................................... 431. Propiedades de un variograma terico ......................................................................... 43

    1.1. Propiedades matemticas ....................................................................................... 43

    1.2. Comportamiento en el origen ................................................................................ 44

    1.3. Comportamiento para distancias muy grandes ...................................................... 441.4. Comportamiento direccional ................................................................................. 46

    1.5. Otras propiedades .................................................................................................. 46

    2. Modelos elementales de variograma ............................................................................ 472.1. Efecto pepita .......................................................................................................... 47

    2.2. Modelo esfrico ..................................................................................................... 48

    2.3. Modelo exponencial .............................................................................................. 49

    2.4. Modelo Gaussiano ................................................................................................. 492.5. Modelo seno cardinal ............................................................................................ 50

    2.6. Modelo potencia .................................................................................................... 51

    3. Modelamiento de un variograma experimental ............................................................ 513.1. Modelos anidados .................................................................................................. 51

    3.2. Efecto pepita .......................................................................................................... 52

    3.3. Anisotropa ............................................................................................................ 533.4. Reglas de ajuste ..................................................................................................... 56

    3.5. Aplicacin a los datos de contaminacin de suelo ................................................ 58

    3.6. Consideraciones prcticas ..................................................................................... 58

    Captulo 6. La estimacin local......................................................................................... 601. Mtodos tradicionales ................................................................................................... 60

    1.1. Interpolacin por el ms cercano vecino ............................................................... 601.2. Inverso de la distancia ........................................................................................... 61

    1.3. Otros mtodos ........................................................................................................ 621.4. Propiedades ............................................................................................................ 62

    2. Construccin del kriging .............................................................................................. 63

    2.1. Restriccin de linealidad ....................................................................................... 63

    2.2. Restriccin de insesgo ........................................................................................... 64

    2.3. Restriccin de optimalidad .................................................................................... 643. Plan de kriging .............................................................................................................. 65

    3.1. Vecindad nica ...................................................................................................... 65

    3.2. Vecindad mvil ..................................................................................................... 654. Kriging de media conocida (kriging simple) ................................................................ 67

    4.1. Hiptesis ................................................................................................................ 67

    4.2. Determinacin del estimador ................................................................................. 674.3. Varianza de kriging ............................................................................................... 69

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    4/149

    5. Kriging de media desconocida (kriging ordinario)....................................................... 69

    5.1. Hiptesis ................................................................................................................ 69

    5.2. Determinacin del estimador ................................................................................. 695.3. Varianza de kriging ............................................................................................... 71

    6. Otros tipos de kriging ................................................................................................... 72

    6.1. Kriging con derivas ............................................................................................... 726.2. Kriging de bloques ................................................................................................ 72

    6.3. Co-kriging .............................................................................................................. 73

    6.4. Kriging no lineal .................................................................................................... 74

    7. Observaciones sobre el sistema de kriging ................................................................... 748. Propiedades del kriging ................................................................................................ 77

    8.1. Interpolacin exacta ............................................................................................... 77

    8.2. Propiedad de suavizamiento (alisamiento) ............................................................ 779. Validacin cruzada ....................................................................................................... 78

    10. Aplicacin a los datos de concentracin de cobalto ................................................... 80

    10.1. Eleccin del plan de kriging ................................................................................ 8010.2. Estimacin de las concentraciones de cobalto sobre soporte puntual ................. 82

    10.3. Estimacin de las concentraciones de cobalto sobre bloques ............................. 84

    11. Efectos de los parmetros en los resultados del kriging ............................................. 85

    11.1. Tipo de modelo .................................................................................................... 8511.2. Meseta .................................................................................................................. 87

    11.3. Alcance ................................................................................................................ 88

    11.4. Efecto de hoyo ..................................................................................................... 8911.5. Anisotropa .......................................................................................................... 90

    11.6. Tipo de kriging: simple / ordinario ...................................................................... 90

    11.7. Tipo de kriging: puntual / de bloque ................................................................... 9212. Complemento: el kriging como mtodo de interpolacin .......................................... 93

    Captulo 7. Principios de simulacin geoestadstica....................................................... 951. Motivacin: la alternativa entre kriging y simulacin .................................................. 95

    2. Simulacin condicional y no condicional ..................................................................... 98

    2.1. Simulacin no condicional .................................................................................... 98

    2.2. Simulacin condicional ......................................................................................... 983. Requisitos para realizar una simulacin ....................................................................... 99

    4. Ejemplos de funciones aleatorias ............................................................................... 1015. Aspectos del problema de simulacin ........................................................................ 103

    Captulo 8. Simulacin de variables continuas: modelo multi-Gaussiano.................. 1041. Transformacin Gaussiana (anamorfosis) .................................................................. 104

    1.1. Observaciones ...................................................................................................... 1061.2. Complemento: determinacin prctica ................................................................ 106

    2. Modelo multi-Gaussiano ............................................................................................ 108

    2.1. Hiptesis .............................................................................................................. 1082.2. Validacin ............................................................................................................ 108

    2.3. Propiedades caractersticas del modelo multi-Gaussiano .................................... 111

    3. Simulacin condicional .............................................................................................. 1123.1. Algoritmo secuencial ........................................................................................... 112

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    5/149

    3.2. Otros algoritmos .................................................................................................. 114

    3.3. Resumen: pasos a seguir para la simulacin ....................................................... 115

    4. Aplicacin a los datos de contaminacin de suelo ..................................................... 1154.1. Anamorfosis Gaussiana ....................................................................................... 116

    4.2. Validacin de la hiptesis multi-Gaussiana......................................................... 117

    4.3. Anlisis variogrfico de los datos Gaussianos .................................................... 1184.4. Simulacin condicional ....................................................................................... 118

    4.5. Procesamiento de los resultados .......................................................................... 119

    Anexo A. Geoestadstica multivariable........................................................................... 1221. Anlisis variogrfico................................................................................................... 122

    1.1. Funciones de covarianza simple y cruzada.......................................................... 122

    1.2. Variogramas simples y cruzados ......................................................................... 1231.3. Seudo-variograma cruzado .................................................................................. 125

    1.4. Inferencia estadstica ........................................................................................... 125

    1.5. Modelo lineal de corregionalizacin ................................................................... 1261.6. Otros modelos ...................................................................................................... 127

    2. La estimacin local: el co-kriging .............................................................................. 127

    2.1. Co-kriging simple (medias conocidas) ................................................................ 128

    2.2. Co-kriging ordinario (medias desconocidas) ....................................................... 1292.3. Co-kriging co-localizado ..................................................................................... 130

    2.4. Otras variantes ..................................................................................................... 131

    2.5. Propiedades del co-kriging .................................................................................. 1312.6. La alternativa entre kriging y co-kriging ............................................................. 132

    3. Simulacin multivariable ............................................................................................ 133

    3.1. Simulacin secuencial conjunta .......................................................................... 1333.2. Simulacin secuencial jerrquica ........................................................................ 133

    3.3. Otros algoritmos .................................................................................................. 134

    3.4. Aplicacin a los datos de contaminacin de suelo .............................................. 134

    Bibliografa........................................................................................................................ 1381. Obras generales........................................................................................................... 138

    2. Variogramas, kriging y co-kriging ............................................................................. 1393. Geoestadstica no lineal .............................................................................................. 140

    4. Simulacin .................................................................................................................. 1415. Aplicaciones ............................................................................................................... 142

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    6/149

    1

    Captulo 1. Introduccin

    La palabra geoestadstica fue inventada por Georges Matheron en 1962.

    El prefijo geo alude a las ciencias de la tierra, que ha sido histricamente la disciplina

    donde la geoestadstica se ha desarrollado. Los campos de aplicacin actuales alcanzan los

    dominios ms variados, como la evaluacin de recursos naturales (mineros, forestales, gas,petrleo, etc.), ciencias del suelo y medio-ambientales, topografa, oceanografa, geofsica,

    agricultura y anlisis de imgenes, por nombrar algunos. El trmino estadstica se refiere

    al uso de herramientas estadsticas y probabilsticas. Con respecto a la estadstica clsica, la

    geoestadstica busca tomar en cuenta las dependencias entre las observaciones disponibles,considerando que ellas estn ubicadas en el espacio.

    1. Nocin de variable regionalizada

    La geoestadstica se define como el estudio de fenmenosregionalizados, es decir, quese extienden en el espacio y presentan una cierta continuidad. Por espacio, entenderemos

    en general el espacio geogrfico, pero puede tambin tratarse del eje temporal o de espaciosms abstractos. El objeto sobre el cual trabajaremos ser una descripcin matemtica del

    fenmeno regionalizado, a saber, una o varias funciones numricas llamadas variablesregionalizadas, que miden ciertas propiedades o atributos relacionados con este fenmeno.Por ejemplo:

    la ley de un mineral, la potencia de una veta, la acumulacin, la densidad de la roca o larecuperacin metalrgica, describen un fenmeno de mineralizacin;

    la porosidad y la permeabilidad de la roca en un reservorio de petrleo o en un acufero;

    la concentracin de un elemento contaminante en la atmsfera o en el suelo;

    la altitud topogrfica en un punto del espacio geogrfico;

    la conductividad elctrica, el pH y la concentracin en nutrientes medidas sobre unamuestra de suelo;

    el nmero de rboles y su dimetro promedio en reas de observacin de un bosque.

    Del punto de vista conceptual, una variable regionalizada es una funcin determinstica.En general, esta funcin presenta dos aspectos complementarios: por una parte, tiene una

    cierta continuidad espacial (zonas de altos valores / zonas de bajos valores), pero por otro

    lado, vara irregularmente y escapa a toda representacin simple (Figura 1).

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    7/149

    2

    Figura 1. Variable regionalizada en un espacio unidimensional.

    Por ejemplo, podra representar la concentracin de un contaminantemedida a lo largo del tiempo en una estacin de monitoreo.

    Dado que un fenmeno regionalizado nunca posee una extensin infinita, estudiaremos

    la variable regionalizada slo dentro de un dominio limitado D llamado campo de lavariable. Este campo puede representar una zona natural, fuera de la cual la variable no est

    definida. Puede tratarse tambin de un dominio particular, donde la variable interesa, porejemplo, los sitios donde no se anula o donde es mayor que un lmite de deteccin.

    2. Nocin de soporte

    Una variable regionalizada puede definirse, no slo en cada punto del espacio, sino que

    tambin en una superficie (2D) o en un volumen (3D). La superficie o el volumen sobre el

    cual se considera la variable regionalizada se denomina soporte. En general, el soporte delas mediciones es muy pequeo (asimilado a un punto), mientras que el que interesa en laprctica puede ser ms voluminoso (por ejemplo, las unidades selectivas de explotacin en

    evaluacin minera o las unidades de remediacin en contaminacin de suelo). Esta nocin

    es esencial debido a la dependencia que existe entre el soporte y la distribucin estadsticade los valores, conocida como efecto de soporte: los soportes voluminosos presentan una

    menor cantidad de valores extremos y una mayor cantidad de valores intermedios que los

    soportes puntuales. As, la distribucin de los valores (en especial, su varianza) depende del

    soporte sobre el cual est definida la variable regionalizada. Este efecto queda ilustrado enla Figura 2, que muestra la distribucin de la ley de cobre en un yacimiento medida sobre

    tres soportes distintos. Se observa que la forma del histograma tiende a simetrizarse cuandoaumenta el soporte y que la varianza disminuye, aunque se mantiene constante el valor

    promedio.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    8/149

    3

    Figura 2. Histogramas de leyes de cobre medidas sobre tres soportes distintos(bloques de 1m1m, 5m5m y 25m25m).

    En los problemas que involucran un cambio de soporte, es deseable que la variableregionalizada sea aditiva, es decir, que su valor en la unin de varios dominios sea igual ala media de sus valores sobre cada uno de ellos. Esta restriccin es necesaria para que el

    clculo del valor promedio sobre un soporte ms grande que el soporte de las mediciones,

    tenga un sentido fsico.

    3. Datos y modelos

    Normalmente, no se conoce la variable regionalizada en forma exhaustiva, sino quesolamente a travs de un conjunto limitado de datos(muestras de sondajes en exploracinminera, observaciones en terreno en ingeniera forestal, mediciones realizadas en estaciones

    de monitoreo en contaminacin atmosfrica, etc.).

    Para aprovechar la informacin disponible, ms all de un simple reporte de los datos,

    ser necesario construir modelos. Pero debe tenerse presente que un modelo nunca describe

    la variable regionalizada en su totalidad, sin simplificacin, ni distorsin. El modelamientoy las hiptesis que se requieren aportan mayor informacin que aquella contenida en losdatos experimentales. En consecuencia, conviene reducir al mximo la complejidad del

    modelo, evitando introducir hiptesis o parmetros arbitrarios, que no se puede controlar

    experimentalmente. Por el contrario, es necesario encontrar el modelo menos exigente quepermite resolver el problema planteado.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    9/149

    4

    4. Los problemas de estimacin

    La prediccin o estimacin constituye un objetivo importante de la geoestadstica.Consiste en evaluar, de la manera ms precisa posible, un valor que no ha sido medido, a

    partir de los datos disponibles. Una caracterstica de los mtodos geoestadsticos ser, no

    slo construir estimadores, sino tambin proporcionar una medida de la precisin de laestimacin por medio de herramientas probabilsticas (por ejemplo, varianzas o intervalos

    de confianza...). Distinguiremos dos tipos de estimaciones: las estimaciones globalesy lasestimaciones locales.

    La estimacin globalbusca caracterizar el campo Dcompleto por un valor nico (porejemplo, la media de la variable regionalizada en estudio) o por una distribucin estadstica

    (histograma). Es poco comn que una estimacin global sea suficiente; frecuentemente, serequiere completarla con estimaciones locales. Por ejemplo en un estudio de contaminacin

    de suelo, no basta con evaluar la concentracin promedio en toda la zona de un elemento

    contaminante, sino que es necesario distinguir los sectores fuertemente contaminados de

    aquellos que no lo estn.

    Por el contrario, las estimaciones localesse interesan por los diferentes sectores de lazona de estudio. En general, se busca evaluar el valor en un sitio que no ha sido muestreado

    o el valor promedio de un bloque cuyo soporte es mayor que el soporte de los datos. En

    este problema, debe considerarse la continuidad espacial de la variable regionalizada, lasdistancias entre el sector a estimar y los sitios con datos, as como la configuracin espacial

    de los mismos sitios con datos puesto que datos agrupados suelen tener valores parecidos,

    constituyndose en informacin redundante.

    Otro aspecto de la estimacin local es la cuantificacin de la incertidumbre en los

    valores de la variable regionalizada y la probabilidad de que estos valores superen o quedendebajo de ciertos lmites. Por ejemplo, el agrnomo est interesado en conocer los sectoresde una parcela donde el pH es demasiado bajo, para poder abonarlos con cal y mejorar la

    fertilidad. El medio-ambientalista quiere cuantificar el riesgo de que la concentracin de un

    elemento txico en el suelo supere un umbral crtico, de modo de poder tomar medidas deremediacin. Al ingeniero de minas le interesa saber si las leyes de mineral son mayores

    que una ley de corte que asegura la rentabilidad de la explotacin minera, luego evaluar los

    tonelajes y cantidades de metal que se puede extraer sobre esta ley de corte.

    Los problemas de estimacin no son los nicos a los que responde la geoestadstica. El

    anlisis de la dependencia espacialpermite describir la distribucin de los valores en el

    espacio, cuantificar las correlacioneso redundancias de informacin entre valores medidosen sitios diferentes, determinar el tamao de la zona de influencia de una observacin, ascomo detectar anisotropas que indican que la variable regionalizada tiene direccionespreferenciales de continuidad en el espacio.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    10/149

    5

    5. Algunas notaciones

    En lo que sigue, denotaremos como:

    dla dimensin del espacio de trabajo. En general, d=2 3, es decir, nos encontramos

    en el espacio geogrfico R2o R3.

    Del campo de la variable regionalizada, que es un dominio limitado del espacio Rd.

    x= (x1,...xd) un vector de coordenadas espaciales.

    z= {z(x), xD} la variable regionalizada estudiada. A menudo, z(x) R. En el caso

    multivariable, se podr tomarz(x) RNo, lo que es lo mismo, trabajar conNvariablesregionalizadas reales.

    nel nmero de sitios con datos.

    {x, =1... n} los sitios con datos en D.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    11/149

    6

    Captulo 2. Estudio exploratorio de datos

    La geoestadstica busca estudiar una o varias variables regionalizadas conocidas vauna toma de muestra. Previo al uso de mtodos geoestadsticos propiamente tal, conviene

    realizar un estudio exploratorio de los datos disponibles, el cual tiene tres objetivos:

    1) Analizar (mediante herramientas estadsticas simples) la cantidad, la calidad y la

    ubicacin de los datos disponibles.

    2) Definir la(s) zona(s) de estudio. Una divisin del campo en varias sub-zonas puede

    ser relevante si uno observa cambios abruptos en la distribucin espacial de valores,

    o si la geologa del fenmeno lo indica.

    3) Anticipar dificultades o problemas que puedan surgir en la fase de estimacin local

    (por ejemplo, presencia de valores atpicos que se destacan de aquellos de los datos

    vecinos).

    Se ejemplificar los conceptos y herramientas con el estudio de una base de datos de

    contaminacin de suelo. Estos datos constan de 359 muestras en las cuales se ha medidosiete variables (a saber, las concentraciones de cadmio, cobalto, cromo, cobre, nquel,

    plomo y zinc). A continuacin, se da una breve descripcin de la zona de estudio (fuente:

    referencia bibliogrfica [52]).

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    12/149

    7

    1. Despliegue de datos (mapas)

    El despliegue de los datos permite visualizar su ubicacin en el espacio. Cuando setrabaja en el espacio tridimensional, el despliegue puede hacerse con proyecciones (plantas

    y secciones) o vistas en perspectiva. Los mapas de datos pueden incluir informacin sobre

    los valores medidos y as dar una idea preliminar de la distribucin y continuidad espacialde la variable en estudio, por ejemplo, utilizando smbolos de forma o tamao variable o

    escalas de colores / de grises (Figura 1).

    Figura 1. Mapa de datos de contaminacin de suelo. La escala de grisesse refiere a la concentracin de cobalto expresada en ppm.

    Se observa que gran parte de los datos estn distribuidos segn una malla de muestreo

    regular de tamao aproximado 0.25 0.25 km. Sin embargo, algunos sectores de la zona deestudio han sido reconocidos con una mayor cantidad de muestras, constituyndose algunos

    agrupamientos (clusters). El diseo de la malla de muestreo se explica a continuacin (verreferencia [52]).

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    13/149

    8

    La presencia de agrupamientos de datos hace que la malla de muestreo sea irregular en

    la zona de estudio. Al momento del anlisis estadstico, ser importante tomar precauciones

    puesto que los sectores ms densamente muestreados podran tener demasiada importanciay distorsionar las estadsticas sobre las concentraciones de cobalto. Por ejemplo, esto sera

    el caso si los agrupamientos fueran realizados en los sectores de mayores concentraciones

    de cobalto (muestreo preferencial).

    El mapa de los datos (Figura 1) da una primera idea de la distribucin de los valores en

    la zona de estudio. As se puede distinguir sectores con valores altos (datos sealados con

    colores oscuros) y sectores menos contaminados (datos sealados con colores claros).

    2. Distribucin estadstica de valores

    Adems de visualizar mapas de los datos, interesa conocer la distribucin estadstica desus valores. Para ello, existen varias herramientas, siendo la ms conocida el histograma.

    2.1. Histograma

    El histograma representa grficamente las frecuencias de ocurrencia en funcin delvalor. Consiste en dividir el rango de los valores en intervalos (generalmente, con el mismo

    ancho) y visualizar la proporcin de datos que caben dentro de cada intervalo (Figura 2).

    Figura 2. Histograma de las concentraciones de cobalto (en ppm).

    El histograma es una herramienta til para detectar valores atpicos (outliers). Ahora,

    cabe destacar que un dato atpico no es forzosamente falso y nunca debe ser eliminado sin

    razn (por ejemplo, un error de trascripcin, una falla en el protocolo de medicin o un

    valor ausente codificado como -99). Podra reflejar el comportamiento verdadero de lavariable regionalizada y eliminarlo impedira prever la ocurrencia de tales valores en las

    zonas no muestreadas.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    14/149

    9

    La visualizacin del histograma de los datos tambin es un primer medio de verificar su

    homogeneidad. Eventualmente, una divisin del campo en varias sub-zonas ser necesaria.As, por ejemplo, un histograma multimodal puede conducir a la identificacin, entre los

    datos, de varias poblaciones susceptibles de estar geogrficamente separadas. A veces, tal

    separacin est impuesta por consideraciones fsicas, que impiden mezclar todos los datos:presencia de un obstculo natural (falla, ro...), particin de una zona mineralizada segn la

    caracterizacin mineralgica o el tipo de roca, etc. En tales casos, un problema que puede

    plantearse es la delimitacin de las sub-zonas homogneas, pues es poco frecuente que

    sus fronteras puedan ser identificadas con exactitud.

    2.2. Estadsticas elementales

    Junto con el histograma, es conveniente calcular algunas estadsticas bsicas sobre la

    distribucin de valores. Entre ellas, podemos distinguir:

    Medidas de posicin

    Media: promedio aritmtico de los valores.

    Cuantileso percentiles: valores que dividen la poblacin en partes de igual nmero dedatos. Por ejemplo, la medianadivide la poblacin en dos partes, los cuartilesen cuatropartes (la mediana coincide con el segundo cuartil), los quintilesen cinco partes y losdecilesen diez partes. Contrariamentealamedia,loscuantilessonparmetros robustos,es decir, poco sensibles a la presencia de algunos valores muy altos o muy bajos.

    Mnimoy mximo: establecen el rango en el cual se distribuyen los valores.

    Medidas de dispersin

    Varianza: promedio aritmtico de la desviacin cuadrtica entre cada valor y la media.Esta medida cuantifica la dispersin del histograma y se expresa en el cuadrado de la

    unidad de la variable en estudio.

    Desviacin estndar: raz cuadrada de la varianza; se expresa en la misma unidad que lavariable en estudio.

    Coeficiente de variacin(para variables positivas): razn entre la desviacin estndar yla media; es adimensional.

    Rango intercuartil: ancho del intervalo entre el primer y el tercer cuartil, que contienela mitad de los datos.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    15/149

    10

    2.3. Desagrupamiento

    Para calcular el histograma y las estadsticas elementales, es frecuente considerar unavariable de ponderacin o desagrupamiento (en ingls, declustering) de modo de corregirlos efectos provocados por las irregularidades de la malla de muestreo. La idea es asignar a

    los datos espacialmente agrupados, en parte redundantes, un ponderador ms pequeo que alos datos aislados, los cuales son representativos de una porcin ms extensa del campo.

    Para determinar la variable de ponderacin, se puede utilizar el llamado mtodo de lasceldas. Esta tcnica consiste en dividir la zona de estudio en celdas rectangulares idnticasy en atribuir a cada dato un ponderador inversamente proporcional al nmero de datos

    presentes en la celda a la cual pertenece (Figura 3).

    Figura 3. Ubicacin de datos (cruces) y ponderacin por elmtodo de las celdas. Cada celda tiene una ponderacin total de 1/16,

    la cual se reparte entre los datos pertenecientes a esta celda.

    La puesta en marcha del mtodo requiere definir previamente el tamao de la celda

    elemental. Usualmente, se prueba varios tamaos y se examina su impacto en el valor de lamedia ponderada. La Figura 4 da un ejemplo con los datos de concentracin de cobalto,

    donde se ha escogido utilizar celdas cuadradas.

    Si las celdas son infinitamente pequeas, todos los datos se ubican en celdas distintas y

    reciben entonces el mismo ponderador; por lo tanto, la media ponderada coincide con la

    media aritmtica de los datos (9.44 ppm). Al aumentar la longitud de celda, la mediaponderada aumenta, lo que indica que los ponderadores calculados tienden a privilegiar los

    valores altos en perjuicio a los valores bajos. Esto es una seal de que la malla de muestreo

    es ms densa en zonas de valores bajos.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    16/149

    11

    Figura 4. Influencia de la longitud de las celdas sobre la media ponderada

    (sumatoria de las concentraciones multiplicadas por sus ponderadores)

    En este caso, una opcin consiste en elegir el tamao de celda correspondiente al valor

    mximo de la media, para compensar el carcter preferencial de la malla de muestreo.Ahora, dicha decisin es discutible y uno puede considerar elecciones ms neutrales. Por

    ejemplo, elegir una celda correspondiente al espaciamiento promedio entre los datos o a la

    malla del muestreo subyacente (o sea, en el presente caso, de 0.25 km 0.25km). Esto nosentrega un valor promedio de 9.59 ppm para la concentracin de cobalto (Figura 5). En

    comparacin con el histograma de la Figura 2, se observa una disminucin importante de

    las frecuencias en el rango de valores entre 3 y 5 ppm.

    Figura 5. Histograma desagrupado de las concentraciones de cobalto (en ppm).La frecuencia indicada en cada intervalo corresponde a la suma

    de los ponderadores de los datos asociados a este intervalo.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    17/149

    12

    El mtodo de las celdas realiza la ponderacin de los datos segn un criterio meramente

    geomtrico, es decir, que slo toma en cuenta la posicin espacial de los datos. No toma

    en cuenta la continuidad espacial de los valores, aunque este criterio tambin es digno deser tomado en consideracin. Por ejemplo, si los datos tuvieran valores muy errticos (poca

    continuidad espacial), existiran pocas redundancias entre datos agrupados y, por lo tanto,

    no sera necesario ponderarlos. Ahora, incluir el criterio de continuidad espacial requerirautilizar mtodos geoestadsticos (kriging) que, a esta altura del estudio, no se justifican.

    2.4. Diagrama de caja

    A veces, se acompaa el histograma con un diagrama de caja (box plot) que presentaun solo eje en el cual se representan cinco cuantiles: los cuantiles a 2.5% y 97.5%, el primer

    y el tercer cuartil y la mediana (Figura 6). Entre los dos cuantiles extremos, se observa el

    95% de los datos, mientras que entre el primer cuartil y la mediana se observa el 25% de

    los datos, al igual que entre la mediana y el tercer cuartil. El diagrama de caja permite

    resumir algunas caractersticas de la distribucin, tal como su simetra y su dispersin.

    Figura 6. Diagrama de caja para las concentraciones de cobalto.

    2.5. Histograma acumulado

    En lugar de visualizar la frecuencia de valores para cada intervalo, se puede visualizar

    la frecuencia cumulativa, es decir, la frecuencia de los valores bajo cierto umbral como unafuncin de este umbral, lo que da el histograma acumulado. De la misma forma que para el

    histograma estndar, las frecuencias se pueden calcular tomando en cuenta ponderadores de

    desagrupamiento (Figura 7).

    El histograma acumulado es una funcin creciente, desde 0 (para el valor ms bajo dela variable) hasta 1 (para el valor ms alto). Al contrario, el histograma acumulado inverso,que muestra la frecuencia de valores que superan un umbral en funcin de este umbral, esuna funcin decreciente (desde 1 hasta 0), conocida en geoestadstica minera como curvatonelaje-leydado que la frecuencia acumulada es proporcional al tonelaje de material cuyaley supera la ley de corte.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    18/149

    13

    Figura 7. Histograma acumulado desagrupadode las concentraciones de cobalto (en ppm).

    2.6. Grfico de probabilidad

    Este grfico sirve para comparar una distribucin experimental con una distribucin de

    referencia (en general, una normal o una lognormal). Consiste en cambiar la escala de los

    ejes del histograma acumulado de tal modo que, si la distribucin experimental coincidecon la distribucin de referencia, se dibujara una recta. En el caso de los datos de cobalto,

    la distribucin difiere de una normal (Figura 8).

    Figura 8. Grfico de probabilidad normal para las concentraciones de cobalto. Note que laescala del eje de ordenada (frecuencia acumulada) ya no es aritmtica

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    19/149

    14

    3. Anlisis multivariable

    3.1. Grfico cuantil contra cuantil

    El grfico cuantil contra cuantil busca comparar dos distribuciones entre s, que puedenser asociadas a variables distintas (por ejemplo, las concentraciones de cobalto y nquel) o a

    una misma variable medida en zonas distintas o con aparatos distintos. En este ltimo caso,la comparacin sirve para decidir si los dos grupos de datos tienen una distribucin idntica

    y, por ende, provienen de la misma poblacin. El grfico consiste en visualizar los cuantilesdel primer grupo de datos contra los cuantiles correspondientes del segundo grupo (por

    ejemplo, mediana contra mediana, cuartiles contra cuartiles, deciles contra deciles, etc.).

    Un grfico que da una recta significa que las distribuciones de los dos grupos de datos

    tienen la misma forma. Si la recta tiene una pendiente igual a 1, ambas distribuciones tienenla misma dispersin, pero posiblemente no tienen la misma media (por ejemplo, un grupo

    de datos est sesgado con respecto a otro debido a un error sistemtico en su medicin). Siadems la recta coincide con la diagonal, ambas distribuciones son iguales (misma media,

    misma dispersin y misma forma). Cuando el grfico no dibuja una recta, entonces los dosgrupos de datos tienen distribuciones con formas distintas; es lo que pasa al comparar las

    distribuciones de las concentraciones de cobalto y nquel (Figura 9).

    Figura 9. Grfico cuantil contra cuantil entre concentraciones de cobre y nquel. Lapendiente de la curva es distinta entre las bajas y las altas concentraciones.

    Es importante sealar que el grfico cuantil contra cuantil no da ninguna informacin

    sobre la correlacin que existe entre los dos grupos de datos. Slo permite comparar susdistribuciones (histogramas).

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    20/149

    15

    3.2. Nube de dispersin o de correlacin

    Esta nube consiste en visualizar los valores de una variable en funcin de otra, lo cualrequiere que ambas variables hayan sido medidas en los mismos sitios. Sirve para ver la

    relacin par a par o correlacin de ambas variables, as como detectar datos atpicos

    (puntos que se alejan del resto de la nube). En el ejemplo de los datos de contaminacin desuelo, existe una buena correlacin entre las concentraciones de cobalto y nquel: cuandoaumenta una de estas dos variables, tiende a aumentar la otra, lo que corrobora la pendiente

    positiva de la recta de regresin (Figura 10).

    Figura 10. Nube de dispersin entre concentraciones de cobre y nquel.

    3.3. Matriz de correlacin

    La relacin entre dos variables puede ser resumida a travs de un coeficiente, llamado

    coeficiente de correlacin lineal, que mide el grado de proporcionalidad que existe entreambas variables. Este coeficiente tiene un valor entre -1 y 1 (estos extremos corresponden

    al caso en el cual las variables son exactamente proporcionales entre s, con un coeficiente

    de proporcionalidad negativo o positivo, respectivamente).

    Cuando existen ms de dos variables, se puede construir una matriz de correlacin. En

    la interseccin de la fila icon la columnaj, se coloca el valor del coeficiente de correlacinentre las variables niy nj. En la Tabla 1, se observa correlaciones superiores a 0.7 entrelas concentraciones de nquel, cobalto y cromio, as como entre las concentraciones de

    cobre y plomo. Esto sugiere un origen distinto para estos diferentes grupos de variables. Un

    anlisis detallado indica que las concentraciones de cobalto y nquel estn relacionadas conla geologa de la zona y que estos contaminantes provienen en gran medida de la roca de

    caja, mientras que las concentraciones de cobre y plomo son susceptibles de haber sido

    provocadas por el uso de fertilizantes o abonos o por deshechos domsticos.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    21/149

    16

    -----------------------------------------------------------------------------------------

    | VARIABLE | Cd | Co | Cr | Cu | Ni | Pb | Zn |

    -----------------------------------------------------------------------------------------

    | Cd | 1.00| 0.26| 0.58| 0.15| 0.49| 0.22| 0.62|

    | Co | 0.26| 1.00| 0.48| 0.19| 0.74| 0.16| 0.44|

    | Cr | 0.58| 0.48| 1.00| 0.21| 0.71| 0.26| 0.61|

    | Cu | 0.15| 0.19| 0.21| 1.00| 0.22| 0.82| 0.66|

    | Ni | 0.49| 0.74| 0.71| 0.22| 1.00| 0.27| 0.59|

    | Pb | 0.22| 0.16| 0.26| 0.82| 0.27| 1.00| 0.67|

    | Zn | 0.62| 0.44| 0.61| 0.66| 0.59| 0.67| 1.00|

    -----------------------------------------------------------------------------------------

    Tabla 1. Matriz de correlacin entre concentraciones de contaminantes. Los trminosdiagonales valen 1, pues corresponden a la correlacin entre una variable y ella misma.

    3.4. Anlisis en componentes principales

    Supongamos que se tiene nmuestras (individuos) en los sitios {x1,... xn}, en las cualesse ha medidoNvariables {z1,...zN}. Esto se puede representar en una matriz de tamao n

    N, denotada Z:

    =

    )()(

    )()(

    1

    111

    nNn

    N

    zz

    zz

    xx

    xx

    Z

    L

    MOM

    L

    .

    En adelante, se supone que las variables tienen media 0 y varianza 1 (de lo contrario,

    basta con restar a cada variable su valor promedio y dividirla por su desviacin estndar).

    Geomtricamente, se puede representar la matriz de datos de dos maneras: ya sea npuntosen R

    N (cada coordenada est asociada con una variable), o bien N puntos en Rn (cada

    coordenada est asociada con unindividuo). Estas representaciones se llaman la nube de losindividuosy la nube de las variables, respectivamente. A continuacin, definiremos cmovisualizar estas nubes mediante sus proyecciones en sub-espacios de pequea dimensin.

    Se busca construir nuevas variables, llamadasfactoresy denotadas {y1,...yN}, que seancombinaciones lineales de las variables iniciales y que no tengan correlacin entre s:

    qpyyn

    yyn

    qpqp == =

    si0)()(1

    ),(cov1

    xx .

    Sean Yla matriz nNque da los valores de los factores {y1,...yN} para cada una de losnindividuos yVla matrizNNde varianza covarianza de las variables:

    ZZV tn

    1= .

    Se demuestra que Yse obtiene al plantear Y=Z Q, donde Qes la matriz de vectorespropios de V (tambin llamados ejes factoriales):

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    22/149

    17

    V =Q D Qt con Qt Q=Iy D= matriz diagonal.

    El factor yp (con p = 1... N) est asociado a un valor propio de V (trmino dp en ladiagonal de D), que representa la varianza del factor. De este modo, las varianzas de losfactores descomponen la varianza total, ya que la traza de la matriz V se conserva en el

    proceso de diagonalizacin:

    ==

    ===N

    pp

    N

    ii yzNtraza

    11

    )var()var()(V .

    Los valores propios de V indican la parte de la varianza total asociada a los distintosfactores y permiten jerarquizarlos. La razn entre la varianza del factor y la varianza total

    (o sea, dp / N) es una medida sin dimensin (entre 0 y 1) de la cantidad de informacincontenida en el factor yp. De este modo, el anlisis en componentes principales permiteresumir la informacin multivariable contenida en los datos, slo reteniendo los factores de

    mayores varianzas, por ejemplo aquellos cuyas varianzas suman el 80% de la varianza

    total. En adelante, se supone que los valorespropios de V han sido ordenados en ordendecreciente: d1...dN, es decir, que los factores han sido numerados en orden decrecientede sus varianzas.

    La nube de los individuosest definida en un espacio de dimensin Ny no se puedevisualizar cuando N>3. Para obtener una representacin sinttica de los datos, la idea esproyectar esta nube en un sub-espacio de dimensin k N (en la prctica, se suele tomark = 2), eligiendo el sub-espacio ms cercano a la nube, a saber, el que minimiza sumomento de inercia. Se demuestra que ste corresponde al sub-espacio generado por los kprimeros ejes factoriales (kprimeras columnas de la matriz Q). En particular, la proyeccinde la nube de los individuos en el primer plano factorial es el conjunto de puntos cuyas

    coordenadas corresponden a las dos primeras columnas de la matriz Y. El examen de estaproyeccin permite ver la tendencia general de la nube, a veces sin buscar identificar los

    individuos, ya que su nmero puede ser muy alto. En particular, es interesante detectar laszonas con alta o baja densidad de puntos, que corresponden a dispersiones no homogneas

    de la poblacin.

    La diagonalizacin de la matriz de varianza covarianza puede escribirse como sigue:

    AAV t= con tQDA= .

    El vector ai, i-sima columna de A, contiene los coeficientes de correlacin entre lavariable ziy los distintos factores. Adems, el producto escalar de los vectores ai y aj esigual al coeficiente de correlacin entre las variablesziyzj. En particular, < ai, ai> = 1, loque muestra que la longitud del vector aies igual a 1. En virtud de lo anterior, la matriz Apuede servir para representar geomtricamente la nube de las variables: la variableziestrepresentada por un punto (ai) sobre la esfera unitaria de R

    N, mientras que el coseno entre ai

    y aj es igual al coeficiente de correlacin entre las variables zi y zj. Para facilitar lavisualizacin, se proyecta la posicin de las variables sobre los planos creados por los

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    23/149

    18

    primeros ejes factoriales. Los grficos que se obtiene se llaman crculos de correlaciones,pues las variables estn representadas por puntos dentro de un crculo unitario (proyeccin

    de la esfera). Como regla general, la proximidad o, al contrario, el alejamiento de lasproyecciones de las variables indica su mayor o menor correlacin o antagonismo. Sin

    embargo, hay que tener cuidado que la proximidad dentro de un crculo no implica

    necesariamente una proximidad sobre la esfera, salvo si las proyecciones se ubican cerca dela circunferencia del crculo. En caso contrario, para evitar conclusiones errneas, convieneexaminar las proyecciones de la nube de las variables sobre varios planos factoriales.

    A continuacin, damos una ilustracin del anlisis en componentes principales con losdatos de contaminacin de suelo (Figura 11). La primera imagen representa la proyeccin

    de la nube de los individuos en el primer plano factorial, con 9 individuos destacados en la

    nube y en el mapa de los datos (segunda imagen). La tercera imagen muestra el histogramade los valores propios de la matriz de varianza covarianza (varianzas de los factores),

    donde se aprecia que las varianzas de los dos primeros factores son mayores que 1 y suman

    ms de 75% de la varianza total. La ltima imagen representa la nube de las variables en elprimer plano factorial, destacando dos grupos de variables (Cu-Pb y Cd-Co-Cr-Ni) con

    buenas correlaciones intra-grupo y poca correlacin inter-grupo.

    Figura 11. Grficos de anlisis en componentes principales

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    24/149

    19

    4. Comportamiento espacial

    4.1. Nube direccional

    Para hacerse una idea ms precisa de la distribucin espacial de los valores ms all deun simple despliegue (mapa), es cmodo visualizar las nubes de los valores a lo largo de las

    direcciones de coordenadas (Figura 12). Estas nubes permiten ver si el comportamiento de

    los datos experimenta algn cambio en cuanto a su valor promedio, su dispersin o sucontinuidad, as como detectar los datos ms atpicos (aquellos que se destacan del resto delas nubes).

    Figura 12. Nubes direccionales, mostrando las concentracionesde cobalto en funcin de las coordenadas este y norte.

    No se aprecian tendencias sistemticas ni datos atpicos.

    4.2. Nube de correlacin diferida

    Para terminar este panorama sobre herramientas de estudio exploratorio, presentaremos

    la nube de correlacin diferida. Se trata de la nube de puntos (z(x),z(x + h)) dondehes unvector dado, mientras que xy x + hson sitios con datos. Los pares de datos con valoresmuy dismiles correspondern a los puntos de la nube ms alejados de la primera bisectriz.

    Cuando los datos estn ubicados en una grilla regular, se toma un vector hmltiplo delespaciamiento de esta grilla. En caso contrario, se debe introducir tolerancias en la longitudy la orientacin de h, a falta de que la nube se reducira a muy pocos puntos. La Figura 13da una ilustracin, para un vector hde longitud 0.25 km (con una tolerancia de 0.01 km) sinimportar la orientacin. Los puntos ms alejados de la bisectriz han sido puestos en relieve

    y los pares de datos correspondientes han sido destacados en el mapa de ubicacin: se trata

    de datos cercanos cuyos valores son muy diferentes.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    25/149

    20

    Figura 13. Nube de correlacin diferida y mapa de ubicacin de los datos.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    26/149

    21

    Captulo 3. Conceptos generales sobre elmodelamiento geoestadstico de datos

    Para poder describir y entender un fenmeno regionalizado, es necesario elaborar una

    representacin matemtica o modelo. Una primera solucin consiste en utilizar un modelodeterminstico. En general, este enfoque conduce a una evaluacin precisa de la variableregionalizada a partir de un nmero limitado de observaciones, pero requiere conocer la

    gnesis del fenmeno y las leyes fsicas o ecuaciones matemticas que rigen la distribucin

    de la variable regionalizada. Entre otros dominios de aplicacin, citemos

    la meteorologa: previsin climtica a corto plazo;

    la geofsica: determinacin de la intensidad y orientacin del campo gravitacional ydel campo magntico terrestre en el espacio y el tiempo;

    la teora de la seal: reconstitucin de una seal continua a partir de un conjunto demediciones, usando propiedades espectrales.

    No obstante, en general, los fenmenos regionalizados en estudio son extremadamente

    complejos y su comprensin puede ser tan parcial que un modelamiento determinstico es

    imposible o ilusorio. Ejemplos tpicos son la evaluacin minera, la exploracin petrolfera,la caracterizacin de una zona contaminada o de una parcela agrcola, la estimacin de los

    recursos forestales de una regin, o la previsin meteorolgica de largo plazo. Estamosentonces obligados a renunciar a una descripcin determinstica del fenmeno y recurrir a

    un modelo probabilstico. Este proceder resulta operatorio, pues permite formalizar tantolos conocimientos como las incertidumbres que se tiene del fenmeno regionalizado.

    1. Lmites de la estadstica clsica

    En estadstica clsica, se considera los datos como realizaciones independientesde unamisma variable aleatoria, es decir, se supone que no tienen relaciones entre s y que siguen

    la misma distribucin de probabilidad. Se busca estimar los parmetros en especial, la

    esperanza y la varianza de esta distribucin, cuya forma a menudo est predeterminada(normal, lognormal, etc.). Sin embargo, cuando los datos estn ubicados en el espacio

    geogrfico, las hiptesis de la estadstica clsica son raramente aceptables. En particular, si

    bien simplifica los clculos estadsticos, la hiptesis de independencia de las observacionesresulta poco realista en el marco espacial. Intuitivamente, observaciones prximas tienen

    valores cercanos, mientras que aquellas que estn ms alejadas entre s tienen una menor

    relacin entre ellas.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    27/149

    22

    As pues, en general, no puede considerarse modelar las variables regionalizadas por

    medio de funciones determinsticas, debido a su extrema complejidad. Tampoco se puede

    asimilar los datos medidos a variables aleatorias independientes. La geoestadstica entregauna representacin intermedia, a la vez aleatoria y funcional, al basarse en el concepto de

    funcin aleatoria.

    2. Nocin de funcin aleatoria

    Los modelos geoestadsticos consideran el valorz(x) de la variable regionalizada en unsitio xdel campo Dcomo una realizacin de una variable aleatoriaZ(x)1. Cuando xrecorreD, se obtiene un conjunto de variables aleatorias Z = {Z(x), x D} que constituye unafuncin aleatoria(sinnimos: campo aleatorio,proceso aleatorioo estocstico). As pues,la variable regionalizadaz= {z(x), xD} es unarealizacin de la funcin aleatoriaZ, perouno podra imaginar otras realizaciones que presentan caractersticas similares en cuanto a

    cmo se distribuyen los valores en el espacio (Figura 1). Contrariamente al modelo de la

    estadstica clsica, las variables aleatorias as definidas no son independientes; por elcontrario, existen interacciones o correlaciones entre ellas, las cuales reflejan la continuidad

    espacial de la variable regionalizada (Figura 2).

    Figura 1. Realizaciones de dos modelos distintos de funcin aleatoria. Cadamodelo define la manera con la cual se distribuyen los valores en el espacio, lo queorigina el parentesco que se observa entre las realizaciones de un mismo modelo.

    1Para distinguir las variables determinsticas de aquellas aleatorias, denotaremos las primeras con minsculay las segundas conMayscula.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    28/149

    23

    Figura 2. Nocin de correlacin para representar la continuidad espacial.Ambos ejemplos presentan los mismos valores, pero distribuidos de forma

    diferente en el espacio. Las variables aleatorias se modelarn con altas

    correlaciones en el primer caso y bajas correlaciones en el segundo caso.

    El recurrir al concepto de funcin aleatoria es una decisin, ni verdadera ni falsa, puesdicha funcin aleatoria es un objeto terico que no existe en la realidad. Asimismo, la

    determinacin de una funcin aleatoria a partir de una variable regionalizada no es unaoperacin unvoca: varios modelos pueden resultar aceptables, en cuanto sean compatibles

    con la informacin disponible sobre la variable regionalizada.

    3. Caracterizacin de una funcin aleatoria

    3.1. Distribucin espacial

    Consideremos una funcin aleatoriaZ= {Z(x), xD} y una serie de sitios {x1,... xk}en D. El grupo de variables aleatorias {Z(x1),...Z(xk)} est caracterizado por unafuncin dedistribucinmultivariable que depende de kargumentos:

    R

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    29/149

    24

    3.2. Distribuciones univariable y bivariables

    Estas distribuciones corresponden a los casos particulares donde k = 1 y k = 2. Engeneral, los datos disponibles permiten inferir estas distribuciones. Es la razn por la cual ladeterminacin de un modelo de distribucin espacial suele basarse en dichas distribuciones,

    aunque las distribuciones de orden superior (trivariables, quadrivariables...) del modelo nose respaldan en la informacin proporcionada por los datos.

    Distribucin univariable:

    })({Prob)( 1111 zZzF

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    30/149

    25

    Figura 4. Ejemplo de funcin de distribucin y densidad de probabilidad bivariable.La densidad de probabilidad se obtiene al tomar las derivadas parciales de la

    funcin de distribucin con respecto a cada uno de sus argumentos.

    3.3. Momentos

    En muchos problemas (como el de interpolacin por kriging), se puede simplificar aun

    ms la caracterizacin de la funcin aleatoria, al considerar solamente algunos parmetrosdescriptivos o momentosde las distribuciones univariables y bivariables, que resumen lainformacin ms relevante.

    Estos son:

    El valor esperado(esperanza, o momento de primer orden):

    ])([)( xx ZEm = .

    En cada sitio xdado, m(x) representa la media alrededor de la cual se distribuyen losvalores tomados por las realizaciones de la funcin aleatoria.

    La varianza, o varianza a priori, definida por:

    22

    2

    2

    )(])([

    }])()({[

    ])([var)(

    xxxx

    xx

    mZEmZE

    Z

    ==

    =

    La varianza es una cantidad positiva. Su raz cuadrada se llama desviacin estndar.La varianza y la desviacin estndar constituyen medidas de la dispersin de Z(x) entorno a su valor medio m(x) y cuantifican, de esta forma, su carcter aleatorio.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    31/149

    26

    La covarianza centrada entre dos variables aleatoriasZ(x1) yZ(x2):

    )()()]()([

    }])()([])()([{

    ])(),([cov),(

    2121

    2211

    2121

    xxxx

    xxxx

    xxxx

    mmZZE

    mZmZE

    ZZC

    =

    =

    =

    La covarianza da una visin elemental del vnculo o interaccin que existe entreZ(x1)yZ(x2). La desigualdad de Cauchy-Schwarz relaciona la covarianza entreZ(x1) yZ(x2)con las varianzas deZ(x1) yZ(x2):

    ])([var])([var|])(),([cov| 2121 xxxx ZZZZ .

    El correlograma(coeficiente de correlacin lineal) entre dos variables aleatoriasZ(x1)yZ(x2):

    ])([var])([var

    ])(),([cov

    ])(),([corr),(

    21

    21

    2121

    xx

    xxxxxx

    ZZ

    ZZZZ

    =

    =.

    Al contrario de la covarianza, el correlograma es adimensional y toma sus valores en el

    intervalo [1,1]. Un coeficiente nulo indica que las variables Z(x1) yZ(x2) no estncorrelacionadas (condicin necesaria para que sean independientes), mientras que un

    coeficiente igual a 1 1 indica que son proporcionales.

    El semi-variogramaentre dos variables aleatoriasZ(x1) yZ(x2):

    ])()([var2

    1),( 2121 xxxx ZZ = .

    En adelante, para aliviar la escritura, se omitir sistemticamente el prefijo semi y sehablar solamente de variograma.

    3.4. Inferencia estadstica Hiptesis de estacionaridad

    Para poner en marcha el formalismo probabilstico, es necesario poder determinar, porlo menos parcialmente, la distribucin espacial de la funcin aleatoria a partir de los datos

    disponibles sobre la variable regionalizada (etapa de inferencia estadstica). Dos razonesimpiden poder realizar la inferencia estadstica en su forma ms general: por una parte, lavariable regionalizada slo es una realizacin de la funcin aleatoria; por otra parte, estarealizacin se conoce de manera fragmentaria, en algunos sitios de muestreo.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    32/149

    27

    Para salir de este problema algunas restricciones son necesarias. Recurren a la nocin

    de estacionaridad. La idea es permitir la inferencia estadstica, reemplazando la repeticinsobre las realizaciones de la funcin aleatoria (inaccesibles, por disponer solamente de unarealizacin) por una repeticin en el espacio: se supone que los valores que se encuentran

    en las diferentes regiones del campo presentan las mismas caractersticas y, por ende,

    pueden considerarse como distintas realizaciones del mismo proceso aleatorio.

    Del punto de vista matemtico, la hiptesis de estacionaridad consiste en postular que

    la distribucin espacial de la funcin aleatoria es invariante por traslacin, es decir, que las

    propiedades de un conjunto de datos no dependen de su posicin absoluta en el espacio,sino que solamente de sus posiciones relativas. Esto implica las siguientes simplificaciones:

    La distribucin univariableno depende del sitio considerado

    })({Prob)( 111 zZzF

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    33/149

    28

    Figura 5. Esquema sinttico de los conceptose hiptesis que sustentan el modelo geoestadstico

    3.5. Relaciones entre momentos

    Bajo la hiptesis de estacionaridad, se tiene las siguientes relaciones:

    La varianza es igual a la funcin de covarianza evaluada para el vector h= 0:

    )(2 0C=

    El correlograma es igual a la covarianza dividida por la varianza:

    )(/)()( 0hh CC=

    El variograma es igual a la varianza menos la covarianza:

    )()()( h0h CC = .

    Cuando la norma del vector de separacin hse vuelve infinita, la covarianza tiende a 0y el variograma es igual a la varianza:

    2)()( == 0C .

    Variable regionalizada Funcin aleatoria

    Distribucin espacial

    distribucin univariable distribuciones bivariables distribuciones multivariables

    Momentos

    esperanza, varianza covarianza, variograma

    Hiptesis de estacionaridad

    esperanza y varianza son constantes covarianza y variograma slo dependen de la separacin entre datos

    interpretacin

    caracterizacin

    resumen

    simplificacin

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    34/149

    29

    Captulo 4. Anlisis variogrfico:1. Variograma experimental

    Los valores de una variable regionalizada no son independientes, en el sentido que un

    valor observado en un sitio proporciona informacin sobre los valores de los sitios vecinos.

    En la interpretacin probabilstica de la variable regionalizada, esta nocin intuitiva dedependencia est descrita por la distribucin espacialde la funcin aleatoria, que modela lamanera como se relacionan los valores observados en distintos sitios por una distribucin

    de probabilidad multivariable.

    En muchos problemas la descripcin de la distribucin espacial se limita a los primeros

    momentos. El momento de orden 1 (esperanza) hace intervenir un solo sitio a la vez y noentrega realmente informacin sobre dependencia espacial. En cambio, los momentos deorden 2 (covarianza, correlograma y variograma) estn definidos con la ayuda de dos sitios,

    es decir del ms pequeo conjunto que se puede considerar para describir la interaccin

    entre valores. Son estos momentos los que entregan una descripcin elemental y operatoriade la continuidad espacial de la variable regionalizada.

    En este captulo, abordamos la primera etapa del anlisis variogrfico, que consiste enla inferencia del variograma, es decir, el clculo de un variograma experimental a partir de

    los datos disponibles. Posteriormente (captulo siguiente), se ver cmo ajustar un modelo

    de variograma en torno al variograma experimental.

    1. El variograma experimental tradicional

    1.1. Definicin e interpretacin

    Consideremos una variable regionalizadazconocida en nsitios {x1,... xn}. El estimadortradicional del variograma para un vector de separacin hdado, se define de la siguientemanera:

    =)(

    2)]()([|)(|2

    1)(

    h

    xxh

    hN

    zzN

    donde N(h) ={ (,) tal que x x=h};|N(h)| es el nmero de pares contenidos en el conjuntoN(h).

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    35/149

    30

    Se ve que el estimador anterior consiste en reemplazar la esperanza en la expresin del

    variograma terico

    })]()([{2

    1)( 2xhxh ZZE +=

    por la media aritmtica sobre los pares de datos separados por el vector h.

    El estimador as definido lleva el nombre de variograma experimental. No se trata deuna funcin propiamente tal, sino que de una serie de valores, pues slo se puede calcular

    para vectores h tales que N(h) no es vaco. El variograma experimental para un vector hpuede interpretarse como el momento de inercia de la nube de correlacin diferida (nube de

    los puntos (z(x),z(x) con x x=h), que mide la distancia cuadrtica promedio entre lospuntos de la nube y la lnea diagonal. Mientras ms apretada la nube de correlacin diferida

    en torno a la diagonal, ms pequea su inercia.

    1.2. Ejemplo

    Consideremos los siguientes datos espaciados cada 100 m:

    5 3 6 4 2 1 1 2 4 3 2

    El variograma experimental se puede calcular para distancias mltiplos de 100m, esto

    es:

    5.4)3(12

    1)1000(

    ...

    06.3)02303511(82

    1)300(

    39.2)213113411(92

    1)200(

    45.1)1121012232(102

    1

    )100(

    2

    22222222

    222222222

    2222222222

    =

    =

    =+++++++

    =

    =++++++++

    =

    =+++++++++=

    m

    m

    m

    m

    1.3. Tolerancias en los parmetros de clculo

    Si los datos estn irregularmente distribuidos en el campo D, el nmero de pares |N(h)|que interviene en el clculo de (h) para un vector hdado, es generalmente muy pequeo(incluso igual a 0 1). El variograma experimental tiene entonces un aspecto muy errtico

    y resulta imposible interpretarlo y modelarlo. Para que sea ms robusto, se suele permitir

    algunas tolerancias de clculo, sobre las distancias y las direcciones:

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    36/149

    31

    +

    ++ =

    )(

    2)]()([|)(|2

    1)(

    h

    xxh

    hN

    zzN

    donde

    U )(T')'(})(Tquetal),({)(

    hh

    hhxxh

    + == NN ;

    T(h) es una regin de tolerancia alrededor de h, de la forma [h h, h + h] en elcaso unidimensional. En el caso bi- o tridimensional, existen tolerancias tanto sobrela longitud de hcomo sobre su orientacin, tal como se ilustra en la Figura 1.

    Figura 1. Regin de tolerancia T(h) alrededor del vector h(caso bidimensional)El ancho de banda limita la separacin del cono de tolerancia a una extensin mxima.

    En el espacio de tres dimensiones, se introduce dos anchos de banda: uno horizontal y otro

    vertical.

    En resumen, los parmetros a especificar para calcular un variograma experimental son

    los siguientes:

    direccin de inters: acimut, inclinacin

    distancias de inters, en general mltiplos de una distancia elemental llamadapaso(lag)

    tolerancia en la direccin: tolerancia angular, ancho(s) de banda

    tolerancia en las distancias.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    37/149

    32

    La Figura 2 muestra un variograma experimental de las concentraciones de cobalto

    procedentes de los datos de contaminacin de suelo. Este variograma ha sido calculado para

    distancias mltiplos de la malla de muestreo (0.25 km), con una tolerancia en la distanciade 0.125 km y una tolerancia angular de 90, es decir, sin importar la orientacin del vector

    h. En este caso, se habla de variograma omnidireccional.

    Figura 2. Variograma experimental omnidireccional de las concentraciones de cobalto.Las lneas punteadas slo unen a los distintos puntos del variograma experimental.

    1.4. Propiedades del variograma experimental

    El variograma experimental (h) es un estimador insesgadodel variograma terico:

    )()]([ hh =E .

    Un indicador de la robustezde (h) es su varianza relativa

    2)](/[)]([var hh .

    Mientras ms elevada dicha varianza, ms susceptible es el variograma experimental de

    fluctuar en torno a su valor esperado (el variograma terico (h)) y ms difcil se vuelve la

    inferencia estadstica. Aunque esta varianza relativa slo puede ser expresada en algunoscasos particulares, puesto que requiere conocer la funcin aleatoria hasta sus distribuciones

    quadrivariables, los principales factores que la influencian son:

    La distancia considerada (norma del vector h): la varianza relativa de (h) suele tomarvalores considerables para las grandes distancias (para fijar las ideas, aquellas distancias

    mayores que la mitad del dimetro del campo). Este efecto es perceptible en la Figura 2,donde se observa que las fluctuaciones aumentan cuando la distancia aumenta.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    38/149

    33

    La irregularidad o el carcter preferencial de la malla de muestreo, que pueden provocargrandes fluctuaciones en el variograma experimental, incluso para pequeas distancias.

    El nmero de pares de datos: mientras ms bajo, mayores son las fluctuaciones.

    La presencia de datos extremos (outliers), los cuales tienen un impacto considerable enel clculo del variograma experimental, pues este ltimo eleva los valores al cuadrado.

    1.5. Nube variogrfica

    Para estudiar la estabilidad numrica del variograma experimental, es til visualizar la

    nube variogrfica, es decir, la nube de las diferencias cuadrticas {[z(x) z(x)]2/ 2, con

    (,) N(h)} en funcin del vector ho de su mdulo |h|. El variograma experimental seobtiene al tomar, para cada vector h, la media de los puntos correspondientes de la nube

    variogrfica. El anlisis de esta nube permite localizar los pares de datos responsables delos valores altos del variograma experimental y poner en evidencia los datos notablementediferentes de sus vecinos.

    En lugar de visualizar la nube entera de las diferencias cuadrticas, se puede tambinslo localizar sus extremos, su media (que no es otra cosa que el valor del variograma

    experimental para el vector h) y sus cuartiles. Si la media est fuera del rango intercuartil(intervalo entre el primer y tercer cuartil), esto puede indicar que el valor del variograma

    experimental para el vector considerado est fuertemente influenciado por algunos valoresextremos, luego es poco robusto.

    La Figura 3 presenta la nube variogrfica (calculada de forma omnidireccional) de losdatos de concentracin de cobalto, donde se ha resaltado los puntos de la nube que exceden

    un valor de 130. La lnea punteada indica la media de los puntos de la nube, o sea, el

    variograma experimental. La parte derecha de la figura muestra el mapa de ubicacin de losdatos, donde se indica los pares de datos asociados a los puntos resaltados de la nube

    variogrfica. Todos estos pares se originan en un mismo dato, que corresponde al dato de

    mayor concentracin de cobalto (20.6 ppm).

    Este dato de 20.6 ppm tiene mucho impacto en el variograma experimental. La Figura 4

    muestra el variograma experimental que se obtendra si este dato no existiera (lado

    izquierdo) y el variograma experimental que se obtendra si este dato tuviera un valor de 35

    ppm en lugar de 20.6 ppm (lado derecho). Se aprecia que la presencia o ausencia de un solodato extremo puede afectar considerablemente el variograma experimental, en particular

    para las distancias pequeas. Para paliar esta situacin, en la prctica se puede recurrir a lassiguientes aproximaciones:

    Utilizar una herramienta alternativa al variograma (ver seccin siguiente). No considerar los outliers al momento de calcular el variograma. Bajar arbitrariamente el valor de los outliers (capping), por ejemplo asignando un

    valor convencional de 15 ppm a todos los datos que superan este valor.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    39/149

    34

    Transformar los datos, por ejemplo pasndolos a logaritmo. Ahora, si bien ellogaritmo atena los valores extremos y facilita el modelamiento del variograma, la

    dificultad de este procedimiento radica en que, en general, se desconoce la relacin

    entre el variograma de la variable original y el variograma de su logaritmo, por loque una hiptesis adicional es necesaria (ver seccin siguiente).

    Figura 3. Izquierda: nube variogrfica para los datos deconcentracin de cobalto. Derecha: mapa de ubicacin.

    Figura 4. Variograma experimental calculado sin el dato extremo (izquierda)y con un dato extremo de 35 ppm en lugar de 20.6 ppm (derecha).

    1.6. Mapa variogrfico

    El mapa variogrfico consiste en visualizar el variograma experimental en todas las

    direcciones del espacio, bajo la forma de un mapa con escala de color o de grises. Ayuda a

    distinguir si existe anisotropa, para luego calcular el variograma experimental a lo largode las direcciones principales de anisotropa.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    40/149

    35

    A modo de ilustracin, el mapa variogrfico de los datos de concentracin de cobalto

    (Figura 5, izquierda) dibuja una direccin de mayor continuidad con una orientacin de 60

    aproximadamente desde el eje norte-sur (los colores claros indican valores pequeos para elvariograma experimental, mientras que los colores oscuros indican valores ms grandes).

    Esta observacin se confirma al calcular los variogramas experimentales direccionales

    (Figura 5, derecha), donde se aprecia un crecimiento ms lento en la direccin N60E y msrpido en la direccin ortogonal N30W. Para el modelamiento, se preferir utilizar estos

    variogramas direccionales en lugar del variograma omnidireccional (Figura 2), puesto que

    este ltimo no captura el cambio de continuidad espacial con la direccin (anisotropa).

    Figura 5. Mapa variogrfico (izquierda) y variograma experimentalcalculado a lo largo de las direcciones de anisotropa reconocidas(N60E y N30W) (derecha). Los parmetros de clculo son los

    siguientes: paso = 0.35 km, tolerancia en la distancia = 0.175 km,tolerancia angular = 20, ancho de banda = 1km.

    2. Consideraciones prcticas

    1) Lasdireccionesde clculodel variograma experimental deben considerar la anisotropade la variable regionalizada. Tal como en el ejemplo anterior, su eleccin se puedehacer al examinar el mapa variogrfico. En el caso istropo (es decir, si los variogramas

    direccionales se superponen salvo por pequeas fluctuaciones estadsticas), se podr

    considerar un variograma omnidireccional:

    +

    ++ =

    )(

    2)]()([|)(|2

    1)(

    rN

    zzrN

    r xx

    dondeN+(r) ={ (,) tal que | x x| r}.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    41/149

    36

    2) En general, cada variograma direccional se calcula para distancias mltiplos de una

    distancia elemental, llamada paso. La eleccin del paso puede tener repercusiones en

    el clculo. Un paso demasiado pequeo conducir a un variograma experimentalerrtico, poco estable, mientras que un paso demasiado grande no permitir apreciar los

    detalles de la continuidad espacial, en especial el comportamiento en el origen del

    variograma. Cuando la malla de muestreo es regular

    2

    , el paso est prcticamenteimpuesto. En caso contrario, se podr utilizar la nube variogrfica para encontrar un

    paso tal que el nmero de pares de datos que intervienen en el clculo del variograma

    experimental sea suficiente (para fijar ideas, superior a la mitad del nmero de datos),

    de manera que estos puntos sean representativos.

    3) El uso de tolerancias en las distancias y ngulos busca suavizar y hacer ms robusto el

    variograma experimental cuando la malla de muestreo no es regular. Ahora, convieneadvertir el usuario de la utilizacin de tolerancias excesivas, que pueden suavizar

    artificialmente el variograma experimental; aunque un variograma suave es ms fcil de

    modelar, esto no garantiza que sea ms representativo de los datos.

    4) En general, se utiliza una tolerancia en las distancias igual a la mitad del paso: en la

    direccin considerada, el i-simo punto del variograma experimental se calcula con lospares de datos cuya separacin cae en el intervalo [(i 0.5)paso, (i+ 0.5)paso]. Deesta manera, todas las distancias son utilizadas una vez y una sola. Se puede tambin

    considerar una tolerancia menor, en cuyo caso las clases de distancias involucradas en

    el clculo del variograma experimental ya no son contiguas y algunos pares de datos no

    son tomados en cuenta. Esta situacin, aparentemente poco favorable (pues se pierdeinformacin) no es siempre la peor, sobre todo cuando se trabaja en una malla regular o

    casi-regular.

    5) Las tolerancias angulares tienden a disipar la eventual anisotropa del variograma (las

    direcciones con mayor continuidad espacial se mezclan con direcciones de continuidad

    intermedia, de manera que la anisotropa aparece menos marcada de lo que est enrealidad). Porende,hayquebuscarun justo equilibrio en la eleccin de las tolerancias.

    Es recomendable completar la definicin de las tolerancias angulares por aquella de las

    separaciones mximas: ancho de banda y, en el espacio de tres dimensiones, alto debanda; este ltimo parmetro resulta importante en la prctica, pues evita mezclar lasdirecciones horizontales con direcciones inclinadas, cuyo comportamiento es a menudo

    bastante distinto.

    6) Es conveniente tener cuidado con la representatividad del variograma experimental.

    Para cada punto de este variograma, se podr determinar el nmero de pares de datos

    utilizados para su clculo; un nmero de pares bajo indica un punto poco confiable.Igualmente, resulta de utilidad visualizar la nube variogrfica, para identificar los pares

    de datos responsables de una inestabilidad numrica del variograma experimental.

    2Por ejemplo, para una malla cuadrada de lado a, se elegir un paso de clculo igual a aen las direccionesprincipales de la malla, y a 2 en las direcciones diagonales.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    42/149

    37

    3. Complemento: otras herramientas para el anlisis variogrfico

    3.1. Covarianza experimental

    Bajo la hiptesis de estacionaridad, la funcin de covarianza se define como:

    }])([])([{)( mZmZEC += xhxh .

    Un primer estimador de esta covarianza se obtiene al reemplazar el valor esperado mpor una media aritmtica sobre los pares de datos cuya separacin coincide con el vector h:

    = )(

    1 ])([])([|)(|

    1)(

    h

    xxh

    hN

    zzzzN

    C ,

    dondeN(h) ={(,) tal que x x=h}, mientras que zes un estimador de la esperanza, asaber la media aritmtica de los ndatos disponibles:

    =

    =n

    zn

    z1

    )(1

    x .

    El estimador 1se conoce como covarianza ergdica. Un segundo estimador, llamadocovarianza no ergdicaconsiste en plantear:

    = )(

    2 )]()([)]()([|)(|

    1)(

    h

    hxhxh

    hN

    colacabeza zzzzN

    C ,

    con

    =)(),(

    )(|)(|

    1)(

    h

    xh

    hN

    cabeza zN

    z y

    =)(),(

    )(|)(|

    1)(

    h

    xh

    hN

    cola zN

    z .

    Se demuestra que estos estimadores de la covarianza son ms robustos que el estimador

    del variograma (los datos no estn elevados al cuadrado), pero presentan un sesgo3:

    3Por ejemplo, para h=0, ambos estimadores coinciden con el estimador clsico de la varianza a prioriC(0):

    =

    =n

    zz

    n

    C1

    2])([

    1)( x0

    cuya esperanza es, bajo la hiptesis simplificadora que los datos no estn correlacionados

    )()11()(1)]([ 000 Cn

    Cn

    nCE == .

    Bajo la hiptesis de no correlacin entre los datos, se tiene un sesgo igual a C(0)/npara el estimador dela varianza a prioriC(0). En realidad, como la variable regionalizada manifiesta cierta continuidad espacial,los datos estn correlacionados y el sesgo es todava ms importante.

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    43/149

    38

    )()]([

    )()]([

    2

    1

    hh

    hh

    CCE

    CCE

    El sesgo es ms importante cuando el nmero de datos es pequeo. Proviene de haberrecurrido, en el clculo de la covarianza experimental, a una estimacin de la esperanza mpor una media aritmtica de datos. El variograma experimental no tiene este inconveniente,pues evita estimar la esperanza de la funcin aleatoria.

    De la misma manera que para el variograma, se introduce tolerancias en las distancias ylos ngulos cuando la malla de muestreo es irregular.

    Figura 6. Variograma omnidireccional calculado a partir del estimador

    de la covarianza no ergdica, planteando )()()( 22 h0h CC = .

    3.2. Covarianza no centrada

    Una alternativa interesante es recurrir a la covarianza no centrada, denotada Cnc, que,bajo la hiptesis de estacionaridad, slo depende de la separacin entre datos:

    2

    )(])()([)( mCZZECnc +=+= hxhxh .

    La covarianza no centrada est relacionada con el variograma por la relacin:

    )()()( h0h ncnc CC =

    y constituye, en consecuencia, una herramienta equivalente a la covarianza centrada o al

    variograma. Puede estimarse sin sesgo con:

  • 8/11/2019 Geoestadistica- FCFM Xavier Emery 2011.pdf

    44/149

    39

    =)(

    )()(|)(|

    1)(

    h

    xxh

    hN

    nc zzN

    C .

    De este modo, nc(0) nc(h) constituye un estimador insesgado del variograma (h).Este estimador atena la influencia de los valores altos, en comparacin con el variogramaexperimental clsico, puesto que los valores de los datos ya no intervienen en un cuadrado.

    Esto es particularmente interesante en el caso de datos cuya distribucin es muy asimtrica

    y presenta algunos valores extremos que hacen inestable el variograma experimental.

    3.3. Correlograma experimental

    El correlograma se define como el cuociente entre la covarianza y la varianza:

    )(/)(])(),([)( 0hxhxh CCZZcorr =+= .

    Tal como para la covarianza, se puede definir un estimador ergdico, que utiliza todoslos datos al momento de estimar la esperanza y la varianza:

    )(

    )()(

    1

    11

    0

    hh

    C

    C= ,

    y un estimador no ergdico, que slo utiliza los datos que estn apareados para el vector h:

    )()(

    )(

    )(2

    2 hh

    hh colacabeza

    C

    = ,

    con

    =)(),(

    2)]()([|)(|

    1)(

    h

    hxh

    hN

    cabezacabeza zzN

    =)(),(

    2)]()([|)(|

    1)(

    h

    hxh

    hN

    colacola zzN

    .

    Los estimadores as definidos son ms robustos que el estimador del variograma, perosesgados debido a que utilizan estimadores de la esperanza y de la varianza:

    )()]([

    )()]([

    2

    1

    hh

    hh

    E