Introduction to sdm with Maxent Johannes S
-
Upload
decision-and-policy-analysis-program -
Category
Documents
-
view
1.966 -
download
1
Transcript of Introduction to sdm with Maxent Johannes S
Agenda
¿Qué son Spatial Distribution Models (SDM)?¿Qué es Maxent?Ejemplo de un corridaEjemplo de evaluación
Realidad
Mapa
Mapa con más detalle
Una foto
Modelo
Los modelos tienen un propósito
Aspectos importantes Los modelos son representaciones
simplificadas de la realidad. Los modelos tienen un propósito y es
importante tener muy claro cuál es dicho propósito.
Modelos de distribución potencial
Hay diferentes modelos de distribución potencial (Maxent, BRT, GAM, GLM, EcoCrop).
Maxent es un modelo que utiliza el principio de máxima entropía.
Maxent sólo necesita puntos de presencia de una especie y variables ambientales.
¿Por qué usamos Maxent?
Proporciona: Buenos resultados (Elith et al. 2006). Buenos resultados con pocos puntos (< 50). Sólo necesita puntos de presencia. Es un programa fácil para usar.
Algoritmo de difícil comprensión ('Blackbox') Hay también otros buenos algoritmos (BRT...)
¿Cómo funciona Maxent?
Tenemos puntos de presencia.
Maxent crea 10,000 puntos de pseudo-ausencia (background points).
¿Cómo funciona Maxent ? Diferentes variables
ambientales: Variables continuas (e.g.
temperatura) Variables categóricas
(e.g. uso del suelo, zonas ecológicas)
Todas las cuadrículas deben tener los mismos límites geográficos y el mismo tamaño de celda.
¿Como funciona Maxent ?
Maxent asume una distribución de la especie en todas las celdas.
Posteriormente Maxent restringe la distribución dependiendo de las variables ambientales.
Ejemplo
Antes de empenzar
Necesitamos los puntos de presencia en el formato de *.csv
Necesitamos las cuadriculas en el formato de *.asc.
Todas las cuadriculas necesitan la misma extensión.
Los puntos de presencia y las cuadriculas necesitan la misma proyección (e.g. WGS84)
Corrida en Maxent (I) Abrimos el Maxent
(./maxent/maxent.jar) Elegimos el archivo de
las muestras. (./datos/va.csv)
Elegimos el directorio de las variables ambientales (./datos/env)
Creamos un directorio de output (./datos/output)
Variables ambientales Bioclim:
BIO1 = Annual Mean Temperature
BIO2 = Mean Diurnal Range (Mean of monthly (max temp - min temp))
BIO3 = Isothermality (P2/P7) (* 100)
BIO4 = Temperature Seasonality (standard deviation *100)
BIO5 = Max Temperature of Warmest Month
BIO6 = Min Temperature of Coldest Month
BIO7 = Temperature Annual Range (P5-P6)
BIO8 = Mean Temperature of Wettest Quarter
BIO9 = Mean Temperature of Driest Quarter
BIO10 = Mean Temperature of Warmest Quarter
BIO11 = Mean Temperature of Coldest Quarter
BIO12 = Annual Precipitation
BIO13 = Precipitation of Wettest Month
BIO14 = Precipitation of Driest Month
BIO15 = Precipitation Seasonality (Coefficient of Variation)
BIO16 = Precipitation of Wettest Quarter
BIO17 = Precipitation of Driest Quarter
BIO18 = Precipitation of Warmest Quarter
BIO19 = Precipitation of Coldest Quarter
Configuración y 'gain'
Usualmente la configuración predeterminada esta bien.
exp(gain) = x max alta del background
e.g. gain=1.4, exp(1.4)=4.05
Lo que se mide aquí es cuántas veces un modelo que resulta de los puntos de presencia es mejor que el modelo que resulta del background
Resultados: diferentes archivos
Los archivos *.html y *.asc son los más importantes.
El archivo *.lambdas contiene los parámetros del modelo.
El archivo maxentResults.csv
La carpeta plots
El archivo *.asc
Representa la cuadricula con las predicciones para el área de estudio.
Lo mejor es verlo con un software de SIG (e.g. ArcMap, DIVA etc..)
Con ese archivo podemos hacer mas análisis.
Umbral
¿Qué es un umbral? ¿Por qué necesitamos un umbral?
> 0.4
Sensibilidad y Especificidad
Verdad positiva
Falso positivoFalso negativo
Verdad negativa
Sensibilidad
Un modelo con una baja sensibilidad tiene muchos falso negativos.
_
_ _
verdad positivaSensibilidad =
verdad positiva+ falso negativo
Especificidad
Un modelo con una baja especificidad tiene muchos falsos positivos
_
_ _
verdad negativaEspecificidad =
verdad negativa+ falso positiva
El archivo *.html
Un resumen del modelo. Gráficas del modelo. Análisis estadístico.
AUC
AUC – Area Under the Receiver Operating Curve Es una medida de la calidad del modelo. Hay otras medidas, pero el AUC es la más importante. AUC > 0.9: muy buen modelo. AUC 0.7 – 0.9: buen modelo. AUC 0.5 – 0.7: mal modelo.
AUC plot
Tasa de omisión
Predicción de presencia
1 significa una alta probabilidad.
0 una baja probabilidad.
Los puntos blancos son los puntos de presencia.
Sugerencias para un umbral Maxent tiene algunas sugerencias para un
umbral. Los umbrales son siempre difíciles de
determinar y justificar. Es mejor utilizar una mapa con probabilidades.
¿Qué importancia tienen las variables?
Contribución de cada variable. Diferencias en AUC sin la variable.
El efecto de las variables (IV) ¿Cómo cambiar la probabilidad de presencia con las
variables? Vamos a correr Maxent otra vez.
El efecto de las variables (II)
Se debe tener cuidado si las variables están correlacionadas.
Bio 5 = Temperatura máxima en el trimestres más caliente
Prueba del modelo
Selección de puntos al azar para evaluación (e.g. 25% de los puntos).
Un archivo con nuevos (otros puntos) puntos Metodología estadística como la validación
cruzada.
Validación
El principio es siempre el mismo: Usamos algunos puntos para crear el modelo. Usamos los demás puntos para la evaluación.
Evaluación con un porcentaje de los puntos
Abrir Maxent. Abrir la ventana
'Settings' Usamos un valor
de 25% en el espacio 'random percentage'
Cerrar la ventana. Correr Maxent.
Resultados
Validación cruzada
Validación cruzada = cross validation (CV). Maxent divide los puntos en n partes. Maxent crea n modelos, siempre sin la parte n. La parte omitida para crear los modelos es
usada para la validación. El resultado son n modelos.
Creemos un modelo con CV
Revisar que el ramdom test percentage es cero (0).
Abrir settings y elegir cross validate.
Ingresar cinco (5) en el espacio frente a replicates
Resultados
Un resultado para cada corrida.
Un resumen para todos los resultados.
Resultados de la CV
Promedio Desviación estándar
¿Preguntas?
Proyección con datos de clima
futuro
¿Por qué?
Tenemos la distribución de hoy. ¿Cambiará la distribución en el futuro? Usamos diferentes modelos del cambio
climático.
Fuentes de datos
www.worldclim.org http://gisweb.ciat.cgiar.org/GCMPage/ www.ipcc.ch
Entonces… proyectemos un modelo
Abrimos Maxent. Todo los ajustes son
los mismos. Elegimos el directorio
que tiene los datos de clima del futuro.
Resultados
'Clamping'
Clamping: Si variables tienen un
rango diferente en el futuro, con 'clamping' los valores que están fuera del rango se mantendrán constantes.
Prediciones con cuidado Superficie de
Similaridad Multi-variada (Elith, 2010).
Valores negativos (rojo) son celdas donde el valor para una o más de las cuadriculas de los variables ambientales no están en el rango de valores de training.
Encontrar el cambio
Se trabaja con DIVA- GIS y para esto es necesario el formado de *.grd.
Correr Maxent otra vez y cambiar el formato.
Abrir las cuadriculas en DIVA-GIS
Abrir DIVA-GIS. Abrir la cuadricula de
la distribución potencial actual y la cuadricula de la distribución potencial por el ano 2080.
Layer / add layer
Reclasificar los valores Grid / reclass
Buscamos el umbral en el *.html.
El nuevo valor (hasta el umbral 0, después 1).
Creamos dos (2) nuevas cuadriculas:
hoy_reclass.grd Presencia 1 Ausencia 0
2080_reclass.grd Presencia 10 Ausencia 0
Creemos un 'stack'
Abrir Stack / make stack
Seleccionar las cuadriculas hoy_reclass.grd 2080_reclass.grd
Sumar las cuadriculas Abrir Stack / calculate ¿Qué significan los
valores? 0 Ausencia. 1 Presencia actual,
ausencia en el futuro. 10 Ausencia actual,
presencia en el futuro. 11 Presencia actual y
en el futuro.
Recursos Primary Literature
R. A Baldwin, “Use of Maximum Entropy Modeling in Wildlife Research,” Entropy 11, no. 4 (2009): 854–866.
Jane Elith et al., “A statistical explanation of MaxEnt for ecologists,” Diversity and Distributions (11, 2010)
J. Elith et al., “Novel methods improve prediction of species’ distributions from occurrence data,” Ecography 29, no. 2 (2006): 129–151.
S. J Phillips and M. Dudík, “Modeling of species distributions with Maxent: new extensions and a comprehensive evaluation,” Ecography 31, no. 2 (2008): 161–175.
S. J Phillips, M. Dudík, and R. E Schapire, “A maximum entropy approach to species distribution modeling,” in Proceedings of the twenty-first international conference on Machine learning, 2004, 83.
R. J Hijmans et al., “Very high resolution interpolated climate surfaces for global land areas,” International Journal of Climatology 25, no. 15 (2005): 1965–1978.
Recursos
Books Jane Franklin, Modelling Distribution of species
Internet Google Group on Maxent Tutorial in English and Spanish
Formato de SWD
¿Qué es SWD? ¿Por qué usamos SWD? ¿Cómo creamos un SWD? SWD para las especies y background?
Batch Running
¿Qué es un batch? ¿Por qué necesitamos el batch? ¿Cómo creamos un batch? Más opciones con R, Python, Java etc ...