Introduction to sdm with Maxent Johannes S

Maxent Modelamiento de

distribución de especies

Johannes [email protected]

Agenda

¿Qué son Spatial Distribution Models (SDM)?¿Qué es Maxent?Ejemplo de un corridaEjemplo de evaluación

Realidad

Mapa

Mapa con más detalle

Una foto

Modelo

Los modelos tienen un propósito

Aspectos importantes Los modelos son representaciones

simplificadas de la realidad. Los modelos tienen un propósito y es

importante tener muy claro cuál es dicho propósito.

Modelos de distribución potencial

Hay diferentes modelos de distribución potencial (Maxent, BRT, GAM, GLM, EcoCrop).

Maxent es un modelo que utiliza el principio de máxima entropía.

Maxent sólo necesita puntos de presencia de una especie y variables ambientales.

¿Por qué usamos Maxent?

Proporciona: Buenos resultados (Elith et al. 2006). Buenos resultados con pocos puntos (< 50). Sólo necesita puntos de presencia. Es un programa fácil para usar.

Algoritmo de difícil comprensión ('Blackbox') Hay también otros buenos algoritmos (BRT...)

¿Cómo funciona Maxent?

Tenemos puntos de presencia.

Maxent crea 10,000 puntos de pseudo-ausencia (background points).

¿Cómo funciona Maxent ? Diferentes variables

ambientales: Variables continuas (e.g.

temperatura) Variables categóricas

(e.g. uso del suelo, zonas ecológicas)

Todas las cuadrículas deben tener los mismos límites geográficos y el mismo tamaño de celda.

¿Como funciona Maxent ?

Maxent asume una distribución de la especie en todas las celdas.

Posteriormente Maxent restringe la distribución dependiendo de las variables ambientales.

Ejemplo

Antes de empenzar

Necesitamos los puntos de presencia en el formato de *.csv

Necesitamos las cuadriculas en el formato de *.asc.

Todas las cuadriculas necesitan la misma extensión.

Los puntos de presencia y las cuadriculas necesitan la misma proyección (e.g. WGS84)

Corrida en Maxent (I) Abrimos el Maxent

(./maxent/maxent.jar) Elegimos el archivo de

las muestras. (./datos/va.csv)

Elegimos el directorio de las variables ambientales (./datos/env)

Creamos un directorio de output (./datos/output)

Variables ambientales Bioclim:

BIO1 = Annual Mean Temperature

BIO2 = Mean Diurnal Range (Mean of monthly (max temp - min temp))

BIO3 = Isothermality (P2/P7) (* 100)

BIO4 = Temperature Seasonality (standard deviation *100)

BIO5 = Max Temperature of Warmest Month

BIO6 = Min Temperature of Coldest Month

BIO7 = Temperature Annual Range (P5-P6)

BIO8 = Mean Temperature of Wettest Quarter

BIO9 = Mean Temperature of Driest Quarter

BIO10 = Mean Temperature of Warmest Quarter

BIO11 = Mean Temperature of Coldest Quarter

BIO12 = Annual Precipitation

BIO13 = Precipitation of Wettest Month

BIO14 = Precipitation of Driest Month

BIO15 = Precipitation Seasonality (Coefficient of Variation)

BIO16 = Precipitation of Wettest Quarter

BIO17 = Precipitation of Driest Quarter

BIO18 = Precipitation of Warmest Quarter

BIO19 = Precipitation of Coldest Quarter

Configuración y 'gain'

Usualmente la configuración predeterminada esta bien.

exp(gain) = x max alta del background

e.g. gain=1.4, exp(1.4)=4.05

Lo que se mide aquí es cuántas veces un modelo que resulta de los puntos de presencia es mejor que el modelo que resulta del background

Resultados: diferentes archivos

Los archivos *.html y *.asc son los más importantes.

El archivo *.lambdas contiene los parámetros del modelo.

El archivo maxentResults.csv

La carpeta plots

El archivo *.asc

Representa la cuadricula con las predicciones para el área de estudio.

Lo mejor es verlo con un software de SIG (e.g. ArcMap, DIVA etc..)

Con ese archivo podemos hacer mas análisis.

Umbral

¿Qué es un umbral? ¿Por qué necesitamos un umbral?

> 0.4

Sensibilidad y Especificidad

Verdad positiva

Falso positivoFalso negativo

Verdad negativa

Sensibilidad

Un modelo con una baja sensibilidad tiene muchos falso negativos.

_

_ _

verdad positivaSensibilidad =

verdad positiva+ falso negativo

Especificidad

Un modelo con una baja especificidad tiene muchos falsos positivos

_

_ _

verdad negativaEspecificidad =

verdad negativa+ falso positiva

El archivo *.html

Un resumen del modelo. Gráficas del modelo. Análisis estadístico.

AUC

AUC – Area Under the Receiver Operating Curve Es una medida de la calidad del modelo. Hay otras medidas, pero el AUC es la más importante. AUC > 0.9: muy buen modelo. AUC 0.7 – 0.9: buen modelo. AUC 0.5 – 0.7: mal modelo.

AUC plot

Tasa de omisión

Predicción de presencia

1 significa una alta probabilidad.

0 una baja probabilidad.

Los puntos blancos son los puntos de presencia.

Sugerencias para un umbral Maxent tiene algunas sugerencias para un

umbral. Los umbrales son siempre difíciles de

determinar y justificar. Es mejor utilizar una mapa con probabilidades.

¿Qué importancia tienen las variables?

Contribución de cada variable. Diferencias en AUC sin la variable.

El efecto de las variables (IV) ¿Cómo cambiar la probabilidad de presencia con las

variables? Vamos a correr Maxent otra vez.

El efecto de las variables (II)

Se debe tener cuidado si las variables están correlacionadas.

Bio 5 = Temperatura máxima en el trimestres más caliente

Prueba del modelo

Selección de puntos al azar para evaluación (e.g. 25% de los puntos).

Un archivo con nuevos (otros puntos) puntos Metodología estadística como la validación

cruzada.

Validación

El principio es siempre el mismo: Usamos algunos puntos para crear el modelo. Usamos los demás puntos para la evaluación.

Evaluación con un porcentaje de los puntos

Abrir Maxent. Abrir la ventana

'Settings' Usamos un valor

de 25% en el espacio 'random percentage'

Cerrar la ventana. Correr Maxent.

Resultados

Validación cruzada

Validación cruzada = cross validation (CV). Maxent divide los puntos en n partes. Maxent crea n modelos, siempre sin la parte n. La parte omitida para crear los modelos es

usada para la validación. El resultado son n modelos.

Creemos un modelo con CV

Revisar que el ramdom test percentage es cero (0).

Abrir settings y elegir cross validate.

Ingresar cinco (5) en el espacio frente a replicates

Resultados

Un resultado para cada corrida.

Un resumen para todos los resultados.

Resultados de la CV

Promedio Desviación estándar

¿Preguntas?

Proyección con datos de clima

futuro

¿Por qué?

Tenemos la distribución de hoy. ¿Cambiará la distribución en el futuro? Usamos diferentes modelos del cambio

climático.

Fuentes de datos

www.worldclim.org http://gisweb.ciat.cgiar.org/GCMPage/ www.ipcc.ch

http://www.worldclim.org/

http://gisweb.ciat.cgiar.org/GCMPage/

http://www.ipcc.ch/

Entonces… proyectemos un modelo

Abrimos Maxent. Todo los ajustes son

los mismos. Elegimos el directorio

que tiene los datos de clima del futuro.

Resultados

'Clamping'

Clamping: Si variables tienen un

rango diferente en el futuro, con 'clamping' los valores que están fuera del rango se mantendrán constantes.

Prediciones con cuidado Superficie de

Similaridad Multi-variada (Elith, 2010).

Valores negativos (rojo) son celdas donde el valor para una o más de las cuadriculas de los variables ambientales no están en el rango de valores de training.

Encontrar el cambio

Se trabaja con DIVA- GIS y para esto es necesario el formado de *.grd.

Correr Maxent otra vez y cambiar el formato.

Abrir las cuadriculas en DIVA-GIS

Abrir DIVA-GIS. Abrir la cuadricula de

la distribución potencial actual y la cuadricula de la distribución potencial por el ano 2080.

Layer / add layer

Reclasificar los valores Grid / reclass

Buscamos el umbral en el *.html.

El nuevo valor (hasta el umbral 0, después 1).

Creamos dos (2) nuevas cuadriculas:

hoy_reclass.grd Presencia 1 Ausencia 0

2080_reclass.grd Presencia 10 Ausencia 0

Creemos un 'stack'

Abrir Stack / make stack

Seleccionar las cuadriculas hoy_reclass.grd 2080_reclass.grd

Sumar las cuadriculas Abrir Stack / calculate ¿Qué significan los

valores? 0 Ausencia. 1 Presencia actual,

ausencia en el futuro. 10 Ausencia actual,

presencia en el futuro. 11 Presencia actual y

en el futuro.

Recursos Primary Literature

R. A Baldwin, “Use of Maximum Entropy Modeling in Wildlife Research,” Entropy 11, no. 4 (2009): 854–866.

Jane Elith et al., “A statistical explanation of MaxEnt for ecologists,” Diversity and Distributions (11, 2010)

J. Elith et al., “Novel methods improve prediction of species’ distributions from occurrence data,” Ecography 29, no. 2 (2006): 129–151.

S. J Phillips and M. Dudík, “Modeling of species distributions with Maxent: new extensions and a comprehensive evaluation,” Ecography 31, no. 2 (2008): 161–175.

S. J Phillips, M. Dudík, and R. E Schapire, “A maximum entropy approach to species distribution modeling,” in Proceedings of the twenty-first international conference on Machine learning, 2004, 83.

R. J Hijmans et al., “Very high resolution interpolated climate surfaces for global land areas,” International Journal of Climatology 25, no. 15 (2005): 1965–1978.

Recursos

Books Jane Franklin, Modelling Distribution of species

Internet Google Group on Maxent Tutorial in English and Spanish

[email protected]

Formato de SWD

¿Qué es SWD? ¿Por qué usamos SWD? ¿Cómo creamos un SWD? SWD para las especies y background?

Batch Running

¿Qué es un batch? ¿Por qué necesitamos el batch? ¿Cómo creamos un batch? Más opciones con R, Python, Java etc ...

Introduction to sdm with Maxent Johannes S

Documents

Transcript of Introduction to sdm with Maxent Johannes S