Notes préalables sur ce template Rmarkdown
Ce fichier constitue un gabarit complet pour la modélisation des habitats potentiels d’une espèce ou d’un groupe d’espèce. Il est fourni sous licence libre CC-BY 4.0.
Vous êtes autorisé à :
Partager — copier, distribuer et communiquer le matériel par tous moyens et sous tous formats pour toute utilisation, y compris commerciale. Adapter — remixer, transformer et créer à partir du matériel pour toute utilisation, y compris commerciale. L’Offrant ne peut retirer les autorisations conférées par la licence tant que vous appliquez les termes de cette licence.
Selon les conditions suivantes :
Attribution — Vous devez créditer ce travail, intégrer un lien vers la licence et indiquer si des modifications ont été effectuées à ce code. Vous devez indiquer ces informations par tous les moyens raisonnables, sans toutefois suggérer que l’Offrant vous soutient ou soutient la façon dont vous avez utilisé son code.
Partage dans les Mêmes Conditions — Dans le cas où vous effectuez un remix, que vous transformez, ou créez à partir du matériel composant le code original, vous devez diffuser le code modifié dans les même conditions, c’est à dire avec la même licence avec laquelle le code original a été diffusé.
Pas de restrictions complémentaires — Vous n’êtes pas autorisé à appliquer des conditions légales ou des mesures techniques qui restreindraient légalement autrui à utiliser le code dans les conditions décrites par la licence.
Il a été testé fonctionnel sur R version 4.3.2 (2023-10-31 ucrt), avec les packages sf (1.0.15), terra (1.7.71), ggplot2 (3.4.4), scales (1.3.0), egg (0.4.5), virtualspecies (1.6), blockCV (3.1.3), biomod2 (4.2.5), dplyr (1.1.4), tidyterra (0.5.2).
Il est possible que des évolutions futures de packages (notamment, biomod2, qui est sujet à de nombreuses évolutions en 2023 et 2024) rendent certaines parties du fichier non fonctionnelles, ce qui nécessitera de corriger le code.
Pré-requis :
Chargement des packages et fonctions, chargement de données géographiques et des variables environnementales harmonisées
library(sf)
library(terra)
library(ggplot2)
library(scales)
library(egg)
library(virtualspecies)
library(blockCV)
library(biomod2)
library(dplyr)
library(tidyterra)
library(viridis)
source("scripts/functions.R")
# Shapefile de la Corse
corse <- st_read("data/corse.gpkg")
## Reading layer `corse' from data source `C:\Rprojects\SDMs_PNA_Corse\data\corse.gpkg' using driver `GPKG'
## Simple feature collection with 1 feature and 8 fields
## Geometry type: MULTIPOLYGON
## Dimension: XY
## Bounding box: xmin: 8.534717 ymin: 41.33323 xmax: 9.560364 ymax: 43.02755
## Geodetic CRS: WGS 84
Chargement et préparation des données d’occurrence
## Reading layer `amphibien' from data source
## `C:\Rprojects\SDMs_PNA_Corse\data\donnees_brutes\taxa\amphibien.shp'
## using driver `ESRI Shapefile'
## Simple feature collection with 2223 features and 69 fields
## Geometry type: POINT
## Dimension: XY
## Bounding box: xmin: 8.644611 ymin: 41.52483 xmax: 9.439711 ymax: 43.00655
## Geodetic CRS: WGS 84
# Simplification du nom d'espèce en binomial
amphib$species <- simplify_species_name(amphib$nom_valide)
# Dates d'échantillonnage
amphib$year <- as.numeric(strtrim(amphib$date_fin, 4))
amphib$month <- as.numeric(substr(amphib$date_fin, 6, 7))
# Visualisation de la temporalité des occurrences
ggplot(amphib) +
geom_boxplot(aes(x = species,
y = year))+
coord_flip() +
scale_y_continuous(breaks = breaks_pretty()) +
theme_minimal()
Filtre temporel
Il faut établir un filtre temporel pour éliminer les données
imprécises, sachant que l’objectif est de modéliser à une résolution
assez fine, de l’ordre de 1km. Le champ precision
est peu
renseigné et donc peu utile ici, il nous faut donc poser une hypothèse
sur les données qui sont imprécises. On peut considérer que les GPS ont
commencé à être largement disponibles à partir de 1990, mais leur
utilisation ne s’est généralisée qu’à partir des années 2000, notamment
grâce à leur miniaturisation. Ainsi, on peut spéculer qu’avant les
années 2000, les données étaient moins précisés car possiblement
géolocalisées en utilisant des référentiels comme les lieu-dits ou les
communes, tandis qu’à partir des années 2000 la précision s’est
améliorée grâce à la géolocalisation par satellite.
Le nombre de données supprimées en fixant un seuil à l’année 2000 est relativement faible :
# Les données avant 2000 ne représentent qu'un petit % du jeu de données :
100 * length(which(amphib$year < 2000)) / nrow(amphib)
## [1] 3.373819
Les données post-2000 sont également plus complètes et homogènes en termes de couverture temporelle dans l’année :
ggplot(amphib) +
geom_boxplot(aes(x = species,
y = month)) +
facet_wrap(~year) +
coord_flip() +
scale_y_continuous(breaks = breaks_pretty()) +
theme_minimal()
L’emprise spatiale des données d’occurrence ne change pas de manière majeure avec ou sans les données pré-2000 :
p_amphib_all <- ggplot() +
geom_sf(data = corse) +
geom_sf(data = amphib, aes(col = year)) +
scale_color_continuous(type = "viridis") +
theme_minimal(base_size = 15) +
ggtitle("Toutes données\namphibiens")
p_amphib_post2000 <- ggplot() +
geom_sf(data = corse) +
geom_sf(data = amphib[amphib$year >= 2000, ], aes(col = year)) +
scale_color_continuous(type = "viridis") +
theme_minimal(base_size = 15) +
ggtitle("Données post-2000\namphibiens")
ggarrange(p_amphib_all,
p_amphib_post2000,
nrow = 1)
On pose donc l’hypothèse raisonnable qu’un filtre à 2000 va assurer une bonne précision dans la localisation des occurrences sans perdre d’information critique sur la répartition des espèces.
Rasterisation des occurrences
L’objectif ici est de ne garder qu’une occurrence par cellule à la résolution de nos variables environnementales afin d’éviter une forme extrême de pseudo-réplication. Par exemple, si dans une cellule donnée on a initialement 30 observations de la même espèce, alors, après rasterisation, ces 30 observations ne compteront que comme une seule occurrence. Cette étape est indispensable car elle évite de donner aux modèles, par exemple, 30 fois la même valeur de température provenant d’une seule cellule. C’est ce qu’on appelle de la pseudo-réplication et c’est très problématique pour les domaines. On s’attend donc à ce que cette étape réduise le nombre d’occurrences pour les modèles.
# On rasterise les occurrences à la résolution de nos variables
# environnementales
amphib_r <- rasterize(amphib,
env_corse)
names(amphib_r) <- "amphib"
plot(amphib_r)
On va ensuite éliminer les occurrences qui sont dans des zones sans
valeurs de variables environnementales (i.e., essentiellement en zones
côtières). Pour cela on va combiner les variables environnementales avec
les occurrences rasterisées dans un data.frame
, et
supprimer les occurrences d’espèces qui tombent sur des données
environnementales manquantes
# On crée un stack avec nos occurrences rasterisées et les variables env
env_amphib <- c(env_corse,
amphib_r)
# On récupère les coordonnées XY de toutes les cellules, pour préparer nos
# données finales
coorXY <- xyFromCell(env_corse,
1:ncell(env_corse))
# On transforme le raster en data.frame
env_amphib_df <- values(env_amphib)
# On regarde le nombre d'occurrences pour lesquelles il y a des données
# manquantes :
length(which(is.na(env_amphib_df[, "bio1"]) &
!is.na(env_amphib_df[, "amphib"])))
## [1] 1
On va maintenant supprimer les cellules pour lesquelles on n’a pas de données environnementales. Pour cela on va utiliser la première variable environnementale ici, car les données manquantes sont toutes les mêmes entre toutes les variables environnementales (cf. script harmonisation des données).
# On filtre d'abord sur l'objet qui contient les coordonnées
coorXY <- coorXY[-which(is.na(env_amphib_df[, 1])), ]
# Et ensuite sur le tableau avec variables env et présences d'espèces
env_amphib_df <- env_amphib_df[which(!is.na(env_amphib_df[, 1])), ]
# Comparaison du nombre d'occurrences :
# Avant rasterisation
nrow(amphib)
## [1] 2148
# Après rasterisation et élimination des données env manquantes
length(which(env_amphib_df[, "amphib"] == 1))
## [1] 493
Il s’agit donc du nombre d’occurrences que l’on va pouvoir utiliser
pour calibrer nos modèles. On va maintenant formater ces occurrences en
combinant coordonnées et info sur l’occurrence dans un
data.frame
pour préparer la calibration de nos modèles
P_points <- data.frame(
# D'abord on récupère les coordonnées XY qui correspondent à nos cellules de présences
coorXY[which(!is.na(env_amphib_df[, "amphib"])), ],
# Ensuite, on récupère la colonne qui indique présence pour chaque cellule
occurrence = env_amphib_df[which(!is.na(env_amphib_df[, "amphib"])),
"amphib"])
P_points
Génération des points de background
Etant donné que nos observations sont des présences-seules, i.e. sans données d’absences, il nous faut générer des points de “background” pour pouvoir calibrer les modèles. Ces points de backgrounds sont des données tirées dans toute la zone d’étude qui renseignent les modèles sur comment les variables environnementales sont distribuées dans la géographie. Ces points seront fournis aux modèles comme des 0, ce qui permettra aux modèles d’identifier quels habitats apparaissent comme favorable parmi l’ensemble des habitats disponibles. Cependant, ces 0 ne sont pas interprétés comme des absences, et l’interprétation finale du modèle nécessitera des précautions particulières, comme par exemple ne pas considérer la valeur issue du modèle comme une “probabilité de présence” ; elle sera plutôt considérée comme un indice de favorabilité de l’habitat.
La littérature statistique récente suggère que les meilleures pratiques consistent à générer un grand nombre de points de background (e.g., 10000) indépendamment de la localisation des points de présence (i.e., un point de background peut être localisé au même endroit qu’un point de présence). Cela permet d’assurer une bonne représentation de l’ensemble des conditions environnementales disponibles dans le modèle. Dans le cas de la Corse, le nombre de points de background sera limité par le nombre de pixels disponibles :
# Nous avons éliminé les données manquantes du tableau env_amphib_df
# Par conséquent, son nombre de lignes est égal au nombre total de pixels
# disponibles sur la Corse
nrow(env_amphib_df)
## [1] 13620
Ainsi, nous partons sur un point de départ à 10000 backgrounds ce qui sera suffisant pour une bonne calibration des modèles. Il n’est pas nécessaire de faire plusieurs répétitions, car le nombre de points de background est déjà suffisamment élevé, les résultats de calibration ne varieraient pas entre différentes répétitions.
Des tests préliminaires ont montré que la distance aux routes ne semble pas être un biais d’échantillonnage majeur pour les amphibiens. Cet effet ne sera donc pas pris en compte pour la génération des points de background.
# On réduit également le nombre de background pour avoir un effet du biais
background <- spatSample(env_corse,
method = "random",
size = 10000,
replace = FALSE, # Pas de remise
na.rm = TRUE, # Pas dans les données manquantes
xy = TRUE, # L'output inclut les coords XY
values = FALSE) # L'output exclut les variables
# On ajoute les points de background aux données de présence
P_points <- rbind.data.frame(P_points,
data.frame(background,
occurrence = 0))
# Affichage des occurrences
plot(P_points$y ~ P_points$x, pch = c(1, 16)[P_points$occurrence + 1],
asp = 1, cex = .5,
xlab = "Longitude", ylab = "Latitude")
Les points de background sont les cercles blancs, et les occurrences sont les cercles pleins.
Sélection des variables environnementales
Climat
La température, qui est un proxy de la disponibilité en énergie, régule et contraint les processus physiologiques fondamentaux des ectothermes, tels que l’action musculaire (e.g., l’activité locomotrice), les taux métaboliques, les taux de croissance, la différenciation, la gamétogenèse et les cycles de reproduction (Taylor et al., 2021). L’humidité de l’environnement - proxy de la disponibilité de l’eau - dicte le risque de mort par dessiccation d’un amphibien, et donc les schémas saisonniers et quotidiens des processus d’histoire de vie, tels que la dispersion et la reproduction (Taylor et al., 2021).
La littérature sur les trois amphibiens suggère qu’il existe des limites altitudinales minimales et maximales à leurs distributions. Ces limites reflètent probablement des conditions de température et d’humidité propres aux différents étages altitudinaux : une limite inférieure due aux périodes trop chaudes et trop arides, et une limite supérieure due aux périodes trop froides. Par conséquent nous utiliserons des variables reflétant les limites supérieurs et inférieures et avec une hétérogénéité limitée dans la saisonalité :
températures les plus chaudes (bio5) et les plus froides de l’année (bio6)
saisonalité des précipitations (bio15)
humidité relative minimale (cmi_min) et maximale (cmi_max).
Occupation du sol
Bien que les trois espèces cibles occupent des habitats divers, toutes sont inféodées aux milieux humides pour au moins un stade de développement. Il est ainsi attendu une relation forte et positive avec les milieux humides, de manière non-linéaire (il faut un minimum de milieux humides dans la maille pour assurer la présence des espèces). Les espèces du groupe pourraient préférer les milieux lentiques plutôt que lotiques (Trochet et al. 2020), mais cette préférence n’est pas bien établie, donc nous ne ferons pas cette distinction.
Les trois espèces sont également inféodées aux milieux forestiers, voire particulièrement aux ruisseaux de milieux forestiers (Goux 1955 ; Bosc et Destandau 2012 ; Bosc 2001 ; Bensetti et Gaudillat 2002, Trochet et al. 2020). Ainsi, il est attendu un effet positif des habitats forestiers sur la probablité d’observation de l’espèce. L’interaction ruisseau - forêts pourrait s’avérer être un facteur encore plus pertinent pour la probabilité d’observer ce groupe.
Noms des variables retenues :
présence des milieux humides (milieux_eaudouce)
milieux forestiers (forets)
Biais d’échantillonnage
La probabilité d’observer les espèces est souvent directement liée à l’accessibilité du milieu, qui est connue pour être fortement corrélée à la distance aux routes. Nous utiliserons donc la distance aux routes comme proxy du biais d’échantillonnage afin d’éviter que les modèles ne cherchent à expliquer l’accessibilité par les autres variables environnementales.
Néanmoins, dans le cas des amphibiens, des test préliminaires n’ont pas montré d’effet évident de biais lié à la distance aux routes, et donc cet effet ne sera pas pris en compte ici.
Variables anthropogéniques
Ces espèces ont été supposées vulnérables aux perturbartions anthropiques ; par conséquent il faudra explorer s’il existe un effet de variables associées aux perturbations : densité de population humaine, distance aux zones urbaines, milieux agricoles. Néanmoins, un tel effet ne doit pas être étudié si beaucoup de données d’occurrence anciennes (avant 2000) sont incluses, pour éviter une erreur d’attribution espèce - perturbation. Sachant que nous n’avons conservé que les données d’occurrence postérieures à 2000, nous pouvons tester cette hypothèse. Etant donné que plusieurs perturbations peuvent agir conjointement sur les amphibiens, utiliser une variable intégrant plusieurs perturbations potentielles comme la naturalité paraît être la démarche la plus appropriée, en supposant un effet positif de la naturalité sur la présence des amphibiens.
Nom des variables retenues :
- naturalité (naturalite)
Autres variables et commentaires
L’altitude est fréquemment suggérée comme facteur expliquant la distribution des amphibiens. Cependant, cette variable n’a pas d’effet directe sur leur biologie, c’est ce qu’on appelle une ‘variable distale’. Elle est plutôt corrélée à d’autres variables, qui elles jouent directement sur la biologie des amphibiens (appelées variables proximales). Ainsi, l’altitude ne sera pas pré-sélectionnée comme facteur explicatif pour les modèles d’habitat des amphibiens.
Constitution du jeu de variables finales pour les amphibiens
Préparation des rasters
Etude de la colinéarité
La colinéarité est la corrélation qui existe entre les variables environnementales. Des variables colinéaires posent des problèmes pour la calibration de nombreux modèles statistiques, donc on s’assure toujours d’éliminer les variables colinéaires avant de faire la calibration.
On étudie la colinéarité entre les variables avec le coefficient de corrélation de Spearman (car certaines variables, précipitations notamment, ne sont pas du tout distribuées normalement), en utilisant un seuil standard de 0.7.
var_groups <- removeCollinearity(env_amphib,
plot = TRUE,
multicollinearity.cutoff = 0.7,
method = "spearman")
## - No multicollinearity detected in your data at threshold 0.7
Il n’y a pas d’effet de colinéarité importante chez les amphibiens. Les variables de distance aux routes et de naturalité semblent corrélées, mais pas suffisamment pour justifier d’éliminer l’une des deux. Une telle corrélation serait plus problématique en cas de projection hors de l’espace de calibration (i.e., projections futures ou projections dans d’autres zones géographiques), ce qui ne sera pas le cas ici.
Filtrage des variables non informatives
Les analyses préliminaires ont révélé que certaines de ces variables n’ont des effets que très limités : bio15, cmi_min, forets. Ces variables seront donc éliminées.
Préparation de la stratégie de validation croisée des modèles
Nous ne disposons pas de jeu de données indépendant pour évaluer les modèles. Par conséquent, il nous faut utiliser une procédure de “validation croisée” qui consiste à séparer le jeu de données en deux, une partie sert à la calibration des modèles, et l’autre partie sert à l’évaluation. L’approche classique consiste à faire de découpage de manière aléatoire, mais il a été démontré qu’un découpage aléatoire est suroptimiste car les points de données de calibration sont très proches, spatialement, des points de données d’évaluation.
Pour éviter ce problème de proximité spatiale, nous allons utiliser une procédure dite de “validation croisée spatiale par blocs”. Cette validation croisée par blocs vise à réduire l’autocorrélation spatiale entre jeu de données de calibration et jeu de validation. L’autocorrélation spatiale est le fait que des points proches dans l’espace ont des valeurs de variables environnementales similaires. Eviter l’autocorrélation spatiale entre jeu de calibration et d’évaluation revient à éviter que les valeurs de variables environnementales soient similaires entre calibration et évaluation - cela permet de mieux tester la réelle capacité des modèles à prédire l’habitat favorable aux espèces.
La démarche de validation croisée par blocs est la suivante :
Définir une taille de blocs qui réduit l’autocorrélation spatiale entre calibration et évaluation
Répartir les blocs en plis (“folds”) de calibration et d’évaluation
Vérifier que les plis sont équilibrés, i.e. le nombre de points de calibration doit être similaire entre les plis. Si les plis sont déséquilibrés, recommencer les étapes 1-3 en réduisant la taille des blocs.
Définition de la taille des blocs
Il faut étudier le degré d’autocorrélation spatiale dans les variables environnementales pour avoir une idée de la taille des blocs. La taille des blocs est un compromis entre l’objectif de diminution de l’autocorrélation spatiale et les contraintes des données d’occurrences. En effet, si toutes les occurrences sont localisées dans une petite zone, il ne sera pas possible de viser des blocs trop grands, car on ne pourrait alors pas séparer les points en jeu de calibration et jeu d’évaluation.
# Pour étudier la taille des blocs à viser, il faut d'abord projeter le raster
# en mètres, sinon la fonction de calcul de l'autocorrélation échouera
env_amphib_l93 <- project(env_amphib,
"EPSG:2154") # Projection en Lambert 93 ici
# Ensuite on étudie le range d'autocorrélation spatiale
AC_range <- cv_spatial_autocor(env_amphib_l93,
num_sample = 10000)
##
|
| | 0%
|
|==================== | 25%
|
|======================================== | 50%
|
|=========================================================== | 75%
|
|===============================================================================| 100%
On obtient initialement un range médian qui est de 29.9 km, ce qui est satisfaisant ici pour réaliser une validation croisée par blocs : il y a beaucoup de blocs, ce qui signifie que la répartition des blocs en plis sera probablement bien équilibrée.
P_points_sf <- st_as_sf(P_points,
coords = c("x", "y"),
crs = "EPSG:4326")
plis_cv <- cv_spatial(x = P_points_sf,
column = "occurrence", # Nom de la colonne des occurrences
k = 6, # Nombre de plis (folds) pour la k-fold CV
size = AC_range$range, # Taille des blocs en metres
selection = "random", # Attribution des blocs aléatoire dans
# les plis
iteration = 50, # Nombre d'essais pour trouver des plis
# équilibrés
biomod2 = TRUE, # Formater les données pour biomod2
r = env_amphib, # Pour le fond de carte
progress = FALSE,
plot = FALSE)
##
## train_0 train_1 test_0 test_1
## 1 8310 422 1690 71
## 2 8875 433 1125 60
## 3 7626 393 2374 100
## 4 8560 437 1440 56
## 5 8069 388 1931 105
## 6 8560 392 1440 101
On voit que nos plis sont plutôt équilibrés :
de 388 à 437 présences pour la calibration
de 56 à 105 présences pour l’évaluation
On peut visualiser la répartition des points de calibration (“Train”) et évaluation (“Test”) pour chaque pli sur la carte suivante :
Cette carte inclut à la fois les présences et les backgrounds.
Dernière étape, biomod2 exige un format particulier pour les plis de validation croisée, donc on va préparer ce format ici :
Calibration des modèles
Tout d’abord on prépare les données pour biomod2.
coorxy <- P_points[, c("x", "y")]
occurrences <- P_points[, "occurrence"]
dir.create("models/amphibiens", recursive = T, showWarnings = FALSE)
run_data <- BIOMOD_FormatingData(
resp.name = "amphibiens", # Nom de l'espèce
resp.var = occurrences, # Présences + background
expl.var = env_amphib, # Variables environnementales prédictives
dir.name = "models", # Dossier dans lequel on va stocker les modèles
resp.xy = coorxy, # Coordonnées xy des présences et background
PA.strategy = NULL) # Pas de génération de points de background par biomod
##
## -=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-= amphibiens Data Formating -=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=
##
## ! No data has been set aside for modeling evaluation
## ! No data has been set aside for modeling evaluation
## !!! Some data are located in the same raster cell.
## Please set `filter.raster = TRUE` if you want an automatic filtering.
## ! No data has been set aside for modeling evaluation
## -=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-= Done -=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=
Biomod nous indique deux choses : que nous n’avons pas de données indépendantes pour l’évaluation, ce qui est effectivement le cas à ce stade de l’étude. Par ailleurs, que plusieurs données peuvent être dans la même cellule, ce qui est également attendu car nous avons tiré aléatoirement nos background dans toute la zone d’étude et donc ils ont pu tomber dans les mêmes cellules que des points de présence. Pas d’inquiétudes, c’est ce que l’on avait prévu.
On va pouvoir désormais préparer la calibration des modèles, en les paramétrant de manière correcte. Ce qui est important de savoir ici c’est que nos modèles vont avoir deux grosses difficultés statistiques :
déséquilibre des classes : il y a au total 493 présences et 10000 backgrounds (qui seront considérés comme des valeurs de 0 par les modèles), ce qui crée un gros déséquilibre entre les 1 et les 0. C’est ce que l’on appelle le déséquilibre des classes.
chevauchement des classes : il est probable que les présences et les backgrounds se chevauchent sur les gradients de variables environnementales (d’autant plus que nous pouvons avoir parfois une présence et un background dans le même pixel), ce qui rend la distinction entre les 1 et les 0 difficile pour les modèles. C’est ce que l’on appelle le chevauchement des classes.
La solution pour bien paramétrer les modèles face au déséquilibre et au chevauchement varie selon les modèles, mais le principe général est de réduire l’importance des backgrounds lors de la calibration par rapport au présence, afin de viser un ratio équilibre 50/50 entre importance des présences et importance des backgrounds. Par exemple, on va attribuer des poids aux présences et aux backgrounds de sorte que la somme du poids des présences et des backgrounds soit égale. Cependant, cette méthode fonctionne mal sur certains modèles comme le random forest, et il faut alors le paramétrer de manière plus fine avec un rééchantillonnage à 50/50 en interne.
Par ailleurs, il est important de noter que l’évaluation des modèles avec la validation croisée n’est pas un élément validant la robustesse du modèle. Elle est plutôt à considérer comme un élément qui élimine les mauvais modèles, mais elle ne constitue pas une preuve de robustesse quand elle est bonne, car elle est limitée à la fois par la nature des données (présence-seule, pas d’absences), et par la possibilité qu’il y ait des biais dans l’échantillonnage. Ainsi, il est difficile d’utiliser la validation croisée pour identifier les meilleurs modèles ; il vaut mieux donc se baser sur des paramètres établis pour être robustes en situation de présence-seule (e.g., Valavi et al. 2021).
Préparons donc la calibration de nos modèles :
calib_summary <-
summary(run_data, calib.lines = table_cv) %>%
filter(dataset == "calibration")
iwp <- (10^6)^(1 - occurrences)
RF_param_list <- NULL
GLM_param_list <- NULL
GBM_param_list <- NULL
XGBOOST_param_list <- NULL
XGBOOST_param_list <- NULL
GAM_param_list <- NULL
MARS_param_list <- NULL
XGBOOST_param_list <- NULL
for (cvrun in 1:nrow(calib_summary)) {
prNum <- calib_summary$Presences[cvrun]
bgNum <- calib_summary$True_Absences[cvrun]
wt <- ifelse(occurrences == 1, 1, prNum / bgNum)
RF_param_list[[paste0("_",
calib_summary$PA[[cvrun]],
"_",
calib_summary$run[[cvrun]])]] =
list(ntree = 1000,
sampsize = c("0" = prNum,
"1" = prNum),
replace = TRUE)
GLM_param_list[[paste0("_",
calib_summary$PA[[cvrun]],
"_",
calib_summary$run[[cvrun]])]] =
list(weights = wt)
GBM_param_list[[paste0("_",
calib_summary$PA[[cvrun]],
"_",
calib_summary$run[[cvrun]])]] =
list(interaction.depth = 5,
n.trees = 500,
shrinkage = 0.001,
bag.fraction = 0.75,
cv.folds = 5,
weights = wt)
GAM_param_list[[paste0("_",
calib_summary$PA[[cvrun]],
"_",
calib_summary$run[[cvrun]])]] <-
list(weights = wt)
MARS_param_list[[paste0("_",
calib_summary$PA[[cvrun]],
"_",
calib_summary$run[[cvrun]])]] <-
list(weights = wt)
XGBOOST_param_list[[paste0("_",
calib_summary$PA[[cvrun]],
"_",
calib_summary$run[[cvrun]])]] <-
list(nrounds = 10000,
eta = 0.001,
max_depth = 5,
subsample = 0.75,
gamma = 0,
colsample_bytree = 0.8,
min_child_weight = 1,
weight = wt,
verbose = 0)
}
model_parameters <- bm_ModelingOptions(
data.type = "binary",
models = c("RF", "GLM", "GBM", "GAM.gam.gam", "MARS", "MAXNET", "XGBOOST"),
strategy = "user.defined",
user.base = "default",
user.val = list(
GLM.binary.stats.glm = GLM_param_list,
GBM.binary.gbm.gbm = GBM_param_list,
GAM.binary.mgcv.gam = GAM_param_list,
MARS.binary.earth.earth = MARS_param_list,
RF.binary.randomForest.randomForest = RF_param_list,
XGBOOST.binary.xgboost.xgboost = XGBOOST_param_list
),
bm.format = run_data,
calib.lines = table_cv
)
##
## -=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-= Build Modeling Options -=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=
##
## > RF options (datatype: binary , package: randomForest , function: randomForest )...
## > GLM options (datatype: binary , package: stats , function: glm )...
## > GBM options (datatype: binary , package: gbm , function: gbm )...
## > GAM options (datatype: binary , package: gam , function: gam )...
## > MARS options (datatype: binary , package: earth , function: earth )...
## > MAXNET options (datatype: binary , package: maxnet , function: maxnet )...
## > XGBOOST options (datatype: binary , package: xgboost , function: xgboost )...
##
## -=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-= Done -=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=
L’étape précédente sert à définir des paramètres appropriés pour tous les modèles ; cependant, nous n’allons pas utiliser tous les modèles. Nous allons maintenant sélectionner les modèles qui seront effectivement lancés. Ce choix est basé sur les tests préliminaires qui ont mis en évidence les modèles donnant des résultats cohérents, par rapport aux modèles ne donnant pas des résultats cohérents :
le modèle GLM donnait des réponses très divergentes des autres modèles et difficiles à expliquer, comme la réponse à la naturalité
le modèle GBM ne trouvait pas d’effet pour la plupart des variables, contrairement aux autres modèles
le modèle GAM donnait des réponses divergentes des autres modèles, et difficiles à expliquer notamment pour les variables de température
les modèles MARS et MAXNET donnaient des réponses multimodales, notamment pour l’humidité
le modèle XGBOOST était généralement cohérent dans ses réponses, mais il donnait une favorabilité élevée de manière inexplicable pour la valeur la plus extrême chaude de bio6, créant une réponse biologiquement incohérente.
Au final, seul le modèle random forest donnait des réponses biologiquement cohérentes, ce sera donc le seul modèle retenu pour ce groupe.
model_runs <- BIOMOD_Modeling(
run_data,
modeling.id = "1", # ID de modélisation, on met 1 pour tous nos modèles ici
models = model_list, # Liste des modèles finaux à faire tourner
OPT.strategy = "user.defined",
OPT.user = model_parameters, # Paramètres des modèles
CV.strategy = "user.defined", # Méthode de validation croisée
CV.user.table = table_cv, # Plis générés précéemment
CV.do.full.models = FALSE,
var.import = 10, # Nombre de répétitions d'importance des variables
metric.eval = "BOYCE",
do.progress = FALSE,
nb.cpu = 16 # Nombre de coeurs à utiliser pour la modélisation
# A ajuster selon votre ordinateur, ne pas en mettre trop !
)
saveRDS(model_runs, file = "models/amphibiens/model_runs.RDS")
Evaluation des modèles
evals_boyce <- get_evaluations(model_runs)
ggplot(evals_boyce, aes(x = algo, y = validation)) +
geom_point(aes(col = run)) +
xlab("Algorithme") +
ylab("Indice de Boyce") +
labs(col = "Plis de\nvalidation\ncroisée") +
ylim(0, 1) +
theme_minimal()
L’indice de Boyce est un indice qui varie entre -1 et 1 (-1 = prédictions opposées à la réalité, 0 = prédiction nulles, 1 = prédictions parfaites). Ici, l’indice suggère des évaluations élevées pour tous les modèles, ce qui est encourageant : aucun modèle n’a échoué à prédire les occurrences qui n’ont pas servi à la calibration.
Il faut néamoins toujours être prudent sur l’interprétation des métriques d’évaluation car il s’agit de modèles corrélatifs et parce que l’évaluation est effectuée sur les données d’occurrence qui peuvent être biaisées. Ces métriques nous indiquent principalement qu’aucun modèle n’a donné de très mauvais résultats, c’est l’information à en retirer. En revanche, il faut se garder de la fausse impression de robustesse que peuvent donner de bonnes métriques, car les modèles peuvent faire de bonnes prédictions avec des variables qui n’ont pas de sens pour la biologie des espèces. La prochaine étape consiste donc à étudier les réponses des espèces aux variables environnementales.
Importance des variables et courbes de réponse
varimp <- get_variables_importance(model_runs)
varimp$expl.var <- reorder(varimp$expl.var,
varimp$var.imp,
median,
na.rm = TRUE)
varimp %>%
group_by(expl.var) %>%
summarise(median = median(var.imp))
ggplot(varimp) +
geom_boxplot(aes(x = expl.var, y = var.imp)) +
geom_jitter(aes(x = expl.var, y = var.imp, col = algo),
alpha = .3) +
coord_flip() +
theme_minimal() +
xlab("Variable prédictive") +
ylab("Importance des variables") +
labs(col = "Algorithme")
# Variables utilisées pour la calibration
cur_vars <- model_runs@expl.var.names
# Calcul des courbes de réponse
resp <- bm_PlotResponseCurves(bm.out = model_runs,
fixed.var = "mean",
data_species = occurrences,
do.plot = FALSE,
do.progress = FALSE)$tab
## No id variables; using all as measure variables
colnames(resp) <- c("Index", "Variable", "Var.value", "Model", "Response")
for (model in model_list) {
p <- ggplot(resp[grep(model, resp$Model), ], aes(x = Var.value, y = Response)) +
geom_line(alpha = 0.2, aes(group = Model)) +
stat_smooth() +
facet_wrap(~ Variable, scales = "free_x") +
theme_bw() +
ylim(0, 1.1) +
xlab("Valeurs des variables") +
ylab("Réponse") +
ggtitle(model)
print(p)
}
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'
Note: la courbe bleue est une aide pour visualiser la tendance, mais la vraie réponse des modèles correspond aux courbes grises
Les facteurs les plus déterminants pour l’habitat des amphibiens s’avèrent être bio6 (température du mois le plus froid), et cmi_max (humidité du mois excédentaire en précipitations). Il peut paraître contre-intuitif que ces variables soient plus importantes que la proportion de milieux d’eau douce pour définir l’habitat des amphibiens plutôt. Cependant, c’est une réponse attendue étant donné l’étendue de la zone d’étude - toute la Corse - et la résolution des variables utilisées.
Si l’on regarde les observations d’amphibiens sur la carte de la Corse entière, on voit qu’elles sont principalement caractérisées par une répartition plutôt en altitude. Cela signifie que les amphibiens de ce groupe ont des préférences climatiques spécifiques, et ces préférences climatiques déterminent les grandes limites de leur répartition en Corse. Les modèles suggèrent qu’ils occupent essentiellement des zones froides en hiver et caractérisées par une humidité élevée, mais sans excès.
Ensuite, au sein des zones climatiques favorables, ce qui va déterminer la favorabilité de l’habitat pour les amphibiens est la disponibilité en milieux d’eau douce : plus il y a de milieux d’eau douce, plus l’habitat est favorable. A l’inverse, l’absence de milieux d’eau douce est défavorable. Si cette relation correspond exactement à nos attendus, elle peut sembler insuffisamment prononcée par rapport à l’écologie connue des amphibiens. On pourrait s’attendre à ce que l’absence de milieux d’eau douce soit complètement défavorable pour les amphibiens – en d’autres termes, la valeur de l’indice ne descend pas assez bas sur les courbes de réponse lorsque le recouvrement de milieux d’eau douce est à 0%. Cela peut s’expliquer par l’incertitude sur notre variable environnementale d’eau douce et par la résolution d’analyse relativement grossière (environ 1km) : des milieux d’eau douce de petite taille et/ou temporaire sont probablement absents de notre variable statique des milieux d’eau douce, alors qu’ils sont suffisants pour permettre aux amphibiens d’être présents.
Enfin, la naturalité des milieux semble aussi jouer un rôle fort pour ce groupe, à partir d’un certain seuil : les milieux occupés par les amphibiens sont tous des milieux à forte naturalité. Cela suggère que la carte finale de potentiel d’habitat reflète des milieux peu perturbés par les activités humaines. Cette relation identifiée est importante pour les actions des PNAs, car toute modification des activités dans les zones à fort potentiel entraînera une diminution de la favorabilité de l’habitat pour les amphibiens.
Cartes
# On ne va garder que les modèles qui ont un indice de Boyce suffisamment élevé
models_to_proj <- evals_boyce$full.name[which(evals_boyce$validation >= 0.75)]
projection_runs <- BIOMOD_Projection(
bm.mod = model_runs, # Modèles calibrés
proj.name = "corse", # Nom de la projection actuelle
new.env = env_amphib, # Données environnementales sur lesquelles on projette les modèles
models.chosen = models_to_proj, # Modèles à projeter
build.clamping.mask = TRUE, # Le clamping mask illustre les zones où les prédictions sont en dehors des valeurs
# utilisées lors de la calibration
nb.cpu = 4)
cartes_individuelles <- rast("models/amphibiens/proj_corse/proj_corse_amphibiens.tif")
# Rescaling des projections qui dépassent l'intervalle 0 - 1000
cartes_individuelles[cartes_individuelles < 0] <- 0
cartes_individuelles[cartes_individuelles > 1000] <- 1000
for(i in 1:ceiling(nlyr(cartes_individuelles) / 2)) {
plot(cartes_individuelles[[(i * 2 - 1):
min(nlyr(cartes_individuelles),
(i * 2))]],
col = viridis::inferno(12))
}
Les cartes individuelles des différents modèles sont relativement convergentes dans leurs prédictions, avec quelques variations dans les zones à favorabilité intermédiaire.
Carte finale
carte_finale <- mean(cartes_individuelles)
ggplot() +
geom_spatraster(data = carte_finale) +
scale_fill_viridis(option = "inferno") +
geom_point(data = P_points[which(P_points$occurrence == 1), ],
aes(x = x, y = y),
shape = 21,
fill = "#21908CFF",
col = "white",
size = 1) +
ggtitle("Indice de favorabilité final") +
xlab("Longitude") +
ylab("Latitude") +
theme_minimal()
La carte de l’indice de favorabilité final représente la moyenne entre tous les modèles, car ils ont tous satisfait les critères de qualité établis dans les méthodes (i.e., indice de Boyce supérieur à 0.75 et réponses cohérentes). Elle illustre que le gradient de favorabilité de l’habitat pour les amphibiens favorisé les zones d’altitude à climat relativement frais et humide. Au sein de ces zones d’altitude, on remarque des variations dans les valeurs de favorabilité de l’habitat, qui sont dues à la quantité de milieux d’eau douce présents et au degré de naturalité de ces milieux (la naturalité reflétant l’ensemble des pressions liées aux activités humaines : exploitation forestière, fréquentation, etc.).
Ce gradient semble très cohérent avec les observations connues, la grande majorité des observations étant localisées dans les zones aux valeurs de favorabilité les plus élevées. On note néanmoins quelques occurrences dans des zones à favorabilité plus faible, et plusieurs hypothèses peuvent expliquer ces observations. Il peut s’agir d’occurrences erratiques, représentant des zones occupées seulement de manière intermittente par effet de dispersion. Il peut s’agir de zones possédant des conditions microclimatiques et d’habitat favorables, mais qui sont mal représentées dans nos variables. Enfin, il peut s’agir de zones qui sont effectivement très favorables aux amphibiens mais insuffisamment prospectées, ce qui fait qu’elles sont mal représentées dans nos modèles. Par ailleurs, on note également certaines zones à forte favorabilité, mais sans observations, qui mériteraient d’être prospectées à l’avenir afin d’évaluer s’il s’agit effectivement de zones favorables ou non – les experts ayant indiqué l’existence de lacunes de prospection.
carte_incertitude <- app(cartes_individuelles, sd)
ggplot() +
geom_spatraster(data = carte_incertitude) +
scale_fill_continuous(type = "viridis") +
ggtitle("Incertitude\n(écart-type des probabilités)") +
theme_minimal()
La carte d’incertitude correspond à l’écart-type des indices des modèles et elle complète cette analyse de la carte de l’indice de favorabilité finale en illustrant un certain nombre de cellules isolées où l’incertitude est élevée (points vert clair à jaune). Ces points reflètent justement les occurrences localisées dans des zones à faible indice de favorabilité, qui sont difficiles à prédire par les modèles, suggérant que nos modèles sont possiblement incomplets pour définir l’habitat favorable aux amphibiens. On note également des nuances d’incertitude modérées sur le pourtour des zones à forte favorabilité, illustrant la difficulté classique des modèles à prédire les zones à favorabilité intermédiaire.
Carte de potentiel d’habitat
Pour créer la carte de potentiel d’habitat final, nous allons représenter trois catégories de potentiel d’habitat, en respectant les contraintes d’interprétation sur les modèles en présence seule. En effet, les modèles en présence seule ne peuvent pas fournir d’information sur la probabilité de présence. Par conséquent, ils ne peuvent informer sur les habitats défavorables - ils informent seulement sur les habitats favorables compte-tenu des connaissances actuelles.
Ainsi, nous ne produirons pas de carte binaire “présence-absence” qui n’aurait pas de sens dans le cadre des modèles en présence-seule et qui est également une sur-simplification de la réalité biologique, qui n’est jamais binaire. Nous allons plutôt représenter trois catégories :
- les zones à fort potentiel d’habitat
- les zones à potentiel d’habitat intermédiaire
- les zones à potentiel d’habitat faible ou méconnu
Pour établir une méthode permettant de définir ces trois catégories, on peut étudier comment les occurrences sont réparties sur le gradient de favorabilité des modèles. On peut alors utiliser les quantiles des occurrences pour identifier les seuils séparant les catégories.
favorabilite_presences <- extract(carte_finale,
P_points[which(P_points$occurrence == 1),
c("x", "y")],
ID = FALSE)
qt_favorabilite <- quantile(favorabilite_presences$mean, probs = c(.05, .25))
ggplot(favorabilite_presences) +
geom_boxplot(aes(x = mean),
col = "darkgrey") +
geom_vline(xintercept = qt_favorabilite,
col = c("#1b9e77", "#7570b3"),
linetype = 2,
linewidth = 2) +
theme_minimal() +
xlab("Indice de favorabilité") +
scale_y_continuous(breaks = 0,
labels = "Occurrences") +
xlim(0, 1000)
Dans le graphe ci-dessus, on voit la répartition des occurrences sur l’indice de favorabilité produit par le modèle. On peut utiliser les quantiles à 5% et 25% (représentés par les pointillés bleus) pour séparer les catégories.
La zone à droite du quantile à 25% (le trait mauve) contient l’essentiel des occurrences du groupe d’espèces, ce qui signifie qu’au delà de ce seuil, le potentiel d’habitat est élevé.
La zone entre le quantile à 5% (trait vert) et à 25% (trait mauve) est une zone à favorabilité plus faible mais qui contient tout de même 20% des occurrences du groupe. On peut ainsi la caractériser comme zone à potentiel d’habitat intermédiaire.
La zone à gauche du quantile à 5% (trait vert) contient moins de 5% des occurrences du groupe. Il s’agit donc de valeurs de favorabilité plutôt faibles puisqu’elles ne semblent pas ou peu occupées d’après les connaissances actuelles. On peut donc qualifier cette catégorie de potentiel d’habitat faible ou méconnu.
Si l’on utilise ces seuils pour illustrer la répartition de ces trois catégories, on obtient la carte suivante :
carte_indice <- carte_finale
carte_indice[carte_finale < qt_favorabilite["5%"]] <- 0
carte_indice[carte_finale >= qt_favorabilite["5%"] &
carte_finale < qt_favorabilite["25%"]] <- 1
carte_indice[carte_finale >= qt_favorabilite["25%"]] <- 2
carte_indice <- as.factor(carte_indice)
# Version sans incertitude
ggplot() +
geom_spatraster(data = carte_indice) +
scale_fill_manual(values = viridis::plasma(3),
name = paste0("Potentiel d'habitat\n(% du total ",
"d'occurrences\n",
"observé dans cette classe\n",
"de favorabilité)"),
labels = c("Faible ou méconnu (< 5%)",
"Intermédiaire (5-25%)",
"Elevé (75%)"),
na.translate = F)
Cette carte illustre la zone qui présente le potentiel d’habitat le plus élevé pour le groupe des amphibiens, essentiellement située dans les zones montagneuses de la Corse. Les zones à potentiel d’habitat intermédiaire sont essentiellement situées en marge des zones à fort potentiel, illustrant un gradient de favorabilité progressif. Cette carte semble cohérente bien qu’incomplète d’après les experts consultés, qui la considèrent comme trop restrictive, ne couvrant pas suffisamment l’ensemble des occurrences connues.