A Maya predictive model
A study on the use of Geographic Information Systems in a multi-scale archaeological project
Previous page Table of content Next page

IV. Method of conception of a predictive model

A. Introduction

Depuis que les archéologues ont commencé à s'intéresser aux GIS au début des années 80, l'intérêt porté aux capacités de modélisation et de prédiction ne s'est pas démenti (Aldenderfer & Maschner 1996; Wheatley & Gillings 2002)⁠. Il s'agit d'ailleurs de la raison qui a poussé à la création d'un système d'information géographique au sein du projet étudié.

Afin de modéliser l'emplacement des sites archéologiques Maya au niveau régional, la méthode retenue est celle qui avait déjà été utilisée dans le passé pour la création du modèle à l'échelle locale : la méthode des Weights of evidence (Sirjean 2003; Monthus 2004; Clarke et al. 2009)⁠. Un important changement intervient dans la façon dont la méthode est mise en œuvre par rapport à ce qui a été fait précédemment puisque la nouvelle version de l'outil ArcSDM (spatial data modeller) parue en 2008 pour ArcGis 9.2 est utilisée, ainsi que celle pour ArcGis 9.3 (Sawatzky et al. n.d.)⁠.

Dans ces nouvelles versions, la mise en application ne se fait plus au moyen de menus comme dans le passé, mais en concevant un modèle au niveau d'ArcToolBox. Cet outil est donc plus adapté aux nouveautés qui ont été implémentées dans ArcGis par rapport à ArcView 3.2.

Il convient de réaliser deux études : l'une à l'échelle locale pour l'amélioration des résultats précédemment obtenus (Monthus 2004)⁠, et une autre à l'échelle régionale, avant une éventuelle généralisation au système du monde maya. Les paramètres pris en compte à des échelles différentes et les poids devant leur être attribués sont en effet différents. Ce problème bien connu des archéologues et qui a été soulevé dans de nombreux cas (Allen 2000)⁠ est très important dans le cadre de cette étude comme il est souligné par la suite.

B. Reminder on the method of the Weights of evidence

Ces rappels sont nécessaires pour la conception du modèle conduisant au résultat dans ArcToolBox. Il convient de comprendre toutes les étapes et les éléments qui interviennent afin de produire un schéma logique et efficace. Cette phase est effectuée grâce à un modèle de démonstration mis à disposition par le concepteur d'ArcSDM. Le document communiqué décrit en détail la théorie avec l'étude d'un cas réel (Raines & Bonham-Carter 2006)⁠.

1. Method of implementation

ArcSDM est utilisable grâce à une boîte à outils qui s'intègre à ArcToolBox. Un certain nombre d'utilitaires sont mis à disposition, pour adapter la taille des rasters utilisés lors de l'analyse par exemple. Dans le cadre de cette étude, seuls les outils regroupés au sein du jeu « Weights of Evidence » seront considérés.

Il est rappelé que la méthode des Weights of Evidence permet de calculer la probabilité de trouver des sites à un endroit particulier en fonction de différents paramètres. Ces paramètres peuvent être liés à l'environnement naturel (pente, distance aux points d'eau), ou encore à des phénomènes sociaux, par exemple interactions entre différents groupes.

Le predictive model est tout d'abord « entraîné » grâce à des zones où les emplacements de sites archéologiques sont connus (transects), produisant des poids associés à chaque classe d'évidence. Ces poids servent alors à calculer les probabilités a posteriori au niveau de la zone d'étude. Lors de la mise en œuvre de cette méthode, quatre étapes peuvent être identifiées, dont les outils associés sont séparés par couleurs dans le tableau page suivante.

L'outil « Grand WOFE » a un statut spécial, d'où sa couleur différente : il permet d'effectuer les trois premières étapes en une seule fois. N'offrant pas la même flexibilité d'analyse que les outils pris séparément (et notamment la possibilité d'effectuer des reclassifications au niveau des poids avant le calcul de la réponse), il n'a pas été utilisé lors de cette étude.

OutilParamètresEffet
Training Sites ReductionPoints d'entraînementRéduction du nombre de points d'entraînement afin de n'en conserver qu'un seul par cellule unitaire ou d'extraire une sélection aléatoire
Calculate WeightsRaster paramètre
Points d'entraînement
Crée une table contenant les poids et les classes généralisées pour un certain paramètre
Calculate ResponseRasters paramètres
Points d'entraînement
Poids
Crée un raster contenant les probabilités a posteriori calculées pour une certaine zone à partir des poids utilisés
Logistic RegressionRasters paramètres
Points d'entraînement
Poids
Calcule les probabilités par une méthode de régression logistique
Grand WOFERasters paramètres
Points d'entraînement
Exécute « Calculate weights », « Calculate response », et « Logistic regression »
Agterberg-Cheng CI TestPost-probabilités
Déviations standards
Points d'entraînement
Test d'indépendance conditionnelle des rasters paramètres
Area Frequency TablePost-probabilités
Points d'entraînement
Crée une table permettant de tracer divers graphes faisant intervenir les classes d'évidence ainsi que le nombre de sites, permet d'évaluer la qualité de la classification et de la prédiction.

i. Selection of training points (sites)

Il est souhaitable pour obtenir un résultat correct de n'avoir qu'un site d'entraînement par cellule unitaire. Cette cellule unitaire dont la taille doit être déterminée est celle utilisée lors de l'analyse. En plus de cette réduction, l'outil associé permet d'effectuer des sélections aléatoires : cela permet de créer deux jeux de points, l'un servant pour entraîner le modèle et l'autre pour contrôler l'efficacité de la prédiction.

ii. Calculation of the weights associated with evidence classes

L'outil associé à cette étape analyse les classes d'évidence pour un certain paramètre au regard des points d'entraînement, et attribue à chacune d'elles un poids pouvant être soit négatif (la probabilité de trouver des sites au niveau de cette classe est diminuée), soit positif (la probabilité est augmentée). ArcSDM propose également à ce niveau une généralisation des classes.

iii. Calculation of the result raster

Cette étape consiste à utiliser les poids calculés précédemment pour créer un raster des probabilités a posteriori au niveau d'une zone plus étendue. Deux outils sont disponibles pour cela. En effet, la méthode des Weights of Evidence ne donne des probabilités a posteriori valides que lorsqu'il y a indépendance conditionnelle des paramètres. Ce n'est cependant pas un problème si le résultat recherché consiste à savoir quel est le classement des zones. Dans le cas contraire, l'outil de régression logistique qui ne nécessite pas l'indépendance conditionnelle peut être utilisé pour obtenir des probabilités justes (Raines et al. 2009)⁠.

iv. Quality testing of the result

La qualité du résultat obtenu peut être estimée de différentes façons. Dans le cadre d'un projet archéologique, il y a tout d'abord la vision des archéologues : « le résultat apparaît-il bon ? ». Cette appréciation – même si non fondée sur des méthodes mathématiques – a une grande valeur. Les archéologues connaissent en effet le terrain et peuvent détecter rapidement une faille dans le modèle, pouvant par exemple être due à une mauvaise classification d'un paramètre.

L'outil « Area Frequency Table » utilisé avec des points d'entraînement ou de contrôle donne également un pourcentage de qualité de la classification ou de la prédiction. L'outil d'indépendance conditionnelle permet quant à lui de vérifier à partir du raster de probabilité et du raster de déviation standard l'hypothèse d'indépendance afin de choisir quelle méthode utiliser pour obtenir les bonnes probabilités a posteriori.

2. Modèle utilisé au niveau de ArcGis

À partir de ces considérations, le modèle utilisé au sein d'ArcGis est donné en Illustration 6. Ce modèle reprend les couleurs utilisées au sein de ModelBuilder 9.3, à savoir bleu pour les paramètres entrés, vert pour les résultats d'une exécution. En jaune sont représentées les différentes opérations effectuées.

Le modèle présenté ici est utile pour montrer l'enchaînement de la méthode, mais n'est pas réellement celui utilisé. En effet, il est plus simple de calculer les poids d'une part en faisant différents tests, puis de choisir lesquels utiliser pour calculer d'autre part les rasters de réponse. De la même façon, le test d'indépendance conditionnelle n'a pas besoin d'être lancé à chaque utilisation du modèle : une fois l'indépendance ou la dépendance établies, il n'est plus utile de l'exécuter lors de chaque test.

Il est bon de noter que dans notre cas nous utilisons comme paramètre « Ignore missing data » pour le calcul de la réponse : nous ne nous intéresserons donc pas au raster de variance ainsi qu'au raster de déviation standard générale, qui est dans ce cas le même que le raster de déviation standard associé aux probabilités a posteriori (Raines et al. 2009)⁠. Cela explique pourquoi « déviation standard » apparaît deux fois dans ce modèle : ces deux résultats sont en fait identiques.

Illustration 6: Predictive model utilisé
css Copyright © 2018 Sébastien Merlet (Sebeto) xhtml