A Maya predictive model
A study on the use of Geographic Information Systems in a multi-scale archaeological project
Previous page Table of content Next page

C. Thinking about implementation

Les outils ayant été présentés, il est important de développer des réflexions insistant sur les aspects principaux pour l'implémentation de la méthode des Weights of Evidence, afin de donner des pistes pour la mise en place d'un modèle efficace. Ces considérations seront illustrées par la suite lors de l'application du modèle au projet archéologique considéré.

1. Choice of the parameters

Les paramètres utilisés lors de la mise en application de la méthode sont choisis en fonction de plusieurs raisons. Une étude préliminaire peut ainsi donner à penser qu'un paramètre aurait une influence sur la répartition des objets étudiés : une phase de récupération des données est alors nécessaire si celles-ci ne sont pas déjà disponibles.

Il est important que les classes d'évidence du paramètre étudié soient présentes de la même façon au niveau de la zone d'entraînement et de la zone d'étude (Wescott & Kuiper 2000)⁠ et la qualité des paramètres doit être considérée en terme d'adéquation à l'échelle du problème plutôt qu'en terme de précision absolue (Leusen 2002)⁠. Dans le cadre d'un projet archéologique, il est notamment important de prendre en compte le facteur temporel qui induit une part d'incertitude : le lit des rivières par exemple peut changer au cours du temps, ou encore la qualité des sols.

2. Choice of the training points

De même que les paramètres ont été choisis en fonction de leur pertinence au niveau de la zone étudiée, les points d'entraînement (qualifiés de « sites » dans le cadre d'un projet archéologique) se doivent d'avoir certaines qualités. Il convient de déterminer en premier lieu quelle est la définition d'un « site » par rapport à l'échelle de la zone d'étude, cela pouvant conduire à regrouper plusieurs unités en une seule plus importante (Leusen 2002)⁠.

La répartition des transects effectués joue également un rôle : il est très important de les choisir de telle façon qu'ils soient représentatifs de la zone étudiée. Leusen souligne ainsi le problème des biais apparaissant lors de recherches archéologiques (dus par exemple à l'influence de la végétation, la difficulté à détecter certains sites enfouis), ou encore le risque de transformer les zones à faible potentiel en zone inintéressantes. Dans ce cas, le modèle peut se transformer en un outil s'auto-prédisant : le résultat est influencé afin de correspondre à ce qui est attendu.

3. Choice of the unit cell area

Il convient avant toute analyse de décider de la taille de la cellule unitaire. Cela implique de connaître approximativement les dimensions des sites dont la répartition est étudiée, une bonne cellule unitaire ne devant pas en contenir plus d'un, celui-ci devant être parfaitement contenu (Raines & Bonham-Carter 2006)⁠. Cependant, il peut arriver que malgré le choix d'une aire pertinente plusieurs points d'entraînement se retrouvent dans la même cellule. Pour éviter ce problème qui produit un biais dans le calcul des poids, il est important de toujours exécuter l'outil de réduction des sites au préalable.

Si le pourcentage de points retirés est trop important, cela signifie que l'aire de la cellule unitaire est probablement trop grande. Un examen de ces points permettra de décider de la décision à prendre : augmenter l'aire ou choisir de la conserver telle qu'elle est.

4. Choice of the masks to be used

Lorsque les points d'entraînement peuvent être considérés comme ayant été uniformément recherchés au niveau de la zone d'étude (autrement dit, lorsque celle-ci correspond avec les transects), le masque servant lors du calcul des poids correspond tout simplement à l'étendue de la zone.

Dans le cas contraire, lors de la création de transects par exemple, il convient d'être prudent dans nos choix. Deux solutions sont envisageables :

Le premier choix est celui qui devrait être employé (Raines et al. 2009)⁠. Pour peu que toutes les classes d'évidence présentes au sein de la zone d'étude soient représentées, cette méthode assure en effet les meilleurs résultats. Il peut hélas arriver que cela ne soit pas possible, pour des zones où les sites sont répertoriés mais pas les limites du lever effectué par exemple.

Dans ce cas, le masque d'entraînement retenu peut correspondre à la zone d'étude, ou à une zone plus restreinte englobant les sites. Ces choix ont deux conséquences :

Un modèle entraîné au niveau d'une zone ne peut être appliqué qu'à une zone constituée d'éléments similaires . Cela signifie qu'une classe de terrain absente du masque lors de la constitution des poids ne peut être prise en compte par la suite lors de la généralisation à la zone d'étude complète. Il est également nécessaire pour la qualité des poids dans le cadre d'un entraînement effectué à l'aide d'un masque couvrant une zone plus large que celle des transects d'avoir une proportion similaire des classes d'évidence dans les deux zones.

5. Control and choice of the weights

Il est rappelé que deux catégories sont disponibles pour chaque paramètre pour entraîner le modèle :

Le type le plus adapté doit être choisi, en prenant également en compte que :

Pour les paramètres ordonnés, il sera donc toujours intéressant de considérer à la fois les résultats categorical et ascending.

Les paramètres utilisés au sein d'ArcSDM doivent être au format raster, avec des valeurs entières. Il convient donc de faire une reclassification éventuelle des données disponibles. Cette étape pourra également comporter une phase de généralisation pouvant avoir plusieurs raisons :

Différents essais peuvent être nécessaires pour déterminer une bonne classification. Un nombre plus élevé de classes d'évidences ne produit donc pas forcément de meilleurs résultats : celles-ci comportent dans ce cas moins de points d'entraînement, ce qui peut mener à des erreurs d'interprétation.

Le premier calcul des poids ne se révèlera pas être le plus judicieux dans la plupart des cas, et sera donc suivi d'une reclassification. ArcSDM donne dans la table des poids une proposition de reclassification pouvant servir de base. Il convient lors de cette étape de s'interroger sur les résultats apparaissant : une classe peut recevoir un mauvais poids en raison d'un manque de sites dû à l'emplacement des transects par exemple ; une reclassification en la couplant avec une autre classe peut alors s'avérer judicieuse.

Une valeur de confiance pour chaque classe d'évidence est calculée par ArcSDM : celle-ci est obtenue en divisant le contraste par son écart type, et est utilisée par le logiciel pour la reclassification automatique. Le pourcentage de confiance peut être déduit de la valeur absolue de ce nombre en se référant à une table de Student (Wikipedia 2009f)⁠ avec une infinité de degrés de liberté (loi normale). Cette valeur est une approximation du fait de la conception d'ArcSDM, et est utilisée pour déterminer la généralisation (Raines et al. 2009, échanges par courriel avec Gary Raines)⁠ Une classe d'évidence sera qualifiée de « satisfaisant au niveau de confiance » lorsque sa confiance sera supérieure ou égale à la valeur choisie.

Afin d'obtenir des résultats cohérents, ces reclassifications doivent donc être le résultat d'une analyse menée en collaboration avec des personnes connaissant la réalité du terrain (archéologues). Cette étape est la plus importante, la conception de la carte des probabilités découlant directement de cela. Ces données seront également celles utilisées pour l'interprétation du résultat.

6. Creation of the probability map and qualitative analysis of the results

La production de la carte des probabilités se doit d'être accompagnée d'une analyse de la qualité. Cette question de savoir si un modèle est meilleur qu'un autre est difficile à résoudre, avec trois paramètres pouvant être pris en compte : les résultats, la méthodologie appliquée, ou les explications pouvant être fournies (Leusen 2002)⁠. La carte des probabilités établie peut être directement évaluée de différentes manières :

L'analyse de la carte peut cependant contredire une analyse des poids par exemple : le choix de tel ou tel résultat aura donc une part de subjectivité. ArcSDM fournit plusieurs outils devant être utilisés à ce niveau. Le test d'indépendance conditionnelle renseigne ainsi sur la validité des probabilités a posteriori. L'outil Area Frequency Table fournit également :

Dans ce second cas, il est bon de remarquer que si les points utilisés sont issus d'une sélection aléatoire visant à créer d'autre part les sites d'entraînement, les efficacités de classification et de prédiction seront de fait relativement liées puisque les points proviennent des mêmes transects. Il est donc plus intéressant de tester la qualité de prédiction au moyen de sites issus de levers indépendants. Ce fait est bien connu (Leusen 2002)⁠, mais n'est pas forcément suivi.

Lors de l'entraînement du modèle, il apparaît en effet naturel d'utiliser tous les transects disponibles au niveau de la zone d'étude. Choisir de réserver certains d'entre eux pour la prédiction uniquement insère d'ores et déjà un biais. Dans la pratique, l'efficacité de la prédiction peut être réévaluée lors de l'acquisition de nouveaux jeux de données, provenant dans le meilleur des cas de sources externes au projet. L'autre méthode consiste à effectuer de nouveaux transects, mais la question de l'indépendance de leur emplacement se pose alors : il peut apparaître naturel de les effectuer au niveau des zones de plus forte et de plus faible probabilités, alors que les zones de moyenne probabilité auront tendance à être plus négligées lors de ce type de contrôle, ce qui induit de fait un biais supplémentaire (Leusen 2002)⁠.

css Copyright © 2018 Sébastien Merlet (Sebeto) xhtml