L’évaluation d’un modèle prédictif de la qualité de l’eau

Écrit par Noémie Prévost, M.Sc | 2023

 

Identifier les périodes durant lesquelles l’eau n’est pas sécuritaire pour les activités récréatives, pour le traitement de l’eau potable ou pour la faune et la flore aquatiques est un défi majeur. Traditionnellement, l’échantillonnage est le moyen privilégié pour déterminer si  l’eau est sécuritaire, mais comme nous l’avons indiqué dans un article de blog précédent, un inconvénient de cette approche est que le délai entre l’échantillonnage et le moment où nous obtenons les résultats est si important que la situation a souvent changé entre-temps. Pour pallier ce problème, la modélisation prédictive basée sur l’intelligence artificielle (IA) est une approche qui devient de plus en plus populaire, et c’est celle que nous avons utilisée pour concevoir notre produit InfoBaignade.

 

La sécurité des modèles de prévision

Comme indiqué dans la Déclaration de Montréal pour un développement responsable de l’intelligence artificielle, il est primordial que tout algorithme d’IA soit sûr. Ainsi, la sécurité d’un modèle de prévision de la qualité de l’eau doit être évaluée préalablement à son utilisation. Chaque application d’un modèle étant différente, il est nécessaire de comparer différentes méthodes et d’évaluer leur degré de précision le plus objectivement possible.

 

Au Québec, dans le cadre du programme Environnement-Plage, l’eau d’une plage est jugée sécuritaire pour les activités aquatiques de contact direct lorsque la concentration en E. coli est inférieure à 200 UFC/100 ml. Lorsque le statut de sécurité de l’eau est ainsi déterminé à l’aide d’un seuil, le résultat est une classification binaire : plage ouverte ou fermée. Dans ces cas, le modèle peut être évalué à l’aide d’une matrice de confusion. Celle-ci permet de comparer ce qui est prédit par le modèle à une valeur de référence, soit les concentrations observées lors des échantillonnages testés en laboratoire.

 

Les matrices de confusion

L’observation (l’échantillonnage de l’eau) et la prédiction (modèle d’IA) peuvent toutes deux se trouver soit en deçà du seuil ou au-dessus, produisant un tableau de dimensions 2 par 2, ou plutôt, une matrice. On définit généralement les cas comme étant positifs ou négatifs, une terminologie empruntée au domaine des tests diagnostiques. Un cas positif signifie que le point est au-dessus du seuil et un cas négatif veut dire qu’il est en dessous. Voici à quoi ressemble une matrice de confusion : 

 

 

Maintenant, en partant de ce tableau, les métriques suivantes sont construites:

  • La sensibilité ou taux de vrai positif (TVP) représente la fréquence à laquelle le modèle détecte un cas positif lorsqu’il se produit : TVP = VP / P
  • La spécificité ou taux de vrai négatif (TVN) représente la fréquence à laquelle le modèle détecte un cas négatif lorsqu’il se produit : TVN = VN / N
  • Le taux d’échec ou taux de faux négatif (TFN) correspond à la fréquence à laquelle un cas positif n’est pas détecté par le modèle : TFN = FN / P
  • La probabilité de fausse alarme ou taux de faux positif (TFP) représente la fréquence à laquelle le modèle prédit un cas positif alors que ce n’est pas le cas : TFP = FP / N

 

Les métriques pour l’évaluation des perfomance des modèles

Deux métriques souvent prises en compte lors de l’évaluation des performances des modèles de classification sont la sensibilité et la spécificité. L’objectif est de maximiser ces valeurs, c’est-à-dire que nous choisissons le modèle pour lequel leur valeur est la plus grande possible. De façon équivalente, nous pouvons aussi minimiser le taux d’échec et la probabilité de fausse alarme étant donné que les deux sont complémentaires.

VP + FN = P et FP + VN = N, autrement dit, TVP + TFN = TFP + TVN = 1

 

Cela dit, de nombreux algorithmes d’apprentissage automatique exigent qu’une seule métrique soit optimisée lors de la sélection du modèle. Un indicateur unique très populaire dans cette situation est l’exactitude ou en anglais accuracy (ACC), une mesure de la fréquence à laquelle le modèle donne la réponse correcte dans l’ensemble :

ACC = VP + FN / P + N

 

Les limites de l’exactitude

L’exactitude peut parfois s’avérer trompeuse, surtout si les classes sont déséquilibrées, ou si l’impact d’un faux positif et d’un faux négatif est très différent. Examinons ce que cela signifie.

 

Le déséquilibre

Le déséquilibre des classes survient lorsque le taux d’observation de l’événement étudié n’est pas de l’ordre de 50%, autrement dit,  l’événement étudié est très fréquent ou très rare. Dans la matrice de confusion, cela signifie que le nombre de cas négatifs et positifs est très différent.

Dans ces situations, il est important, lors de l’interprétation de l’indicateur, de tenir compte du taux de cas positifs, soit le taux de dépassement du seuil dans le cadre de l’évaluation de la qualité de l’eau. En effet, si la fréquence des cas positifs est assez rare, un modèle qui ne prédit jamais un seul cas positif peut avoir une bonne précision.

 

L’impact relatif des faux positifs et négatifs

Pour ce qui est de l’impact relatif des deux types d’erreurs, voyons ce que cela signifie dans notre contexte. Pour l’usager, une journée manquée à la plage représente une perte de qualité de vie qu’on peut voir comme un déni de service écologique. En effet, profiter d’activités récréatives aquatiques est bon pour la santé physique et mentale, réduit le stress, etc. En revanche, pratiquer des activités aquatiques dans des conditions dangereuses représente un risque pour la santé pouvant entraîner des désagréments, une perte de productivité, ou parfois avoir des conséquences plus graves. Du point de vue du gestionnaire, cela représente aussi une perte économique puisque certains revenus directs ou indirects ne seront pas recueillis.

 

Le rôle du gestionnaire

Le gestionnaire doit donc se poser la question : est-ce mieux d’ouvrir une plage alors qu’elle n’est pas sûre, ou de fermer une plage quand elle est sûre ? Et dans chaque cas, quel est le réel impact relatif sur le plan réputationnel de l’organisation, sur les retombées économiques, sur la santé publique, etc.? Autrement dit, combien de fois seriez-vous prêt à fermer la plage lorsqu’elle est sûre pour éviter de la garder ouverte un jour où elle ne l’est pas ? Voyons maintenant comment on peut tenter de répondre rationnellement à ces questions.

On se doit de préciser qu’il s’agit d’une considération relativement nouvelle pour les décideurs, découlant de l’utilisation plus répandue des modèles prédictifs. Dans la réglementation en vigueur, les plages sont fermées lorsqu’un résultat de laboratoire est positif pour la contamination et restent fermées jusqu’à ce qu’un nouveau test montre un résultat négatif. Aucune marge de manœuvre interprétative n’existe dans ce cadre car il s’agit simplement de constater si la valeur observée dépasse le seuil réglementaire. Dans le cas de l’utilisation d’un modèle prédictif, il n’y a pas, à notre connaissance, d’encadrement législatif, et ce sont les opérateurs de plage qui doivent exercer leur jugement pour informer les développeurs de modèles des impacts relatifs des erreurs potentielles du modèle.

Maintenant, comment les institutions régulatrices s’y prendraient-elles pour répondre à ces questions ? On peut argumenter qu’il n’existe pas de réponse universelle, à cause de la subjectivité qui est en jeu. Si vous demandiez à un groupe de personnes combien de jours à la plage elles seraient prêtes à sacrifier pour éviter une baignade non sécuritaire, leurs réponses seraient diverses car cela dépend de leur relation au risque et de leurs préférences personnelles. Il est donc difficile à ce stade-ci de prédire quelle serait la position de ces institutions.

 


 

Une chose à noter à propos de la matrice de confusion est qu’il s’agit d’une image incomplète de la réalité, car la valeur de référence est souvent aussi le résultat d’un test, ce qui signifie qu’elle est également sujette à l’erreur. En effet, lorsque la valeur d’un paramètre est connue, il n’est pas nécessaire de faire un modèle pour le prédire. La valeur de référence est donc le test considéré comme étant le plus fiable. Dans le cas qui nous occupe, il s’agit du résultat de tests de laboratoire et lorsque nous comparons les résultats obtenus par deux laboratoires différents, ils peuvent différer significativement.

En terminant, le risque de maladie est directement proportionnel à la quantité d’eau contaminée ingérée. Des mesures de mitigation simples sont faciles à suggérer et à mettre en place, comme garder la bouche fermée en nageant. Pour les personnes dont le système immunitaire est affaibli, garder la tête entièrement hors de l’eau pourrait être un compromis raisonnable entre le plaisir estival et la sécurité. Informer le public de ces mesures simples pourrait améliorer facilement et sans coût supplémentaire la sécurité de la population.

Dans cet article, nous avons vu comment les modèles d’intelligence artificielle peuvent être utilisés pour prédire la qualité de l’eau, les méthodes pour déterminer la précision d’un modèle et la responsabilité d’un gestionnaire quant à l’utilisation de ces modèles. 

 

Les déversements d’eaux usées au Québec

Les déversements d’eaux usées au Québec

En octobre 2015, le « Flushgate » à Montréal a permis d’attirer l’attention sur le phénomène des surverses qui surviennent dans un grand nombre de cours d’eau au Québec. À travers cet article, j’entends donner des pistes de réponse à plusieurs questions concernant les surverses, telles que: qu’est-ce que sont les surverses et quel est leur impact réel sur les cours d’eau au Québec?

Une brève introduction à l’analyse des séries temporelles

Une brève introduction à l’analyse des séries temporelles

Une série temporelle est un ensemble de mesures répétées prises séquentiellement dans le temps. Le principal objectif de l’analyse des séries temporelles est de prédire l’avenir d’un certain processus sur la base de ce qui s’est passé dans le passé.