Nous devons apprendre à gérer les incertitudes dans les statistiques

Nous souhaitons la sécurité en période d'incertitude. Or, les statistiques ne peuvent pas toujours nous l'offrir. Tanja Stadler explique, à l'aide de l'estimation de la valeur R qu'elle a calculée pour la Suisse, pourquoi nous devons également tenir compte de l'imprécision statistique.

Tanja Stadler

Le nombre d'infections au Covid augmente-t-il actuellement en Suisse de manière exponentielle ou diminue-t-il ? Et à quelle vitesse les nouvelles variantes du virus se propagent-elles par rapport aux anciennes ? Nous essayons de répondre à ces questions par des analyses statistiques de données. Nous, les scientifiques, aimerions bien fournir des réponses très claires et sans équivoque. C'est parfois possible, mais pas toujours, loin de là. Car lorsqu'il s'agit de notre vie dans le monde réel et des maladies, rien ne se déroule de manière précise.

Quel que soit le domaine de la vie que nous considérons, nous avons toujours affaire à des rotations et à des variations. Notre trajet pour aller au travail ne dure pas toujours exactement le même temps, et pourtant nous pouvons estimer approximativement la durée du trajet. Ou un gar?on de 7 ans devrait mesurer 1,25 mètre selon le tableau. Mais toute autre valeur comprise entre 1,15 et 1,35 mètre est tout à fait dans la norme.

"Un seul estimateur ne suffit pas pour avoir une image complète de la situation épidémiologique".Tanja Stadler

La pandémie ne fait pas exception à la règle. Si une personne infectée par le Sras-CoV-2 infecte en moyenne une autre personne, cela signifie qu'en réalité, certaines personnes infectées en infectent plusieurs autres, tandis que d'autres n'en infectent aucune. Un autre exemple est la période d'incubation - le temps qui s'écoule entre la contamination par le virus et l'apparition des premiers sympt?mes. En moyenne, ce délai est de cinq jours. En réalité, cela peut être trois jours pour certains patients, sept ou huit pour d'autres. Ou encore le nombre de nouvelles infections, qui est l'une des principales bases de nos évaluations - il fluctue lui aussi d'un jour à l'autre.

Les estimations statistiques ont toujours un intervalle d'incertitude. (Image : ETH Zurich)
Les estimations statistiques ont toujours un intervalle d'incertitude. (Image : ETH Zurich)

L'intervalle d'incertitude est central

Dans mon groupe, nous calculons des estimations de la valeur R de la pandémie de Corona.1. Si cette valeur est supérieure à 1, l'agent pathogène se propage de manière exponentielle dans une population. Nos estimations tiennent compte de ce qui précède ainsi que d'autres rotations du personnel. Il en résulte toutefois que nos estimations n'ont jamais une valeur précise, mais toujours une fourchette d'estimations.

Nous pouvons par exemple dire que la valeur R estimée pour la Suisse se situe actuellement entre 0,96 et 1,21. Cette affirmation est statistiquement fiable. Nous appelons la zone correspondante l'intervalle d'incertitude. Nous communiquons en outre une valeur qui se situe au milieu de cet intervalle. Il s'agit de la meilleure estimation pour une valeur individuelle - nous l'appelons l'estimateur ponctuel. L'estimateur ponctuel ne doit toutefois pas être surinterprété.

Déclaration "assurée" et tendances

Si l'intervalle d'incertitude de la valeur R n'est pas entièrement inférieur à 1 ou supérieur à 1, nous pouvons certes interpréter les données, nous pouvons parler d'une tendance. Mais nous ne pouvons pas dire avec une signification statistique si nous nous trouvons dans une phase de croissance exponentielle. Cela signifie que nous ne pouvons pas faire de déclaration "s?re".

Les rotations du personnel sont d'autant plus concises que nous analysons peu de données. En effet, si la quantité de données est très importante, les fluctuations existantes se compensent. Par conséquent, moins nous pouvons analyser de données, plus la marge d'incertitude est grande. Nous le voyons par exemple avec les données des petits cantons. Dans ces cantons, il y a trop peu de données pour que l'on puisse en tirer des conclusions statistiquement fondées. Les intervalles d'incertitude de nos analyses pour les petits cantons sont très importants.

Intervalles d'incertitude
Dans les petits cantons (à gauche, Nidwald), l'intervalle d'incertitude est beaucoup plus grand que dans les grands cantons (à droite, Zurich). (Source : https://tb.ethz.ch/plot.html)

Je pense donc qu'il est plus pertinent de se focaliser sur les sept espaces économiques (grandes régions). Les gens se déplacent beaucoup à l'intérieur de ces régions. Si nous regardons ces régions, nous pouvons identifier des tendances. Actuellement, l'estimateur ponctuel de R est en effet supérieur à 1 dans les sept grandes régions suisses. Même si nous ne pouvons pas faire de déclaration définitive sur la valeur estimée de R, nous pouvons néanmoins interpréter ces données. Les estimateurs ponctuels dans toutes les régions fournissent une forte indication que nous nous trouvons actuellement - malheureusement - dans une zone de croissance exponentielle en Suisse.

Données sur les grandes régions
Dans les sept grandes régions suisses, la dernière estimation ponctuelle (étoile) est supérieure à 1. (Source : https://ibz-shiny.ethz.ch/covid-19-re-international/)

L'estimation de la valeur R seule ne suffit pas

L'estimation de la valeur R peut donner des indications sur la direction que pourrait prendre la pandémie. Mais pour cela, nous devons toujours tenir compte de la marge d'incertitude et interpréter les données avec prudence. Nous devrions en outre toujours comparer l'estimation de la valeur R avec d'autres paramètres de la pandémie, car un seul estimateur ne suffit pas pour avoir une image complète de la situation épidémiologique.

Nous aimerions tous être rassurés en ces temps incertains. Or, les statistiques ne peuvent pas toujours nous l'offrir. Il n'y a aucun moyen de faire dispara?tre cette incertitude. Elle est une conséquence directe du fait que nous avons affaire à des processus dans le monde réel. Nous devons donc accepter l'incertitude et trouver un moyen de la gérer en tant que société. Dans notre équipe, nous avons pour objectif d'identifier les dynamiques sur la base des données disponibles, de présenter des scénarios possibles et de les chiffrer en termes de probabilités. La manière dont nous y répondons ensemble est ensuite une décision de la politique et de la société.

Complément du 15.03.2021 :
L'estimation de la valeur R de la Suisse est actualisée en permanence. Actuellement, la fourchette d'estimation s'étend de 1,00 à 1,26.

JavaScript a été désactivé sur votre navigateur.