"Nous avons beaucoup d'affluence"

Les mathématiques sont à la base de toutes les nouvelles possibilités offertes par la "digitalisation". Le professeur de statistiques Nicolai Meinshausen parle de l'importance croissante de sa discipline et des défis à relever.

Nicolai Meinshausen
"Les connaissances dans le domaine du traitement des données ont fortement augmenté. De nombreux scientifiques peuvent très bien traiter leurs données seuls", explique Nicolai Meinshausen dans une interview. (Image : ETH Zurich)

Intelligence artificielle et apprentissage automatique : en ce moment, ces thèmes sont en vogue dans le public. Mais les mathématiciens s'y intéressent certainement depuis plus longtemps ?

Nicolai Meinshausen : En principe, oui. Mais cela dépend toujours de la définition que l'on donne aux termes. L'apprentissage automatique en tant que tel existe en fait depuis plusieurs décennies. Aujourd'hui, de toutes autres applications sont simplement possibles, parce que la puissance de calcul des ordinateurs a augmenté et que les quantités de données traitées atteignent de toutes nouvelles dimensions qualitatives et quantitatives.

Où s'ouvrent de nouvelles possibilités d'application ?

Par exemple pour la reconnaissance d'images, c'est-à-dire dans un domaine où l'homme est très bon et a longtemps été supérieur à l'ordinateur. Reconna?tre des piétons sur une image ou distinguer une voiture d'un arbre : Ce qui a longtemps très mal fonctionné avec les ordinateurs est aujourd'hui possible gr?ce à des capacités de calcul plus importantes. Mais les questions sous-jacentes sont déjà très anciennes.

En tant que statisticien, quels sont les sujets qui vous intéressent particulièrement ?

Des applications où il ne s'agit pas de remplacer les hommes, mais d'ouvrir de tout nouveaux champs : Des quantités de données d'études biologiques ou de modèles climatiques par exemple. Celles-ci ne peuvent être comprises que par l'interaction entre l'homme et l'ordinateur.

Et quels sont les aspects centraux ?

Le lien entre l'apprentissage automatique et la causalité. Pour de nombreuses questions, il s'agit de faire des prédictions. Par exemple, qu'arrive-t-il à la santé des gens si les émissions d'azote changent ? Est-ce que je peux prolonger ma durée de vie si je bois plus de thé vert ? Ce sont des questions de cause à effet. Je constate peut-être que les personnes qui boivent du thé vert vivent plus longtemps que celles qui préfèrent d'autres boissons. Mais cela ne prouve pas encore un lien de cause à effet. Il se pourrait aussi que le style de vie général, dont le thé vert fait partie, me permette de vivre plus longtemps, mais que la consommation de thé elle-même n'ait aucune influence sur l'espérance de vie.

Par exemple, parce que les non-fumeurs ont tendance à boire du thé vert ?

Oui, exactement. Autrefois, le café avait très mauvaise réputation parce qu'on n'avait pas calculé que les fumeurs avaient tendance à boire plus de café. Aujourd'hui, les études qui éliminent ces facteurs montrent que le café a plut?t tendance à avoir une influence positive sur la santé.

Collaborez-vous avec des scientifiques d'autres disciplines pour répondre à ce genre de questions ?

C'est ce qui est passionnant chez nous. Je collabore par exemple avec des physiciens dans le cadre d'un projet portant sur le changement climatique et la question de savoir jusqu'à quel point les événements et les changements sont dus à l'homme. Dans des projets antérieurs, nous avons étudié l'interaction des réseaux génétiques avec des biologistes ; et avec des astronomes, nous avons mené un projet d'étude du système solaire extérieur. Cela me permet d'avoir un aper?u de nombreux domaines d'application.

Comment faut-il se représenter concrètement la collaboration ? Les chercheurs s'adressent-ils à vous avec une question précise et un ensemble de données ?

C'est très variable. Mes propres projets sont plut?t le fruit de contacts personnels à long terme. Nous avons toutefois aussi Service de consultation,De nombreuses personnes s'adressent à eux. Certaines d'entre elles ont des questions élémentaires, d'autres des demandes assez complexes. Il peut en résulter des coopérations, dont certaines s'inscrivent dans la durée.

Qui peut s'adresser au service de consultation ?

En principe, tout le monde. Pour les membres de l'ETH et de l'UZH, les conseils sont gratuits, pour les personnes extérieures, ils sont payants. Il arrive aussi que des entreprises et des institutions viennent nous voir. Par exemple, la FIFA s'est intéressée à la manière dont on peut découvrir, à partir d'une analyse des cotes de paris, qu'une fraude se cache derrière le résultat d'un match.

Et qui traite ces demandes ?

Nous avons une équipe fixe de deux personnes qui viennent de terminer leurs études de master, ainsi qu'un ou deux scientifiques seniors. Il est possible de répondre très rapidement à certaines demandes. D'autres deviennent aussi des projets d'étudiants, des travaux de semestre ou de master.

Jusqu'à quel point les statisticiens doivent-ils se familiariser avec la thématique pour pouvoir traiter une question ?

Même si l'on peut parfois fournir une première réponse assez rapidement, il vaut souvent la peine d'approfondir un peu le sujet. En biologie notamment, les questions semblent souvent simples, mais elles deviennent de plus en plus complexes au fur et à mesure que l'on s'y intéresse de plus près. En physique, c'est plus facile pour moi, car je viens moi-même de ce domaine.

Aujourd'hui, de plus en plus de données sont collectées. Recevez-vous donc aussi plus de demandes d'évaluation ?

Nous sentons une tendance à la multiplication des points de rattachement. Toutefois, presque toutes les branches scientifiques travaillent aujourd'hui sur la base de données et de statistiques. De ce fait, les connaissances ont également fortement augmenté. De nombreux scientifiques peuvent très bien traiter leurs données seuls.

Ce qui nous amène à l'enseignement. Quelle est l'offre en matière d'enseignement ?

Nous proposons principalement des cours de niveau master, comme par exemple des cours sur la causalité ou sur les nouvelles méthodes de statistiques multivariantes. Ces cours sont suivis par des étudiants très différents. Outre les mathématiques, nous accueillons également des étudiants et des doctorants en biologie, en chimie ou en physique qui ont constaté qu'ils avaient besoin de connaissances statistiques pour leurs recherches. Et puis nous participons aussi au nouveau master "Data Science", qui a démarré à l'automne.

Les statistiques ont-elles gagné en popularité en tant que matière d'étude ?

Oui, nous avons beaucoup d'affluence pour notre master, que ce soit au sein des mathématiques ou de la part d'étudiants extérieurs qui nous rejoignent avec un Bachelor en biologie par exemple. Nous pensions qu'avec l'introduction du master en science des données, les inscriptions au master en statistique existant allaient diminuer. Mais c'est le contraire qui s'est produit : le nombre d'inscriptions a même augmenté.

Et comment évaluez-vous les connaissances en statistiques de la population en général ? Les statistiques peuvent être utilisées à tort et à travers...

Souvent, le terme de statistique est mal compris comme un simple résumé de données ; pour nous, il s'agit au contraire le plus souvent de faire de bonnes prédictions. Il s'agit donc de répondre à la question "Que se passerait-il si... ?". En ce qui concerne la tricherie, il faut distinguer si elle est délibérée ou non. Il y a des questions qui portent sur des relations complexes et pour lesquelles il n'y a pas une seule bonne réponse, mais différents points de vue qui peuvent être étayés par des données.

Par exemple ?

La procédure d'admission à l'université est-elle équitable ? Les femmes sont-elles désavantagées ? Les procédures d'octroi de crédits sont-elles équitables ? Certains groupes de population sont-ils désavantagés ? Toutes ces questions sont très délicates. Selon l'angle de vue, des affirmations différentes peuvent être étayées par les mêmes données. En principe, on répond à des questions différentes. Cette différenciation est passionnante, car je dois trouver à quelle question je veux vraiment répondre. Mais souvent, tout cela est ensuite regroupé sous un titre grossier.

Mais il y a aussi des gens qui utilisent les statistiques à des fins personnelles.

Les statistiques sont bien s?r aussi nécessaires pour défendre des positions. Surtout lorsqu'il s'agit de relations de cause à effet, il est très difficile pour quelqu'un qui n'a pas de formation d'évaluer la pertinence des données statistiques. Nous voyons tous les jours dans les journaux des exemples où l'on répond à des questions avec des données qui ne permettent en fait aucune conclusion pertinente.

Parce qu'ils ne sont pas significatifs ?

Une chose est que l'on n'a pas interrogé suffisamment de personnes, par exemple. L'autre, c'est que la manière dont les données sont collectées peut conduire à une falsification des données. Que la méthodologie donne donc une fausse indication, quel que soit le nombre de personnes que l'on regarde.

Avez-vous un exemple à nous donner ?

Souvent, les questions tournent autour de la santé, par exemple pour savoir si certains aliments sont bénéfiques ou nocifs pour la santé. Ou prenez la question de savoir s'il est plus sain d'habiter en ville ou à la campagne. On ne peut pas y répondre en comparant simplement la santé des gens en ville et à la campagne. Il est également difficile de déterminer l'influence de la formation sur la réussite professionnelle ultérieure, car des facteurs très différents entrent en jeu. Ou encore l'influence de l'immigration sur le niveau des salaires de la population locale. Il existe d'innombrables exemples de ce type, on les rencontre tous les jours.

Quelle serait donc la bonne méthode ?

Les études randomisées, telles qu'on les utilise pour les médicaments, constituent l'étalon-or. Cependant, il n'est pas possible de mener de telles études partout. On ne peut pas forcer les gens à s'exposer à un air de mauvaise qualité ou à boire plus de café pendant des années. Nous travaillons actuellement sur des méthodes permettant de répondre à des questions causales à partir de données sans recourir à des études randomisées. C'est difficile, mais nous faisons certains progrès.

A propos de la personne

Nicolai Meinshausen est depuis 2013 professeur de statistique à l'ETH Zurich, où il dirige le séminaire de statistique. Ses recherches tournent autour de la causalité, des données hautement dimensionnelles et de l'apprentissage automatique. En 2016, il a re?u du "Committee of Presidents of Statistical Societies" le COPSS Presidents' Award ; celui-ci est considéré, avec l'"International Prize in Statistics", comme la plus haute distinction pour les statisticiens.

Thème principal : données

Les données jouent un r?le de plus en plus important dans notre société. C'est pourquoi l'ETH Zurich s'intéressera de manière approfondie à cette thématique dans les années à venir. A travers une série d'interviews, Actualités ETH Zurich montre à titre d'exemple les thèmes dont s'occupent concrètement les chercheurs de l'ETH Zurich et comment ils évaluent l'évolution de la société dans leur domaine.

Articles publiés jusqu'à présent dans cette série :

JavaScript a été désactivé sur votre navigateur.