Vers le succès gr?ce à la tromperie

Des physiciens théoriciens de l'ETH Zurich ont délibérément induit en erreur des machines intelligentes et ont ainsi fait évoluer l'apprentissage automatique : ils ont créé une nouvelle méthode gr?ce à laquelle les ordinateurs peuvent catégoriser des données - et ce même si aucun être humain n'a la moindre idée de ce à quoi pourrait ressembler raisonnablement une telle répartition en catégories.

Vue agrandie : Réseau égaré
Perdu dans le labyrinthe du réseau neuronal artificiel. (Graphique : iStock/AcidLabs)

Lorsque des ordinateurs reconnaissent de manière autonome des cours d'eau et leurs contours sur des images satellites ou battent l'un des meilleurs joueurs professionnels du monde au jeu de société extrême-oriental Go, des algorithmes capables d'apprendre travaillent en arrière-plan. Au cours d'une phase d'entra?nement, les programmeurs les ont préalablement nourris d'exemples connus : des images de plans d'eau et de terre ou des déroulements de jeux de go connus qui ont conduit au succès ou à l'échec lors de tournois. Tout comme les cellules nerveuses de notre cerveau se reconnectent pendant les processus d'apprentissage, les algorithmes spéciaux sont en mesure de s'adapter aux exemples qui leur sont présentés pendant la phase d'apprentissage. Jusqu'à ce qu'ils soient finalement capables de distinguer les eaux de la terre ferme sur des photos inconnues et de distinguer les jeux réussis des jeux ratés.

Jusqu'à présent, de tels réseaux neuronaux artificiels étaient utilisés dans le cadre de l'apprentissage automatique lorsque le critère de distinction était connu : on sait ce qu'est un plan d'eau et quels ont été les parcours gagnants lors des tournois de go passés.

Séparer le bon grain de l'ivraie

Aujourd'hui, des scientifiques du groupe de Sebastian Huber, professeur de physique théorique des solides et d'optique quantique à l'ETH Zurich, ont élargi les applications de tels réseaux neuronaux : ils ont développé une méthode qui permet non seulement de catégoriser n'importe quelles données, mais aussi de détecter s'il existe des catégories dans des ensembles de données complexes.

De telles questions abondent dans le monde scientifique : la méthode pourrait devenir intéressante pour l'évaluation des mesures effectuées dans les accélérateurs de particules ou des observations astronomiques. Les physiciens pourraient ainsi filtrer les mesures les plus prometteuses à partir de leurs données de mesure, souvent immenses. Les pharmacologues pourraient trier, à partir de vastes bases de données de molécules, les molécules qui ont une certaine probabilité d'avoir un effet pharmaceutique ou un effet secondaire donné. Et les scientifiques des données pourraient ainsi classer d'énormes bourrelets de données désordonnées et en tirer des informations exploitables (data mining).

Frontière recherchée

Gouttes de sirop dans l'eau
Les gouttes de sirop et l'eau se mélangent avec le temps - elles tombent dans un état d'équilibre dans lequel il n'est plus possible de dire où se trouvait la goutte de sirop au départ. En physique quantique, il existe toutefois des systèmes qui conservent éternellement un souvenir de leur état initial. Les physiciens appellent cela la localisation multipartite. (Image : Colourbox)

Les chercheurs de l'ETH ont notamment appliqué leur méthode à un phénomène de physique théorique intensément étudié : un système dit à particules multiples de dip?les magnétiques en interaction, qui ne tombe jamais - même à long terme - dans un état d'équilibre. De tels systèmes ont été décrits récemment. Toutefois, on ne sait pas en détail quelles propriétés de la physique quantique empêchent un système à particules multiples de tomber dans un état d'équilibre. En particulier, on ne sait pas exactement où se situe la frontière entre les systèmes qui tombent dans un état d'équilibre et les autres.

Pour trouver cette limite, les scientifiques ont développé le principe du "faire comme si" : ils ont pris en main des données de systèmes quantiques. A l'aide d'un paramètre, ils ont tracé une limite arbitraire avec laquelle ils ont divisé les données en deux groupes. Ils ont ensuite entra?né un réseau neuronal artificiel en faisant croire au réseau qu'un groupe tombait dans un état d'équilibre et l'autre non. Les chercheurs ont donc agi comme s'ils connaissaient cette limite.

Les scientifiques embrouillent le système

Au total, ils ont entra?né le réseau un nombre incalculable de fois, en choisissant à chaque fois une limite différente, et ils ont testé après chaque entra?nement la capacité du réseau à trier les données. Résultat : dans de nombreux cas, le réseau a eu du mal à classer les données comme le souhaitaient les scientifiques, mais dans certains cas, la répartition en deux groupes était très précise.

Les chercheurs ont pu montrer que cette performance de tri dépendait de l'endroit où se trouvait la limite choisie. Evert van Nieuwenburg, doctorant dans le groupe du professeur Huber de l'ETH, l'explique ainsi : "En choisissant pour l'entra?nement une limite très proche de la limite réelle (que je ne connais pas), je trompe le réseau. Si l'on choisit par hasard une limite proche de la limite réelle, on obtient un algorithme très performant. En déterminant la performance de l'algorithme, les chercheurs ont pu déterminer la limite entre les systèmes quantiques qui tombent à l'équilibre et ceux qui ne le font jamais : La limite se situe là où la ligne de tri du réseau est la plus grande.

Les chercheurs ont en outre prouvé la pertinence de leur nouvelle méthode avec deux autres questions de physique théorique : les transitions de phase topologiques dans les corps solides unidimensionnels ainsi que le modèle d'Ising, qui décrit le magnétisme à l'intérieur des corps solides.

Catégorisation sans connaissance préalable

La nouvelle méthode peut également être illustrée de manière simplifiée par une expérience de pensée dans laquelle nous souhaitons répartir les billes rouges, rouge?tres, bleues et bleues en deux groupes. Nous supposons que nous n'avons aucune idée de ce à quoi pourrait ressembler raisonnablement une telle répartition.

Si l'on prend maintenant un réseau neuronal et qu'on l'entra?ne en lui disant que la ligne de séparation se trouve quelque part dans la zone rouge, on confond le réseau. "On essaie d'apprendre au réseau que les boules bleues et les boules rouges sont la même chose, et on lui demande de distinguer les boules rouges des boules rouges, ce qu'il n'est tout simplement pas capable de faire", explique le professeur Huber de l'ETH.

En revanche, si l'on place la limite dans la zone de couleur violette, le réseau apprend une différence qui existe réellement et trie les boules en un groupe rouge et bleu. Il n'est pas nécessaire de savoir à l'avance que la ligne de séparation doit se situer dans la zone violette. En comparant les performances de tri pour différentes limites choisies, on trouve cette limite même sans connaissance préalable.

Référence bibliographique

van Nieuwenburg EPL, Liu YH, Huber SD : Learning phase transitions by confusion. Nature Physics, 13 février 2017, doi:10.1038/nphys4037

JavaScript a été désactivé sur votre navigateur.