Expliquer ce que peut et ne peut pas l’IA
L’épidémie d’intelligence artificielle (IA) se déclenche à peu près tous les dix ans, depuis la conférence organisée en 1956 au Dartmouth College par John McCarthy. Celle dont j’ai décrit l’acmé en 2018 semble s’atténuer (mise au point de décembre 2023 : je me trompais lourdement, elle n’a depuis fait que croître et embellir, mais cela ne change rien au fond de la question), le nombre d’articles délirants et les volumes des budgets lancés par les fenêtres diminuent, restent des gens sérieux qui utilisent réseaux de neurones et apprentissage par renforcement pour ce qu’ils peuvent vraiment faire, qui est d’ailleurs remarquable et très utile mais ne mérite guère le terme d’intelligence. Cela dit il faut toujours expliquer le fossé qui sépare les résultats réels des délires de science fiction, bien plus séduisants et qui font vendre.
Lorsque Robert French, chercheur en psychologie expérimentale et sciences cognitives au CNRS, précédemment étudiant puis collaborateur de Douglas Hofstadter et traducteur en français de son livre Gödel, Escher, Bach, m’a recommandé la lecture du livre Artificial Intelligence : A Guide for Thinking Humans de sa collègue Melanie Mitchell, je me suis précipité parce qu’il devient de plus en plus difficile de recommander, à qui cherche une vue d’ensemble et un point de vue critique sur l’IA, le livre (toujours excellent mais paru en 1972) What Computers Can’t Do : The Limits of Artificial Intelligence d’Hubert Dreyfus (traduit en français). Il est d’ailleurs frappant de constater qu’à près de 50 ans de distance Dreyfus, plus philosophe, et Melanie Mitchell, plus mathématicienne, aboutissent à des conclusions étonnamment similaires, par des raisonnements également proches.
Disons tout de suite que si ce livre n’est pas (encore ?) traduit en français [1] (mise à jour 8/09/2021 : traduction parue ce jour chez Dunod), il est écrit dans un anglais tellement clair et fluide que l’on en oublie qu’on lit une langue étrangère, presque comme avec un roman de Jane Austen.
L’expérience d’une praticienne
Melanie Mitchell peut se permettre de juger ce que peut et ce que ne peut pas l’IA, avec une modestie de ton qui n’enlève rien à l’ambition du propos, parce qu’elle est une actrice majeure de la recherche dans ce domaine. Étudiante elle aussi de Douglas Hofstadter, elle a écrit avec lui le logiciel Copycat, modèle de raisonnement par analogie et de cognition humaine qui a permis de nombreuses expériences. Elle a depuis accumulé de nombreux résultats dans le domaine.
Le panorama qu’elle dresse de la discipline est complet et illustré d’exemples présentés de façon pédagogique. À l’origine des temps les pionniers (McCarthy, Minsky, Simon, Newell...) ont cru possible une IA « logique », où l’intelligence (qu’est-ce, d’ailleurs ? les philosophes ne se bousculent pas pour en donner une définition simple) serait « encodée » dans le calcul de propositions. L’échec relatif de ce courant de recherche a ouvert la voie à des démarches inductives, en général par des méthodes d’auto-apprentissage basées soit sur des réseaux de neurones (de plus en plus grands et perfectionnés au fur et à mesure de l’accroissement de la puissance de calcul disponible), soit sur des procédés d’apprentissage par renforcement.
Pour la description précise mais compréhensible de ces différentes méthodes je ne puis que vous renvoyer au livre, et vais plutôt emprunter à l’auteur quelques exemples de problèmes simples que la plupart des êtres humains sont capables de résoudre sans même y penser alors qu’un logiciel d’IA, même entraîné sur des dizaines de millions d’exercices résolus de nature similaire et au prix d’heures de calcul sur des machines dotées de milliers de processeurs ne peut pas (et de l’avis de Melanie Mitchell ne pourra sans doute jamais) résoudre.
Petit exemple difficile : le langage humain
Une première collection de questions faciles pour les humains et difficiles pour les logiciels repose d’une part sur la souplesse et la ductilité du langage humain (locution que Melanie Mitchell préfère comme moi à « langage naturel »), d’autre part sur l’expérience banale de la vie quotidienne que le logiciel serait bien en peine d’acquérir. Ainsi :
– Phrase 1 : « J’ai versé l’eau de la bouteille dans la tasse jusqu’à ce qu’elle soit pleine ».
– Question : Qu’est-ce qui était plein ? A. La bouteille B. La tasse.
– Phrase 2 : « J’ai versé l’eau de la bouteille dans la tasse jusqu’à ce qu’elle soit vide ».
– Question : Qu’est-ce qui était vide ? A. La bouteille B. La tasse.
Remarquez que les deux phrases sont identiques à un mot près. Ce problème, qui appartient à la classe des schémas de Winograd (du nom de leur auteur), est insoluble pour un logiciel d’IA, sauf à tricher et à lui « souffler » la réponse.
Les humains sont équipés d’un bon sens élémentaire, inné ou acquis dès la petite enfance. Ainsi, « même un bébé sait que le monde est divisé en objets, que les parties d’un objet ont tendance à se déplacer ensemble, et que si des parties d’un objet sont cachées à la vue elles n’en continuent pas moins à faire partie de l’objet ». Les logiciels de vision informatique ne savent pas ces choses, ce qui est un obstacle à la conduite automatique, par exemple.
Si je puis me permettre une extrapolation en dehors du texte de Melanie Mitchell, il me semble que l’idée d’un « bon sens » inné rejoint la phénoménologie de Husserl et de Merleau-Ponty, qui met l’intentionnalité à l’origine de la cognition, à l’opposé de la théorie de la Gestalt, qui postule que ce serait la perception qui engendrerait la représentation mentale. Quant aux aspects acquis, ils doivent beaucoup au fait que nous sommes équipés d’un corps, qui nous permet d’éprouver douleur et plaisir, appendice dont le logiciel est irrémédiablement dépourvu.
Problèmes de Bongard
Melanie Mitchell a également remis en lumière les travaux de l’informaticien soviétique Mikhaïl Moïsséiévitch Bongard, qui avait publié en 1967 dans “Проблема узнавания” (Le Problème de la reconnaissance) une collection de petits problèmes graphiques faciles à résoudre pour des humains, et infranchissables pour des logiciels. Chaque problème présente, dans la partie gauche, six boîtes qui illustrent le même « concept », et dans la partie droite six boîtes qui illustrent un concept distinct mais apparenté. Il s’agit de les distinguer. Voici quatre exemples (choisis parmi les plus simples) :
Robert French s’est également penché sur ce type de problème dans son livre The Subtlety of Sameness : A theory and computer model of analogy-making. Les deux auteurs partagent (avec Hofstadter) l’idée que l’abstraction et l’analogie sont deux constituants essentiels de la pensée humaine, sans lesquels il ne pourrait y avoir d’intelligence. Reste à écrire des logiciels dotés de ces aptitudes ou capables de les acquérir. Je risquerai un avis personnel : cela ne sera pas.
Pensée réflexive
Un autre constituant essentiel de la pensée humaine est la capacité à se penser elle-même, à analyser ses démarches, à en identifier les erreurs et les répétitions, ce qui suppose de ne pas se limiter au présent mais à avoir une conception du temps. Ces aptitudes (avec l’abstraction et l’analogie) permettent également de mettre en relation des idées en apparence très éloignées les unes des autres pour en faire la synthèse ou en induire de nouvelles idées.
Je terminerai en évoquant un personnage qui m’est cher et qui est généralement considéré comme intelligent (sauf par des médiocres comme Voltaire), Gottfried Wilhelm Leibniz. En 1701 il reçoit de son ami le jésuite Joachim Bouvet, missionnaire en Chine, un diagramme représentant les 64 hexagrammes de Fuxi.
Chaque trigramme est constitué de trois lignes, chacune d’entre elles continue : | ou interrompue : ¦, pour représenter respectivement le yang ou le yin.
Si elles étaient pour les Chinois de l’antiquité les symboles du yin et du yang, ces deux sortes de lignes peuvent aussi être envisagées comme les deux chiffres de l’arithmétique binaire, 0 et 1. Trois lignes de deux sortes peuvent donner huit combinaisons, pour les nombres de 0 à 7 (23−1). Les hexagrammes de Fuxi, avec six chiffres binaires, peuvent représenter les nombres de 0 à 63 (26−1).
Leibniz interprète les trigrammes de Fuxi comme des nombres binaires, et dans la suite de son texte il en infère, 250 ans avant la construction du premier ordinateur, que l’arithmétique binaire sera la plus appropriée au calcul automatique.
Ce rapprochement de représentations et d’idées très éloignées les unes des autres pour en dériver des idées nouvelles qui se révéleront géniales un quart de millénaire plus tard me semble caractériser au plus haut point l’intelligence humaine, dont les logiciels d’IA actuels sont encore (et pour très longtemps) à des années-lumière.