Rendre l' IA accessible à tous

Catégorie : Historique

Posts relatifs à l’histoire de l’IA

Un peu d’histoire (II) : la lente ascension de l’IA connexionniste

Dans l’article précédent, j’ai déjà relaté l’histoire riche en rebondissements de l’IA symbolique, parfois affublée du sobriquet affectueux de Good Old-Fashioned AI (GOFAI) par les Anglo-Saxons. Nous allons maintenant couvrir l’histoire de l’autre grande branche de l’IA, la branche connexioniste. Si l’IA symbolique a été traditionnellement dominée par les mathématiciens, les logiciens et les informaticiens, l’IA connexionniste trouve sa source dans un tout autre domaine scientifique : les neurosciences.

Comme je l’avais déjà mentionné, les deux domaines ont longtemps coexisté dans une relative indifférence mutuelle, parfois teintée d’antagonisme. L’ histoire de l’IA connexioniste commence elle aussi fin des années 1940, au moment où Alan Turing établit les fondements de la discipline.

Brève description de l’approche connexionniste.

L’IA connexionniste tire son nom de la topologie en réseau auxquels la plupart des ses algorithmes font appel. Les noeuds du réseau, appelés neurones artificiels, ne sont rien d’autre que des fonctions mathématiques reliées entre elles par des paramètres variables. Ce sont les valeurs finales de ces paramètres qui constituent l’algorithme. Que ceci ne vous rebute pas, la manière dont ceci fonctionne en pratique sera expliqué plus en détail dans un article futur.

Une des différences principales avec l’IA symbolique est que le programmeur ne spécifie pas les règles du problème à modéliser. Il laisse au contraire le réseau découvrir lui-même ces règles à travers une exposition répétée à un ensemble de données dites d’entraînement ainsi que le résultat attendu. Les algorithmes connexionnistes appliquent alors des algorithmes statistiques afin de faire progressivement évoluer les paramètres du réseau vers une solution optimale.

A la place d’un modèle, l’ ingénieur doit juste fournir un volume de données suffisant en rapport avec la complexité du problème à modéliser. Par rapport à l’approche symbolique, c’est à la fois un avantage, mais aussi un défaut car tout dépend de la qualité des données d’entraînement.

Le perceptron (années 1960-1970)

L’inspiration des premiers chercheurs connexionistes est la biologie, qui cherchent dès les années 1940 à modéliser le fonctionnement des neurones du cerveau au moyen de circuits électroniques. Le premier modèle concret est le Perceptron de Frank Rosenblatt (1957), qui modélise d’abord un seul neurone sous forme de circuit électronique, puis plus tard un ensemble d’environ un millier de neurones dans le but de modéliser une rétine artificielle primitive.

Cependant, ces réseaux de neurones artificiels restent très rudimentaires. L’ analogie entre le neurone biologique et le neurone artificiel reste superficielle, et les moyens de l’époque ne permettent pas de créer de réseau de plus d’une couche de neurones. L’idée d’une possible rétro-ingéniérie du cerveau humain est certes fascinante, mais de tels réseaux ne permettent pas de modéliser des phénomènes complexes et atteignent rapidement leurs limites.

Pire, ils se montrent même incapables de modéliser certaines fonctions élémentaires, et l’exposition de ces limitations dans un livre (intitulé Perceptrons) publié en 1969 fait douter la communauté scientifique et les organismes de financement du potentiel de ces recherches, qui sont rapidement interrompues.

La rétropropagation (années 1980)

Et pourtant, des recherches menées pendant les années 1960 avaient déjà identifié des techniques permettant d’entraîner des réseaux de neurones multicouches. Ces techniques, dites de rétropropagation sont lentement améliorées pendant les années 1970 et reviennent sur le devant de la scène au début des années 1980. Du coup, les réseaux neuronaux s’épanouissent, profitant de la conjoncture favorable à l’IA mentionnée dans le précédent article. Une des réalisations les plus impressionnantes de l’époque est l’utilisation de réseaux neuronaux multicouches pour reconnaître les chffres des codes postaux sur les enveloppes.

Mais, comme pour l’IA symbolique, les capacités plafonnent vers la fin des années 1980 suite aux limitations de puissance des ordinateurs et du manque relatif de données disponibles pour les problèmes complexes.

Les données à la rescousse (années 1990-2000)

Les années 1990 voient apparaître le World Wide Web qui va provoquer une explosion du volume de données disponibles. Tout devient progressivement digital et accessible sur le web : images, musique, vidéos… collecter les volumes de données requis pour entraîner les réseaux neuronaux cesse d’être prohibitif. Reste à résoudre le problème de la puissance de calcul car ces algorithmes sont extrêmement gourmands en puissance de calcul. La solution à ce second problème arrive en 1999 avec les premiers coprocesseurs graphiques (GPU) qui sont parfaitement adaptés au type de calculs demandés par les réseaux neuronaux même si ce n’est pas leur vocation première. En une dizaine d’années, la puissance des coprocesseurs graphiques est multipliée par 1000 et la course à la puissance ne s’arrête pas là…

On découvre alors que les réseau neuronaux multicouches, maintenant appelés réseaux profonds, continuent à progresser et gagner en puissance expressive lorsqu’on augmente à la fois la taille du réseau et le volume de données d’entraînement, qui sont maintenant disponibles en abondance. Cette capacité à traiter des problèmes de plus en plus complexes va progressivement pousser l’essentiel des autres approches en désuétude, elles qui ne bénéficient pas des mêmes effets d’échelle.

L’explosion de l’apprentissage profond (depuis 2012)

De nouveaux développements majeurs ont lieu en 2012. Le réseau neuronal AlexNet pulvérise tous les records de performance en reconnaissance d’image. Il s’agit d’un réseau neuronal dont l’architecture est appelée convolutionnelle; cette architecture est particulièrement adaptées aux algorithmes traitant des images, une catégorie de problèmes considérés jusqu’alors comme difficile.

Mais les applications possibles d’un algorithme performant de classement des images sont innombrables et ce résultat provoque une nouvelle vague d’engouement pour l’IA, qui peut maintenant s’ouvrir à de nouveaux domaines : robotique, conduite autonome, contrôle visuel de qualité, classification d’images automatisée, biométrie…

En parallèle, le traitement du langage a également progressé, la percée ayant lieu dans ce domaine en 2017 avec la mise en place de l’architecture des transformeurs. Les modèles de langage continuent à progresser rapidement pendant les années qui suivent, on parle maintenant de « grands » modèles de langage vu la progression du nombre de paramètres qui devient tout simplement gigantesque : 117 millions pour GPT1, 1,5 milliards pour GPT2, 175 milliards pour GPT3 (et donc chatGPT3.5) , probablement 1,7 trillion pour GPT4….

L’ explosion récente de l’IA dite « générative » ne fait probablement que commencer: en plus des applications purement textuelles comme ChatGPT, on dénombre également des modèles qui génèrent des images à partir d’un texte (Stable Diffusion), mais aussi des vidéos, du code informatique, des modèles 3D, voir même des plans d’action pour accomplir une tâche complexe.

Nous voici arrivés au terme de l’histoire, nous avons rejoint le présent. Nul ne sait quand le sommet sera atteint mais prenons quand même un moment pour admirer le chemin qui a été parcouru depuis les quelques neurones artificiels du premier perceptron.

Un peu d’histoire (I) : les saisons de l’IA symbolique

Au risque de simplifier un peu trop les choses, l’ Intelligence Artificielle s’est développée autour de deux approches relativement indépendantes, l’approche symbolique et l’approche connectionniste. L’ approche symbolique a été dominante jusquaux années 1990 et reste active aujourd’hui. Les bases de l’approche connectionniste ont été posées en même temps que l’approche symbolique, mais si cette dernière est restée nettement plus discrète pendant longtemps, la situation s’est inversée aujourd’hui puisque l’apprentissage profond qui révolutionne l’IA depuis une dizaine d’années est de nature connectionniste. Ces deux approches furent longtemps considérées comme mutuellement exclusives et une certaine animosité existait entre les deux camps, dominés par des spécialistes de domaines différents en compétition pour les mêmes budgets de recherche. Chaque camp étant en outre convaincu qu’il était le seul engagé sur la « vraie » voie de l’intelligence artificielle…

Dans cet article, je ne parlerai que de l’approche symbolique. L’ histoire de l’approche connectionniste fera l’objet d’un texte séparé.

Les débuts

L’ histoire de l’Intelligence Artificielle débute réellement lors de la première moitié du vingtième siècle. Pendant cette période, l’idée de machines dotées d’une autonomie intellectuelle fait son chemin dans le chef des romanciers d’anticipation. Le romancier tchèque Karel Capek crée le mot « robot » dans sa pièce Rossum’s Universal Robots datant 1920. D’autres robots apparaissent à la même époque dans différentes oeuvres comme les films Metropolis de Fritz Lang (1927) ou Le Magicien d’Oz quelques années plus tard (1939).

C’est donc de manière assez naturelle que les scientifiques de l’immédiate après-guerre, nourris de ces concepts par les romans de leur jeunesse, commencent à envisager la possibilité de doter les machines d’une capacité de raisonnement propre. Ceci entre désormais dans le champ du possible, suite à l’invention des premiers calculateurs digitaux pendant la Seconde Guerre mondiale. Le brillant mathématicien Alan Turing pose les bases de l’Intelligence Artificielle au début des années 50, établissant en particulier le fameux « test de Turing » pour déterminer si un programme possède une forme d’intelligence. Cependant, les ordinateurs de l’époque ont des capacités très limitées et leur exploitation coûte extrêmement cher. Toute utilisation de ces machines doit donc être strictement encadrée et validée par les autorités.

Quelques années plus tard, en 1956, a lieu une conférence d’été historique au Dartmouth College (Etats-Unis). Pendant deux mois, les principaux chercheurs en IA de l’époque s’y retrouvent, à l’exception d’ Alan Turing, mort en 1954. Bien qu’ils ne puissent lancer la collaboration à grande échelle qui avait été envisagée initialement, les chercheurs reviennent de cette conférence enthousiasmés et convaincus que l’Intelligence Artificielle est un objectif réalisable. Cet événement, au cours duquel le terme « Intelligence Artificielle » a été prononcé pour la première fois, aura des répercussions majeures et inspirera les recherches au cours des vingt années qui suivront. Mais ce nom est égalmement de nature à enflammer les plus folles espérances et les pires craintes. Mais ces attentes démesurées ne peuvent être réalisées et l’IA traverse au fil des années plusieurs âges d’or, suivis par des « hivers » au cours desquels le sujet tombe en désintérêt .

L’ âge d’or de l’IA symbolique (1956-1974)

L’ Intelligence Artificielle décolle vraiment après la conférence au Dartmouth College; elle bénéficie des progrès fulgurants de l’informatique, qui s’envole avec la découverte des transistors puis des circuits intégrés au cours des années 1950 et 1960.

Ce premier âge d’or est celui des machines généralistes (1957-1974). Il est dominé par les approches dites symboliques. En quelques mots, ces approches se basent sur un ensemble de règles logiques déductives que l’on applique de manière répétée à des hypothèses de départ. On constitue alors progressivement un arbre dont chaque branche correspond à une combinaison paticulière de règles appliquées aux hypothèses. Et le programme continuera à « faire grandir » l’arbre tant que l’objectif recherché n’est pas atteint. Un raffinement possible est que, afin de limiter l’explosion combinatoire, des règles additionnelles, dites heuristiques, permettent de déterminer empiriquement quelles branches semblent les plus prometteuses, ce qui peut amener le programme à privilégier l’exploration de certaines branches au détriment d’autres.

Ce genre d’approche fonctionne bien dans des mondes idéalisés, soumis à des règles strictes et déterministes (pas d’incertitude). Deux bons exemples sont les théorèmes mathématiques et le jeu d’échecs. Et le succès des programmes d’IA de l’époque dans ce genre de problème considéré jusque-là comme symptomatiques de l’intelligence humaine dans ce qu’elle a de plus noble, cause un grand engouement et suscite l’optimisme des chercheurs. Mais cela les pousse à promettre l’irréalisable, comme par exemple Marvin Minsky qui n’hésite pas à déclarer en 1970 que « D’ici trois à huit ans, nous disposerons d’une machine avec l’intelligence générale d’un être humain moyen« .

Le premier hiver (1974-1980)

Cependant, ces succès se montrent limités et les algorithmes atteignent leurs limites. La puissance de calcul des machines de l’époque reste encore limitée, et le monde réel a une vilaine tendance à être tout sauf déterministe et idéalisé. Des événements imprévus surviennent, une route ou un trottoir n’est pas un échiquier et la modélisation du langage humain se montre beaucoup plus complexe et ambigue qu’imaginé initialement.

Un autre problème est que certaines applications sur lesquelles les chercheurs s’étaient engagés (comme par exemple la vision) requièrement des volumes énormes d’information au sujet du monde qui nous entoure, volumes tout à fait hors de portée des systèmes informatiques de l’époque.

En résumé, les chercheurs butent sur ce qui est appelé le paradoxe de Moravec : si certains problèmes qui sont simples pour des machines -prouver un théorème ou jouer aux échecs- se révèlent complexe pour les humains, le contraire est également vrai pour d’autres problèmes comme reconnaître un visage ou traverser une rue. Les chercheurs, fascinés par la première catégorie, ont imprudemment pris des engagements sur la seconde.

En conséquence, les principales agences gouvernementales qui allouaient les crédits pour la recherchent en IA réduisent drastiquement les budgets disponibles, et une période d’hibernation commence pour l’IA.

Le second âge d’or : les systèmes experts (1980-1990)

La situation change de nouveau au début des années 1980. Au lieu de prétendre utiliser les systèmes symboliques dans une approche généraliste, les chercheurs cherchent cette fois à encoder l’expertise humaine dans un domaine très spécifique, basé sur la formalisation de la connaissance d’experts. Cette spécialisation leur permet de contourner un certain nombre des écueils rencontrés par les systèmes généralistes, au prix d’une domaine application beaucoup plus restreint.

L’avantage principal des systèmes experts est qu’ils apportent une réelle valeur ajoutée aux entreprises et organisations, ce qui n’avait pas vraiment été le cas auparavant. Un autre avantage est que leur conception leur permet d’adapter relativement aisément la base de connaissance, par exemple si l’état de l’art progresse dans le domaine modélisé.

Le Japon lance un programme de développement des systèmes experts à grande échelle, et une génération de nouvelles entreprises apparaît, se spécialisant dans la fourniture de matériels spécifiquement développés pour faire tourner des systèmes experts.

Un second hiver (années 1990)

A la fin des années 1980, un autre développement majeur apparaît : l’apparition des premiers ordinateurs personnels de bureautique. Le décollage de la bureautique dans les entreprises offre soudain d’énormes opportunités d’amélioration des processus papier existant jusqu’alors et la grande période du réengineering des processus commence dans les entreprises (BPR).

Le problème est que la jeune industrie des systèmes experts était basée sur des ordinateurs spécialisés, chers et difficiles à maintenir à jour. Ils font pâle figure face au progrès fulgurant des PC qui deviennent rapidement aussi puissants, voire plus puissants que ces machines beaucoup plus coûteuses. Les machines spécialisées sont délaissés, le marché s’effondre et une vague de faillites s’ensuit.

En parallèle, les sytèmes experts montrent leurs limites. N’ayant pas de connaissance contextuelle, ils sont « fragiles » et susceptible de se tromper catastrophiquement dès que l’on sort du cadre des données d’entrée habituelles. Les systèmes experts sont certes utiles, mais seulement dans certains cas.

Comme une quinzaine d’années auparavant, les agences gouvernementales décident de couper les budgets au début des années 1990. Le second hiver arrive.

En guise de Conclusion

Cependant, la période des années 1990 s’avère féconde malgré l’interruption des budgets de recherche. La puissance des ordinateurs ne cesse de continuer à progresser et la capacité à enmagasiner et stocker des données fait de même. Mais la période de domination de l’IA symbolique arrive à son terme. C’est maintenant l’heure de l’approche connectionniste, qui s’est développée dans l’ombre de sa grande soeur jusqu’ici… mais ceci est une autre histoire, et un autre article.