Artificiellement Intelligent

Rendre l' IA accessible à tous

Page 3 of 7

A la découverte de Claude 3.5 Sonnet et d’ Artifacts

La société Anthropic est bien connue pour ses modèles de langage appelés Claude.

Anthropic est -avec Google- le principal concurrent d’ OpenAI et possède d’ excellents modèles disponibles en trois tailles :

  • Claude 3.5 Opus : le modèle le plus puissant mais le plus lent;
  • Claude 3.5 Sonnet : modèle intermédiaire en termes de rapidité et de compétence;
  • Claude 3.5 Haiku : un modèle léger et rapide.

Le modèle Claude 3.5 Sonnet est accessible à tout le monde sur Claude.ai sans devoir payer, moyennant certaines limites d’utilisation. Je vous conseille de l’essayer, il fonctionne bien et le style des réponses diffère de celui de ChatGPT (je trouve le style de Claude plus humain et moins formel quel celui de ChatGPT4o).

Claude 3.5 n’offre pas de capacité de génération d’images, mais il offre une fonctionnalité très intéressante et pratique appelée Artifacts qui va beaucoup faciliter le travail interactif avec le modèle lors de la génération d’ un document, d’ une figure etc…

Encore mieux, cette fonctionnalité est accessible à tous les utilisateurs, même gratuits. Voyons comment en tirer parti au mieux.

1. Qu’ est-ce que Claude Artifacts ?

Imaginez que vous demandez à Claude de générer un document. Grâce à Artifacts, ce dernier sera généré dans une fenêtre séparée, tandis que le flux conversationnel habituel reste disponible pour continuer le dialogue avec le modèle et demander d’ éventuelles améliorations au texte. Encore mieux, ce dernier sera alors modifié dans la fenêtre dédiée, et les versions successives sont enregistrées ce qui permet à l’utilisateur de revenir à une version précédente si nécessaire.

Vous pouvez aussi copier le contenu de l’ artéfact dans votre presse-papiers ou télécharger un fichier pour le réutiliser facilement en dehors de la conversation. Ces options se trouvent dans le coin inférieur droit de la fenêtre de l’ artefact.

Les artéfacts vous permettent donc de co-créer du contenu dans une fenêtre séparée – plus besoin de copier/coller systématiquement à partir du chat. Cet ajout fait passer Claude d’une IA conversationnelle à un environnement de travail collaboratif, permettant aux utilisateurs d’interagir avec le contenu généré par l’IA de manière plus dynamique et conviviale.

La vidéo de démonstration fournie par Anthropic montre bien la génération séparée des figures et du code à droite du dialogue :

2. Activer Claude Artifacts

Pour accéder à Claude Artifacts, vous devez l’activer dans les paramètres. Tout d’abord, cliquez sur les initiales de votre compte, puis sur Feature Preview.

Figure 1 : Accès aux paramètres

Ensuite, activez les artefacts en basculant le commutateur sur On.

Figure 2 : Activation d’ Artifacts

Une fois activée, vous pouvez déclencher la fonctionnalité en demandant à Claude de générer du contenu qui peut être affiché dans un artéfact, comme du code, des visualisations de données ou même des maquettes.

3. Utilisations possibles

En proposant différents types d’ artéfacts, Claude s’ assure que les utilisateurs disposent des bons outils pour une variété de tâches. Concrètement, on peut distinguer trois principaux cas d’ utilisation :

Les artéfacts textuels comprennent le texte brut, les textes au format markdown et les documents formatés. Ils sont utiles pour les tâches d’ écriture, l’ édition de documents et d’ autres projets nécessitant beaucoup de texte. La fenêtre d’ artéfact présentera les versions successives du texte à travers les demandes de modification de l’ utilisateur.

Dans la figure ci-dessous, vous verrez que j’ ai demandé à Claude de générer une histoire fictive, puis je lui ai demandé de la modifier (toujours dans le dialogue) en ajoutant une dimension romantique. Les deux versions de l’ histoire sont accessibles via le bouton « version » en bas, et téléchargeables via les icônes en bas à droite.

Figure 3 : Artéfact textuel – création d’ un texte de fiction

Les artéfacts visuels sont des images et/ou des graphiques vectorisés SVG. Ils sont idéaux pour les projets qui nécessitent des éléments visuels, comme la création d’ infographies. Claude peut générer ces artefacts pour aider les utilisateurs à présenter des données de manière visuelle, avec la possibilité d’ itérer sur les créations proposées jusqu’ à obtention d’un résultat satisfaisant.

Voici un exemple dans lequel je demande à Claude de générer une image stylisée au format SVG représentant le Corcovado (Christ Rédempteur) qui surplombe Rio de Janeiro. Ici encore, deux itérations ont été faites :

Figure 4 : Artéfact visuel – création d’un fichier SVG

Les artéfacts de codage sont des extraits de code que les utilisateurs peuvent copier, modifier et exécuter. Ils sont particulièrement utiles aux développeurs qui recherchent des solutions rapides ou qui tentent de comprendre des segments de code complexes.

Une remarque est que les artéfacts ne possédant pas d’ environnement propre d’ exécution du code, il dépendent pour cela des capacités du navigateur. La capacité de prévisualisation du résultat n’ est donc pas toujours disponible : cela dépend du type du contenu. il m’a fallu un peu de temps pour comprendre cela.

Figure 5 : Artéfact de codage – programmation d’un jeu de « Snake »

Bonne découverte !

Sources et références

Taxonomie de l’ apprentissage machine

L’ Intelligence Artificielle a pour objectif de construire des systèmes qui simulent un comportement intelligent. Ceci reprend un grand nombre de techniques dont l’ apprentissage machine constitue une partie importante. C’est l’apprentissage machine, et plus particulièrement sa déclinaison moderne faisant appel aux réseaux de neurones artificiels, appelée apprentissage profond qui a vu une croissance explosive ces dernières années et se retrouve au coeur de tous les progrès récents (conduite autonome, modèles de langage, générateurs d’image…).

Il me semble donc intéressant de décrire un peu plus en détail les grandes techniques de l’ apprentissage machine, qui se caractérisent par la quantité et le type de supervision qu’ ils reçoivent pendant l’ entraînement.

On distingue de ce fait trois grandes catégories d’ algorithmes :

  • l’ apprentissage supervisé;
  • l’ apprentissage non supervisé;
  • l’ apprentissage par renforcement
Figure 1 : Les familles d’ algorithmes de l’ apprentissage machine

Le nombre de techniques et d’ algorithmes utilisés en apprentissage machine est assez important, comme vous le verrez sur la figure ci-dessous. Mon but n’ étant pas ici de faire un exposé exhaustif, je me limiterai à présenter les techniques les plus connues.

Figure 2 : Une vue détaillée des techniques d’ apprentissage machine

L’ apprentissage machine recourt à une démarche inductive qui va chercher à construire un modèle sur base d’ exemples fournis pendant l’ entraînement. Une fois l’ entraînement terminé, le modèle sera utilisé sur d’ autres données. Un modèle bien entraîné va donc tenter de généraliser les corrélations apprises pendant l’ entraînement sur de nouvelles données. Ceci est à contraster avec l’ approche algorithmique de l’ IA classique qui est de nature déductive: un algorithme fixe est appliqué systématiquement à des données et fournit ses conclusions.

Figure 3 : Apprentissage machine et IA traditionnelle

1. L’ apprentissage supervisé

C’ est le cas le plus simple à comprendre. Ces algorithmes définissent une correspondance entre des données d’ entrée et des données de sortie. Un modèle supervisé est donc une sorte de boîte noire qui va apprendre à ingérer des données en entrée pour restituer les données en sortie correspondantes. La boîte noire est en réalité une fonction mathématique contenant de (nombreux) paramètres réglables.

Le lien entre données d’ entrée et de sortie est établi lors de l’ apprentissage: on évalue l’ écart entre la réponse désirée et la réponse du modèle. Les paramètres du modèle sont ensuite modifiés de manière à réduire progressivement cette erreur au fil des itérations par des techniques mathématiques qui vont tenter de « dévaler la montagne » de l’ erreur en suivant la direction de la plus forte pente…

Figure 4 : Illustration de la décroissance de l’ erreur au fil de l’ entraînement

Tout cela n’est possible que si les données à la fois d’entrée et de sortie dont de nature numérique, ce qui ne pose en général pas de problème : tout ce qui est stocké sur un ordinateur l’ est sous forme numérique : texte, image, audio…

Une fois l’ entraînement terminé, on introduira des données en entrée et le modèle de produira la sortie correspondante. Bien sûr, cela ne présenterait aucun intérêt si le modèle était seulement capable de répondre aux données d’entrée de l’entraînement : ce que l’ on veut réellement, c’ est que le modèle soit capable de généraliser en répondant de manière plausible à de nouvelles données d’entrée qui ne lui ont jamais été présentées.

Les deux grands exemples classiques d’ apprentissage supervisé en apprentissage machine sont la régression et la classification. La régression est utilisée pour prédire des valeurs numériques telles que le prix, le salaire, l’ âge, etc… Elle aide à prédire les tendances du marché, les prix de l’ immobilier, la consommation électrique etc…

La classification est un processus qui consiste à diviser l’ ensemble des données en différentes classes. Les algorithmes de classification sont utilisés pour classer dans une catégorie/classe telles que Homme ou Femme, Vrai ou Faux, Spam ou Non Spam, etc. Le nombre de de classes peut être supérieur à deux, on pourrait vouloir classer des voitures en fonction de la marque par exemple (on parle de classification binaire ou multiclasse).

Figure 5 : Régression et classification

L’ apprentissage profond permet d’ étendre ces techniques à des données d’ entrée perceptuelles comme des images ou des sons. Le « détecteur de chat » dans les images qui faisait fureur il y a une dizaine d’ années l’ illustre bien : il s’agit d’ un système de classification d’ image (chat ou pas chat).

Un problème de l’ apprentissage supervisé est qu’ il faut fournir au modèle un ensemble de solutions (les sorties) pour l’ entraînement, ce qui n’ est pas toujours facile et requiert parfois de fastidieux efforts surtout pour les problèmes perceptuels qui demandent un grand volume de données d’ entraînement. Des entreprises entières ont vu le jour, qui mettent à disposition des ressources humaines en grand nombre pour labelliser des images ou autres données d’ entraînement.

2. L’ apprentissage non supervisé

Ce type d’ algorithme se fait sans que l’ entraînement n’ utilise de données de sortie (il est donc « sans supervision »). Le but cette fois n’est pas d’ apprendre une correspondance entre entrée et sortie, mais bien d’ identifier et d’ exploiter la structure sous-jacente dans les données elles-mêmes : un assemblage de mots aléatoire ne constitue pas un texte, et un ensemble de points chosis au hasard ne constituera pas une image interprétable… il y a donc quelque chose de plus dans les données qui nous intéressent. L’ apprentissage non supervisé cherche à identifer ce « quelque chose ».

Les techniques génératives relèvent de l’ apprentissage non supervisé. On y retrouve donc les modèles de langage et des générateurs d’ image.

Dans le cas des modèles de langage, le générateur va chercher à prolonger la séquence de mots qui lui est fournie dans l’ invite (le prompt). Une phrase peut se voir comme une séquence de mots. Le générateur va se baser sur l’ immense volume de textes ingurgités pendant l’ entraînement pour définir le prochain mot qui prolonge la séquence de la manière la plus plausible. Ce mot est ensuite ajouté à la séquence d’ entrée et l’ algorithme est exécuté à nouveau, et ainsi répétitivement jusqu’à génération de la réponse complète.

Figure 6 : Principe du modèle de langage : prolonger la séquence

Les modèles générateurs d’ image vont fonctionner de manière un peu plus étonnante. Cette fois, le modèle va apprendre une représentation compacte des images. La technique utilisée pour apprendre cette représentation est assez indirecte puisqu’on va demander à l’ algorithme de retirer des parasites des images (les « débruiter »), ce qui amène le modèle à extraire les caractéristiques essentielles des images, et donc leur représentation compacte…

Figure 7 : Principe du générateur d’images

La représentation compacte est alors mise en correspondance avec le texte décrivant l’ image (texte qui fait aussi partie des données d’ entraînement). Le modèle va donc apprendre à « débruiter » une image en tenant compte de la description textuelle de cette dernière.

Une fois l’ entraînement terminé, il suffira d’ introduire un texte arbitraire, ainsi qu’une image ne contenant que des parasites. Le modèle va chercher à « débruiter » les parasites en tenant compte du texte que vous avez introduit ce qui, si tout va bien, convergera vers une image originale basée sur votre texte. Je suis bien conscient que ça paraît un peu fou mais c’ est le principe de l’ algorithme Stable Diffusion qui est utilisé par la quasi-totalité des générateurs d’ image actuels…

3. L’ apprentissage par renforcement

Le troisième grand domaine de l’ apprentissage machine est l’ apprentissage par renforcement. Cet apprentissage introduit la notion d’ un agent autonome qui agit dans un environnement et peut effectuer des actions et d’ en constater ensuite les conséquences. Les actions peuvent modifier l’ environnement et également donner lieu à des récompenses (ou des pénalités).

L’ apprentissage par renforcement consiste à apprendre ce qu’ il faut faire – comment associer des situations à des actions – de manière à maximiser le signal de récompense numérique. On ne dit pas au modèle quelles actions il doit entreprendre, mais il doit découvrir les actions qui rapportent le plus en les essayant.

Figure 8 : L’ apprentissage par renforcement

La difficulté de l’ apprentissage par renforcement est que la récompense peut se trouver plusieurs étapes dans le futur, et donc établir quelle action mènera à la plus grande récompense future n’ est pas évident. Pensez à un jeu d’ échecs : la récompense (positive ou négative) n’ arrive que lorsque le jeu se termine par échec et mat. Si vous êtes en début ou en milieu de partie, il faudra probablement de nombreux coups avant que la récompense ne soit obtenue…ce problème est appelé le problème de l’ assignation temporelle du crédit. Lorsque l’ agent apprend à naviguer dans l’ environnement pour obtenir la récompense, il doit aussi équilibrer les stratégies d’ exploration et celles d’ exploitation : après avoir trouvé une approche qui mène à la récompense, faut-il se borner à répéter cette approche (exploitation) ou bien prendre le risque de tenter une nouvelle approche qui pourrait mener à une récompense supérieure (exploration)…

L’ apprentissage par renforcement est un domaine fascinant qui concerne non seulement les machines devant agir dans un environnement (robotique, conduite autonome…), mais nous interpelle aussi sur certains mécanismes de fonctionnement de notre propre cerveau. L’ excellent livre de Max Benett en référence décrit l’ hypothèse selon laquelle certaines structures cérébrales apparues chez les premiers vertébrés il y a environ 500 millions d’ années (et toujours présentes chez nous) exploitent un mécanisme d’ apprentissage par renforcement, qui a ainsi conféré à ces animaux un avantage évolutif, en leur permettant de mettre en place de meilleures stratégies de survie…

Sources et références

  • A Brief History of Intelligence: Evolution, AI, and the Five Breakthroughs That Made Our Brains, livre de Max Bennett publié par Mariner Books, ISBN 978-0063286344
  • Understanding Deep Learning, par Simon J. D. Prince, https://udlbook.github.io/udlbook/
  • Reinforcement Learning, an introduction, par Richard S. Sutton and Andrew G. Barto, publié par MIT Press, ISBN 978-0-262-04864-4.

L’ Intelligence Artificielle dans la recherche

Je suis très heureux de pouvoir écrire cet article, et ce pour deux raisons.

La première raison est que la recherche scientifique est un des domaines où l’ Intelligence Artificielle peut révolutionner notre société, en stimulant la productivité scientifique, en augmentant les capacités cognitives humaines et en accélérant le rythme des découvertes. L’ IA appliquée à la science et à la recherche s’ est développée à un rythme important ces dernières années: si les tendances actuelles se maintiennent, la probabilité que les découvertes scientifiques futures soient principalement dues aux applications et aux outils de l’ IA va augmenter de manière significative.

La seconde raison est plus personnelle: depuis que j’ ai commencé la rédaction de ce blog à la mi-2023, j’ ai quasi-exclusivement parlé de l’ IA générative vu l’ engouement général à son sujet; je constate maintenant que de nombreuses personnes semblent résumer l’ IA à l’ IA générative et à ChatGPT. La fascination de ces dernières techniques est, je pense, lié en grande partie à leur facilité d’ utilisation et à la tentation de l’ anthropomorphisme. Mais elle ne doit pas éclipser les autres techniques dont le potentiel est tout aussi impressionnant.

Rappelons que les techniques génératives sont asssez récentes et l’ Intelligence Artificielle contient de nombreuses autres techniques, dont une grande partie dont orientées vers la prédiction et la discrimination de données. Ce sont principalement ces techniques qui seront à l’ honneur dans cet article.

Dans le texte qui suit, je décrirai les trois principales manières dont l’ IA impacte dès aujourd’hui le processus de recherche. Si les deux approches sont de nature prédictive et concernent la recherche scientifique, la troisième est générative et s’ applique également aux sciences humaines.

Ce bref aperçu n’ a pas vocation à être exhaustif : l’ IA aide aussi les chercheurs dans d’ autres domaines comme l’ analyse des données et dans l’ automatisation de certaines tâches répétitives de laboratoire par exemple…

1. Problèmes de prédiction complexes

L’ utilisation la plus courante de l’ IA dans le domaine scientifique consiste à résoudre des problèmes complexes de prédiction, c’ est-à-dire à mettre en correspondance des données d’ entrée connues avec des données de sortie à prédire. L’ IA intervient typiquement pour la résolution de problèmes physiques pour lesquels la modélisation directe des équations régissant les phénomènes est trop complexe.

Deux magnifiques examples de cette approche nous sont données par la société Google Deepmind à travers la prédiction de la structure tridimensionnelle des protéines à partir de la séquence d’ ARN codante (AlphaFold 3), et la prédiction de nouvelles structures cristallines (GnoME). Les applications possibles de ces deux applications sont énormes, et je vais les décrire succinctement.

Le modèle IA appelé Graph Networks for Materials Exploration (GNoME) est conçu pour prédire les structures cristallines inorganiques, qui sont des arrangements répétitifs d’ atomes conférant aux matériaux des propriétés particulières – par exemple, la symétrie hexgonale d’ un flocon de neige est le résultat de la structure cristalline de la glace.

Illustration 1 : Prédiction de nouvelles structures cristallines

Jusqu’ à présent, nous ne connaissions qu’ environ 48 000 cristaux inorganiques possibles. GNoME a fait passer ce chiffre à plus de 2 millions, et bien que certaines de ces nouvelles structures puissent se décomposer en formes plus stables ou être impossibles à créer, plus de 700 de ces prédictions ont déjà été réalisées indépendamment en laboratoire. Il s’ agit notamment d’ un cristal de lithium et de magnésium semblable à un diamant, qui pourrait être utilisé dans des lasers de grande puissance, et d’ un supraconducteur de molybdène à basse température.

Les chercheurs de Deepmind ont maintenant mis à la disposition de la communauté académique l’ ensemble des données relatives aux structures cristallines prédites. Cela va accélérer la découverte de nouveaux matériaux et c’ est là tout l’ intérêt : par rapport à ce que contenaient les bases de données auparavant, il est possible d’augmenter la taille des données d’ un ordre de grandeur.

Ces nouvelles structures cristallines pourraient contribuer à révolutionner la science des matériaux, en offrant de nouveaux moyens de fabriquer de meilleures batteries, de meilleurs panneaux solaires, de meilleures puces électroniques et bien d’ autres technologies vitales. « Chaque fois que quelqu’ un veut améliorer sa technologie, cela passe inévitablement par l’ amélioration des matériaux », explique Ekin Dogus Cubuk de DeepMind. « Nous voulions simplement qu’ ils aient plus d’ options. »

Alphafold 3, également fruit des recherches de Google Deepmind, est une prouesse comparable dans le domaine des structures organiques : il s’ agit cette fois de prédire la forme tridimensionnelle des protéines en fonction de leur structure codante encodée sur un gène de l’ ADN qui est transformé en message envoyé au ribosome (via un ARN messager). Le ribosome, qui fait partie de la machinerie cellulaire, construit ensuite la protéine en enfilant une série d’ acides aminés sur une longue chaîne, et c’ est l’ ARN messager qui décrit la séquence des acides aminés dans la chaîne. Le problème est que la protéine se replie ensuite en trois dimensions et c’ est cette forme qui détermine son rôle biologique. Or, le mécanisme de repliement fait intervenir des interactions trop complexes pour être modélisées directement. La résolution de ce problème de repliement des protéines faisait l’ objet de recherches acharnées depuis plus d’ un demi-siècle.

Illustration 2 : Prédiction de la structure tridimensionnelle des protéines

C’ est précisément ce que fait Alphafold 3, qui peut non seulement prédire la structure d’ une protéine à partir de la séquence codante d’ ARN messager, mais également l’ interaction de cette dernière avec d’ autres molécules, ce qui constitue un outil incroyablement précieux pour la recherche de nouveaux médicaments ou vaccins… et, ici encore, les chercheurs de Deepmind on choisi de publier une base de données de 200 millions de structures tridimensionnelles de protéines prédites par Alphafold 3.

Alphafold 3 est tellement fascinant que je pense bien y consacrer un prochain article…

2. la paramétrisation des systèmes complexes

Une seconde application est le paramétrage optimal de systèmes complexes. Dans ce cas, des techniques telles que l’ apprentissage par renforcement peuvent être utilisées pour rechercher l’ ensemble optimal de paramètres qui maximisent ou minimisent une fonction objective spécifique ou produisent un résultat souhaité.

Quelle est la différence avec le point précédent ? Eh bien dans le cas précédent on partait d’ une cause (un ARN messager) pour en prédire la conséquence (la structure d’ une protéine). Ici, nous faisons le contraire : nous partons d’ un résultat désiré pour essayer d’ identifier une configuration de paramètres d’ entrée qui pourrait mener à ce résultat. Comme les algorithmes d’ IA prédictive travaillent sur base de corrélation et non de causation, ils peuvent travailler indifféremment dans les deux sens, contrairement aux lois de la Physique qui sont de nature causale et donc unidirectionnelle. Le prix à payer pour un lien corrélatif est l’ absence d’ explication, mais dans certains cas c’ est le résultat qui importe et non sa justification.

Un exemple récent concerne les tokamaks, ces réacteurs prototypes pour la fusion nucléaire. L’ IA a permis aux scientifiques de modéliser et de maintenir un plasma à haute température à l’ intérieur de la cuve du tokamak, un problème qui s’ était avéré très difficile à résoudre jusqu’ à présent: le plasma est contrôlé à travers une série de bobines générant des champs magnétiques qui doivent être réglés avec grande précision à tout instant si l’ on veut maintenir la stabilité du plasma. Le problème est si complexe à résoudre que les physiciens comparent cela à maintenir la forme d’une boule de « slime » (le plasma) avec des élastiques (les champs magnétiques)…

Illustration 3 : Contrôle du plasma de fusion dans un tokamak

Lors d’expériences menées au DIII-D National Fusion Facility de San Diego, des chercheurs américains ont récemment démontré que leur modèle, formé uniquement à partir de données expérimentales antérieures, pouvait prévoir jusqu’ à 300 millisecondes à l’ avance les instabilités potentielles du plasma. Ce délai s’ avère suffisant pour modifier certains paramètres de fonctionnement afin d’ éviter une déchirure dans les lignes de champ magnétique du plasma, perturbant son équilibre et ouvrant la porte à une fuite qui mettrait fin à la réaction.

Cette recherche ouvre la voie à un contrôle plus dynamique de la réaction de fusion que les approches actuelles et jette les bases de l’ utilisation de l’ intelligence artificielle pour résoudre un large éventail d’ instabilités du plasma, qui constituent depuis longtemps des obstacles à l’ obtention d’une réaction de fusion durable. L’ IA pourrait donc aider à lever un obstacle majeur dans le développement de la fusion nucléaire en tant que source d’ énergie non polluante et virtuellement illimitée…

3. L’ IA pour la recherche et la découverte bibliographiques

Une autre application essentielle de l’ IA est l’ automatisation du processus d’ examen de la littérature académique, qui peut être facilitée par des moteurs de recherche puissants basés sur les modèles de langage. Des plateformes telles qu’ Elicit et Perplexity fonctionnent grâce à une interface de type chatbot, permettant aux chercheurs d’ interagir dynamiquement avec la machine.

Le chercheur peut entamer une conversation pour rechercher des informations sur des recherches antérieures dans un certain domaine et recevoir un résumé des informations-clés sur ce domaine. Les outils les plus récents peuvent même se souvenir du contexte de la conversation, ce qui améliore la qualité de l’ échange entre l’ utilisateur et la machine.

Toujours dans le contexte de l’ analyse de la littérature universitaire, une application intéressante est la découverte basée sur la littérature, où l’ IA peut découvrir des associations implicites et cachées à partir d’ études existantes, ce qui donne lieu à des hypothèses intéressantes, surprenantes et non triviales qui valent la peine d’ être étudiées plus avant par les chercheurs.

Rappelons que les modèles de langage fonctionnent sur une base de création de la séquence linguistique la plus plausible. Ce mécanisme peut être source de créativité en combinant des concepts développés séparément dans la littérature, en identifiant des lacunes dans la littérature ou encore en proposant des variations originales dans les expériences existantes.

Afin d’illustrer ce propos, je voudrais reprendre une citation du Prof. Terence Tao, Professeur de Mathématiques à l’ UCLA et un des plus brillants mathématiciens vivant à ce jour :

L’ IA de niveau 2023 peut déjà donner des indications suggestives et des pistes prometteuses à un mathématicien en activité et participer activement au processus de prise de décision. Lorsqu’ elle sera intégrée à des outils tels que les vérificateurs de preuves formelles, la recherche sur Internet et les progiciels de mathématiques symboliques, je m’attends à ce que l’IA de niveau 2026, si elle est utilisée correctement, soit un co-auteur digne de confiance dans la recherche mathématique, et dans de nombreux autres domaines également.

Terence Tao, Professeur de Mathématiques à UCLA

Conclusion

Voilà. Je sais qu’ on entend souvent parler de l’ Intelligence Artificielle avec une connotation négative : pertes d’ emploi, risque de perte de contrôle, désinformation… mais cette perception pessimiste ne doit pas faire oublier l’ immense potentiel transformateur de cette technologie. Mon article précédent parlait d’ éducation, et cet article a parlé de recherche scientifique. Ces deux domaines sont notre plus grande promesse pour des lendemains meilleurs.

Il est parfois bon de rappeler que le verre à moitié vide est aussi à moitié plein.

Sources et références

Expériences éducatives avec les agents IA génératifs

Je suis convaincu que les agents IA présentent une magnifique opportunité éducative. J’ ai eu l’ occasion de m’ entretenir récemment avec plusieurs institutions de l’enseignement supérieur et d’ expérimenter en ce sens.

Cet article a pour but de présenter le résultat de mes expériences autour de tuteurs personnalisés pour des cours spécifiques. Cette idée est très intéressante car elle est aisée à mettre en oeuvre tout en ayant une grande valeur ajoutée.

Le résultat de mes expériences prend la forme d’ agents GPTs fonctionnant chez OpenAI auxquels vous pouvez accéder et que vous pouvez consulter. Les liens sont disponibles dans les paragraphes qui suivent. Et comme tout le monde a accès aux agent GPTs depuis quelques jours, ça veut dire que vous pourrez les tester même si vous ne payez pas l’abonnement ChatGPT+…

L’ intérêt de l’ enseignement personnalisé

Les experts savent depuis longtemps qu’ il est possible de rendre l’ enseignement plus efficace en le personnalisant. Les travaux de Benjamin Bloom publiés en 1984 dans l’article « The Two sigma Problem » en attestent : l’ étudiant moyen ayant bénéficié d’ un enseignement personnalisé obtient en moyenne des résultats qui dépassent de deux écarts-types ceux du groupe de contrôle (qui a lui reçu un enseignement traditionnel dans une classe). Cet écart est énorme, comme en atteste la figure ci-dessous : environ 90% des étudiants bénéficiant d’ un tuteur atteignent le niveau des 20% meilleurs élèves du groupe de contrôle.

Figure 1 : Distribution des évaluations pour diffférents mécanismes d’enseignement

L’ article est disponible en référence à la fin de l’ article.

Une partie du problème est que la transmission unidirectionnelle de connaissances de l’ enseignement traditionnel ne prend pas bien en compte les différences individuelles de capacité d’assimilation et de compétences, avec pour corollaire le « largage » de certains étudiants tandis que d’ autres se désintéressent de la matière par manque de stimulation intellectuelle.

Il serait donc intéressant de disposer, en plus de l’ enseignant traditionnel, de tuteurs qui pourraient permettre aux étudiants de rattraper leur retard éventuel en-dehors des cours.

La difficulté, bien sûr, est que dans un modèle entièrement basé sur des enseignants humains, le nombre d’ enseignants qu’ un enseignement personnalisé requiert est prohibitif vu le nombre d’ étudiants à former…et donc les mécanisme de remédiations existants sont très limités en termes de capacité et d’ accès.

Les agents IA génératifs à la rescousse

Et c’ est là que l’ IA générative peut changer radicalement la donne : comme l’ enseignement repose sur de nombreux supports écrits (syllabus etc..), il est possible d’ utiliser ces supports pour enrichir un modèle de langage et en faire un assistant conversationnel répondant aux questions des étudiants 24h/24.

Concrètement, la transformation du modèle de base en tuteur passe par un mécanisme de Récupération Augmentée de Génération (RAG) qui puise dans les supports du cours disponibles sous format digital (pdf..). Vous pouvez consulter mon article précédent parlant de la RAG ici.

C’est précisément ce que j’ai fait avec les trois agents GPTs suivants, qui agissent comme tuteurs en Physique se basant les célèbres cours de Physique universitaire du Prof. Richard Feynman (aussi en référence) :

  • Tuteur de Physique 1 : Mécanique, radiation et chaleur : lien;
  • Tuteur de Physique 2 : Electromagnétisme et matière : lien;
  • Tuteur de Physique 3 : Mécanique Quantique : lien.

Si vous avez des enfants qui bûchent (ou trébuchent) sur ces sujets en ce moment, n’hésitez pas à leur transmettre les liens ci-dessus ! Ces agents répondent dans toutes les langues…

Voici quelques idées pour tester les agents de physique :

  • Demandez au premier tuteur pourquoi le ciel est bleu, et/ou pourquoi le soleil du crépuscule est rouge ou encore pourquoi les nuages sont blancs…ou encore ce qu’ est la courbe du chien et son rôle dans la conception des bretelles d’ autoroute.
  • Demandez au second tuteur ce qu’est une cage de Faraday et pourquoi les voitures représentent un abri très efficace en cas d’ orage. Ou encore ce qu’est l’ effet de peau et pourquoi le courant continu est une meilleure solution pour le transport de l’ électricité à très longue distance…

Par ailleurs, Khan Academy a publié un tuteur à caractère généraliste, appelé Tutor Me. Il couvre les mathématiques et les sciences exactes et humaines pour des étudiants du secondaire. Vous pouvez accéder à ce tuteur ici.

Il est intéressant de noter que ces tuteurs ne sont pas nécessairement limités à un seul cours ou à un seul établissement. Par exemple, un tuteur IA consolidé « verticalement » pourrait exploiter l’ ensemble des cours de physique générale enseignés dans toutes les universités belges (il faudrait qu’il mentionne systématiquemnt les sources sur lesquelles il s’appuie). Un tuteur « horizontal » aura plutôt une vocation multidisciplinaire, comme c’est le cas de Tutor Me de Khan Academy.

Un conseil : Utilisez ces tuteurs sans ménagement. Obligez-les à répéter et réexpliquer ce que vous ne comprenez pas autant de fois que nécessaire. Pas besoin de mettre les formes, ce ne sont pas des humains et ils sont infatigables! Soyez précis et direct dans vos questions : ils sont là pour vous aider à comprendre…

Quelques Réflexions

Les agents qui sont décrits ci-dessus sont des modèles conceptuels qui ne sont pas destinés à une utilisation opérationnelle. Ils ont pour but de présenter le potentiel du concept mais se heurtent à toutes les limites du modèle cloud : dépendance complète à un changement des conditions d’ accès décrété par le fournisseur, envoi d’ informations à une tierce partie avec les risques de confidentialité que cela comporte, besoin de connectivité permanente…

Une utilisation opérationnelle dans l’ enseignement se fera plus logiquement sur base de modèles open-source installés localement au sein de l’institution ou de l’ administration, assurant par là la qualité et l’ uniformité de l’ accès aux élèves dans les meilleures conditions.

Mon idée en mettant au point ces prototypes est de susciter la réflexion auprès des autorités académiques : ces agents sont-ils intéressants ? Et si oui, comment les intégrer dans le processus éducatif actuel ? Et selon quelles modalités pratiques ?

Sources et références

Une nouvelle offre intéressante chez OpenAI

Dans la rédaction de ce blog, j’ essaie de ne pas devenir le relais des annonces marketing de certaines entreprises; j’ évite donc de réagir à chaud sur les tous derniers développements et déclarations tonitruantes dont le secteur est régulièrement inondé.

Je vais cette fois faire une exception car les produits annoncés par OpenAI lundi dernier sont déjà en partie disponibles et représentent un progrès important, non seulement pour les utilisateurs payants, mais aussi et surtout pour l’ immense majorité des utilisateurs non payants.

Allons-y !

1. ChatGPT-4o disponible pour tout les utilisateurs

OpenAI met progressivement à disposition des utilisateurs un nouveau modèle appelé ChatGPT-4o. ChatGPT-4o est très performant puisqu’ il vient de se hisser à la première place du classement des modèles de langage établi par la société LMSYS :

Figure 1 : LMSYS chatbot arena leaderboard publié sur HuggingFace dd. 16 mai 2024

Mais surtout, tous les utilisateurs inscrits chez OpenAI auront désormais accès au nouveau modèle ChatGPT4o qui est comparable à ChatGPT-4 en termes de performances. Et c’ est un progrès majeur pour les utilisateurs « gratuits » qui avaient jusqu’ à présent uniquement accès au modèle ChatGPT-3.5 aux performances nettement plus modestes.

Rien de plus simple que d’ accéder à ce modèle : connectez-vous sur https://chat.openai.com et sélectionnez GPT-4o. Ce modèle étant déployé de manière phasée vers les différentes catégories d’ utilisateurs, il est fort possible que ce modèle ne soit pas encore disponible pour vous. Dans ce cas, encore un peu de patience…

Figure 2 : Interface utilisateur GPT-4o

Mais alors quel avantage reste-t’ il pour les abonnés ayant souscrit à l’ abonnement ChatGPT+ qui coûte 20$/mois ? Le modèle sera soumis à des limites de nombre de questions dans le temps et cette limite (pas encore communiquée) sera cinq fois supérieure pour les utilisateurs ChatGPT+.

2. Multimodalité : audio et images

Le « o » dans le modèle GPT4o est une abréviation de « omni » et fait allusion aux compétences multimodales du nouveau modèle qui est capable de traiter nativement de l’ audio et des images en entrée et en sortie (pas la vidéo).

La capacité de traiter nativement la voix est intéressante et nous fait avancer sur la voix de l’ assistant personnel : pouvoir engager une conversation naturelle avec un assistant et recevoir une réponse sans délai, l’ interrompre en cours de conversation, lui demander de chanter ou le voir changer le ton de sa voix rendra l’ interaction beaucoup plus naturelle et représente un pas de plus vers des machines avec lesquelles nous interagissons comme avec les humains : en leur parlant.

Pour vous donner une idée de ce qui sera possible, voici une démonstration amusante des fonctionnalités audio avancées de GPT4o :

Démonstration des capacités verbales de ChatGPT-4o

Ces fonctionnalités multimodales ne sont cependant pas encore disponibles; OpenAI indique qu’ elles devront d’ abord faire l’ objet de vérifications de sécurité extensives. La voix est une manière essentielle de reconnaître un interlocuteur (pensez au téléphone) et il n’est pas difficile d’ imaginer les utilisations malfaisantes d’ un modèle de langage capable d’ imiter des voix à la perfection…..

Une remarque : Ne vous laissez pas abuser par le petit écouteur qui apparaît à droite de l’ app ChatGPT sur smartphone! S’ il permet de communiquer dès aujourd’ hui avec l’ application par la voix, le mécanisme actuel repose sur un chaîne de trois modèles utilisés séquentiellement :

  • un modèle audio-vers-texte (OpenAI Whisper);
  • le modèle ChatGPT en tant que tel (texte-vers-texte);
  • un modèle texte-vers-voix (OpenAI Text-To-Speech TTS).

Cela fonctionne, mais c’ est nettement plus lent et plus limité en termes de fonctionnalités, une grande partie de l’ information se perdant dans les transcodages successifs…Patience donc.

3. Agents GPTs

Autre nouveauté : les abonnés gratuits vont maintenant pouvoir utiliser les agents GPTs disponibles sur le GPT store, qui est accessible ici. Par contre, seuls les abonnés payants ChatGPT+ pourront créer de nouveaux agents GPTs et les publier sur le GPT store.

Figure 3 : page d’accueil du GPT Store

Les agents GPTs ne sont rien d’ autre que des versions de ChatGPT spécialisées à travers un prompt système et/ou puisant de l’ information dans des documents accessibles via la Récupération Augmentée de Génération (RAG). Les agents GPTs sont également capables d’ appeler des applications tierces via une interface de programmation.

Par exemple, j’ ai développé un agent GPT qui restructure l’ argumentation d’ un texte selon le Principe Pyramidal de Barbara Minto, un classique de la consultance en gestion. Vous pouvez l’ utiliser ici : Agent GPT Pyramidal.

J’ ai également développé trois agents GPTs à caractère éducatif que je présenterai dans un prochain article qui sera dédié à l’ impact de l’ IA générative dans l’ éducation.

Quoi qu’ il en soit, n’ hésitez pas à parcourir le GPT Store et à expérimenter.

4. Application desktop pour MacOS

Si vous possédez un ordinateur Apple récent (càd avec un processeur Apple M1 ou plus), OpenAI met maintenant à disposition une application qui permet d’ accéder à ChatGPT par une simple combinaison de touches. Une version Windows est en développement et sera disponible avant la fin de l’ année.

Voici une image provenant d’ OpenAI montrant l’ interface utilisateur de l’application :

Figure 4 : Interface utilisateur de l’ application native MacOS

L’ idée est intéressante car c’ est un premier pas vers un ordinateur pilotable par la voix. Avoir une interface conversationnelle immédiatement à disposition pourrait aussi marginaliser les engins de recherche en reléguant ces derniers à l’arrière-plan comme le fait Perplexity, un outil que je vous conseille vivement d’ essayer. Greffez ensuite la future interface vocale de GPT4o et vous avez tous les ingrédients d’ un excellent assistant personnel.

Quelques réflexions

Si le meilleur modèle est disponible pour tous, une grande partie de la valeur ajoutée de l’abonnement payant ChatGPT+ aura disparu. Et comme OpenAI veut certainement éviter une avalanche de résiliations des abonnements payants, je suis convaincu qu’ une autre annonce d’ OpenAI est proche et introduira un nouveau modèle plus puissant à la destination exclusive des abonnés payants. Cela semble logique : GPT-4o devient le nouveau GPT-3.5 « grand public » et le nouveau modèle, qu’il s’appelle GPT-4.5, GPT-5 ou autre chose devient le nouveau modèle « premium »…

OpenAI devra également tenir compte de la nouvelle législation européenne sur l’ IA parce que le modèle GPT4o pourrait potentiellement être utilisé pour la détection des émotions des personnes, une pratique interdite dans les lieux éducatifs et professionnels au termes de l’ European Union Artificial Intelligence Act.

Et pour remercier ceux qui ont lu jusqu’au bout, une petite vidéo à ne pas rater sur le sujet :

Sources et références

Mon intervention sur Bel RTL radio ce mardi 30 avril 11h au sujet de l’ Intelligence Artificielle

J’ai été interviewé ce mardi 30 avril à 11h sur Bel RTL Radio, pour échanger sur les impacts de l’Intelligence Artificielle dans nos vies quotidiennes. Mes remerciements vont à Valentin Delaisse pour m’avoir trouvé (!) et pour la préparation se l’interview, ainsi qu’ à Sophie Nollevaux pour la réalisation de l’ interview.

Vous trouverez ci-dessous les fichiers audio de mon intervention. J’ ai retiré les séquences musicales et publicitaires ce qui explique la segmentation en trois fichiers :

Les abonnés à mon blog retrouveront la plupart des thèmes qui me sont chers :

  • un rapide retour en arrière sur l’ histoire de l’IA;
  • une démystification de l’ IA générative;
  • les évolutions à attendre dans un avenir proche, notamment pour les particuliers;
  • l’ impact potentiel sur l’ emploi et l’ éducation;
  • une note optimiste pour clôturer ( je suis un incorrigible optimiste )

J’ ai trouvé l’expérience très enrichissante et agréable. En espérant que ce soit le début d’une longue carrière, après tout il n’ est jamais trop tard pour commencer…

A très bientôt !

Arnaud

Deux livres pour comprendre l’IA et explorer son potentiel

Je voulais attirer votre attention sur deux ouvrages récents que je considère très utiles pour une compréhension plus profonde de l’ Intelligence Artificiele et de ses enjeux. Understanding Deep Learning de Simon Prince et Co-Intelligence de Ethan Mollick offrent des perspectives complémentaires et profondément éclairantes sur ces thèmes. Ces livres permettent non seulement de démystifier les aspects techniques de l’ apprentissage profond, mais aussi de réfléchir à notre relation interactive avec l’ IA.

Figure 1 : couverture des deux livres

1. Understanding Deep Learning

Le livre Understanding Deep Learning de Simon Prince offre une introduction exhaustive et détaillée aux concepts fondamentaux de l’ apprentissage profond. Le texte est structuré de manière à couvrir les divers aspects de cette discipline en pleine expansion, allant de l’ apprentissage supervisé, non supervisé et par renforcement, jusqu’à l’ examen des implications éthiques de l’ IA.

Le traitement des réseaux neuronaux profonds est particulièrement détaillé. Prince examine comment les couches se composent pour former des architectures complexes et comment ces structures peuvent être optimisées pour diverses applications, en soulignant la différence entre les réseaux peu profonds et profonds. Les chapitres sur les fonctions de perte et les algorithmes d’ optimisation fournissent des bases essentielles pour comprendre comment les modèles sont entraînés.

Un autre point fort du livre est l’ exploration des réseaux convolutifs, essentiels pour les applications de traitement d’ images et de séquences temporelles. Les réseaux de type transformers, qui ont révolutionné le traitement du langage naturel, sont également détaillés, mettant en lumière des architectures comme BERT et GPT-3.

Le livre ne néglige pas les aspects théoriques plus avancés, tels que les flux de normalisation et les autoencodeurs variationnels, qui sont cruciaux pour comprendre les modèles génératifs contemporains. Prince aborde des applications pratiques tout en fournissant les bases mathématiques nécessaires à une compréhension profonde des mécanismes sous-jacents.

La partie finale du livre s’ interroge sur les raisons de l’ efficacité de l’ apprentissage profond et examine les débats en cours sur le nombre et la profondeur des paramètres requis par les réseaux neuronaux. En conclusion, il réaffirme l’ importance de l’ éthique dans la pratique de l’ IA, un sujet qu’il avait introduit au début de l’ ouvrage.

Ce livre se distingue par sa clarté et sa profondeur, rendant le domaine de l’ apprentissage profond accessible tout en offrant une richesse d’ informations techniques pour les praticiens et chercheurs expérimentés. Destiné à un public maîtrisant les sciences exactes et les mathématiques, ce livre constitue une ressource indispensable pour quiconque s’ intéresse ou travaille dans le domaine de l’ Intelligence Artificielle.

2. Co-Intelligence : living and working with AI

Le livre « Co-Intelligence: Living and Working with AI » d’ Ethan Mollick explore l’ intégration progressive de l’intelligence artificielle dans nos vies quotidiennes et professionnelles, et comment nous pouvons apprendre à cohabiter de manière efficace et éthique avec ces nouvelles formes d’ intelligence. Réparti en deux parties principales et un épilogue, le livre aborde les défis et les opportunités que cette coexistence engendre. Contrairement au premier livre, ce livre est accessible à tous les publics et ne nécessite aucune compétence technique particulière.

La première partie du livre s’ attarde sur la création et l’ alignement de cette forme d’ intelligence nouvelle et étrange que représente l’ IA. Mollick commence par discuter de la complexité inhérente à la création de ces intelligences non humaines, soulignant leur nature fondamentalement différente. Il propose ensuite des stratégies pour aligner les objectifs de l’ IA avec les valeurs humaines, un défi crucial pour éviter des conséquences imprévues. Il introduit également quatre règles pour une co-intelligence réussie : toujours inclure l’ IA dans les discussions, conserver l’ élément humain dans la boucle de décision, traiter l’ IA comme une personne à part entière, et partir du principe que l’ IA utilisée aujourd’ hui est la pire version à laquelle nous serons confrontés, impliquant une amélioration continue.

Dans la deuxième partie, Mollick examine les divers rôles que l’ IA peut jouer dans la société. Il souligne tout d’ abord les réactions étonnament humaines des modèles de langages, susceptibles de nous pousser à une certain anthropomorphisme. L’ IA en tant que créatif ouvre de nouvelles avenues dans les arts et la conception mais pose d’ épineuses questions jurdiques. L’ IA utilisée sur le lieu de travail soulève des enjeux autour de la collaboration et de l’ automatisation. L’ auteur explore ensuite l’ impact de l’ IA en tant que tuteur et coach, où elle peut personnaliser l’ apprentissage et offrir un soutien adapté aux besoins individuels.

À travers ce texte, Mollick offre une analyse approfondie et accessible des implications de vivre avec l’ IA. Il ne se contente pas de décrire les technologies actuelles, mais projette les lecteurs dans un futur proche où l’ IA est omniprésente et influente. En posant des principes de base pour une interaction saine et productive, Co-Intelligence: Living and working with AI sert de guide essentiel pour naviguer dans cette nouvelle ère technologique, soulignant la nécessité d’une approche réfléchie et éthique à l’ égard des technologies qui façonnent déjà notre monde.

Conclusion

Bien que Understanding Deep Learning et Co-Intelligence abordent l’IA sous des angles différents, ils sont fortement complémentaires. Alors que Prince nous fournit les outils pour comprendre le « quoi » et le « comment » des technologies, Mollick nous montre « avec qui » et « pour quoi » nous pourrions travailler main dans la main avec ces technologies. Ensemble, ces livres dessinent un tableau plus complet de l’ avenir de l’ intelligence artificielle, un avenir où la compréhension technique et la collaboration humaine se renforcent mutuellement.

Je vous en souhaite bonne lecture.

Référence des ouvrages

Modèles de langage et robotique

Depuis les années 70, les films de science-fiction mettent en scène des IA humanoïdes et des droïdes qui s’ occupent de toutes les tâches ménagères. Alors pourquoi n’ avons-nous pas encore tous notre propre C-3PO, et pourquoi semble-t-il que nous remplacerons les programmeurs avant d’ arrêter de faire la lessive ?

La réponse est que la robotique est un problème très difficile, au point d’ avoir poussé beaucoup d’entreprises à l’ abandon, à commencer par OpenAI en 2021. C’est ce qu’ explique Ilya Sutskever, CTO d’OpenAI dans cette vidéo.

Mais pourquoi est-ce si compliqué, que peuvent y faire les modèles de langage et à quoi faut-il s’attendre ? C’est ce que je me propose de vous expliquer dans cet article.

1. Le paradoxe de Moravec

La première difficulté de la robotique est illustrée par le paradoxe de Moravec. Il met en évidence la différence entre l’ intelligence humaine et l’ intelligence artificielle. Le paradoxe de Moravec se résume à l’ idée suivante : le plus difficile en robotique est souvent ce qui est le plus facile pour l’ homme.

En effet, des tâches sensorimotrices qui nous paraissent évidentes comme reconnaître un objet, attraper une balle, évaluer les émotions d’ autrui etc… posent de gros problèmes aux ordinateurs. A l’ inverse, les ordinateurs excellent dans certaines activités de pur raisonnement comme le jeu d’ échecs ou le choix du trajet optimal, activités que les humains considèrent comme intellectuellement exigeantes.

Ce paradoxe peut être expliqué par le fait que lorsque le cerveau humain maîtrise parfaitement une tâche, celle-ci ne s’ exécute pas consciemment, contrairement aux tâches mal maîtrisées. Ces tâches inconscientes ne sont donc pas cataloguées comme difficiles.

Une explication complémentaire est liée à la théorie de l’ évolution. Les tâches sensorimotrices, en tant que fonctionnalités biologiques anciennes, ont été perfectionnées par les mécanismes évolutifs durant des millions d’années. Les facultés de raisonnement, apparues très récemment sur le plan biologique, ne se sont pas encore autant perfectionnées, et c’ est pourquoi elles demandent encore un effort conscient significatif.

Dès lors, notre perception de la difficulté d’ une tâche cognitive n’ est pas objective…et il se fait que les tâches perceptuelles sont très complexes, mais la machine extrêmement puissante qu’ est notre cerveau effectue l’ essentiel du traitement à notre insu…le cerveau effectue environ 10^18 (c’est-à-dire un milliard de milliards) de calculs par seconde, toutes tâches confondues, et ce avec très peu d’ énergie ! Imiter tout cela est une entreprise colossale.

2. Le problème des données

L’ autre grand problème, ce sont les données : si les modèles de langage et d’ image peuvent s’ appuyer sur les vastes quantités de données disponibles sur Internet, la situation est tout à fait différente en robotique, qui ne peut se reposer sur rien d’ analogue.

En effet, les robots exhibent une grande variabilité dans leur morphologie, leurs capteurs et leurs actuateurs. Il n’ existe aucune forme de standardisation sur ces points ce qui signifie que les jeux de données sont difficilement transférables d’ un modèle de robot à l’autre…

De plus, les robots ont besoin d’ une interaction active avec leur environnement pour générer des données significatives. Les robots physiques doivent donc effectuer des tâches de manière répétée, ce qui entraîne des efforts de collecte de données chronophages et gourmands en ressources.

Ce manque de données pose de gros problèmes pour l’ entraînement des modèles destinés à contrôler ces robots. Mais les chercheurs ne baissent pas les bras et ont mis au point deux parades :

La première est la génération de données synthétiques : il s’agit ici de créer un simulateur logiciel de l’environnement qui va permettre de générer des jeux de données réalistes. Si vous avez déjà joué à un jeu vidéo immersif type Call Of Duty ou Minecraft vous voyez de quoi il s’agit… et comme l’environnement est entièrement sous contrôle, il est possible d’adapter les interactions aux actuateurs du robot. Un exemple de ce type de simulateur est IsaacSim de Nvidia :

L’ autre approche est de chercher à rendre les jeux de données de différents robots interopérables à travers une couche d’ abstraction qui isole le modèle IA des spécificités morphologiques du robot.

C’ est l’ approche poursuivie par la collaboration entre Google Deepmind et 33 laboratoires académiques à travers le projet Open-X Embodiment Dataset qui consolide les données d’ entraînement de 22 robots différents, démontrant plus de 500 compétences et 150 000 tâches à travers plus d’un million d’épisodes.

Cet ensemble de données est le plus complet de ce type dans le domaine de la robotique. L’ idée est de pouvoir utiliser ce jeu de données consolidé pour entraîner un modèle IA robotique généraliste qui pourra ensuite être adapté à la morphologie de chaque robot. C’ est ce que Google a fait, et, en utilisant ce modèle, Google a pu démontrer une amélioration de 50 % du taux de réussite en moyenne sur cinq robots différents couramment utilisés par rapport aux méthodes développées indépendamment et spécifiquement pour chaque robot. Encore plus intéressant, Google a pu établir que le transfert de connaissance d’ un modèle de robot à l’ autre fonctionnait, rendant le co-entraînement possible, ce qui offre de grandes perspectives pour l’ entraînement des futurs modèles robotiques.

3. Modèles et agents multimodaux

L’ approche traditionnelle en robotique est d’ utiliser un système de planification classique qui définit formellement chaque action et ses conditions préalables et prédit ses effets. Comme ces algorithmes spécifient de manière rigide ce qui est possible ou non dans l’ environnement, ces robots « traditionnels » sont souvent incapables de faire face à toute forme d’ imprévu, même après de nombreux cycles d’ essais et d’ erreurs.

Le champ d’ action de la robotique classique se limite donc à des environnements étroitement contrôlés permettant de suivre un script étroitement limité, en répétant de manière rigide les mêmes séquences d’ actions.

C’ est ici que les modèles de langage (LLM) interviennent avec leur large éventail de connaissances qui va de la physique quantique à la K-pop en passant par la décongélation d’ un filet de saumon. De leur côté, les robots ont ce qui manque aux LLM : des corps physiques capables d’ interagir avec leur environnement et de relier les mots à la réalité.

Il semble logique de connecter des robots sans esprit et des modèles de langage sans corps pour que le robot puisse agir comme les « mains et les yeux » du modèle, tandis que ce dernier raisonne, planifie et fournit des connaissances sémantiques de haut niveau sur la tâche.

Plus précisément, le modèle de langage au coeur du robot se comportera comme un agent qui cherche à exécuter une tâche de haut niveau qui lui est transmise par un humain.

Il s’appuiera pour cela sur des modèles multimodaux capables d’interpréter les images renvoyées par les caméras (et les autres capteurs éventuels dont il est équipé), ainsi que sur d’ autres modèles capables de transformer les instructions du modèle de langage en mouvements à travers l’ activation des servomoteurs dont les articulations sont munies.

De nombreuses architectures internes sont possibles. La figure ci-dessous en montre un exemple :

Figure 1 : Exemple d’ architecture interne d’un robot exploitant un LLM
(source : https://arxiv.org/pdf/2305.17066.pdf)

Le modèle de langage en bas à droite (« Brain ») joue le rôle de chef d’ orchestre. La partie « robotique » se trouve au centre et se compose des actuateurs (« Sensor & control ») et des caméras (« Eye »). Un modèle de langage séparé (« Nerve ») joue un rôle intermédiaire en interprétant les images et en fournissant un description textuelle de plus haut niveau au modèle « cerveau ». A noter que le modèle intermédiaire reçoit aussi les informations de position et de mouvement pour pouvoir interpréter plus facilement les images provenant des caméras…

Je voudrais clôturer cette description par un rappel de mes deux articles précédents parlant des agents et des modèles multimodaux et qui sont directement liés à ce qui précède.

4. Acteurs

Certaines entreprises se concentrent sur des robots spécialisés qui trient, prélèvent et emballent efficacement et peuvent remplacer les travailleurs des centres de traitement des commandes, tandis que d’autres, comme Tesla, tentent de mettre au point un robot humanoïde polyvalent.

Le grand avantage des robots anthropomorphes est qu’ ils peuvent implicitement utiliser l’ensemble des outils destinés aux humains (bref, tout).

Voici un petit tour d’ horizon des principaux acteurs qui développent des robots anthropomorphes généralistes et « intelligents » (c’est à dire basés sur un modèle IA généraliste) :

  • le projet GR00T de Nvidia :
  • le robot Tesla Optimus :
  • le robot Figure 01, qui utilise un modèle IA développé par OpenAI :
  • le robot Spot de Boston Dynamics :
  • le robot H1 de la société chinoise Unitree :

NB – Ne ratez pas la vidéo de Boston Dynamics, elle se passe dans la brasserie Stella Artois à Louvain !

5. Conclusion

Il suffit de voir les noms des acteurs ci-dessus pour se rendre compte que la course à la robotique est bel et bien lancée entre géants de la tech. Et la robotique, ce ne sont pas seulement des robots anthropomorphes, mais aussi les voitures autonomes, les drones, les robots agricoles….le potentiel pour certains secteurs comme l’ industrie, l’ agriculture et les soins de santé est énorme. Sans parler des applications militaires qui sont évidentes….

Encore faut-il que ces promesses soient réalisées. Si un modèle génératif type transformer est à la base de ces modèles, cela veut dire que le robot risque fort d’ hériter des défauts de ces modèles (fiabilité incertaine, hallucinations), mais un robot ou un véhicule qui hallucine représente un plus grand danger qu’un modèle conversationnel…

Toute cette complexité fait que la révolution robotique de masse n’ aura pas lieu avant quelques années, mais n’ en reste pas moins probable. Dans les 5 prochaines années, nous aurons peut-être des majordomes et des compagnons IA à l’ apparence humaine et à ce moment-là, nous aurons créé une nouvelle espèce…

Sources et références

Des modèles de langage aux modèles multimodaux

Les modèles de langage présentent de remarquables qualités. Leur capacité à analyser des demandes complexes en langage humain, qui provient de l’ entraînement sur les immenses volumes de données textuelles accessibles sur Internet, a suffi pour provoquer l’ enthousiasme. Cependant, ces algorithmes ne modélisent qu’une seule composante de la perception humaine : le texte.

Les modèles multimodaux visent à s’ affranchir de cette limite en traitant nativement différents types de données comme le texte, les images, les sons voire la vidéo (ce sont les modalités).

Les premiers modèles multimodaux sont déjà disponibles sur le marché: OpenAI combine ChatGPT4 avec GPT-4V (reconnaissance d’images), DALL-E 3 (genération d’image), Whisper (reconnaissance vocale) et TTS (synthèse vocale) pour répondre aux demandes utilisateur les plus variées. Google Gemini Ultra présente des capacités comparables, et Anthropic n’ est pas en reste puisque le nouveau modèle Claude 3 Opus mis sur le marché il y a deux semaines est également multimodal.

La nouvelle frontière est la vidéo. OpenAI a récemment révélé le modèle text-to-video Sora qui crée des vidéos d’ une durée maximale de 60 secondes sur base d’un simple prompt textuel. Regardez plutôt leur démonstration, elle est impressionnante :

Un mot de terminologie avant d’ entrer dans les détails : l’ acronyme décrivant les modèles multimodaux est LMM (en Anglais « Large Multimodal Models »), par opposition aux modèles de langage appelés LLM (« Large Language Models »).

L’ apprentissage par représentation

La sauce secrète qui permet aux modèles multimodaux de fonctionner est l’apprentissage par représentation. Il va transformer un concept présenté dans sa forme « humainement intelligible » en un vecteur, soit une séquence de nombres de taille fixe.

Dans le cas d’un modèle de langage, cette représentation fera correspondre chaque mot (ou plus précisément chaque token) à un vecteur. Ces vecteurs sont en général de grande dimension : on parle de 1536 et 3072 dimensions pour les deux modèles de représentation textuelle utilisés par OpenAI décrits ici.

Cette représentation est faite de manière à préserver la correspondance sémantique. En d’autres mots, la distance entre les vecteurs mesure leur proximité sémantique (les vecteurs pour ‘auto’ et ‘camionnette’ seront proches l’ un de l’ autre). Encore plus fort, les différences entre vecteurs correspondent à d’ autres concepts plus élémentaires : la différence entre les vecteurs « roi » et « reine » est proche de celle entre les vecteurs « homme » et « femme » !

Figure 1 : Représentation de l’espace des vecteurs lexicaux
(source : https://www.pinecone.io/learn/vector-search-basics/)

Cette notion de représentation se trouve au coeur du fonctionnement de tous les modèles de langage génératifs, qui ne sont ni plus ni moins que des machines à prolonger des séquences de vecteurs. Au coeur du modèle de langage se trouve l’ algorithme appelé transformer dont l’ action peut se résumer comme suit :

  • Représenter le texte en entrée en une séquence de vecteurs;
  • Transformer la séquence de vecteurs à travers différentes opérations mathématiques qui vont enrichir et combiner les vecteurs de la séquence de mots de l’ invite pour en créer de nouveaux;
  • Répéter l’ action précédente un certain nombre de fois, jusqu’ à obtention d’ une séquence finale de vecteurs;
  • Utiliser cette séquence finale « enrichie » de vecteurs pour prédire le prochain vecteur de la séquence et donc le prochain mot;
  • Recommencer tout le processus en ajoutant le mot prédit à la fin de la séquence ce qui permettra de prédire le mot suivant etc…

Outre les modèles génératifs, la technique de la représentation textuelle facilite grandement le traitement du language : la recherche textuelle, le regroupement et la classification de texte deviennent beaucoup moins mystérieux lorsqu’ on réalise qu’ on peut les exécuter sur des vecteurs.

Encore plus fort, imaginez avoir appris une représentation pour l’ ensemble du vocabulaire français. Et une autre représentation pour l’ Allemand, mais dans une espace de même dimensionalité… vous pouvez alors définir une transformation entre les espaces vectoriels qui va permettre de passer d’une langue à l’autre !

Différentes modalités de représentation

Ce qui est vrai pour le texte s’ applique aussi aux images et aux sons. Moyennant un volume de données d’ entraînement suffisant, il est possible de définir une représentation des images, qui fera elle aussi correspondre à chaque image une représentation dans un espace vectoriel.

Comme pour le texte, le vecteur capturera le contenu visuel de l’ image qui pourra être utilisée pour diverses tâches de vision automatisée : détection d’ objets, classification d’ images, reconnaissance faciale, recherche d’ image par similarité…

Concrètement, cela signifie que les images contenant des voitures seront représentées par des vecteurs similaires, tout comme celles qui contiennent des chiens, des bâtiments ou tout autre objet matériel. Idéalement, la dimensionalité du vecteur sera suffisante pour modéliser des situations visuelles complexes contenant plusieurs objets et tenant compte de leur positionnement respectif et d’ autres caractéristiques apparaissant sur l’ image.

Et ce qui est possible pour les images l’ est aussi pour les sons. Les représentations sonores capturent le contenu sémantique et contextuel de fichiers audio: la prononciation du mot voiture ainsi que le bruit d’ une voiture qui démarre seront liés dans l’ espace vectoriel par une relation de proximité.

Figure 3 : Représentation vectorielle de l’audio
(source : https://people.csail.mit.edu/weifang/project/spml17-audio2vec/)

Il ne reste plus qu’ à mettre tout cela ensemble. Nous disposons maintenant d’ un mécanisme pour encoder des données provenant de différentes modalités dans un espace vectoriel de représentation unique et multimodal.

Figure 4 : Représentations multimodales
(source : https://www.pinecone.io/learn/vector-search-basics/)

La dernière étape consiste à intégrer cela dans un modèle, en général de type transformer qui va chercher à prédire le prochain vecteur; vous disposez alors d’ un modèle multimodal qui peut s’ appuyer sur toutes les sources d’ informations disponibles pour générer les données en sortie dans le format désiré.

Figure 5 : Modèle génératif multimodal complet
(source : https://medium.com/@cout.shubham/exploring-multimodal-large-language-models-a-step-forward-in-ai-626918c6a3ec)

Une petite remarque est que le modèle multimodal idéalisé « bout à bout » que je viens de décrire n’ existe probablement pas encore. Les modèles multimodaux actuels comme ceux d’ OpenAI, de Google ou d’ Anthropic sont vraisembablement construits comme un assemblage de différents modèles, à savoir un modèle de langage unimodal qui coordonne et fait appel à d’autres modèles « transmodaux » en fonction des besoins : par exemple, ChatGPT+ fera appel à DALL-E 3 si l’ utilisateur veut générer une image (text-to-image), ou à GPT4-V si une image doit être interprétée (image-to-text) etc…on se retrouve donc plutôt aujourd’hui dans un scénario multiagent comme décrit dans mon article précédent accessible ici.

Applications et perspectives

Les LMM présentent un grand attrait pour l’ automatisation des soins de santé, où les données patient se retrouvent dispersées à travers du texte manuscrit ou digital, de l’ imagerie voire des rapports d’ analyse de laboratoire sous forme de données tabulaires. La radiologie est souvent citée en exemple puisque sa matière première est l’ imagerie (scanner, IRM, radios…), mais rien n’ empêche d’ entraîner un LMM à recevoir et interpréter d’ autres signaux comme ceux d’ un électrocardiogramme.

Un autre domaine où la multimodalité jouera un rôle essentiel est la robotique où l’ on va chercher à donner aux robots des capacités de percevoir et d’interagir avec leur environnement. La consolidation de ces informations visuelles, auditives et textuelles dans un modèle unique permettra au robot de naviguer et d’ agir plus efficacement sur le monde extérieur.

Le grand défi de la multimodalité, notamment pour la robotique, est l’ intégration de la vidéo dans la chaîne multimodale. Les grands acteurs du secteur planchent dessus.

Google possède un avantage important dans ce domaine puisque Youtube est une de ses filiales. Avec plus de 500 heures de nouvelles vidéo sont publiées chaque minute sur Youtube, cette chaîne constitue un excellent réservoir de données pour l’ entraînement des futurs modèles multimodaux vidéo.

Pour conclure, l’ apprentissage multimodal profond est un domaine passionnant et en pleine évolution qui recèle un grand potentiel pour faire progresser la vision par ordinateur et d’ autres domaines de l’ intelligence artificielle.

Bien que l’ apprentissage multimodal présente des difficultés, notamment la nécessité de disposer de grandes quantités de données d’ entraînement et la difficulté de fusionner des informations provenant de modalités multiples, les progrès récents des modèles d’ apprentissage profond permettent d’ améliorer considérablement les performances dans toute une série de tâches.

C’ est un domaine à suivre avec attention en 2024, qui pourrait bien être l’ année des LMM tout comme 2023 a été celui des LLM.

Sources et Références

Les agents intelligents

Les modèles de langage sont souvent perçus comme d’ excellents générateurs de texte. Cet engouement pour les capacités littéraires des modèles ne doit cependant pas faire oublier que leur vraie promesse se situe dans leurs capacités cognitives plus abstraites comme le raisonnement et la planification.

Ces dernières sont encores imparfaites mais les progrès constants dans le domaine laissent entrevoir un nouveau domaine d’ application aux possibilités presque infinies : les agents.

Les êtres humains sont remarquables dans leur capacité à absorber constamment de nouvelles informations, prendre des décisions, exécuter des actions, puis observer l’ impact de ces actions pour prendre de nouvelles décisions. Notre vie peut se voir -de manière un peu réductrice- comme un cycle sans fin d’ observations, de raisonnements et d’ actions.

L’ idée des agents est précisément de mettre en place des cycles similaires au coeur desquels on trouve un modèle de langage à la place d’ un être humain. Cet agent interagira avec l’environnement soit de manière physique (robotique, véhicule autonome…), soit de manière informatisée (appels de fonction via interface de programmation).

1. Composants d’un agent

Au cœur de l’ agent intelligent se trouve le modèle de langage, un élément crucial qui analyse les situations et suggère des actions. Ce modèle est soutenu par une variété de modules qui facilitent sa communication avec l’extérieur.

Pour tirer pleinement parti de ses capacités, le modèle de langage doit être sollicité de manière précise, une pratique connue sous le nom de prompt engineering. À travers des consignes méticuleusement élaborées, on définit l’ identité, l’ expertise et la conduite du modèle, en y intégrant contexte, paramètres et parfois des indications sur le rôle spécifique à jouer dans des simulations multi-agents, un sujet dont nous reparlerons plus bas.

La capacité de raisonnement du modèle repose sur une connaissance approfondie du monde, structurée autour de trois piliers :

  • la connaissance générale, acquise lors de l’ entraînement initial sur un vaste corpus textuel, fournit une base solide;
  • la connaissance spécialisée, qui vient enrichir la base générale avec des notions, des méthodes de raisonnement et un vocabulaire spécifique au domaine d’ application;
  • la connaissance procédurale, qui équipe le modèle des savoirs nécessaires pour agir sur l’ environnement extérieur, comme connaître et comprendre les paramètres des interfaces de programmation.

Ces connaissances sont transmises au modèle via diverses techniques de mémorisation, telles que le contexte des prompts, la récupération augmentée de génération (RAG) et l’affinage. Pour en savoir plus sur ces méthodes, je vous renvoie à mon article précédent, disponible ici.

Figure 1 : Architecture d’un agent IA

Dans la grande majorité des cas, l’ agent comprend également une interface utilisateur, permettant une interaction directe avec l’ humain pour recevoir des missions, rapporter les résultats, poser des questions ou fournir des mises à jour intermédiaires.

Enfin, les interfaces de programmation (API) constituent un élément clé, permettant au modèle d’ interagir avec le monde extérieur. Elles peuvent servir de sources d’ information ou de moyens d’ action, comme l’ accès à des moteurs de recherche en ligne ou à des plateformes de commerce électronique pour effectuer des réservations ou passer des commandes.

2. Exemples d’ application

Après avoir exploré l’architecture de l’agent, intéressons-nous à certains cas d’ application emblématiques :

Prenons d’ abord l’ exemple de l’ agent de programmation, qui illustre parfaitement l’ utilisation des capacités des modèles de langage dans le domaine informatique. Voici comment il opère : un utilisateur soumet une requête de programmation au modèle, qui génère ensuite du code. Ce code est exécuté dans un environnement dédié, et le modèle reçoit en retour le résultat de cette exécution, ou un message d’ erreur si le programme ne fonctionne pas comme prévu. Le modèle peut alors renvoyer le code généré à l’ utilisateur, ou le retravailler et le soumettre à nouveau, jusqu’à obtenir un résultat satisfaisant.

Figure 2 : Agent de programmation

Approfondissons l’ idée pour construire un processus professionnel de développement logiciel, où divers acteurs jouent des rôles spécifiques : directeur, responsable produit, architecte technique, chef de projet, développeur, testeur… Imaginez maintenant que chaque poste est occupé par un modèle de langage spécialisé, interagissant entre eux selon un processus établi jusqu’ à la livraison finale du produit. Il suffirait de fournir une description de haut niveau au « directeur IA » et de laisser le processus se dérouler de manière autonome, aboutissant à la création d’ un produit fini.

Figure 3 : Processus de développement logiciel MetaGPT

Cette vision avant-gardiste est au cœur des systèmes multiagents. MetaGPT, comme décrit précédemment, simule un tel processus de développement logiciel, une approche pouvant être étendue à de nombreux autres scénarios dès lors qu’une structure organisationnelle et un processus existent.

Pour illustration, voici une vidéo de l’utilisation de MetaGPT pour développer automatiquement un jeu de snake :

Passons à une autre idée brillante, cette fois dans le domaine de l’ interaction avec le monde extérieur : la plupart des applications informatiques avec lesquelles nous interagissons utilisent une interface graphique qui répond à des principes relativement uniformes : barre de menus, boutons, utilisation de la souris pour cliquer sur les zones à sélectionner etc…. la technique d’interaction avec ces interfaces peut être apprise à un modèle de langage capable d’ interpréter les images (comme GPT4 ou Gemini Pro).

Le modèle pourra alors interagir de manière « généraliste » avec de nombreuses applications utilisateur moyennant quelques informations complémentaires comme le mode d’ emploi des applications. La puissance de cette approche ne doit pas être sous-estimée : des milliers d’ applications interactives deviennent ainsi directement accessibles au modèle, multipliant d’ autant sa capacité d’action.

Cette idée a donné naissance au Rabbit r1, la grande révélation du CES à Las Vegas qui s’ est tenu en janvier. Ce petit appareil révolutionnaire contient simplement un micro et un haut-parleur permettant à l’ utilisateur de donner des instructions vocales à un modèle de langage qui va directement interagir avec de nombreuses applications mobiles….

Pour plus d’informations, voici un lien vers la présentation officielle du Rabbit r1 :

3. Risques

Pouvoir agir directement dans le monde réel offre bien sûr un grand potentiel mais présente aussi des risques significatifs. Détenir une telle capacité d’action peut provoquer des dommages involontaires. Un scénario trivial verrait un agent placer une réservation ou une commande erronée par internet…

Plus préoccupant, il est possible d’ imaginer des agents volontairement construits à des fins nuisibles. Le hacking autonome illustre bien ce risque : un agent disposant d’ une large bibliothèque d’ outils de hacking pourra sonder sa cible informatique, choisir les outils les plus appropriés voire les adapter pour en maximiser l’ impact, puis engager un scénario d’ attaque complexe afin d’ atteindre les buts spécifiés par le hacker : prise de contrôle de la machine, destruction ou vol de données, déni de service etc….

Ce risque n’ est pas que théorique : des chercheurs ont montré qu’ une telle approche fonctionne et est capable de hacker efficacement des sites web.

4. Conclusion

Comme vous pouvez le voir, les agents IA présentent d’ énormes potentialités, et il y a gros à parier que 2024 verra de nouveaux développements dans ce domaine…

Mais c’ est surtout en conjonction avec les nouveaux progrès attendus comme la multimodalité que les agents pourront montrer toute leur puissance. Imaginez ce que pourrait faire un agent capable d’ interpréter à la fois le son, les images et le texte de manière consolidée…

Il ne reste qu’ à placer le modèle dans un robot et lui donner la capacité d’ agir sur les actuateurs (bras, mains, jambes) et vous possédez un robot avec des capacités tout à fait inédites. Ce n’ est pas pour rien que plusieurs géants de la tech (dont Tesla) se sont récemment lancés dans la réalisation de robots humanoïdes…

Le grand bémol à toutes ces promesses reste la tendance des modèles à halluciner. Ne pas pouvoir faire totalement confiance aux informations issues du modèle est un souci gérable dans un scénario conversationnel, un utilisateur averti en valant deux. Mais un agent IA agissant directement sur le monde extérieur sans validation humaine présente un risque bien plus grand. Cette contrainte pourrait bien voir le déploiement d’agents limités à des scénarios d’ utilisation subalternes et inoffensifs.

Comme souvent, difficile de faire des prédictions. Le tableau des agents IA est contrasté. Les promesses sont importantes mais les risques aussi.

Notes et références

« Older posts Newer posts »