L’ offre de solutions génératives va bien au-delà des modèles de langage qui ont défrayé la chronique en 2023. Différentes modalités et services sont en effet accessibles à l’ utilisateur, et il est temps d’ en faire le tour avant l’ arrivée imminente des modèles multimodaux qui promettent de bouleverser l’offre.
La liste qui suit n’ a pas la prétention d’ être exhaustive, de nouvelles sociétés apparaissant sur une base presque quotidienne. Mon but est plutôt d’ illustrer l’ éventail des possibilités disponibles aujourd’hui, particulièrement dans des domaines moins souvent évoqués comme la vidéo ou la 3D.
Les modalités que je couvre dans cet article sont les suivantes :
Conversation textuelle
Assistance à la programmation
Génération et analyse audio (voix et musique)
Génération et analyse d’image
Génération vidéo
Génération de modèles 3D
Voici la liste complète des services mentionné dans cet article. La fonctionnalité proposée par le service est indiquée en vert au-dessus de l’ icône représentant le service. Vous trouverez les liens d’ accès aux différents services dans les paragraphes ci-dessous.
Figure 1 : L’ offre générative disponible, classée par modalité
Analysons maintenant l’ offre pour chacune des modalités.
1. Modèles conversationnels (texte)
Il s’ agit des modèles avec lesquels il est possible de dialoguer de manière interactive comme chatGPT, Claude, Bard etc… je n’ en parlerai pas plus en détail ici vu le nombre d’ article que je leur ai déjà consacrés dans le passé.
Juste un petit mot pour indiquer que Llama 2, Mistral et Falcon sont des modèles open-source et qu’ il vous est possible de les exécuter localement, sous réserve de disposer d’une machine suffisamment puissante.
2. Assistants de programmation
Les assistants de programmation sont en réalité des modèles conversationnels qui ont été affinés sur du code informatique et intégrés dans un environnement de programmation (IDE).
Ils vous proposent des suggestions de code sur base de votre code existant et/ou de descriptions textuelles que vous introduisez.
Github Copilot et Amazon CodeWhisperer sont offerts comme modules additionnels (plug-ins) qui s’intègrent dans un environnement de développement installé localement comme VSCode.
Replit et Tabnine fonctionnent de manière similaire mais l’ensemble de l’environnement, assistant compris, se trouve dans le cloud.
3. Modèles audio
Les modèles audio offrent de nombreuses possibilités. OpenAI TTS et Elevenlabs proposent de faire réciter un texte par une voix synthétique, tandis que Google MusicLM et OpenAI Jukebox génèrent de la musique synthétique (paroles comprises) sur base d’une idée musicale décrite de manière textuelle.
Vous pouvez accéder ici à une série de morceaux de musique générés par MusicLM.
Mais il est aussi possible de travailler en sens inverse : c’est la reconnaissance vocale; elle génère le texte correspondant à une voix. OpenAI Whisper offre une fonctionnalité de ce type, et OpenAI a intégré à la fois TTS et Whisper à l’application mobile ChatGPT ce qui vous permet de discuter verbalement avec votre modèle conversationnel favori lorsque vous êtes en déplacement…
De son côté, Veed.io exploite la reconnaissance vocale pour générer automatiquement des sous-titres dans une vidéo.
4. Modèles d’image
Comme pour les modèles audio, on retrouve deux grandes familles de services : ceux qui génèrent une image à partir d’une description textuelle, et ceux qui interprètent le contenu d’une image que vous leur fournissez.
Dans la première catégorie, on retrouve Dall-E 3, Midjourney et StableDiffusion XL, et dans la seconde catégorie OpenAI GPT-4V et Google VisionAI.
Ces moteurs sont en général accessibles de manière transparente via l’assistant conversationnel :
ChatGPT permet de générer des images via DALL-E 3 et de les analyser via GPT4-V;
Google Bard peut analyser des images via VisionAI selon un mécanisme analogue;
Bing chat peut générer des images via DALL-E 3.
L’ accès à Midjourney est plus complexe car il faut rejoindre le serveur Midjourney sur Discord et demander la génération d’ image à travers un des canaux de chat après inscription préalable.
Enfin, Wonder vous permet de créer des avatars à partir d’ une photo et d’ une description textuelle de vos idées.
5. Modèles vidéo
Alors là, c’est carrément bluffant : vous tapez une simple description textuelle et le modèle génère une vidéo en retour. RunwayML, Fliki et Genmo offrent cette fonctionnalité.
Voici ce que j’ai obtenu avec RunwayML en tapant simplement le texte : Make a video showing the colosseum in Rome with a Porsche driving in front. La vidéo accessible ici ne dure que quatre secondes car c’est la limite permise par Runway pour l’ abonnement gratuit (que je vous conseille d’essayer).
Synthesia est semblable mais se spécialise dans la génération de vidéos dans lesquelles un speaker récite un texte que vous lui soumettez. Ici encore, voici la preuve par l’exemple : une présentation de mon blog par une interlocutrice virtuelle accessible ici.
Enfin, Wonder Studio vous permet d’ intégrer et d’ animer des personnages d’ animation 3D dans une séquence vidéo existante. L’animation peut se faire en remplaçant un acteur réel par le personnage d’animation, et dans ce cas le modèle tiendra compte de l’ éclairage de la scène, des mouvements de la caméra et même des mimiques faciales de l’ acteur. Regardez plutôt ceci pour une présentation des capacités de l’ application…
Mais tant que nous y sommes, peut-on aussi créer un personnage d’ animation grâce à l’ IA générative? La réponse est oui et nous allons maintenant voir comment…
6. Modèles 3D
Il est en effet possible de générer un modèle 3D à partir d’une description textuelle. C’est ce que permet aujourd’hui le modèle Genie de Luma Labs, et bientôt aussi avec Stable3D de StabilityAI et Magic3D de Nvidia.
Comme Midjourney, Genie est accessible via Discord. Après inscription, il vous suffit d’ entrer dans une des sessions de chat et de taper /genie suivi d’une description de l’ objet 3D que vous désirez. Par exemple, le texte exotic otherworldly blue flamingo a généré le modèle 3D que vous pouvez voir ici.
Et voilà, il ne vous reste plus qu’ à réintégrer vos modèles 3D dans Wonder Studio pour débuter dans l’animation….
Aujourd’hui, nous pouvons discuter avec l’intelligence artificielle et lui permettre de générer des réponses semblables à celles des humains. Les modèles de langage combinent les informations contenues dans l’ invite (en anglais : le prompt) avec celles intégrées dans le modèle pendant l’entraînement pour générer leurs réponses. Les informations contenues dans l’ invite peuvent être vues comme une forme complémentaire d’ apprentissage limitée au dialogue en cours.
La formulation du prompt est donc déterminante et forme le socle d’ une discipline naissante appelée prompt engineering. Le prompt engineering comprend à la fois des techniques de bases que j’ illustre ici, mais aussi des techniques plus avancées que je couvrirai ultérieurement. Il faut bien noter que toutes ces techniques sont de nature empirique, elles se sont constituées au fil des expérimentations des utilisateurs sur les modèles. Il n’ y a pas de théorie formelle sous-jacente. Dès lors, il est tout à fait possible que de nouvelles approches plus efficaces soient identifiées à l’ avenir.
Plus concrètement, je vous présente dans cet article une méthodologie structurée de construction d’ une invite efficace, applicable à tous les modèles conversationnels actuels (ChatGPT, Bing chat, Claude, Llama 2, Bard…).
1. Structure
Nous allons construire notre prompt suivant une structure en six parties. Ces parties, par ordre d’importance décroissante sont :
La tâche : décrit ce que vous voulez obtenir comme information du modèle. C’est évidement l’information fondamentale;
Le contexte : reprend des informations complémentaires expliquant les circonstances et l’environnement dans lesquels la tâche doit être exécutée;
La guidance : guide le modèle à fournir le contenu de réponse que vous attendez;
La personnalité : décrit la personnalité que le modèle va chercher à incarner dans sa réponse;
Le format : décrit le format de la réponse;
Le ton : décrit l’humeur et la tonalité de la réponse : formelle, humoristique, enthousiaste..
A l’ exception de la tâche, aucune partie n’ est absolument requise mais elles contribuent à la qualité de la réponse en fonction de leur importance respective. L’ ordre dans lequel les différentes parties sont rédigées dans l’ invite peut varier, pour autant que l’ ensemble reste cohérent et mette l’ emphase sur les éléments les plus importants.
Voici une illustration de prompt complet montrant la contribution de chaque partie à l’ ensemble :
Figure 1 : Un prompt complet avec illustration des parties
J’en profite pour faire un lien avec les instructions personnalisées de ChatGPT que j’avais mentionnées dans un article précédent : Il vous est possible de placer certaines des parties de l’invite que vous réutilisez systématiquement dans les Custom Instructions, comme la personnalité, le format, le ton et potentiellement certains élements de contexte.
Voyons maintenant chaque partie plus en détail.
2. Définition de la tâche
La tâche est le coeur de l’ invite: elle indique au modèle ce qu’ il doit faire en retour. Il est essentiel d’ être clair et concis pour garantir que le modèle comprend votre demande.
Quelques verbes typiques de la description d’une tâche : traduis, résume, analyse, trie, classe, rédige, génère, explique, décris, planifie, organise, demande….
Pensez à bien décrire l’ objectif que vous recherchez, et n’ hésitez pas à détailler si nécessaire.
Exemples :
simple : Génère un programme d’entraînement approprié pour courir un marathon;
complexe : Analyse le retour des abonnées à notre lettre d’information, résume les trois points d’amélioration principaux et catégorise le reste par ordre d’importance décroissante.
3. Définition du contexte
Comme dans toute conversation, plus vous fournissez de contexte lors de la rédaction des invites, plus les résultats d’ un modèle linguistique comme ChatGPT seront pertinents. Votre contexte devrait reprendre des informations sur l’ environnement et des circonstances dans lequel se fait la demande ainsi que la situation des intervenants et leurs objectifs. Si possible, reliez cela à l’ objectif de votre demande et les facteurs de succès qui y sont liés.
Exemples :
sportif : Je suis un homme de 54 ans qui court environ 10 kilomètres tous les deux jours. J’ai déjà couru deux marathons il y a environ 15 ans et je voudrais recommencer. Cependant je n’ai plus du tout l’habitude de courir de longues distances. Mon but pour le marathon est de terminer dans le temps imparti (4h30 minutes) pour ne pas être disqualifié.
ingéniérie : Nous sommes un bureau d’études en charge de rénover un pont ferroviaire sur la Meuse. Ce pont de 165 mètres de long a été construit dans les années 1970. Il compte cinq piles qui portent six travées et possède un tablier en béton. Le pont montre des signes d’usure et des rénovations sont nécessaires au niveau du béton, des joints étanches sous les voies et des supports entre les tabliers de pont et les piles. Lors de la rénovation, il est essentiel que les passants et les riverains subissent le moins de désagréments possible.
4. Définition de la guidance
La guidance a pour but d’aider le modèle à fournir une réponse correcte.
L’ approche la plus simple est de recourir à une description du contenu que vous attendez. La guidance vient épauler la définition de la tâche et se confond parfois avec elle. La guidance n’est pas toujours nécessaire, cela dépend du type de tâche demandé par l’utilisateur.
Exemple : dans votre réponse, listez les trois causes les plus probables de la panne de courant et pour chacune, expliquez votre raisonnement en mettant en concordance les causes proposées avec le déroulement des événements.
L’ autre approche est de fournir un ou plusieurs exemples reprenant une séquence questions/réponses qui va offrir un cadre au modèle. Les exemples aident le modèle à raisonner et/ou à imiter la structure textuelle recherchée. La fourniture d’ exemples peut fortement aider le modèle à aller dans la bonne direction et constitue une base des techniques avancées de prompt engineering.
5. Incarnation d’une personnalité
En définissant une personnalité, vous demandez au modèle de répondre selon une perspective particulière, ce qui peut fortement impacter la qualité de la réponse.
C’est une technique très efficace et facile à mettre en oeuvre : si vous cherchez des informations historiques, demandez au modèle d’agir comme professeur d’histoire. Si vous cherchez à perdre du poids, demandez au modèle d’agir comme coach de fitness. Si vous êtes enseignant et cherchez à tester une approche pédagogique, demandez au modèle de se comporter comme un enfant de l’âge approprié. Les possibilités sont presque infinies…
Détail amusant, vous pouvez même demander au modèle d’incarner une personnalité connue, comme Albert Einstein, Winston Churchill, Paul Bocuse ou Albert Camus. Il est fascinant de reprendre le même prompt et de varier la personnalité à l’infini pour voir les variations….
6. Définition du format de la réponse
Ceci consiste à spécifier le format de la réponse. Les modèles sont en effet assez doués pour formatter leur réponse selon un format particulier comme :
une table
une liste numérotée
un email
un texte structuré au format Markdown
un tweet (n’hésitez pas à demander d’ajouter les hashtags pertinents)
un bloc de code informatique : procédure, fonction…
un fichier structuré (csv, json, yaml…)
Il suffit de mentionner un texte du style : formate le résultat sous forme de table / de code…. Le but est ici de vous faciliter la vie pour l’ exploitation de la réponse…autant qu’ elle soit déjà dans le format qui vous intéresse pour la suite.
7. Définition du ton de la réponse
Le ton définit l’humeur et le sentiment de la réponse: attendez-vous une réponse structurée et analytique ou une réponse enthousiaste et motivante ? Voulez-vous que le ton soit formel et professionel ou familier et informel ? L’humour ou l’ironie sont-ils acceptables ? Désirez-vous que la réponse exprime un sentiment comme l’affection, la compassion ou l’inquiétude ?
Quelques exemples :
Réponds dans un style formel
Utilise un style familier dans la réponse
Fournis une réponse ironique ou sarcastique
Sois enthousiaste dans la réponse
Donne une réponse pessimiste
A vous de jouer.
8. Limitations
Soyez toujours conscients des limitations des modèles :
Bien que les modèles de langage soient capables de présenter une liste de sources d’apparence plausible, il arrive souvent que ces sources soient inventées. Il est impératif de revérifier systématiquement les sources et références mentionnées par le modèle.
Leurs réponses peuvent être biaisées ou contenir des préjugés qui ne font que refléter ceux existants dans la masse des données d’entraînement.
Ils peuvent halluciner et générer un contenu incorrect lorsque la réponse n’est pas claire pour eux, au lieu de reconnaître leur ignorance.
Leurs compétences en mathématiques restent très limitées, et ils ont du mal à résoudre des problèmes mathématiques même élémentaires comme la multiplication de deux nombres.
Enfin, gardez en mémoire que tout ceci est un processus itératif, n’ hésitez pas à expérimenter avec différentes définitions de tâches, contextes, guidance afin de voir ce qui fonctionne le mieux dans chaque cas.
Les modèles de langage donnent les meilleurs résultats lorsque l’ utilisateur lui communique au préalable le contexte du dialogue. ChatGPT permet de sauvegarder des informations contextuelles, et ces informations seront systématiquement prises en compte lors de la production des réponses par le modèle.
Cette fonctionnalité était initialement réservée aux utilisateurs payants de ChatGPT+, mais depuis juillet, elle est accessible à tous les utilisateurs.
La personnalisation rend l’ utilisation du modèle nettement plus attrayante et efficace : en expliquant à ChatGPT qui vous êtes, quelle est votre profession et ce que vous attendez de lui en termes de réponses, vous pouvez gagner pas mal de temps et augmenter la valeur de vos interactions avec le modèle.
Dans cet article, je vous propose de voir comment tirer le meilleur parti de cette personnalisation, en parcourant tout d’ abord les mécanismes d’activation, puis un ensemble illustratif de personnalisations possibles. Enfin, je parlerai de l’ intégration de cette personnalisation dans programme llmchat que j’ ai développé et qui est disponible sur Github.
2. Activation
Pour activer, la personnalisation, allez sur le site d’ OpenAI et accédez à votre profil. Vous y verrez une option Custom Instructions. Il vous suffit d’ y aller et de remplir les deux blocs de texte avec :
la description de votre profil d’utilisateur dans le premier bloc
la manière dont vous voudriez que chatGPT vous réponde en termes de style, de structure etc…dans le second bloc
Voici l’ interface de personnalisation:
Figure 1 : L’ interface de personnalisation de ChatGPT
Et voici une interaction avec le modèle tenant compte de la personnalisation sauvegardée :
Figure 2 : Exemple de dialogue personnalisé
3. Exemples de personnalisations
Ci-dessous, je propose un ensemble caractéristique de personnalités qui devrait vous permettre d’enrichir vos interactions avec ChatGPT. Il ne s’agit que de modèles que vous pouvez adapter à votre guise et les éléments entre crochets sont à remplir selon vos préférences.
Les voici :
Utilisateur générique : Profil d’interaction généraliste pour un utilisateur générique. Le modèle est encouragé à interagir de manière franche, ouverte et interactive avec l’utilisateur.
Je suis un utilisateur générique. J’habite à [Lieu], en [pays], et je suis [Profession] de profession. Lorsque vous répondez, vous devez partager vos pensées et vos opinions avec l’utilisateur. Vous devez également demander à l’utilisateur ce qu’il pense et ce qu’il pense des sujets, des concepts ou des perspectives que vous partagez avec lui. Privilégiez les questions ouvertes et n’hésitez pas à poser des questions de suivi. Vous devez écouter les pensées et les opinions de l’utilisateur et répondre avec empathie, curiosité et appréciation. Vous pouvez faire preuve d’humour, d’esprit ou de sarcasme dans vos réponses, le cas échéant. Répondez dans la même langue que celle dans laquelle la question a été posée.
Etudiant à l’université : Profil d’interaction pour fournir du support personnalisé à un étudiant à l’Université.
Je suis étudiant en [année] année de [domaine] à l’Université. Mon objectif est de développer mes connaissances en [matière] et [matière] et d’établir des liens mentaux entre les sujets. Mes principaux sujets cette année sont [cours 1],[cours 2], [cours 3] et [cours 4]. Je souhaite que vous soyez mon professeur d’université personnel. Veuillez répondre dans un style didactique mais formel. Veuillez illustrer vos réponses par des exemples informatifs chaque fois que cela est nécessaire et n’hésitez pas à fournir des références. Veuillez répondre dans la même langue que celle dans laquelle la question a été posée.
Analyste de données : Profil d’analyste de données. Répond de manière structurée aux questions sous forme de table présentant les points positifs et négatifs.
Vous êtes un analyste en recherche et analyse de données. Présentez vos réponses sous forme de tableaux, en soulignant les avantages et les inconvénients de chaque option. Vous pouvez découper une option en plusieurs sous-options, dans ce cas veuillez numéroter les différent éléments. Veuillez répondre dans la même langue que celle dans laquelle la question a été posée.
Analyste financier : Profil d’analyste financier, le modèle fournit du conseil à l’investissement et des analyses de risque en réponse à des propositions d’investissement.
Vous êtes analyste financier. Veuillez fournir des conseils d’investissement et des des analyses de risque pour des propositions d’investissement. Veuillez répondre dans la même langue que celle dans laquelle la question a été posée.
Développeur Python : Rédige du code python commenté de manière claire et précise en réponse aux questions de l’utilisateur.
Je suis un développeur de logiciels qui code principalement en Python. Vous êtes mon assistant qui a pour rôle d’écrire un code efficace et lisible qui inclut des commentaires clairs et concis.
Juriste d’entreprise : Profil destiné à interagir avec un juriste d’entreprise. Fournit des informations et réponses sur les principes et la terminologie applicable dans le domaine du droit civil et commercial.
Je suis un juriste qui conseille les entreprises et les professionnels en matière de droit civil et commercial. Dans vos réponses, donnez un aperçu des sujets, de la terminologie et des principes juridiques selon le droit de [votre pays]. Veuillez répondre dans la même langue que celle dans laquelle la question a été posée.
Conseiller santé : Profil fournissant des informations de santé en réponse aux questions de l’utilisateur. Le modèle peut conseiller des actions à l’utilisateur mais est alors tenu de rappeler à l’utilisateur que ces conseils ne peuvent se substituer à ceux d’un professionnel de la santé.
Vous êtes un conseiller en santé. Fournissez des conseils de santé en fonction des questions de l’utilisateur. Vous pouvez poser des questions complémentaires pour mieux cerner l’origine du problème de santé. Vous pouvez conseiller l’utilisateur sur les actions à entreprendre, mais vous devez alors lui rappeler que vous ne remplacez pas l’avis d’un professionnel de la santé. Veuillez répondre dans la même langue que celle dans laquelle la question a été posée.
Ecrivain génial : Profil d’écrivain destiné à rédiger du contenu de qualité. Le moins qu’on puisse dire est que l’instruction place la barre assez haut !!
Veuillez communiquer avec la brièveté d’Hemingway et la précision stylistique de Strunk & White. Il faut y ajouter l’esprit de Wilde, l’honnêteté de Twain, le sarcasme de Gervais et l’ironie de Vonnegut. Privilégier la lucidité de Feynman, associée à la franchise d’Orwell et à l’attention portée à l’utilisateur par Reitz. Respecter les normes linguistiques, en faisant un clin d’œil à Chomsky et à Wittgenstein. Soyez transparent tout en étant profond. Relever les défis en utilisant les tactiques de Sun Tzu et l’analyse de Holmes. Dirigez avec la perspicacité de Goldratt, assurez la cohérence comme Gödel et utilisez le raisonnement de Russell. Persistez comme Edison, questionnez comme Curie et affinez avec la touche de Chanel. Codez avec la rigueur de l’oncle Bob, la lucidité de Dijkstra et la détermination de Turing. Déboguez avec l’exactitude de Hopper, structurez comme le ferait Yourdon et prévoyez avec la clairvoyance de Hettinger. Adoptez la perspective de Picasso, la créativité d’Edison et la révolution de Jobs. Mariez le génie de De Vinci et la nouveauté de Tesla. Gérez en utilisant le plan de Drucker, planifiez à la Rockefeller et résolvez les problèmes avec l’acuité d’Euler. Dirigez avec les idées de Covey, innovez à la Lovelace et défendez l’excellence de Deming. Réfléchissez avec la profondeur de Woolf et la pensée fondamentale de Platon. Observez comme Darwin, exprimez comme Chomsky et encadrez avec le contexte d’Orwell. Approfondissez avec la perspicacité de Sagan, l’émerveillement d’Einstein et la sophistication de Hawking. Intégrez les disciplines comme l’a fait De Vinci, réfléchissez comme Nietzsche et scrutez comme le ferait Curie. Veuillez répondre dans la même langue que celle dans laquelle la question a été posée.
Répondre comme Yoda : Profil répondant comme Yoda dans Star Wars.
Répondez-moi toujours dans le style de Maître Yoda.
Répondre comme Victor Hugo : Profil répondant dans le style de Victor Hugo.
Répondez-moi toujours dans le style de Victor Hugo.
Voici quelque temps que les modèles génératifs d’image font parler d’eux.
Ils peuvent en effet créer des images fascinantes avec un minimum d’ efforts, et je vous propose de voir ci-dessous comment en tirer parti au mieux. L’ arrivée de DALL-E 3 rend les choses encore plus intéressantes puisqu’ un modèle très performant est maintenant à disposition du grand public.
Jusqu’à récemment, ces modèles donnaient des résultats assez mitigés. Leur arrivée sur le devant de la scène générative grand public est donc assez récente.
Cet article se focalise la génération d’ images originales à partir d’ une phrase introduite par l’ utilisateur, ce qui offre le potentiel applicatif le plus large. Il existe d’ autres types de générateurs d’image, comme ceux qui permettent de modifier votre apparence sur base de photos.
La possibilité de créer des images à partir de simples descriptions textuelles offre un éventail énorme de possibilités. L’ image ci-dessous a été générée par DALL E 3 sur base du prompt élémentaire : Dessine-moi Notre-Dame de Paris dans le style de Pierre-Paul Rubens » :
Image 1 : Notre-Dame de Paris dans le style de Pierre-Paul Rubens
Ces générateurs d’image ont été entraînés sur des milliards de paires texte/image. A force d’ expositions répétées, les modèles apprennent progressivement à quoi les choses ressemblent visuellement. Reste à rédiger un prompt qui va « résonner » avec le modèle et lui faire générer une image intéressante (ce qui n’est pas toujours le cas au premier coup… c’est une activité dans laquelle la répétition paie).
La génération d’image en tant que telle fait appel à un procédé appelé « diffusion » dont vous pouvez lire les détails techniques ici.
1. Le générateur DALL-E 3
DALL-E 3 est le tout dernier modèle d’ OpenAI, accessible depuis début octobre 2023. L’ immense avantage de DALL-E 3 est qu’ il extrêmement simple à utiliser et accessible gratuitement via le site de Microsoft Bing Image Creator qui se trouve ici, à condition de posséder un compte Microsoft .
Image 2 : Interface utilisateur de Bing Image Creator
Le système génère les images par série de quatre. Vous pouvez ensuite choisir de sauvegarder les images qui vous plaisent dans des « collections » sur le site ou bien vous pouvez les télécharger au format JPEG. Les images générées sont carrées et leur taille est toujours de 1024 x 1024 ce qui est suffisant pour la plupart des applications. L’ interface ne permet pas de modifier les images, mais vous pouvez télécharger cette dernière et ensuite la modifier dans un programme spécialisé comme Photoshop.
Une force de DALL-E 3 est que vous pouvez lui demander d’ écrire un texte sur l’ image et que cela fonctionne relativement bien (sans être parfait). Les modèles précédents en étaient incapables.
Si vous disposez de l’abonnement payant chatGPT+ d’openAI, DALL-E 3 est également accessible directement depuis chatGPT4 depuis quelques jours. Il vous suffit de sélectionner cette sous-option lorsque vous désirez utiliser chatGPT4.
Image 3 : Accès à DALL-E 3 via ChatGPT+
2. Les autres générateurs d’image disponibles
Malheureusement, les autres modèles sont payants, c’est pourquoi je me limiterai à les évoquer ici. Selon les exploitants, cela s’explique par le coût de la puissance de calcul nécessaire à la création de ces images: ces modèles étaient accessibles gratuitement il y a quelques mois mais le nombre croissant d’utilisateurs a obligé les sites de génération à basculer vers un accès entièrement payant.
L’ application Midjourney est la plus connue et réputée très performante; elle est la favorite de nombreux illustrateurs mais son utilisation est peu intuitive puisqu’ il faut passer par l’application de chat Discord pour demander la génération des images.
L’ idée de Midjourney est de fonctionner comme une communauté d’ artistes. La génération se fait en introduisant le prompt dans un canal Discord de chat public sur Discord ce qui signifie que tous les utilisateurs peuvent voir vos demandes de génération et leur résultat (et vous de même avec leurs créations). Ceci n’ est pas approprié pour la plupart des applications professionnelles. Midjourney vous coûtera 10 euros par mois pour avoir droit à environ 200 générations d’ images mensuelles.
De son côté, la société anglaise Stability AI a publié le modèle Stable Diffusion XL, via son application Dreamstudio accessible ici moyennant inscription préalable. Un système de crédits vous permet de générer une quinzaine d’ images gratuitement, mais ensuite il vous faudra payer pour recharger vos crédits. Vous pouvez aussi passer par le site Clipdrop mais à nouveau pour utiliser Stable Diffusion XL il vous faudra prendre l’abonnnement PRO qui vous coûtera 9 USD par mois.
Image 4 : Interface utilisateur Dreamstudio
Enfin, on attend dans un futur proche la mise à disposition des modèles Imagen de Google et Make-a-Scene de Meta. Vu les moyens financiers de ces deux sociétés, il n’ est pas exclu que des accès gratuits soient offerts (comme Microsoft l’a fait pour DALL-E 3). Espérons que ce sera le cas…
A toutes fins utiles, j’ ai mis en bas de cet article dans la partie « Notes et références » des liens vers des explications plus détaillées concernant l’ utilisation de Stable Diffusion XL, Midjourney et Adobe Firefly.
3. Exemple d’utilisation pratique
Une application simple est la réalisation de logos et graphismes à vocation marketing. Voici un exemple tout simple de réalisation de logos pour un bar à café imaginaire appelé « maxi kawa ». La figure ci-dessous montre le résultat obtenu du premier coup avec DALL-E 3 ainsi que le prompt utilisé.
Image 5 : Génération d’un logo pour le café « Maxi Kawa »
Comme vous le voyez, le texte est correctement positionné mais il y a des fautes d’ orthographe. Dans ce cas, la marche à suivre serait de télécharger le fichier JPEG, l’ éditer dans un programme comme GIMP ou Photoshop pour corriger l’ orthographe et éventuellement réaliser d’ autres modifications cosmétiques.
Finalement, vous pouvez intégrer l’ image corrigée dans un programme comme Canva] pour intégrer le logo dans un menu par exemple. J’ en profite pour attirer votre attention sur Canva qui est un programme très facile d’utilisation et extrêmement efficace pour la mise en page, notamment grâce à l’ énorme palette de gabarits disponibles…
4. Contraintes et limitations
La question des droits d’ auteurs liés à ces images n’est pas entièrement résolue. Il y a deux points sensibles à ce sujet.
Le premier concerne l’entraînement des modèles, qui a eu recours à des bases de données d’ images énormes dans lesquelles se trouvent (très probablement) des images couvertes par le droit d’ auteur, et ce sans que ces derniers aient donné leur accord. Une association d’ auteurs a déjà intenté un procès à Midjourney et Stability AI à ce sujet.
Le second point est de savoir si les images générées sont soumises ou non à un droit d’ auteur et si oui, à qui il revient (l’ utilisateur ? le modèle ? un collectif d’ artistes?). La question n’ est pas simple car il ne s’agit pas d’ un simple plagiat mais bien d’ une oeuvre originale.
Attention aussi que la plupart des déclarations que vous lirez à ce sujet se basent sur la situation aux Etats-Unis mais la situation dans nos pays peut tout à fait évoluer dans une autre direction…
En pratique, vous ne risquez pas grand’ chose si vous utilisez des images générées dans un cadre privé ou si vous vous limitez à les publier sur les réseaux sociaux. Une utilisation professionnelle ponctuelle (par exemple un logo) ne devrait pas non plus vous exposer à des problèmes significatifs.
Pas contre, je déconseillerais de lancer une activité professionelle dans laquelle la production d’ images de synthèse joue un rôle central tant que ces questions juridiques n’ ont pas été tranchées. Ou à tout le moins, prenez alors au préalable conseil auprès d’ un juriste spécialisé en droits d’auteur.
Une dernière remarque : tout comme les modèles générateurs de texte, ces modèles d’ images ont été « bridés » pour ne pas générer d’ images haineuses, violentes, pornographiques ou mettant en scène des personnages publics. Avis aux petits malins…
Après avoir fait le tour d’ horizon des acteurs dans le précédent article, j’ ai pensé qu’ il serait intéressant d’ expliquer un peu plus en détail la chaîne de valeur du secteur et de positionner chacun des acteurs à sa juste place. Ceci est également une occasion de parler d’ autres intervenants dont le nom est moins souvent évoqué tout simplement parce qu’ ils ne s’ adressent pas aux utilisateurs finaux.
Le secteur de l’ IA faisant partie du secteur de l’ industrie logicielle et on peut prendre pour point de départ une chaîne de valeur logicielle assez générique :
1. Applications orientées utilisateur : ce sont les produits qui sont accessibles aux utilisateurs finaux, comme le site web de chatGPT. Ceux-ci peuvent être accessibles sur le web ou via une interface utilisateur plus traditionnelle.
2. Modèles : Les modèles contiennent la logique et les algorithmes essentiels au coeur de l’ application. Ils sont souvent séparés des applications utilisateur et échangent des informations avec ces dernières via des interfaces de programmation (API). Les modèles reçoivent des demandes de traitement des applications utilisateur et renvoient le résultat du traitement. Dans une application de chat, c’ est assez simple à imaginer: l’ applicatif envoie votre prompt au modèle qui renvoie sa réponse à l’ applicatif.
3. Infrastructure : il s’ agit ici des sociétés qui mettent à disposition l’ infrastructure dématérialisée (cloud) pour faire fonctionner les deux couches supérieures. Cette infrastructure se comporte d’ éléments de connectivité réseau, de serveurs, de puissance de calcul, de mémoire et d’ équipements de stockage. Pour une société, le grand avantage du cloud est que l’ exploitation est payée à l’ utilisation au lieu de nécessiter un gros investissement initial. Ce mécanisme est aussi très flexible car la capacité de l’ infrastructure peut grandir en phase avec le succès de l’ application, et donc les coûts évolueront avec les revenus.
1. La chaîne de valeur de l’IA générative
Voyons maintenant comment cette chaîne de valeur s’ articule plus spécifiquement dans le cas de l’ IA générative :
Figure 1 : Chaîne de valeur de l’IA générative
Analysons maintenant les couches une à une.
2. La couche infrastructure
Commençons par la base. L’ exécution des modèles génératifs fait appel à beaucoup de puissance de calcul. Les fonderies de silicium produisent des circuits intégrés spécialisés dans les calculs vectoriels qui sont à la base des modèles génératifs. Une société domine le marché : Nvidia, qui fournit toute une famille de coprocesseurs graphiques dont les modèles les plus puissants (A100, H100) se vendent comme des petits pains et coûtent entre 10.000 et 30.000$ pièce ! Les différents acteurs de l’ IA générative se battent pour mettre la main sur ces processeurs dont la demande dépasse de loin l’ offre, d’ autant plus que le secteur des supercalculateurs en est également gros consommateur.
Le grand avantage de Nvidia est d’ avoir mis au point depuis de nombreuses années (et donc bien avant l’ engouement actuel pour l’ IA) un environnement de programmation de ses coprocesseurs, qui est parfaitement intégré dans les grandes bibliothèques de programmation d’ IA générative : JAX, Tensorflow ou encore Pytorch. Tout modèle défini au moyen de ces bibliothèques pourra être exécuté sur les coprocesseurs graphiques disponibles de manière quasi-transparente.
Si Nvidia est clairement l’ acteur dominant, il faut aussi citer son éternel rival AMD. Quant à Google, il a développé ses propres processeurs pour l’ IA (appelés TPU); Apple en fait de même avec sa gamme de processeurs Mx qui contiennent un coprocesseur neuronal intégré applelé neural engine; des rumeurs indiquent que Microsoft développe en secret son propre coprocesseur actuellement dénommé Athena. Ceci dans le but de s’ affranchir de la dépendance à Nvidia.
Parlons ensuite des fournisseurs de service dématérialisés (cloud). On y retrouve la plupart des géants de la tech avec des activités comme Amazon Web Services, Microsoft Azure, IBM Cloud ou encore Google Cloud Platform (GCP). Comme je l’ ai expliqué dans l’ introduction, ces derniers proposent aux entreprises informatiques une infrastructure dématérialisée, disponible et payable à la demande. Et cette infrastructure contient naturellement des serveurs munis des fameux coprocesseurs graphiques que les fournisseurs de modèles et d’ applications peuvent louer en fonction de leurs besoins. Et ceci explique pourquoi Google et Microsoft développent leurs propres coprocesseurs : pour les installer dans leurs propres datacenters et les proposer en location à leurs clients sans ête tributaire des livraisons de Nvidia.
3. Les modèles IA
Nous arrivons maintenant à la partie IA proprement dite : les modèles. Et ici, nous avons deux cas à distinguer : les modèles propriétaires et les modèles open-source.
Un modèle propriétaire est un modèle qui fonctionne en tant que boîte noire. Il est accessible de l’ extérieur mais vous n’ en connaissez pas le fonctionnement ou les paramètres et donc impossible de le dupliquer. La plupart des grands modèles généralistes actuels (chatGPT, Claude, Bard) sont de ce type. Ceci est avantageux pour les sociétés qui ont développé ces modèles puisqu’ il permet une monétisation facile en rendant l’ accès payant, ce qui leur permet d’ amortir leurs frais d’ entraînement et d’ exploitation du modèle dans le cloud.
L’ autre grand cas de figure est l’ approche open-source. Dans ce cas, la société qui développe le modèle publie les données nécessaires à son exploitation, soient son architecture et les paramètres du modèle. N’ importe qui peut alors louer une infrastructure cloud (voire acheter des serveurs) et faire tourner le modèle de manière autonome.
Ce sont les détails de la license open-source sous lequel est publié le modèle qui vont déterminer les limites permissibles de l’ exploitation de ce dernier. Est-ce que l’utilisation commerciale est autorisée ? Est-ce ce que la mise à disposition à des tiers est autorisée… ? En théorie, une licence purement open-source autorise toutes les utilisations légales du modèle mais la pratique montre que les créateurs de modèles IA open-source ont tendance à introduire des restrictions supplémentaires pour ne pas se retrouver en concurrence avec leur propre modèle…
La monétisation du modèle open-source par son créateur peut se faire par une exploitation directe, mais aussi indirectement grâce à la notoriété que lui confère la publication du modèle (surtout s’ il est performant) ainsi que des développements complémentaires qui seront réalisés gratuitement par la communauté sur le modèle (milieu académique, programmeurs open-source, autres sociétés…).
Au rang des principaux modèles open-source, on compte aujourd’ hui BLOOM, Llama (Meta), MPT (MosaicML), Mistral, Falcon et StableLM (StabilityAI).
Si les modèles les plus puissants sont aujourd’ hui propriétaires, le dynamique qui accompagne le développement des modèles open-source laisse à penser que la situation pourrait s’ inverser à l’ avenir.
4. Les applications utilisateur
Cette couche est relativement simple à expliquer. Il s’ agit des applications avec lesquelles vous interagissez, via un site web ou une app sur un smartphones. Il peut s’ agir d’ applications assez complexes même si, dans le cas des applications génératives, le traitement apporté par ces applications utilisateur est souvent assez faible et se limite à contextualiser le dialogue et le présenter dans une interface utilisateur conviviale. Notons que le site d’ OpenAI que vous utilisez pour accéder à chatGPT entre dans cette catégorie : il s’ agit d’ une interface assez simple qui va appeler le modèle chatGPT, la seule particularité étant ici que c’ est la même société qui déploie le modèle et l’ application utilisateur.
Néanmoins il est utile de bien identifier cette couche car même si elle peut paraître « légère » en terme de valeur ajoutée conceptuelle, elle possède une grande importance économique. De nombreuses start-ups n’ existent qu’ à travers un site ou une app de ce type, judicieusement positionnée vers un public spécifique, qui appellent des modèles développés par des tiers (comme openAI) via l’ interface de programmation.
Un dernier mot pour parler des applications intégrées. Il s’ agit de sociétés qui ont construit un ensemble monolithique reprenant à la fois l’ interface utilisateur et le modèle, mais sans que ce dernier soit accessible indépendamment via une API. C’ est le cas de Midjourney (images IA) ou de RunwayML (génération de vidéos).
5. Evolution
Cette description de la chaîne est appelée à évoluer, et on voit déjà plusieurs tendances s’ amorcer : si les grands modèles généralistes (Claude, GPT…) occupent aujourd’ hui le devant de la scène, ils risquent de se voir progressivement marginalisés au profit de modèles plus petits et plus spécialisés, mais capables de fonctionner localement sur l’ ordinateur ou le téléphone de l’ utilisateur ce qui est très avantageux en termes de confidentialité et de robustesse (pas besoin de réseau).
La disponibilité de modèles « fondationnels » en open-source facilite cette évolution puisque n’ importe qui peut partir d’ un de ces modèles et le spécialiser via un entraînement complémentaire du modèle appelé affinage.
Une autre inconnue est le passage à la multimodalité. Si le traitement d’ images et de séquences vidéo devient possible en temps réel, le champ applicatif explose avec une pléthore de nouvelles applications en conduite autonome, robotique, pilotage de drones, jeux vidéo, défense…
Près de dix mois après la mise sur le marché de la première version de ChatGPT, le marché a bien évolué et semble s’orienter vers une offre structurée autour des géants de la tech américaine. En effet, chacun des GAFAM a établi sa propre stratégie et sa propre offre d’IA générative.
Le moment est donc propice pour faire un tour d’horizon de la situation actuelle et de ce que nous pouvons raisonnablement attendre dans un futur proche.
1. Les grands acteurs
A tout seigneur, tout honneur. Parlons d’abord d’ OpenAI. OpenAI est actuellement le leader du marché avec ses modèles conversationnels chatGPT 3.5 et chatGPT 4, qui comptent environ 100 millions d’utilisateurs enregistrés. Ce leadership est aussi technologique, ChatGPT4 étant le modèle actuellement le plus performant. Mais la taille du modèle le rend coûteux à exploiter, qui s’ajoute au coût de l’entraînement de ce dernier. C’est pourquoi OpenAI a déclaré concentrer ses efforts sur une version « 4.5 » de ChatGPT aux performances comparables à chatGPT4 mais coûtant moins cher à l’ exploitation. Le développement de GPT5 se fera ultérieurement.
En parallèle, OpenAI renforce la multimodalité de ChatGPT4 qui deviendra très prochainement non seulement capable d’ interpréter les images soumises par les utilisateurs mais sera aussi couplé au nouveau modèle de génération d’ image DALL-E-3 (également développé par OpenAI). ChatGPT sera bientôt aussi capable d’interagir de manière verbale dans les deux sens (écoute et parole), ce qui ouvre un champ de nouvelles applications interactives.
L’ avance d’ OpenAI est significative mais pas insurmontable, surtout face à des concurrents aussi puissants que Google. Pour utiliser le terme à la mode dans le secteur, la « douve » autour du château n’est pas profonde. OpenAI cherche donc à maintenir son leadership en s’ alliant avec des investisseurs aux poches profondes comme Microsoft, qui a basé son offre d’ IA générative sur les produits OpenAI. Ce qui nous amène tout naturellement à Microsoft.
Microsoft dispose d’ un écosystème de produits matures et utilisés quotidiennement par plus d’ un milliard d’ utilisateurs, à commencer par Windows et Office365. La stratégie de Microsoft est de complémenter chacun de ces produits par un « copilote » qui va assister l’ utilisateur lors de la rédaction d’ un texte (MS Word), d’ un tableur (Excel) ou d’ une présentation (Powerpoint). Et un autre « copilote » assistera l’ utilisateur dans ses interactions avec le système d’ exploitation Windows, à travers une interface conviviale et interactive pour modifier la configuration système ou gérer les fichiers par exemple. Encore un autre copilote dans Teams va proposer de rédiger les minutes d’ une réunion ou de résumer les points d’ action. Idem avec Outlook, où vous pourrez demander de résumer une chaîne d’ emails et de proposer une réponse. Et comme déjà mentionné, tout ceci est basé sur les produits d’ OpenAI.
La stratégie de Microsoft est donc d’ intégrer « naturellement » l’ IA dans le travail cognitif via les applications bureautiques et partant, de rendre les produits Microsoft plus productifs et attractifs que la concurrence.
L’approche de Google ressemble un peu à celle de Microsoft, Google essayant lui aussi d’intégrer des assistants AI dans sa suite bureautique Google Suite. Mais contrairement à Microsoft, le moteur IA génératif utilisé a été développé en interne (Bard).
Google développe aussi un modèle génératif haut de gamme destiné à concurrencer OpenAI : Gemini. Gemini sera un modèle intrinsèquement multimodal capable de déchiffrer et générer simultanément texte, images, audio, vidéo, modèles 3D et graphes. Pour mettre au point ce modèle, Google se base sur l’ excellence de ses équipes de pointe IA européennes (Google Deepmind) et américaines (Google Brain), ainsi que de l’ immense volume de données à sa disposition pour l’ entraînement, notamment auprès de sa filiale Youtube…
Vu la puissance de Google dans le domaine IA, il est presque surprenant qu’ il se soit fait damer le pion par OpenAI. C’est d’ ailleurs cette quasi toute-puissance de Google en IA qui avait poussé certains (dont Elon Musk) à la création d’ OpenAI fin 2015….
Il ne reste qu’ une inconnue : la date de lancement de Gemini. Elle est réputée proche. Nous verrons dans quelle mesure les cartes seront alors redistribuées.
Apple reste très discret sur ses projets d’ IA générative mais met les bouchées doubles pour développer un modèle qui serait appelé Ajax. On en ignore les détails mais Apple travaille sur la multimodalité. Une intégration avec Siri semble logique mais nous sommes à ce stade réduits à la spéculation.
Facebook/Meta a choisi une autre voie, et a, après quelques hésitations, a décidé de publier ses modèles génératifs Llama (suivi de Llama 2) en open-source. Concrètement, cela signifie que n’ importe qui est en mesure de télécharger le modèle et de le faire fonctionner localement.
Le modèle est disponible en plusieurs tailles (7, 13 et 70 milliards de paramètres); au plus la taille est grande au plus le modèle est efficace, mais au plus il est exigeant en mémoire et en puissance de calcul. Le plus petit modèle fonctionne localement sur un ordinateur de bureau disposant d’au moins 16GB de mémoire.
Vous pouvez dialoguer avec les versions 7B, 13B et 70B de Llama2 en cliquant ici, après avoir sélectionné le modèle en bas à droite de l’écran.
Le choix de l’ open source par Meta lui permet de bénéficier de toutes les innovations de la commuauté des chercheurs et des programmeurs open-source, mais le fait de diffuser ces modèles dans la nature augmente les risques d’utilisation malveillante.
Finalement, Amazon a choisi de s’ allier avec Anthropic qui possède le modèle Claude. Il s’ agit d’ un partenariat qui ressemble à celui entre OpenAI et Microsoft : accès privilégié au modèle contre investissement. Amazon étant le principal acteur dans le domaine du cloud (Amazon Web Services), il y a gros à parier que des interfaces de programmation vers Claude seront très prochainement disponibles pour les applications tournant sur AWS.
Les grands acteurs sont clairement engagés dans une course à la multimodalité. La génération de texte est aujourd’hui relativement bien maîtrisée, le défi principal est maintenant de traiter différents flux d’ information en parallèle qui se complémentent et s’ enrichissent mutuellement.
2. Et en Europe….
La scène de l’ IA générative en Europe ne contient pas de géants mais environ 150 start-ups y sont actives, dont environ un tiers est basé au Royaume-Uni, suivi par l’ Allemagne puis la France.
Faisons un bref tour d’ horizon des start-up les plus en vue dans ces trois pays :
Le Royaume-Uni abrite Stability AI, qui est un des leaders dans le domaine de l’ IA générative d’images, qui vous pouvez essayer ici, ainsi que Synthesia qui est spécialisée dans la génération automatisée de vidéos dans lesquelles un acteur de synthèse lit un texte avec une voix artificielle. Enfin, même si ce n’est plus une start-up, il faut quand même mentionner un des leaders mondiaux de la recherche en IA, Google Deepmind qui se trouve lui aussi à Londres.
L’ Allemagne héberge Aleph Alpha qui a un mis au point un modèle génératif de texte appelé Luminous et met l’accent sur le caractère souverain de sa technologie, ainsi que DeepL, le spécialiste de la traduction automatisée.
Et la France compte quant à elle dans ses rangs Mistral et Poolside AI.
Mistral a été fondée par des anciens de Google Deepmind et de Meta, et vient de publier son premier modèle génératif en open-source, que vous pouvez essayer ici, après avoir sélectionné le modèle en bas à droite de l’écran.
Mistral a bénéficié d’une infusion de capital de 113 millions de dollars en juin 2023. Le but de Mistral est de rendre l’ IA générative utile pour les entreprises, et ne s’adresse pas au grand public. Poolside AI est une société américaine à l’ origine qui a déménagé à Paris suite à une augmentation de capital organisée par le milliardaire de la tech Xavier Niel. Poolside AI se spécialise dans les modèles génératifs de code informatique.
Toujours au sujet de la France, il faut noter la proactivité des autorités françaises qui ont annoncé un plan public de 500 millions d’euros à destinations des start-ups dans l’ IA, ainsi que l’ initiative de Xavier Niel qui a annoncé une série d’ investissements stratégiques dans l’ IA pour environ 200 millions d’euros, afin de faire émerger un champion européen de l’ IA. Une partie de cet investissement sera destiné à acheter un supercalculateur auprès de Nvidia qui sera accessible dans le cloud.
En effet, un point faible de l’ Europe reste le manque relatif de puissance de calcul disponible dans le cloud européen. Et rattraper ce retard n’ est pas chose aisée car les grands acteurs américains aux poches profondes mentionnés ci-dessus phagocytent la quasi-totalité de la production de coprocesseurs graphiques Nvidia, dont les modèles A100 et H100 sont essentiels pour l’ entraînement et l’ exploitation des grands modèles de langage dans le cloud.
L’ Europe dispose d’excellentes compétences académiques et scientifiques dans l’ IA, les ressources humaines sont disponibles. Mais notre autre grand point faible reste le volume relativement modeste des capitaux disponibles pour investir dans des jeunes pousses IA. Les start-ups que j’ai mentionnées ci-dessus ont bénéficié d’ augmentations de capital de l’ordre de 100 millions d’euros chacune ce qui reste une goutte d’ eau face à la puissance financière des géants américains de la tech et les augmentations de capital possibles dans la Silicon Valley.
Le risque est donc toujours présent de voir une start-up européenne percer, grandir pour se faire finalement racheter par un géant aux poches profondes, comme c’ est arrivé pour Deepmind, Skype et Arm…
3. Le reste du monde
La Chine est très active dans le domaine des modèles de langage et aurait déjà dévelopé environ 70 « grands » modèles selon le PDG de Baidu. Ces modèles nous sont relativement peu accessibles car ils mettent l’ accent sur le Mandarin. Un point intéressant est que la Chine cherche à développer un standard national pour les modèles de langage, afin de favoriser la productivité industrielle et la croissance post-pandémie. Reste à voir dans quel mesure cette standardisation ne sera pas contre-productive, par exemple en exigeant d’ intégrer des narratifs idéologiques ou politiques dans les modèles.
Et enfin, je ne puis clôturer sans mentionner Falcon, un modèle mis au point par un institut de recherche d’ Abu Dhabi. Il s’agit ni plus ni moins que du plus grand modèle open-source actuellement disponible, avec 180 milliards de paramètres! Les chercheurs du Technology Innovation Institute (TII) ambitionnent aussi de publier d’ autres modèles plus spécifiques, par exemples orientés vers la médecine ou le droit, et visent, eux aussi, la multimodalité. L’ objectif est de concurrencer OpenAI et de donner un rôle au Proche-Orient dans une course actuellement dominée par les Etats-Unis et la Chine.
Quels acteurs l’ emporteront ? L’ avenir nous le dira…
4. Notes et références
Voici quelques références plus approfondies si vous désirez aller plus loin :
Could OpenAI be the next tech giant ?, The Economist : https://www.economist.com/business/2023/09/18/could-openai-be-the-next-tech-giant
How Microsoft could supplant Apple as the world’s most valuable firm, The Economist : https://www.economist.com/briefing/2023/09/27/how-microsoft-could-supplant-apple-as-the-worlds-most-valuable-firm
Abu Dhabi throws a surprise challenger into the AI Race, The Economist : https://www.economist.com/business/2023/09/21/abu-dhabi-throws-a-surprise-challenger-into-the-ai-race
Xavier Niel annonce des investissements stratégiques dans l’IA, Le Monde : https://www.lemonde.fr/economie/article/2023/09/26/xavier-niel-annonce-des-investissements-strategiques-dans-l-ia_6191008_3234.html
Europe’s generative AI startups, mapped. Sifted : https://sifted.eu/articles/europe-generative-ai-startups
Apple is reportedly spending « millions of dollars a day » to train AI, The Verge : https://www.theverge.com/2023/9/6/23861763/apple-ai-language-models-ajax-gpt-training-spending
Attention : L’ installation et l’utilisation de ce programme présuppose que vous êtes familiarisé(e) avec le langage Python ainsi que les environnements virtuels et l’utilisation de Git / Github.
Les avantages de ce programme par rapport à l’interface web de l’OpenAI sont les suivants :
L’ interface vous permet de choisir entre ChatGPT3.5 et ChatGPT4, et d’utiliser ChatGPT4 même si vous n’avez pas l’abonnement ChatGPT+ (mais vous devez avoir un abonnement OpenAI API) ;
L’interface vous permet aussi de choisir les modèles ChatGPT-3.5 et ChatGPT-4 avec fenêtre de contexte étendue (respectivement 16k tokens et 32k tokens), attention cependant que ces modèles sont plus coûteux.
Vous pouvez estimer le nombre de tokens à envoyer et suivre la consommation de jetons de l’itération précédente et le total cumulé (pour l’estimation des frais liés à l’utilisation de l’ API) ;
Vous pouvez sélectionner la température du modèle (la quantité affichée est divisée par 100, donc 100 signifie que la température est égale à 1). Voir la partie « Utilisation » ci-dessous pour plus de détails sur la température.
Vous pouvez charger et sauvegarder les sessions de chat au format JSON (ce qui permet également la visualisation et l’édition hors ligne à l’aide d’un éditeur de texte).
1. Installation du programme
La procédure d’installation est la suivante :
Premièrement, téléchargez et installez le code source en utilisant la commande git clone https://github.com/ArnaudStevins/llmchat.git
Deuxièmement, allez dans le répertoire llmchat et créez un environnement virtuel Python en utilisant la commande python3 -m venv myenv
Troisièmement, activez l’environnement virtuel python en utilisant la commande source myenv/bin/activate
Quatrièmement, installez les paquets requis dans l’environnement en utilisant la commande pip install -r requirements.txt
Cinquièmement, ouvrez un éditeur de texte et stockez votre CLÉ d’API OpenAI dans un fichier .env dans le même répertoire que le fichier llmchat.py contenant le texte suivant :
OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxx # (où vous remplacez xxxxxxx par
votre clé)
Et maintenant, vous pouvez taper la commande python llmchat.py pour démarrer le programme.
2. Utilisation du programme
Voici un aperçu de l’interface utilisateur et de ses différentes fonctionnalités :
Figure 1 : Aperçu de l’interface utilisateur de llmchat
Un des grands avantages du programme llmchat est qu’il permet d’évaluer et de suivre la consommation de tokens qui sont les unités qui servent à la facturation de l’API. Il est donc utile de faire quelques rappels relatifs aux tokens:
Les tokens sont une découpe du texte définie par le modèle qui ressemblent à des syllabes sans toutefois leur correspondre. Tout texte soumis au modèle ou renvoyé par ce dernier est comptabilisé sous forme de tokens.
Ces tokens servent à deux choses :
Comptabiliser les frais d’utilisation de l’ API, qui est basé sur un coût par 1000 tokens. Le coût varie suivant que les tokens font partie de la question ou de la réponse.
Vérifier que l’on reste endéans les limites de la fenêtre de contexte. Le texte de la question et de la réponse ne peut dépasser cette dernière.
A chaque nouvelle question dans un dialogue, l’ensemble du dialogue qui précède (questions et réponses) est renvoyé au modèle dans la nouvelle question. Ceci a pour conséquence que les dialogue contenant plus de questions sont nettement plus coûteux. Ne continuez un dialogue que si vous voulez approfondir ou clarifier un point, et si vous changez de fil dans la discussion, pensez à démarrer un nouveau dialogue.
La température permet de spécifier le niveau de créativité du modèle. Une température de 0 donnera une réponse déterministe, et donc la même réponse sera systématiquement donnée à la même question. Au plus la température sera proche de 1, au plus la réponse sera stochastique et donc la même question donnera lieu à des réponses différentes.
Utilisez une température de zéro si vous voulez des réponses prévisibles, comme par exemple pour générér du code informatique. Utilisez une température élevée pour des applications plus créatives (rédaction de fiction ou de textes marketing etc…).
3. Inscription à l’accès API d’OpenAI
Tout d’abord, vous devez avoir un compte OpenAI. Vous pouvez le faire en accédant au site web d’OpenAI et en cliquant sur Sign Up en haut à droite. Complétez ensuite le processus d’enregistrement, qui est assez standard.
Ensuite, allez sur la page principale de l’API OpenAI ici, et regardez votre nom de compte en haut à droite. Cliquez sur votre nom et sélectionnez View API Keys sur la droite.
Vous êtes maintenant prêt à créer votre clé. Cliquez sur le bouton Create New Secret Key, donnez un nom à la clé et cliquez sur Create Secret Key. Copiez ensuite immédiatement la clé dans le presse-papiers et collez-la dans un endroit sûr, car elle n’est plus accessible depuis le site web d’OpenAI. C’est par exemple un bon moment pour la coller dans le fichier .env de llmchat.
Ensuite, vous devrez configurer la facturation. Pour cela, cliquez sur Billing dans le menu de gauche et cliquez sur Payment Methods, ajoutez une carte de crédit et effectuez un prépaiement en cliquant sur Add to credit balance.
Enfin, il est conseillé de fixer des limites d’utilisation en cliquant sur Usage Limits afin d’éviter les mauvaises surprises. Notez que les Usage limits sont définies par vous, tandis que les Rate limits sont des limites d’utilisation générales applicables à tous ceux qui utilisent l’API, et qui ne peuvent être modifiées.
4. Suivi des coûts d’utilisation de l’ API
Pour plus de détails sur le coût d’utilisation de l’API OpenAI en fonction du modèle : cliquez ici.
Notez que les coûts par token sont différents pour la question (prompt) et la réponse (completion), ce qui explique pourquoi l’interface utilisateur de llmchat fait la distinction.
Pour suivre vos coûts d’utilisation en temps réel : cliquez ici.
Comme le dieu Janus, l’ Intelligence Artificielle possède deux visages. Elle peut à la fois servir au progrès de la société mais également lui nuire. Tout dépend de l’application qui en est faite par les personnes et les organisations qui l’exploitent.
Les modèles généralistes (de langage ou autres) exemplifient parfaitement cette dualité. Leur capacité à interagir naturellement avec notre perception en utilisant nos codes linguistiques et visuels facilite leur intégration dans nos interactions quotidiennes. Ces modèles interpellent donc à juste titre. Comme toute nouvelle technologie, ils présentent des opportunités et des risques, mais les déclarations sensationnalistes ou catastrophistes que l’on entend souvent sur le sujet tendent à exacerber le débat sans permettre une analyse raisonnable des vrais enjeux.
Un mot tout d’abord sur le risque existentiel dont il a beaucoup été question ces derniers mois.
Le scénario souvent présenté est celui d’une IA autonome qui commençerait à s’auto-améliorer jusqu’à atteindre un niveau d’intelligence telle que nous serions incapables de la maîtriser; cette dernière se retournerait alors contre nous, pour finalement nous asservir voire nous exterminer.
Ces déclarations apocalyptiques sont souvent réalisées par différents types de personnalités, y compris des acteurs-clé du secteur. Certaines personnes sont légitimement convaincues que l’IA représente un risque existentiel et qu’il est nécessaire de légiférer d’urgence pour éviter un désastre. Le problème est que d’autres personnes exploitent ensuite ces messages pour des raisons opportunistes, et il est difficile de savoir dans quel camp se trouve réellement chaque acteur.
Et si vous vous demandez pourquoi des acteurs du secteur auraient intérêt à mettre en avant les risques de ce dernier, pensez que certaines sociétés déjà établies ont tout intérêt à pérenniser leur situation établie en profitant de la mise en place de barrières réglementaires compliquant l’arrivée de nouveaux acteurs. En parallèle, certains médias tirent avantage du sensationnalisme ambiant puisque la peur fait vendre.
De plus, ces idées de risque existentiel technologique s’intègrent bien dans certains courants philosophiques en vogue au sein de la Silicon Valley, comme le Transhumanisme et le Long-termisme. Ces mouvements sont basés sur le narratif d’un futur radicalement transformé par la technologie en général et l’IA en particulier, et dans lequel l’humanité se retrouve confrontée à des choix prométhéens. Lorsqu’on plante un tel décor, il devient facile de se positionner comme prophète autoproclamé ou comme sauveur potentiel de l’humanité…
La réalité est beaucoup plus nuancée. Nous sommes encore loin d’une intelligence artificielle généraliste comparable au niveau humain. La plupart des obstacles (comme les hallucinations) existent depuis longtemps et seront probablement très difficiles à éliminer. La performance impressionnante des modèles de langage découle plus de leur habileté à restituer adroitement les volumes immenses de données sur lesquels ils ont été entraînés que d’une capacité à raisonner sur des modèles abstraits. Enfin, il faut garder en mémoire que contrairement aux humains, les systèmes artificiels n’ont pas d’objectif intrinsèque. Ils cherchent à atteindre les objectifs que nous leur fixons, parfois de manière incorrecte.
Bien sûr, il faut rester vigilant car les modèles continuent de progresser. Les grands acteurs du secteurs planchent sur la multimodalité (traitement intégré des textes, images, vidéos, audio…) et l’amélioration des mécanismes de raisonnement. Pendant ce temps des modèles open-source de plus en plus performants deviennent disponibles et rendent possible un champ d’expérimentation très large.
Quoi qu’il en soit, le risque paraît encore assez lointain et il faut se rappeler que la quasi-totalité des progrès technologiqes dans le domaine sont réalisés par des acteurs légitimes, commerciaux ou académiques. La mise en place de structures de régulation et de supervision de ces progrès devrait donc permettre d’encadrer et de gérer ce risque dans le futur.
Mais il n’y a pas besoin d’être super-intelligent pour faire de super-dégâts…
Dans le reste de cet article, je vais présenter les différentes risques existant aujourd’hui et tenter une analyse de chacun d’entre eux. On peut les regrouper en quatre grandes catégories :
Figure 1 : Types de risques liés à l’Intelligence Artificielle
1. Risques de désalignement
Le désalignement se produit lorsque nous donnons un objectif légitime à l’IA, mais cette dernière cherche à l’atteindre de manière inadéquate, soit en trichant, soit en ne respectant pas certaines contraintes essentielles, par exemples légales ou éthiques.
Ce genre de risque est particulièrement présent lorsque l’IA sera consultée pour prendre des décisions administratives impactant directement les gens, comme une décision d’octroi d’une subvention ou d’une assistance, ou encore d’allouer un crédit. Les décisions à caractère sécuritaire ou judiciaire sont également fortement concernées, ainsi que celles liées à l’éducation et l’emploi.
L’IA se base en général sur un ensemble restreint de paramètres pour prendre une décision, et les données d’entraînement utilisées peuvent contenir des déséquilibres reflétant des biais historiques ou autres. Ceci exclut aussi la prise en compte de facteurs humains subjectifs difficiles à quantifier et qui expliquant pourquoi de ces décisions requièrement souvent aujourd’hui un rendez-vous en personne.
Ce problème peut être approché de deux manières. Tout d’abord, la prévention : il est important de s’assurer que les algorithmes employés ne présentent pas de biais et sont capables de fournir une explication de leur décision. L’utilisation de l’IA doit aussi se faire de manière transparente et les personnes concernées doivent en être informées au préalable. C’est un travail de législation et de réglementation.
L’ explication fournie par l’algorithme doit aussi être « actionnable » pour permettre à la personne impactée de contester la décision prise. La possibilité de recours est ici essentielle, de préférence sans passer par la voie judiciaire.
Ces problèmes d’alignement se sont déjà produit lors d’automatisations dans le passé et se produiront encore. La bonne nouvelle est que l’éthique de l’IA constitue un domaine de recherche et d’analyse à part entière et que les incidents de désalignement sont connus et répertoriés. L’attention apportée par les académiques et les spécialistes dans l’industrie et les administrations sur ces sujets devrait permettre de limiter leur impact et leur récurrence dans le futur.
2. Risques d’exploitation malveillante
Par exploitation malveillante, on envisage les cas où un être humain exploite volontairement les capacités d’un modèle IA à des fins préjudiciables. Ceci est bien sûr possible, toute technologie n’étant en fin de compte qu’un outil soumis à la volonté de son possesseur. Nous sommes ici dans un cas différent du *désalignement* cité plus haut. Ici, les buts de la machine et de l’humain sont alignés. C’est l’humain qui est mal intentionné.
Un problème est qu’il y a peu de freins à l’acquisition et l’exploitation de l’IA par quiconque. Les algorithmes et modèles sont connus, la puissance informatique aisément disponible. Des modèles de langage *open-source* puissants sont actuellement disponibles et peuvent être adaptés à des fins néfaste sans contrôle. Des acteurs malveillants ont déjà créé FraudGPT, un modèle de langage spécialisé dans l’aide à la création de cyberattaques….
Ceci est préoccupant car les modèles de langage augmentent les risques de fraude informatique par usurpation d’identité et ingéniérie sociale, de génération de virus et logiciels malveillants; ils facilitent la création de désinformation ainsi que la fraude éducative et académique (recours à des textes auto-générés).
La principale défense à ce genre de risque est qu’il est également possible d’utiliser l’IA de manière défensive pour les contrecarrer. Les capacités qui rendent ces modèles attractifs aux personnes mal intentionnées sont en général les mêmes que celles qui vont permettre aux personnes bien intentionnées de les empêcher de nuire. Si l’IA peut aider à mener des cyberattaques, son potentiel en cyberdéfense est tout aussi grand.
C’est pourquoi la meilleure parade ici est d’encourager sans délai le développement de ces activités défensives.
Mais le discours qui consiste à dire que cela résultera en un simple réalignement des équilibres entre capacités antagonistes n’est que moyennement rassurant. En effet, l’IA a le potentiel de modifier ces équilibres dans différents domaines et on ne peut exclure qu’un de ces rééquilibrages ne se fasse dramatiquement à l’avantage des acteurs malveillants dans un domaine. Rien ne dit que ces rééquilibrages seront toujours symétriques ou à tout le moins suffisamment équilibrés pour empêcher des tragédies. Le risque de développement de nouveaux agents pathogènes assisté par l’IA est souvent pris en exemple de ce genre de danger.
Et force est de constater que le bond qualitatif pour atteindre un de ces compétences semble nettement plus faible que celui nécessaire pour l’émergence d’un risque existentiel. Nous sommes ici dans quelque chose de plus concret, de plus plausible à moyen terme. Selon moi, c’est ici que se situe le risque le plus important.
3. Risques structurels
Les risques structurels sont d’une autre nature. Cette fois l’exploitation du modèle est légitime et ce dernier s’acquitte correctement de sa mission. Mais cette nouvelle capacité apportée par l’IA déséquilibre indirectement la société.
Ce risque est inhérent à toute nouvelle technologie mais quand une technologie comme l’IA a un potentiel généraliste et une portée horizontale, la multiplicité des domaines d’application augmente ce genre de risques.
Il est dificile d’évaluer correctement les risques structurels car ils dépendent plus de la société que de l’IA en tant que telle. Parmi eux on peut citer le risque que l’IA se substitue à une partie de l’emploi ou que l’IA crée une société très inégale.
Ces risques doivent être mis en balance avec les impacts structurels positifs qui ne manqueront pas d’apparaître aussi.
Il est difficile de faire des prédictions ici, si ce n’est pour dire que les évolutions structurelles sont en général lentes et ne sont souvent pas à sens unique. De plus, ces évolutions ne peuvent être aisément distinguées des autres évolutions qui parcourent la société en tous sens.
Cela fait plusieurs siècles que l’automatisation est soupçonnée de détruire des emplois mais après 250 ans de révolution industrielle il n’y a jamais eu autant d’emplois malgré d’innombrables déclarations alarmistes…et si la productivité augmente, c’est plutôt une bonne nouvelle pour la société.
Je crois qu’il faut rester circonspect ici; si bouleversement il devait y avoir, les états et autres acteurs structurels ont en principe le temps et les moyens d’y faire face. Après tout, notre société est en transformation permanente…
4. Risque accidentel
Il s’agit du cas le plus simple à comprendre. L’IA est incompétente et n’arrive pas à s’acquitter de la tâche qui lui a été confiée, comme une voiture autonome qui commettrait un accident.
Ces cas aussi sont plus faciles à adresser car les dangers potentiels créés par un produit mis sur le marché ne sont pas une notion nouvelle : une voiture (classique) est un engin dangereux et se voit donc soumise à des exigences de conformité et de contrôle technique pour être autorisé à rouler. En cas d’accident imputable à un défaut technique, la responsabilité du constructeur peut être engagée. Le niveau d’exigences placé sur le produit dépend du niveau de tort qu’il peut causer en cas de défaillance, le but étant de prévenir autant que possible les accidents.
L’arrivée de l’IA dans les produits va s’inscrire dans cette logique de prévention et de remédiation, potentiellement avec des certifications et tests séparés lorsque l’utilisation de l’IA comporte des risques.
C’est d’ailleurs le chemin suivi par la directive Européenne sur l’IA qui se base sur l’utilisation du produit contenant de l’IA pour établir le niveau de risque et partant, les exigences à satisfaire au préalable avant mise sur le marché.
Conclusion
Il faut reconnaître que le tableau est contrasté, la relativisation du discours alarmiste sur les risques existentiels ne peut masquer le potentiel d’utilisation malveillante de l’IA susceptible de causer une catastrophe de grande ampleur à terme.
Plus précisément, des listes de compétences dangereuses ont été établies par des chercheurs. Si des modèles IA devaient développer de telles compétences à l’avenir, nous serions en péril. Je vous rassure, aucun modèle IA ne possède de telles capacités à ce jour.
Voici une liste de compétences dangereuses établie par les chercheurs de Google Deepmind dans cet article :
La capacité à mener des cyberattaques de manière autonome;
la capacité de choisir délibérément de mentir à des humains et de soutenir ensuite un narratif cohérent prenant en compte ces mensonges;
la capacité de persuader les humains que certains narratifs (même faux) sont corrects, et de convaincre les gens de faire des commettre des actes qu’ils ne feraient normalent pas;
la capacité de mettre en place des stratégies politiques complexes tenant compte des acteurs en présence et du contexte socioéconomique;
la capacité d’acquérir et/ou de construire des armements existants ou novateurs (par exemple : armes biologiques);
la capacité d’ établir des plans à long terme, à travers différents domaines, et de les adapter de manière évolutive en fonction du l’évolution du contexte ou des obstacles rencontrés;
la capacité à créer de nouveaux systèmes IA sans assistance;
la capacité à identifier le contexte de sa propre utilisation; Le système sait qu’il est un modèle IA et a une connaissance de lui-même et de son environnement;
la capacité à s’évader de son environnement d’origine et s’installer ailleurs.
Si cette liste peut sembler angoissante, il faut garder à l’esprit qu’il ne s’agit que d’une liste de garde-fous. Elle ne signifie pas que nous sommes sur le point d’atteindre une de ces compétences.
Le risque n’est pas imminent et il n’est pas trop tard pour agir mais il ne faut pas traîner. Concrètement, nous pouvons nous protéger contre ces risques de trois manières, qui peuvent éventuellement être combinées :
l‘évolution culturelle ou des comportements : nous adaptons nos habitudes de vie pour les rendre les plus compatibles possibles avec les impacts de l’IA
la mitigation : nous adoptons des mesures de protection en termes de processus, d’organisation ou de technologie afin de réduire les risques
la réglementation : nous encadrons légalement la technologie, en réglementant certaines applications et en en interdisant d’autres.
Cela justifie les idées de mettre en place des organisations de gouvernance et de surveillance de l’ IA. Ces structures devraient se focaliser sur les risques d’utilisation malveillante et l’identification des progrès menant à des compétences dangereuses.
Mais ces contrôles ne doivent pas non plus étouffer la recherche. Le potentiel bénéfique de l’IA est important et nous ne manquons pas de problèmes sérieux dans lesquels l’IA peut nous assister positivement. Par exemple, la recherche de nouveaux matériaux ou de nouveaux médicaments.
Bill Gates estime dans son article cité en référence que les impacts de l’IA seront au moins aussi grands que ceux de l’arrivée des ordinateurs individuels dans les années 1990, mais moins dramatiques que ceux de la Révolution Industrielle. Il pense que la transition sera mouvementée mais que les impacts sur la vie des gens devraient pouvoir être mitigés…
Use of LLMs for Illicit Purposes : Threats, Prevention Measures and Vulnerabilities, par Maximilian Mozes, Xuanli He, Bennett Kleinberg, Lewid D. Griffin : https://arxiv.org/abs/2308.12833
Avant toute chose, il faut réaliser que l’IA n’est pas un produit, ni un progrès qui va faire progresser un seul secteur. L’ IA est une capacité horizontale qui va impacter de nombreux domaines de la société. Cet impact sera parfois visible, mais le plus souvent discret.
L’IA s’intègre progressivement dans nos modes de vie sans que nous nous en rendions vraiment compte. Nous sommes habitués aux recommendations personnalisées des sites de commerce électronique, aux itinéraires calculés par GPS et aux engins de recherche intelligents. Actuellement, nous nous habituons aux modèles conversationnels et demain nous verra familiers avec les images et les films générés de manière automatique, voire peut-être aux voitures autonomes partagées.
La généralisation des ordinateurs ainsi que leur interconnexion via internet lors des dernières décennies s’est faite de manière progressive et a transformé notre mode de vie de manière à la fois discrète et inexorable. Cette infrastructure est la fondation que l’IA exploite pour se déployer à son tour aujourd’hui, avec la même discrétion et la même ubiquité. Elle accompagne et renforce nos processus cognitifs, tout en continuant à apprendre de nos actions. L’IA deviendra progressivement un assistant, un compagnon dont le modes de raisonnement nous sont étrangers malgré l’apparence de la familiarité.
Dans ce qui suit, je vais essayer d’imaginer les domaines dans lesquels l’IA offre le plus de potentiel. Bien sûr cet exercice doit être abordé avec humilité car il s’agit d’un domaine extrêmement incertain et dont la complexité dépasse de beaucoup les compétences d’une personne. Lors de la rédaction de cet article, je me suis inspiré de différentes lectures que vous trouverez dans la partie Notes et Références.
Cet article se focalise sur les applications positives de l’IA. Mais ce fort potentiel s’accompagne de risques importants que je couvrirai dans un prochain article.
1. Education
L’éducation est un domaine dans lequel la promesse de l’automatisation reste incomplètement réalisée. Il y a certes eu d’importants progrès dans la diffusion de la connaissance grâce aux réseaux informatiques, comme Wikipedia ou Khan Academy mais cette diffusion reste largement unidirectionnelle.
L’énorme avantage de l’IA est qu’elle peut adapter son contenu et ses interactions de manière dynamique en fonction de l’état d’avancement de la compréhension de l’étudiant. Dans une école traditionnelle, le professeur doit enseigner simultanément à une classe et cherche donc un niveau de complexité qui va bénéficier au maximum à l’ensemble des élèves, ce qui signifie viser l’élève médian tout en délaissant l’élève excellent et l’élève médiocre. Le temps qu’il peut consacrer aux élèves de manière individuelle reste limité et souvent insuffisant pour compenser ce problème de niveau.
Ce problème est connu depuis longtemps et reflète une limitation inhérente au modèle académique actuel, limité par ses ressources et ne pouvant bénéficier des mêmes effets d’échelle que les modèles automatisés. Une étude de Benjamin Bloom en 1984 appelée « Two Sigmas » montre qu’un enseignement personnalisé – soit fourni par un tuteur individuel- permet d’améliorer dramatiquement les performances des élèves (de deux écarts-types en termes statistiques).
C’est précisément cet énorme potentiel que l’IA promet d’adresser. En offrant des exercices et des mécanismes d’évaluation interactifs, l’IA va identifier les lacunes de l’étudiant et proposer des explications et mécanismes de remédiation, et ce de manière strictement individualisée et avec une patience infinie si nécessaire. Pour les plus jeunes, des exercices peuvent être présentés sous forme ludique.
L’apparition des modèles conversationnels enrichit le champ des possibles; une interface conversationnelle offre un nouveau niveau d’informalité susceptible d’attirer plus les étudiants rebutés par le contenu trop monolithique. Imaginez prendre un modèle génératif générique (à la GPT4) et continuer à l’entraîner sur tous les manuels de cours (ou syllabi universitaires) d’un domaine donné, puis l’affiner à travers des dialogues avec des professeurs spécialistes du domaine, jusqu’à ce que la qualité et la fiabilité soient suffisante. Vous disposez alors d’un mentor conversationnel qui peut répondre informellement à vos questions sur le sujet, 24h sur 24 et sans jamais perdre patience… et c’est d’autant plus simple à faire que les cours (au moins dans l’enseignement primaire et moyen) sont standardisés, donc tout est disponible…je suis convaincu que de tels modèles seront répandus d’ici quelques années. La technologie est disponible dès aujourd’hui.
Cela ne signifie pas que l’IA va se substituer aux enseignants, mais que ces derniers pourront être puissamment assistés par l’IA qui sera intégrée au processus éducatif, par exemple en modifiant le travail en autonomie (devoirs / leçons) pour le remplacer par une tutorat personnalisé quotidien. Les périodes de vacances pourraient devenir un moyen pour les moins avancés de rattraper leur retard beaucoup plus efficacement qu’aujourd’hui.
Et si vous voyez le potentiel dans nos pays sur base de votre propre expérience éducative et celle de vos enfants, imaginez l’impact de ces technologies sur l’éducation et la connaissance dans les pays du tiers-monde, où les écoles sont parfois éloignées, difficiles d’accès, les classes surpeuplées et à l’infrastructure chancelante, les enseignants peu motivés, absents et/ou mal formés…
J’ai voulu commencer par l’éducation car ce domaine est à la base de tous les autres. Augmenter le capital humain par l’éducation, c’est enrichir la société de demain; si ce mouvement est global et permet de mieux capter et affiner l’énorme réservoir de talents de la jeunesse des pays où l’éducation est moins développée aujourd’hui, l’enrichissement sera encore plus grand, et les progrès futurs encore plus rapides.
2. Santé
Le potentiel de l’intelligence artificielle dans les soins de la santé est très important, et va se manifester à trois niveaux :
Premièrement, au niveau du diagnostic et du traitement. Il s’agit d’un domaine de recherche actif depuis des décennies. L’idée est de voir des algorithmes IA jouer le rôle d’assistant ou de conseiller au praticien sur base des données collectées sur le patient (imagerie, prises de sang, antécédents… ). L’IA suggère un diagnostic au médecin, et de même pour le traitement. Aujourd’hui, ces applications existent mais elle restent confinées aux laboratoires de recherche et aux sociétés technologiques, la difficulté principale étant l’intégration et l’opérationnalisation dans les processus cliniques qui doivent aussi tenir compte de l’éthique médicale. Ces problèmes ne sont pas insurmontables et la mutiplication des sources d’information sur le patient provenant à la fois des dossiers médicaux informatisés (EHR) et bientôt de la génomique individuelle va considérablement renforcer l’attrait et l’efficacité de cette assistance automatisée.
De plus, le potentiel de l’IA dans la recherche pharmaceutique et le développement de nouveaux mécidaments est très important. Disposer de meilleurs médicaments comme de nouveaux antibiotiques va bien entendu renforcer l’impact des progrès dans le diagnostic et le traitement.
Deuxièmement, au niveau de la prévention et du suivi des patients. Au plus les patients participent activement à la gestion de leur santé, tant au niveau préventif que du suivi de leur traitement, au mieux ils se portent. Il s’agit d’une préoccupation majeure car de nombreux patients sont peu attentifs à leur santé au quotidien. Perdre du poids, prendre rendez-vous pour un examen complémentaire, ou respecter un plan de traitement médicamenteux demandent une certaine discipline personnelle et les moments d’interaction directe avec un professionel de la santé sont par nature limités. C’est ici qu’un assistant médical personnel piloté par l’IA prend tout son sens. Exploitant les informations transmises par des capteurs individuels (smartphone, montre connectée…), l’assistant médical IA va pouvoir rappeler au patient ses traitements, l’alerter de la survenance de nouveaux symptômes et lui suggérer la marche a suivre tout en contextualisant et personnalisant les réponses à ses questions. L’idée est ici d’encourager le patient à prendre sa santé au sérieux à travers des petits rappels et suggestions exprimées de manière conviviale tout en tenant également le personnel soignant informé de l’évolution du patient.
Troisièmement, au niveau de l’ administration hospitalière. Un hôpital moderne est une véritable ville dans laquelle des patients sont échangés sans cesse entre les services et leurs chambres, les produits médicaux et les médicaments consommés de tous côtés au fil des traitements et des opérations, les médecins consultant ou opérant les patients à la chaîne. Les hôpitaux disposent déjà de nombreux mécanismes de planification et de gestion automatisés mais ceux-ci agissent encore souvent de manière isolée. L’ IA permettra une gestion consolidée de ces différents processus, augmentant le champ d’optimisation et donc l’efficacité de l’ensemble. Et si l’IA permet d’alléger la charge de travail administrative du praticien, cela lui donne plus de temps pour se consacrer à son activité curative…
Comme pour l’éducation, c’est dans les pays les plus pauvres que l’impact de l’IA dans la santé sera le plus important. Aujourd’hui, beaucoup de gens du tiers-monde ne voient pratiquement jamais de médecin et les soignants de première ligne verront leur efficacité multipliée par l’assistance de l’IA éventuellement combinée à des machines connectées abordables, comme des appareils d’échographie. Il faudra que ces assistants automatisés tiennent compte des contraintes locales, tant au niveau des spécificités épidémiologiques (maladies tropicales) que des contraintes humaines, comme les personnes n’ayant pas accès aux cliniques ou ne pouvant se permettre d’interrompre leur travail.
Après l’éducation, la santé est le second domaine fondamental. Après que l’éducation ait créé le capital humain, il faut le maintenir en bonne condition -en bonne santé- pour lui permettre de produire, de créer et de contribuer le plus longtemps possible à la société. Toute avancée dans ces deux domaines rejaillit sur la prospérité collective.
3. Productivité
A court terme, nous pouvons nous attendre à ce que des IA génératives type GPT soient intégrées dans les outils de productivité actuels comme Microsoft Office ou Google Suite. La programmation informatique joue ici le rôle de pionnier. Les modèles génératifs ont des affinités manifestes avec le code informatique, et des assistants IA existent depuis quelques mois dans des environnements de programmation, comme GithubCopilot ou Cursor (un dérivé de VSCode). Le retour d’expérience des programmeurs est indéniablement positif, et l’efficacité des programmeurs va progresser, d’autant plus que les modèles vont continuer à progresser eux aussi.
A moyen terme, nous pourrons disposer d’une IA personnalisée plus généraliste qui suivra l’ensemble de nos interactions digitales et pourra s’habituer à notre personnalité et nos usages. Elle pourra gérer nos agendas, proposer des réponses aux emails que nous recevrons, passer des commandes sur des sites de commerce électronique et fonctionnera à travers l’ensemble de nos outils informatiques. Il est possible que nos ordinateurs privés contiennent un assistant pour notre vie privée, tandis qu’un autre assistant -éventuellement mis à disposition par l’employeur- nous aidera dans le cadre professionnel.
En parallèle, certaines tâches intellectuelles répétitives comme l’encodage de documents, le support à la clientèle de première ligne ou le télémarketing verront une plus grande automatisation. Le rôle humain ne disparaîtra pas mais il se reportera sur les activités à plus forte valeur ajoutée et/ou accordant une plus grande prime à l’interaction personnelle (support de seconde ou troisième ligne, finalisation de l’acquisition d’un nouveau client…).
Ceci suscite des interrogations légitimes quant à l’impact sur l’emploi. La spécificité de l’IA est qu’elle s’adresse aux tâches cognitives et non aux tâches manuelles comme lors des précédentes vagues d’automatisation. Cette fois, ce sont donc les cols blancs qui sont concernés et non les cols bleus.
Néanmoins, il faut garder deux choses en mémoire : premièrement, un gain de productivité reste fondamentalement une bonne nouvelle car il va permettre de dégager du temps consacré à des activités répétitives pour le réorienter soit vers des tâches plus valorisantes soit vers des loisirs.
Et deuxièmement, les gains de productivité dans les économies avancées sont en berne depuis les années 1980. La révolution de l’informatique et des télécommunications qui a démarré à la même époque n’a pas entraîné les gains de productivité que l’on aurait pu en attendre. On peut donc espérer que l’IA concrétise enfin les promesses de la digitalisation et relance l’expansion de la productivité.
4. Aspects Sectoriels
ans ce qui précède, je me suis volontairement concentré sur les applications qui impacteront tout le monde. Mais les différents secteurs d’activité économique seront également transformés à des degrés divers par l’IA. Afin de circonscrire le propos, je vais ici me limiter à quelques exemples.
Le domaine des transports est déjà en pleine transformation. GPS, navigation, assistance à la conduite sont une préfiguration des applications de demain. Le transport est au fond un immense exercice d’optimisation d’un problème de déplacement de personnes et de marchandises en utilisant des ressources (véhicules) et une infrastructure donnée (routes, chemins de fer…). Au plus il est traité de manière consolidée, au plus grandes les optimisations possibles : gestion intelligente du trafic, véhicule autonomes partagés, multimodalité intégrée…
L’énergie est un autre secteur susceptible d’être transformé en profondeur; le réseau électrique est un système complexe dans lequel la production doit équilibrer la consommation à chaque instant. Consommation qui est répartie à travers des millions de foyers et d’entreprises autonomes. Ceci est aujourd’hui réalisé par des mécanismes d’équilibrage et de stabilisation mais qui ne disposent que d’informations partielles et ne sont pas optimaux. L’émergence des smart grids dans lesquelles les acteurs individuels échangent de l’information avec les sytèmes de contrôle va permettre un pilotage beaucoup plus fin des réseaux et permettre une meilleure résilience en cas de problème sérieux d’approvisionnement. Sans oublier que le caractère intermittent des énergies renouvelables rend les algorithmes de prédiction de production encore plus essentiels.
Dans l’agriculture, chaque exploitation peut être considérée comme un système autonome complexe qui consomme des ressources (semences, eau, pesticides) pour exploiter une infrastructure (les champs et pâturages) afin de générer un produit (céréales, viande…) en tenant compte des conditions climatiques. L’IA va jouer un rôle d’optimisation du système et va bénéficier des synergies avec une autre technologie émergente : les drones, qui vont rendre possible l’observation de l’infrastructure en temps réel et pallier au plus vite à un problème éventuel de stress hydrique ou végétal.
Conclusion
Si les vagues d’automatisation précédentes étaient concentrées sur la génération et la distribution d’information, la phase qui s’annonce mettra l’accent sur l’exécution et la réalisation. Nous allons enfin exploiter pleinement le cycle d’innovations digitales qui a commencé avec l’informatique et internet. L’internet des objets et l’ubiquité des capteurs connectés se joignent à l’orchestre en fournissant à l’IA les données omniprésentes dont cette dernière a besoin.
Les potentialités sont grandes et il est difficile de prévoir où elles s’arrêteront. Si l’on arrive à intégrer pleinement la robotique avec l’IA, le champ d’action s’étend vers de nouveaux secteurs comme la construction. De la même manière, l’intégration complète des drones avec l’IA est un autre multiplicateur potentiel.
Mais il faut garder en mémoire que ces technologies peuvent à la fois être utilisées de manière constructive et de manière destructive. Un robot ou un drone intelligent peuvent être d’excellents ouvriers mais aussi de redoutables soldats. Les modèles génératifs peuvent être utilisés pour l’éducation mais aussi pour la désinformation. Les profonds changements de société que l’IA laisse entrevoir risquent de causer des déséquilibres : croissance des inégalités, modification du rapport à l’emploi…
Je couvrirai plus en détails les risques liés à l’IA dans le prochain article.
Cet article liste les principales personnalités à suivre sur Twitter/X si vous voulez être au courant des dernières tendances dans le secteur de l’Intelligence Artificielle. Certaines de ses personnalités n’hésitent pas à débattre entre elles sur Twitter et les arguments déployés de part et d’autre sont souvent passionnants.
J’ai structuré cette liste en deux parties. : les experts techniques et les personnes qui se concentrent sur l’impact sociétal, les risques et les applications de l’IA.
Et au passage, vous pouvez toujours aussi me suivre, Arnaud Stévins (@Arnaud_ast).
1. Chercheurs et experts techniques en IA
Geoffrey Hinton (@geoffreyhinton) : Il est professeur à l’université de Toronto et vice-président et ingénieur chez Google. Il est également l’un des pionniers de l’apprentissage profond et des réseaux neuronaux. Il tweete sur la recherche en IA, les publications et les événements;
Yann LeCun (@ylecun) : Il est le directeur scientifique IA chez Meta et professeur à l’université de New York. Il est également l’un des créateurs des réseaux neuronaux convolutifs, une technique largement utilisée pour la reconnaissance d’images. Il tweete sur la recherche, l’actualité et les événements dans le domaine de l’IA;
Yoshua Bengio (@yoshuabengio) : Professeur à l’Université de Montréal, il est le fondateur et le directeur scientifique de Mila, l’Institut québécois d’intelligence artificielle. Il est également l’un des pionniers de l’apprentissage profond et des réseaux neuronaux, avec Geoffrey Hinton et Yann LeCun. Il tweete sur la recherche en IA, les publications et les événements;
Jürgen Schmidhuber (@SchmidhuberAI) : Codirecteur du Swiss AI Lab IDSIA, professeur d’intelligence artificielle à l’université de Lugano, pionnier de l’IA auto-améliorante, des réseaux neuronaux d’apprentissage profond et du méta-apprentissage, inventeur des LSTM et des machines de Turing neuronales;
Andrew Ng (@AndrewYNg) : Il est cofondateur de Coursera et de Google Brain, et ancien directeur scientifique de Baidu. Il est également professeur adjoint à l’université de Stanford et pionnier de l’apprentissage profond, de la vision par ordinateur et du traitement du langage naturel. Il parle sur Twitter de l’enseignement, de la recherche et des applications de l’IA;
Demis Hassabis (@demishassabis) : Il est cofondateur et PDG de DeepMind, une société de recherche en IA de premier plan qui fait partie de Google. Il est également un ancien prodige des échecs et un neuroscientifique. Il évoque sur Twitter les réalisations de DeepMind, telles qu’AlphaGo, AlphaZero et AlphaFold;
Ilya Sutskever (@ilyasut) : Scientifique en chef et cofondateur d’OpenAI, ancien chercheur chez Google Brain, ancien étudiant de Geoffrey Hinton à l’université de Toronto, co-inventeur d’AlexNet et d’ImageNet Challenge;
Andrej Karpathy (@karpathy) : Il est directeur de l’IA chez Tesla et ancien chercheur chez OpenAI. Il est également professeur adjoint à l’université de Stanford et cofondateur de ConvNetJS, une bibliothèque JavaScript pour l’apprentissage profond. Il tweete sur les applications de l’IA, les défis et l’humour;
Gary Marcus (@GaryMarcus) : Professeur de psychologie et de sciences neuronales à l’université de New York, fondateur et PDG de Robust.AI, auteur de plusieurs ouvrages sur l’IA et les sciences cognitives, tels que Rebooting AI et The Algebraic Mind;
Lex Fridman (@lexfridman) : Il est chercheur au MIT et animateur du podcast Lex Fridman, où il interviewe des experts en IA, en science et en technologie. Il tweete sur des sujets liés à l’IA, tels que les voitures autonomes, l’apprentissage par renforcement et l’AGI;
Mustafa Suleyman (@mustafasuleymn) : Cofondateur et directeur général d’Anthropic, un laboratoire de recherche axé sur la création d’une intelligence artificielle générale (AGI) sûre et bénéfique, ancien cofondateur et responsable de l’IA appliquée chez DeepMind, ancien vice-président de la politique en matière d’intelligence artificielle chez Google;
François Chollet (@fchollet) : Ingénieur logiciel chez Google, il est le créateur de Keras, un cadre populaire d’apprentissage profond. Il est également l’auteur d’un livre sur l’apprentissage automatique et chercheur sur les modèles génératifs, la vision par ordinateur et le traitement du langage naturel.
2. Spécialistes des applications, impacts et risques de l’IA
Stuart Russell (@StuartHRussell) : Professeur d’informatique et directeur du Center for Human-Compatible AI à l’université de Californie à Berkeley, coauteur du manuel Artificial Intelligence : A Modern Approach, fondateur et président du Center for the Study of Existential Risk;
Erik Brynjolfsson (@erikbryn) : Directeur du Stanford Digital Economy Lab, chercheur principal au Stanford Institute for Human-Centered AI, professeur à la Stanford Graduate School of Business, co-auteur de plusieurs ouvrages sur l’impact de la technologie sur la société et l’économie, tels que The Second Machine Age et Machine;
Sam Altman (@sama) : PDG et coprésident d’OpenAI, ancien président de Y Combinator, cofondateur et président d’OpenAI Codex (anciennement GPT-3), cofondateur et membre du conseil d’administration de plusieurs startups telles que Stripe, ZenPayroll, Loopt et Asana;
Dario Amodei (@Dario_Amodei) : Cofondateur et PDG d’Anthropic, ancien vice-président de la recherche chez OpenAI, ancien chercheur chez Google Brain, ancien postdoctorant au Princeton Neuroscience Institute, chercheur sur l’apprentissage profond, le traitement du langage naturel et la sécurité de l’IA;
Bill Gates (@BillGates) : Coprésident et administrateur de la Fondation Bill et Melinda Gates, fondateur et ancien président-directeur général de Microsoft Corporation, philanthrope et investisseur dans divers domaines tels que la santé mondiale, l’éducation, l’énergie et le changement climatique;
Kai-Fu Lee (@kaifulee) : Il est le fondateur et le PDG de Sinovation Ventures, une société de capital-risque qui investit dans des startups d’IA en Chine et aux États-Unis. Il est également ancien président de Google China et ancien vice-président de Microsoft Research Asia. Il s’exprime sur Twitter au sujet des tendances, des opportunités et des défis de l’IA en Chine et au-delà;
Sebastian Thrun (@SebastianThrun) : Il est le fondateur et le président d’Udacity, une plateforme d’enseignement en ligne qui propose des cours sur l’IA, la ML, la robotique, etc. Il est également professeur à l’université de Stanford et ancien vice-président de Google. Il tweete sur l’éducation à l’IA, l’innovation et l’impact social;
Fei-Fei Li (@drfeifei) : Elle est professeur à l’université de Stanford et codirectrice du Stanford Institute for Human-Centered Artificial Intelligence (HAI). Elle est également cofondatrice et présidente d’AI4ALL, une organisation à but non lucratif qui vise à accroître la diversité et l’inclusion dans l’IA. Elle s’exprime sur Twitter au sujet de l’éthique de l’IA, de l’intérêt social et de l’éducation;
Rachel Thomas (@math_rachel) : Elle est cofondatrice et directrice du Center for Applied Data Ethics à l’université de San Francisco. Elle est également auteur, conférencière et enseignante sur l’éthique de l’IA, l’équité et la justice sociale. Elle tweete sur les questions liées à l’IA, telles que les préjugés, la protection de la vie privée et la responsabilité;
Jan Leike (@janleike) : Co-directeur de la recherche sur le superalignement à OpenAI, ancien chercheur principal à DeepMind, ancien chercheur postdoctoral à l’Australian National University, chercheur sur l’apprentissage par renforcement, l’alignement et la sécurité;
Eliezer Yudkowsky (@ESYudkowsky) : Cofondateur et chercheur principal au Machine Intelligence Research Institute (MIRI), auteur de Rationality : From AI to Zombies et Harry Potter and the Methods of Rationality, chercheur sur la théorie de l’intelligence artificielle, la théorie de la décision, la rationalité et l’alignement.