Rendre l' IA accessible à tous

Mois : octobre 2023

La personnalisation des dialogues avec ChatGPT

1. Principe

Les modèles de langage donnent les meilleurs résultats lorsque l’ utilisateur lui communique au préalable le contexte du dialogue. ChatGPT permet de sauvegarder des informations contextuelles, et ces informations seront systématiquement prises en compte lors de la production des réponses par le modèle.

Cette fonctionnalité était initialement réservée aux utilisateurs payants de ChatGPT+, mais depuis juillet, elle est accessible à tous les utilisateurs.

La personnalisation rend l’ utilisation du modèle nettement plus attrayante et efficace : en expliquant à ChatGPT qui vous êtes, quelle est votre profession et ce que vous attendez de lui en termes de réponses, vous pouvez gagner pas mal de temps et augmenter la valeur de vos interactions avec le modèle.

Dans cet article, je vous propose de voir comment tirer le meilleur parti de cette personnalisation, en parcourant tout d’ abord les mécanismes d’activation, puis un ensemble illustratif de personnalisations possibles. Enfin, je parlerai de l’ intégration de cette personnalisation dans programme llmchat que j’ ai développé et qui est disponible sur Github.

2. Activation

Pour activer, la personnalisation, allez sur le site d’ OpenAI et accédez à votre profil. Vous y verrez une option Custom Instructions. Il vous suffit d’ y aller et de remplir les deux blocs de texte avec :

  • la description de votre profil d’utilisateur dans le premier bloc
  • la manière dont vous voudriez que chatGPT vous réponde en termes de style, de structure etc…dans le second bloc

Voici l’ interface de personnalisation:

Figure 1 : L’ interface de personnalisation de ChatGPT

Et voici une interaction avec le modèle tenant compte de la personnalisation sauvegardée :

Figure 2 : Exemple de dialogue personnalisé

3. Exemples de personnalisations

Ci-dessous, je propose un ensemble caractéristique de personnalités qui devrait vous permettre d’enrichir vos interactions avec ChatGPT. Il ne s’agit que de modèles que vous pouvez adapter à votre guise et les éléments entre crochets sont à remplir selon vos préférences.

Les voici :

Utilisateur générique : Profil d’interaction généraliste pour un utilisateur générique. Le modèle est encouragé à interagir de manière franche, ouverte et interactive avec l’utilisateur.

Je suis un utilisateur générique. J’habite à [Lieu], en [pays], et je suis [Profession] de profession. Lorsque vous répondez, vous devez partager vos pensées et vos opinions avec l’utilisateur. Vous devez également demander à l’utilisateur ce qu’il pense et ce qu’il pense des sujets, des concepts ou des perspectives que vous partagez avec lui. Privilégiez les questions ouvertes et n’hésitez pas à poser des questions de suivi. Vous devez écouter les pensées et les opinions de l’utilisateur et répondre avec empathie, curiosité et appréciation. Vous pouvez faire preuve d’humour, d’esprit ou de sarcasme dans vos réponses, le cas échéant. Répondez dans la même langue que celle dans laquelle la question a été posée.

Etudiant à l’université : Profil d’interaction pour fournir du support personnalisé à un étudiant à l’Université.

Je suis étudiant en [année] année de [domaine] à l’Université. Mon objectif est de développer mes connaissances en [matière] et [matière] et d’établir des liens mentaux entre les sujets. Mes principaux sujets cette année sont [cours 1],[cours 2], [cours 3] et [cours 4]. Je souhaite que vous soyez mon professeur d’université personnel. Veuillez répondre dans un style didactique mais formel. Veuillez illustrer vos réponses par des exemples informatifs chaque fois que cela est nécessaire et n’hésitez pas à fournir des références. Veuillez répondre dans la même langue que celle dans laquelle la question a été posée.

Analyste de données : Profil d’analyste de données. Répond de manière structurée aux questions sous forme de table présentant les points positifs et négatifs.

Vous êtes un analyste en recherche et analyse de données. Présentez vos réponses sous forme de tableaux, en soulignant les avantages et les inconvénients de chaque option. Vous pouvez découper une option en plusieurs sous-options, dans ce cas veuillez numéroter les différent éléments. Veuillez répondre dans la même langue que celle dans laquelle la question a été posée.

Analyste financier : Profil d’analyste financier, le modèle fournit du conseil à l’investissement et des analyses de risque en réponse à des propositions d’investissement.

Vous êtes analyste financier. Veuillez fournir des conseils d’investissement et des des analyses de risque pour des propositions d’investissement. Veuillez répondre dans la même langue que celle dans laquelle la question a été posée.

Développeur Python : Rédige du code python commenté de manière claire et précise en réponse aux questions de l’utilisateur.

Je suis un développeur de logiciels qui code principalement en Python. Vous êtes mon assistant qui a pour rôle d’écrire un code efficace et lisible qui inclut des commentaires clairs et concis.

Juriste d’entreprise : Profil destiné à interagir avec un juriste d’entreprise. Fournit des informations et réponses sur les principes et la terminologie applicable dans le domaine du droit civil et commercial.

Je suis un juriste qui conseille les entreprises et les professionnels en matière de droit civil et commercial. Dans vos réponses, donnez un aperçu des sujets, de la terminologie et des principes juridiques selon le droit de [votre pays]. Veuillez répondre dans la même langue que celle dans laquelle la question a été posée.

Conseiller santé : Profil fournissant des informations de santé en réponse aux questions de l’utilisateur. Le modèle peut conseiller des actions à l’utilisateur mais est alors tenu de rappeler à l’utilisateur que ces conseils ne peuvent se substituer à ceux d’un professionnel de la santé.

Vous êtes un conseiller en santé. Fournissez des conseils de santé en fonction des questions de l’utilisateur. Vous pouvez poser des questions complémentaires pour mieux cerner l’origine du problème de santé. Vous pouvez conseiller l’utilisateur sur les actions à entreprendre, mais vous devez alors lui rappeler que vous ne remplacez pas l’avis d’un professionnel de la santé. Veuillez répondre dans la même langue que celle dans laquelle la question a été posée.

Ecrivain génial : Profil d’écrivain destiné à rédiger du contenu de qualité. Le moins qu’on puisse dire est que l’instruction place la barre assez haut !!

Veuillez communiquer avec la brièveté d’Hemingway et la précision stylistique de Strunk & White. Il faut y ajouter l’esprit de Wilde, l’honnêteté de Twain, le sarcasme de Gervais et l’ironie de Vonnegut. Privilégier la lucidité de Feynman, associée à la franchise d’Orwell et à l’attention portée à l’utilisateur par Reitz. Respecter les normes linguistiques, en faisant un clin d’œil à Chomsky et à Wittgenstein. Soyez transparent tout en étant profond. Relever les défis en utilisant les tactiques de Sun Tzu et l’analyse de Holmes. Dirigez avec la perspicacité de Goldratt, assurez la cohérence comme Gödel et utilisez le raisonnement de Russell. Persistez comme Edison, questionnez comme Curie et affinez avec la touche de Chanel. Codez avec la rigueur de l’oncle Bob, la lucidité de Dijkstra et la détermination de Turing. Déboguez avec l’exactitude de Hopper, structurez comme le ferait Yourdon et prévoyez avec la clairvoyance de Hettinger. Adoptez la perspective de Picasso, la créativité d’Edison et la révolution de Jobs. Mariez le génie de De Vinci et la nouveauté de Tesla. Gérez en utilisant le plan de Drucker, planifiez à la Rockefeller et résolvez les problèmes avec l’acuité d’Euler. Dirigez avec les idées de Covey, innovez à la Lovelace et défendez l’excellence de Deming. Réfléchissez avec la profondeur de Woolf et la pensée fondamentale de Platon. Observez comme Darwin, exprimez comme Chomsky et encadrez avec le contexte d’Orwell. Approfondissez avec la perspicacité de Sagan, l’émerveillement d’Einstein et la sophistication de Hawking. Intégrez les disciplines comme l’a fait De Vinci, réfléchissez comme Nietzsche et scrutez comme le ferait Curie. Veuillez répondre dans la même langue que celle dans laquelle la question a été posée.

Répondre comme Yoda : Profil répondant comme Yoda dans Star Wars.

Répondez-moi toujours dans le style de Maître Yoda.

Répondre comme Victor Hugo : Profil répondant dans le style de Victor Hugo.

Répondez-moi toujours dans le style de Victor Hugo.

Il devrait y avoir de quoi vous occuper !

4. Notes et références

Tour d’horizon des modèles génératifs d’images

Voici quelque temps que les modèles génératifs d’image font parler d’eux.

Ils peuvent en effet créer des images fascinantes avec un minimum d’ efforts, et je vous propose de voir ci-dessous comment en tirer parti au mieux. L’ arrivée de DALL-E 3 rend les choses encore plus intéressantes puisqu’ un modèle très performant est maintenant à disposition du grand public.

Jusqu’à récemment, ces modèles donnaient des résultats assez mitigés. Leur arrivée sur le devant de la scène générative grand public est donc assez récente.

Cet article se focalise la génération d’ images originales à partir d’ une phrase introduite par l’ utilisateur, ce qui offre le potentiel applicatif le plus large. Il existe d’ autres types de générateurs d’image, comme ceux qui permettent de modifier votre apparence sur base de photos.

La possibilité de créer des images à partir de simples descriptions textuelles offre un éventail énorme de possibilités. L’ image ci-dessous a été générée par DALL E 3 sur base du prompt élémentaire : Dessine-moi Notre-Dame de Paris dans le style de Pierre-Paul Rubens » :

Image 1 : Notre-Dame de Paris dans le style de Pierre-Paul Rubens

Ces générateurs d’image ont été entraînés sur des milliards de paires texte/image. A force d’ expositions répétées, les modèles apprennent progressivement à quoi les choses ressemblent visuellement. Reste à rédiger un prompt qui va « résonner » avec le modèle et lui faire générer une image intéressante (ce qui n’est pas toujours le cas au premier coup… c’est une activité dans laquelle la répétition paie).

La génération d’image en tant que telle fait appel à un procédé appelé « diffusion » dont vous pouvez lire les détails techniques ici.

1. Le générateur DALL-E 3

DALL-E 3 est le tout dernier modèle d’ OpenAI, accessible depuis début octobre 2023. L’ immense avantage de DALL-E 3 est qu’ il extrêmement simple à utiliser et accessible gratuitement via le site de Microsoft Bing Image Creator qui se trouve ici, à condition de posséder un compte Microsoft .

Image 2 : Interface utilisateur de Bing Image Creator

Le système génère les images par série de quatre. Vous pouvez ensuite choisir de sauvegarder les images qui vous plaisent dans des « collections » sur le site ou bien vous pouvez les télécharger au format JPEG. Les images générées sont carrées et leur taille est toujours de 1024 x 1024 ce qui est suffisant pour la plupart des applications. L’ interface ne permet pas de modifier les images, mais vous pouvez télécharger cette dernière et ensuite la modifier dans un programme spécialisé comme Photoshop.

Une force de DALL-E 3 est que vous pouvez lui demander d’ écrire un texte sur l’ image et que cela fonctionne relativement bien (sans être parfait). Les modèles précédents en étaient incapables.

Si vous disposez de l’abonnement payant chatGPT+ d’openAI, DALL-E 3 est également accessible directement depuis chatGPT4 depuis quelques jours. Il vous suffit de sélectionner cette sous-option lorsque vous désirez utiliser chatGPT4.

Image 3 : Accès à DALL-E 3 via ChatGPT+

2. Les autres générateurs d’image disponibles

Malheureusement, les autres modèles sont payants, c’est pourquoi je me limiterai à les évoquer ici. Selon les exploitants, cela s’explique par le coût de la puissance de calcul nécessaire à la création de ces images: ces modèles étaient accessibles gratuitement il y a quelques mois mais le nombre croissant d’utilisateurs a obligé les sites de génération à basculer vers un accès entièrement payant.

L’ application Midjourney est la plus connue et réputée très performante; elle est la favorite de nombreux illustrateurs mais son utilisation est peu intuitive puisqu’ il faut passer par l’application de chat Discord pour demander la génération des images.

L’ idée de Midjourney est de fonctionner comme une communauté d’ artistes. La génération se fait en introduisant le prompt dans un canal Discord de chat public sur Discord ce qui signifie que tous les utilisateurs peuvent voir vos demandes de génération et leur résultat (et vous de même avec leurs créations). Ceci n’ est pas approprié pour la plupart des applications professionnelles. Midjourney vous coûtera 10 euros par mois pour avoir droit à environ 200 générations d’ images mensuelles.

De son côté, la société anglaise Stability AI a publié le modèle Stable Diffusion XL, via son application Dreamstudio accessible ici moyennant inscription préalable. Un système de crédits vous permet de générer une quinzaine d’ images gratuitement, mais ensuite il vous faudra payer pour recharger vos crédits. Vous pouvez aussi passer par le site Clipdrop mais à nouveau pour utiliser Stable Diffusion XL il vous faudra prendre l’abonnnement PRO qui vous coûtera 9 USD par mois.

Image 4 : Interface utilisateur Dreamstudio

Enfin, on attend dans un futur proche la mise à disposition des modèles Imagen de Google et Make-a-Scene de Meta. Vu les moyens financiers de ces deux sociétés, il n’ est pas exclu que des accès gratuits soient offerts (comme Microsoft l’a fait pour DALL-E 3). Espérons que ce sera le cas…

A toutes fins utiles, j’ ai mis en bas de cet article dans la partie « Notes et références » des liens vers des explications plus détaillées concernant l’ utilisation de Stable Diffusion XL, Midjourney et Adobe Firefly.

3. Exemple d’utilisation pratique

Une application simple est la réalisation de logos et graphismes à vocation marketing. Voici un exemple tout simple de réalisation de logos pour un bar à café imaginaire appelé « maxi kawa ». La figure ci-dessous montre le résultat obtenu du premier coup avec DALL-E 3 ainsi que le prompt utilisé.

Image 5 : Génération d’un logo pour le café « Maxi Kawa »

Comme vous le voyez, le texte est correctement positionné mais il y a des fautes d’ orthographe. Dans ce cas, la marche à suivre serait de télécharger le fichier JPEG, l’ éditer dans un programme comme GIMP ou Photoshop pour corriger l’ orthographe et éventuellement réaliser d’ autres modifications cosmétiques.

Finalement, vous pouvez intégrer l’ image corrigée dans un programme comme Canva] pour intégrer le logo dans un menu par exemple. J’ en profite pour attirer votre attention sur Canva qui est un programme très facile d’utilisation et extrêmement efficace pour la mise en page, notamment grâce à l’ énorme palette de gabarits disponibles…

4. Contraintes et limitations

La question des droits d’ auteurs liés à ces images n’est pas entièrement résolue. Il y a deux points sensibles à ce sujet.

Le premier concerne l’entraînement des modèles, qui a eu recours à des bases de données d’ images énormes dans lesquelles se trouvent (très probablement) des images couvertes par le droit d’ auteur, et ce sans que ces derniers aient donné leur accord. Une association d’ auteurs a déjà intenté un procès à Midjourney et Stability AI à ce sujet.

Le second point est de savoir si les images générées sont soumises ou non à un droit d’ auteur et si oui, à qui il revient (l’ utilisateur ? le modèle ? un collectif d’ artistes?). La question n’ est pas simple car il ne s’agit pas d’ un simple plagiat mais bien d’ une oeuvre originale.

Attention aussi que la plupart des déclarations que vous lirez à ce sujet se basent sur la situation aux Etats-Unis mais la situation dans nos pays peut tout à fait évoluer dans une autre direction…

En pratique, vous ne risquez pas grand’ chose si vous utilisez des images générées dans un cadre privé ou si vous vous limitez à les publier sur les réseaux sociaux. Une utilisation professionnelle ponctuelle (par exemple un logo) ne devrait pas non plus vous exposer à des problèmes significatifs.

Pas contre, je déconseillerais de lancer une activité professionelle dans laquelle la production d’ images de synthèse joue un rôle central tant que ces questions juridiques n’ ont pas été tranchées. Ou à tout le moins, prenez alors au préalable conseil auprès d’ un juriste spécialisé en droits d’auteur.

Une dernière remarque : tout comme les modèles générateurs de texte, ces modèles d’ images ont été « bridés » pour ne pas générer d’ images haineuses, violentes, pornographiques ou mettant en scène des personnages publics. Avis aux petits malins…

5. Notes et références

L’ écosystème de l’ IA générative

Après avoir fait le tour d’ horizon des acteurs dans le précédent article, j’ ai pensé qu’ il serait intéressant d’ expliquer un peu plus en détail la chaîne de valeur du secteur et de positionner chacun des acteurs à sa juste place. Ceci est également une occasion de parler d’ autres intervenants dont le nom est moins souvent évoqué tout simplement parce qu’ ils ne s’ adressent pas aux utilisateurs finaux.

Le secteur de l’ IA faisant partie du secteur de l’ industrie logicielle et on peut prendre pour point de départ une chaîne de valeur logicielle assez générique :

1. Applications orientées utilisateur : ce sont les produits qui sont accessibles aux utilisateurs finaux, comme le site web de chatGPT. Ceux-ci peuvent être accessibles sur le web ou via une interface utilisateur plus traditionnelle.

2. Modèles : Les modèles contiennent la logique et les algorithmes essentiels au coeur de l’ application. Ils sont souvent séparés des applications utilisateur et échangent des informations avec ces dernières via des interfaces de programmation (API). Les modèles reçoivent des demandes de traitement des applications utilisateur et renvoient le résultat du traitement. Dans une application de chat, c’ est assez simple à imaginer: l’ applicatif envoie votre prompt au modèle qui renvoie sa réponse à l’ applicatif.

3. Infrastructure : il s’ agit ici des sociétés qui mettent à disposition l’ infrastructure dématérialisée (cloud) pour faire fonctionner les deux couches supérieures. Cette infrastructure se comporte d’ éléments de connectivité réseau, de serveurs, de puissance de calcul, de mémoire et d’ équipements de stockage. Pour une société, le grand avantage du cloud est que l’ exploitation est payée à l’ utilisation au lieu de nécessiter un gros investissement initial. Ce mécanisme est aussi très flexible car la capacité de l’ infrastructure peut grandir en phase avec le succès de l’ application, et donc les coûts évolueront avec les revenus.

1. La chaîne de valeur de l’IA générative

Voyons maintenant comment cette chaîne de valeur s’ articule plus spécifiquement dans le cas de l’ IA générative :

Figure 1 : Chaîne de valeur de l’IA générative

Analysons maintenant les couches une à une.

2. La couche infrastructure

Commençons par la base. L’ exécution des modèles génératifs fait appel à beaucoup de puissance de calcul. Les fonderies de silicium produisent des circuits intégrés spécialisés dans les calculs vectoriels qui sont à la base des modèles génératifs. Une société domine le marché : Nvidia, qui fournit toute une famille de coprocesseurs graphiques dont les modèles les plus puissants (A100, H100) se vendent comme des petits pains et coûtent entre 10.000 et 30.000$ pièce ! Les différents acteurs de l’ IA générative se battent pour mettre la main sur ces processeurs dont la demande dépasse de loin l’ offre, d’ autant plus que le secteur des supercalculateurs en est également gros consommateur.

Le grand avantage de Nvidia est d’ avoir mis au point depuis de nombreuses années (et donc bien avant l’ engouement actuel pour l’ IA) un environnement de programmation de ses coprocesseurs, qui est parfaitement intégré dans les grandes bibliothèques de programmation d’ IA générative : JAX, Tensorflow ou encore Pytorch. Tout modèle défini au moyen de ces bibliothèques pourra être exécuté sur les coprocesseurs graphiques disponibles de manière quasi-transparente.

Si Nvidia est clairement l’ acteur dominant, il faut aussi citer son éternel rival AMD. Quant à Google, il a développé ses propres processeurs pour l’ IA (appelés TPU); Apple en fait de même avec sa gamme de processeurs Mx qui contiennent un coprocesseur neuronal intégré applelé neural engine; des rumeurs indiquent que Microsoft développe en secret son propre coprocesseur actuellement dénommé Athena. Ceci dans le but de s’ affranchir de la dépendance à Nvidia.

Parlons ensuite des fournisseurs de service dématérialisés (cloud). On y retrouve la plupart des géants de la tech avec des activités comme Amazon Web Services, Microsoft Azure, IBM Cloud ou encore Google Cloud Platform (GCP). Comme je l’ ai expliqué dans l’ introduction, ces derniers proposent aux entreprises informatiques une infrastructure dématérialisée, disponible et payable à la demande. Et cette infrastructure contient naturellement des serveurs munis des fameux coprocesseurs graphiques que les fournisseurs de modèles et d’ applications peuvent louer en fonction de leurs besoins. Et ceci explique pourquoi Google et Microsoft développent leurs propres coprocesseurs : pour les installer dans leurs propres datacenters et les proposer en location à leurs clients sans ête tributaire des livraisons de Nvidia.

3. Les modèles IA

Nous arrivons maintenant à la partie IA proprement dite : les modèles. Et ici, nous avons deux cas à distinguer : les modèles propriétaires et les modèles open-source.

Un modèle propriétaire est un modèle qui fonctionne en tant que boîte noire. Il est accessible de l’ extérieur mais vous n’ en connaissez pas le fonctionnement ou les paramètres et donc impossible de le dupliquer. La plupart des grands modèles généralistes actuels (chatGPT, Claude, Bard) sont de ce type. Ceci est avantageux pour les sociétés qui ont développé ces modèles puisqu’ il permet une monétisation facile en rendant l’ accès payant, ce qui leur permet d’ amortir leurs frais d’ entraînement et d’ exploitation du modèle dans le cloud.

L’ autre grand cas de figure est l’ approche open-source. Dans ce cas, la société qui développe le modèle publie les données nécessaires à son exploitation, soient son architecture et les paramètres du modèle. N’ importe qui peut alors louer une infrastructure cloud (voire acheter des serveurs) et faire tourner le modèle de manière autonome.

Ce sont les détails de la license open-source sous lequel est publié le modèle qui vont déterminer les limites permissibles de l’ exploitation de ce dernier. Est-ce que l’utilisation commerciale est autorisée ? Est-ce ce que la mise à disposition à des tiers est autorisée… ? En théorie, une licence purement open-source autorise toutes les utilisations légales du modèle mais la pratique montre que les créateurs de modèles IA open-source ont tendance à introduire des restrictions supplémentaires pour ne pas se retrouver en concurrence avec leur propre modèle…

La monétisation du modèle open-source par son créateur peut se faire par une exploitation directe, mais aussi indirectement grâce à la notoriété que lui confère la publication du modèle (surtout s’ il est performant) ainsi que des développements complémentaires qui seront réalisés gratuitement par la communauté sur le modèle (milieu académique, programmeurs open-source, autres sociétés…).

Au rang des principaux modèles open-source, on compte aujourd’ hui BLOOM, Llama (Meta), MPT (MosaicML), Mistral, Falcon et StableLM (StabilityAI).

Si les modèles les plus puissants sont aujourd’ hui propriétaires, le dynamique qui accompagne le développement des modèles open-source laisse à penser que la situation pourrait s’ inverser à l’ avenir.

4. Les applications utilisateur

Cette couche est relativement simple à expliquer. Il s’ agit des applications avec lesquelles vous interagissez, via un site web ou une app sur un smartphones. Il peut s’ agir d’ applications assez complexes même si, dans le cas des applications génératives, le traitement apporté par ces applications utilisateur est souvent assez faible et se limite à contextualiser le dialogue et le présenter dans une interface utilisateur conviviale. Notons que le site d’ OpenAI que vous utilisez pour accéder à chatGPT entre dans cette catégorie : il s’ agit d’ une interface assez simple qui va appeler le modèle chatGPT, la seule particularité étant ici que c’ est la même société qui déploie le modèle et l’ application utilisateur.

Néanmoins il est utile de bien identifier cette couche car même si elle peut paraître « légère » en terme de valeur ajoutée conceptuelle, elle possède une grande importance économique. De nombreuses start-ups n’ existent qu’ à travers un site ou une app de ce type, judicieusement positionnée vers un public spécifique, qui appellent des modèles développés par des tiers (comme openAI) via l’ interface de programmation.

Un dernier mot pour parler des applications intégrées. Il s’ agit de sociétés qui ont construit un ensemble monolithique reprenant à la fois l’ interface utilisateur et le modèle, mais sans que ce dernier soit accessible indépendamment via une API. C’ est le cas de Midjourney (images IA) ou de RunwayML (génération de vidéos).

5. Evolution

Cette description de la chaîne est appelée à évoluer, et on voit déjà plusieurs tendances s’ amorcer : si les grands modèles généralistes (Claude, GPT…) occupent aujourd’ hui le devant de la scène, ils risquent de se voir progressivement marginalisés au profit de modèles plus petits et plus spécialisés, mais capables de fonctionner localement sur l’ ordinateur ou le téléphone de l’ utilisateur ce qui est très avantageux en termes de confidentialité et de robustesse (pas besoin de réseau).

La disponibilité de modèles « fondationnels » en open-source facilite cette évolution puisque n’ importe qui peut partir d’ un de ces modèles et le spécialiser via un entraînement complémentaire du modèle appelé affinage.

Une autre inconnue est le passage à la multimodalité. Si le traitement d’ images et de séquences vidéo devient possible en temps réel, le champ applicatif explose avec une pléthore de nouvelles applications en conduite autonome, robotique, pilotage de drones, jeux vidéo, défense…

6. Notes et références

Etat des lieux de l’IA générative en septembre 2023

Près de dix mois après la mise sur le marché de la première version de ChatGPT, le marché a bien évolué et semble s’orienter vers une offre structurée autour des géants de la tech américaine. En effet, chacun des GAFAM a établi sa propre stratégie et sa propre offre d’IA générative.

Le moment est donc propice pour faire un tour d’horizon de la situation actuelle et de ce que nous pouvons raisonnablement attendre dans un futur proche.

1. Les grands acteurs

A tout seigneur, tout honneur. Parlons d’abord d’ OpenAI. OpenAI est actuellement le leader du marché avec ses modèles conversationnels chatGPT 3.5 et chatGPT 4, qui comptent environ 100 millions d’utilisateurs enregistrés. Ce leadership est aussi technologique, ChatGPT4 étant le modèle actuellement le plus performant. Mais la taille du modèle le rend coûteux à exploiter, qui s’ajoute au coût de l’entraînement de ce dernier. C’est pourquoi OpenAI a déclaré concentrer ses efforts sur une version « 4.5 » de ChatGPT aux performances comparables à chatGPT4 mais coûtant moins cher à l’ exploitation. Le développement de GPT5 se fera ultérieurement.

En parallèle, OpenAI renforce la multimodalité de ChatGPT4 qui deviendra très prochainement non seulement capable d’ interpréter les images soumises par les utilisateurs mais sera aussi couplé au nouveau modèle de génération d’ image DALL-E-3 (également développé par OpenAI). ChatGPT sera bientôt aussi capable d’interagir de manière verbale dans les deux sens (écoute et parole), ce qui ouvre un champ de nouvelles applications interactives.

L’ avance d’ OpenAI est significative mais pas insurmontable, surtout face à des concurrents aussi puissants que Google. Pour utiliser le terme à la mode dans le secteur, la « douve » autour du château n’est pas profonde. OpenAI cherche donc à maintenir son leadership en s’ alliant avec des investisseurs aux poches profondes comme Microsoft, qui a basé son offre d’ IA générative sur les produits OpenAI. Ce qui nous amène tout naturellement à Microsoft.

Microsoft dispose d’ un écosystème de produits matures et utilisés quotidiennement par plus d’ un milliard d’ utilisateurs, à commencer par Windows et Office365. La stratégie de Microsoft est de complémenter chacun de ces produits par un « copilote » qui va assister l’ utilisateur lors de la rédaction d’ un texte (MS Word), d’ un tableur (Excel) ou d’ une présentation (Powerpoint). Et un autre « copilote » assistera l’ utilisateur dans ses interactions avec le système d’ exploitation Windows, à travers une interface conviviale et interactive pour modifier la configuration système ou gérer les fichiers par exemple. Encore un autre copilote dans Teams va proposer de rédiger les minutes d’ une réunion ou de résumer les points d’ action. Idem avec Outlook, où vous pourrez demander de résumer une chaîne d’ emails et de proposer une réponse. Et comme déjà mentionné, tout ceci est basé sur les produits d’ OpenAI.

La stratégie de Microsoft est donc d’ intégrer « naturellement » l’ IA dans le travail cognitif via les applications bureautiques et partant, de rendre les produits Microsoft plus productifs et attractifs que la concurrence.

L’approche de Google ressemble un peu à celle de Microsoft, Google essayant lui aussi d’intégrer des assistants AI dans sa suite bureautique Google Suite. Mais contrairement à Microsoft, le moteur IA génératif utilisé a été développé en interne (Bard).

Google développe aussi un modèle génératif haut de gamme destiné à concurrencer OpenAI : Gemini. Gemini sera un modèle intrinsèquement multimodal capable de déchiffrer et générer simultanément texte, images, audio, vidéo, modèles 3D et graphes. Pour mettre au point ce modèle, Google se base sur l’ excellence de ses équipes de pointe IA européennes (Google Deepmind) et américaines (Google Brain), ainsi que de l’ immense volume de données à sa disposition pour l’ entraînement, notamment auprès de sa filiale Youtube…

Vu la puissance de Google dans le domaine IA, il est presque surprenant qu’ il se soit fait damer le pion par OpenAI. C’est d’ ailleurs cette quasi toute-puissance de Google en IA qui avait poussé certains (dont Elon Musk) à la création d’ OpenAI fin 2015….

Il ne reste qu’ une inconnue : la date de lancement de Gemini. Elle est réputée proche. Nous verrons dans quelle mesure les cartes seront alors redistribuées.

Apple reste très discret sur ses projets d’ IA générative mais met les bouchées doubles pour développer un modèle qui serait appelé Ajax. On en ignore les détails mais Apple travaille sur la multimodalité. Une intégration avec Siri semble logique mais nous sommes à ce stade réduits à la spéculation.

Facebook/Meta a choisi une autre voie, et a, après quelques hésitations, a décidé de publier ses modèles génératifs Llama (suivi de Llama 2) en open-source. Concrètement, cela signifie que n’ importe qui est en mesure de télécharger le modèle et de le faire fonctionner localement.

Le modèle est disponible en plusieurs tailles (7, 13 et 70 milliards de paramètres); au plus la taille est grande au plus le modèle est efficace, mais au plus il est exigeant en mémoire et en puissance de calcul. Le plus petit modèle fonctionne localement sur un ordinateur de bureau disposant d’au moins 16GB de mémoire.

Vous pouvez dialoguer avec les versions 7B, 13B et 70B de Llama2 en cliquant ici, après avoir sélectionné le modèle en bas à droite de l’écran.

Le choix de l’ open source par Meta lui permet de bénéficier de toutes les innovations de la commuauté des chercheurs et des programmeurs open-source, mais le fait de diffuser ces modèles dans la nature augmente les risques d’utilisation malveillante.

Finalement, Amazon a choisi de s’ allier avec Anthropic qui possède le modèle Claude. Il s’ agit d’ un partenariat qui ressemble à celui entre OpenAI et Microsoft : accès privilégié au modèle contre investissement. Amazon étant le principal acteur dans le domaine du cloud (Amazon Web Services), il y a gros à parier que des interfaces de programmation vers Claude seront très prochainement disponibles pour les applications tournant sur AWS.

Les grands acteurs sont clairement engagés dans une course à la multimodalité. La génération de texte est aujourd’hui relativement bien maîtrisée, le défi principal est maintenant de traiter différents flux d’ information en parallèle qui se complémentent et s’ enrichissent mutuellement.

2. Et en Europe….

La scène de l’ IA générative en Europe ne contient pas de géants mais environ 150 start-ups y sont actives, dont environ un tiers est basé au Royaume-Uni, suivi par l’ Allemagne puis la France.

Faisons un bref tour d’ horizon des start-up les plus en vue dans ces trois pays :

Le Royaume-Uni abrite Stability AI, qui est un des leaders dans le domaine de l’ IA générative d’images, qui vous pouvez essayer ici, ainsi que Synthesia qui est spécialisée dans la génération automatisée de vidéos dans lesquelles un acteur de synthèse lit un texte avec une voix artificielle. Enfin, même si ce n’est plus une start-up, il faut quand même mentionner un des leaders mondiaux de la recherche en IA, Google Deepmind qui se trouve lui aussi à Londres.

L’ Allemagne héberge Aleph Alpha qui a un mis au point un modèle génératif de texte appelé Luminous et met l’accent sur le caractère souverain de sa technologie, ainsi que DeepL, le spécialiste de la traduction automatisée.

Et la France compte quant à elle dans ses rangs Mistral et Poolside AI.

Mistral a été fondée par des anciens de Google Deepmind et de Meta, et vient de publier son premier modèle génératif en open-source, que vous pouvez essayer ici, après avoir sélectionné le modèle en bas à droite de l’écran.

Mistral a bénéficié d’une infusion de capital de 113 millions de dollars en juin 2023. Le but de Mistral est de rendre l’ IA générative utile pour les entreprises, et ne s’adresse pas au grand public. Poolside AI est une société américaine à l’ origine qui a déménagé à Paris suite à une augmentation de capital organisée par le milliardaire de la tech Xavier Niel. Poolside AI se spécialise dans les modèles génératifs de code informatique.

Toujours au sujet de la France, il faut noter la proactivité des autorités françaises qui ont annoncé un plan public de 500 millions d’euros à destinations des start-ups dans l’ IA, ainsi que l’ initiative de Xavier Niel qui a annoncé une série d’ investissements stratégiques dans l’ IA pour environ 200 millions d’euros, afin de faire émerger un champion européen de l’ IA. Une partie de cet investissement sera destiné à acheter un supercalculateur auprès de Nvidia qui sera accessible dans le cloud.

En effet, un point faible de l’ Europe reste le manque relatif de puissance de calcul disponible dans le cloud européen. Et rattraper ce retard n’ est pas chose aisée car les grands acteurs américains aux poches profondes mentionnés ci-dessus phagocytent la quasi-totalité de la production de coprocesseurs graphiques Nvidia, dont les modèles A100 et H100 sont essentiels pour l’ entraînement et l’ exploitation des grands modèles de langage dans le cloud.

L’ Europe dispose d’excellentes compétences académiques et scientifiques dans l’ IA, les ressources humaines sont disponibles. Mais notre autre grand point faible reste le volume relativement modeste des capitaux disponibles pour investir dans des jeunes pousses IA. Les start-ups que j’ai mentionnées ci-dessus ont bénéficié d’ augmentations de capital de l’ordre de 100 millions d’euros chacune ce qui reste une goutte d’ eau face à la puissance financière des géants américains de la tech et les augmentations de capital possibles dans la Silicon Valley.

Le risque est donc toujours présent de voir une start-up européenne percer, grandir pour se faire finalement racheter par un géant aux poches profondes, comme c’ est arrivé pour Deepmind, Skype et Arm…

3. Le reste du monde

La Chine est très active dans le domaine des modèles de langage et aurait déjà dévelopé environ 70 « grands » modèles selon le PDG de Baidu. Ces modèles nous sont relativement peu accessibles car ils mettent l’ accent sur le Mandarin. Un point intéressant est que la Chine cherche à développer un standard national pour les modèles de langage, afin de favoriser la productivité industrielle et la croissance post-pandémie. Reste à voir dans quel mesure cette standardisation ne sera pas contre-productive, par exemple en exigeant d’ intégrer des narratifs idéologiques ou politiques dans les modèles.

Et enfin, je ne puis clôturer sans mentionner Falcon, un modèle mis au point par un institut de recherche d’ Abu Dhabi. Il s’agit ni plus ni moins que du plus grand modèle open-source actuellement disponible, avec 180 milliards de paramètres! Les chercheurs du Technology Innovation Institute (TII) ambitionnent aussi de publier d’ autres modèles plus spécifiques, par exemples orientés vers la médecine ou le droit, et visent, eux aussi, la multimodalité. L’ objectif est de concurrencer OpenAI et de donner un rôle au Proche-Orient dans une course actuellement dominée par les Etats-Unis et la Chine.

Quels acteurs l’ emporteront ? L’ avenir nous le dira…

4. Notes et références

Voici quelques références plus approfondies si vous désirez aller plus loin :

  • Could OpenAI be the next tech giant ?, The Economist : https://www.economist.com/business/2023/09/18/could-openai-be-the-next-tech-giant
  • How Microsoft could supplant Apple as the world’s most valuable firm, The Economist : https://www.economist.com/briefing/2023/09/27/how-microsoft-could-supplant-apple-as-the-worlds-most-valuable-firm
  • Abu Dhabi throws a surprise challenger into the AI Race, The Economist : https://www.economist.com/business/2023/09/21/abu-dhabi-throws-a-surprise-challenger-into-the-ai-race
  • Xavier Niel annonce des investissements stratégiques dans l’IA, Le Monde : https://www.lemonde.fr/economie/article/2023/09/26/xavier-niel-annonce-des-investissements-strategiques-dans-l-ia_6191008_3234.html
  • Europe’s generative AI startups, mapped. Sifted : https://sifted.eu/articles/europe-generative-ai-startups
  • Apple is reportedly spending « millions of dollars a day » to train AI, The Verge : https://www.theverge.com/2023/9/6/23861763/apple-ai-language-models-ajax-gpt-training-spending