Rendre l' IA accessible à tous

Catégorie : Ecosystème

Posts décrivant le marché et les acteurs du monde de l’IA

Intelligence artificielle et désinformation

Le problème de la désinformation est très ancien. Discerner le vrai du faux est souvent une tâche ardue, surtout quand la manipulation est volontaire et réalisée par des spécialistes décidés à influencer l’ environnement informationnel pour leur propres fins. La démocratie reposant sur l’ avis de ses citoyens et cet avis dépendant des informations dont ils disposent, il y a un avantage politique évident à tirer de l’ instrumentalisation de l’ information.

Il n’ est donc pas étonnant que ce type d’ exploitation remonte à la nuit des temps. Dès la Grèce antique, Thucydide se plaignait du peu d’ effort que le peuple fait dans la recherche de la vérité, préférant prendre pour argent comptant la première histoire qu’ il entend. A la même époque, les sophistes enseignent aux politiciens comment convaincre les électeurs de prendre leur parti, indépendamment de la pertinence de leurs idées. Et quiconque a dû traduire dans sa jeunesse des passages de La Guerre des Gaules se rend vite compte que cet ouvrage relève plus de la propagande politique que de la narration objective.

Aujourd’ hui, la situation est plus complexe et -en toute logique- pire que dans le passé, et ce pour trois raisons.

Tout d’ abord, les technologies digitales permettent la diffusion de l’ information à grande échelle et à moindre coût. Ensuite, les médias sociaux créent une nouvelle dynamique informationnelle dans laquelle il est à la fois possible d’ atteindre une audience massive sans filtrage préalable, mais également de diffuser ces informations sous le couvert de l’ anonymat. Troisièmement, le déluge de données générées par ces technologies rend possible le recours à l’ Intelligence Artificielle à ces fins de génération de contenu et de ciblage comme nous le verrons plus bas.

Par ailleurs, si la politique et les relations internationales constituent le terrain d’ affrontement informationnel le plus visible, certains acteurs économiques agissent de la même manière. Le point de contention étant ici souvent la toxicité ou la dangerosité de certains produits, le lieu de l’ affrontement se déplace vers le monde scientifique : études orientées, chercheurs décrédibilisés, instillation de doutes sur certains résultats défavorables, crédibilisation à travers des alliances avec des acteurs académiques ou professionnels… La saga du lien entre tabagisme et cancer, ou de celui entre énergies fossiles et réchauffement climatique sont révélatrices de ce genre de pratiques. Il faut cependant éviter ici une grille d’ analyse trop catastrophiste ou unilatérale : la grande majorité des entreprises s’ abstiennent de recourir à ce genre de pratiques; par ailleurs les associations de consommateurs et les ONG qui leur font face ne sont pas nécessairement au-dessus de tout soupçon elles non plus.

1. Architecture d’une opération moderne de désinformation

Voyons maintenant l’ architecture d’ une opération de désinformation organisée, sans encore recourir à l’ IA.

Celle-ci va débuter par la mise en place d’ une équipe chargée de la création de contenus subversifs. Pour cela, différentes techniques sont possibles. La première est de se baser sur des articles existants puis de les réécrire de manière orientée. L’ avantage est que les médias existants fournissent une source inépuisable de contenus qui peuvent en outre être filtrés en fonction de la thématique poursuivie. La seconde approche consiste à inventer une histoire de toutes pièces et la rédiger en conséquence.

Figure 1 : Eléments d’ une opération de désinformation organisée

Une fois le contenu créé et quelle qu’en soit sa forme (texte, image, vidéo…) il faudra s’ assurer de la publication de ce dernier sur Internet. Et c’ est ici que les acteurs et les activités se multiplient… Blogs, sites d’ information et organisations fantoches serviront de relais aux informations produites. Idéalement, les sites d’ informations et blogs mélangeront l’ information fabriquée de toutes pièces à de l’ information réelle pour ne pas trop dévoiler leur jeu. Une autre stratégie judicieuse constitue à démarrer une activité et constituer un lectorat fidèle en ne publiant que des informations réelles dans un premier temps, pour n’ introduire que plus tard des contenus fallacieux. Enfin, les organisations fantoches se présentent sous la vitrine d’ une activité publique honorable mais servent en réalité une information « frelatée ». Pour finir, l’ ensemble de ces acteurs référeront mutuellement leurs publications afin de renforcer leur crédibilité mutuelle. Un article publié sur un site d’ information sera repris par un blog (éventuellement avec des commentaires positifs) et vice-versa…les désinformeurs les plus ambitieux vont même jusqu’à créer de toutes pièces des sites d’ information imitant les médias légitimes pour servir leur contenu.

Une fois cet écosystème auto-référençant en place, reste à « pousser » l’ information vers les utilisateurs finaux. En effet, même si certains viendront d’ eux-mêmes chercher l’ information sur ces sites, afin de maximiser l’ impact il vaut mieux contacter proactivement les personnes visées soit via les réseaux sociaux, soit par le biais d’ influenceurs.

Le recours aux réseaux sociaux se fait par l’ intermédiaire de profils anonymes ou usurpés. Un profil sera construit au fil du temps et chechera à atteindre une catégorie donnée d’ utilisateurs en présentant un contenu attractif pour ces derniers, en les contactant proactivement etc… les opérations de désinformation les plus élaborées établissent différents types de messages destinés à différentes catégories d’ utiliateurs et qui « résonnent » mieux avec les préoccupations de ces derniers.

Les influenceurs jouent un rôle analogue. Il s’ agira ici souvent de personnes connues créant des contenus vidéo sur Youtube et/ou Tiktok et qui vont mentionner les contenus manipulés au cours de leurs vidéos. Il est plus difficile de créer un influenceur qu’ un simple utilisateur de réseaux sociaux mais son impact sera plus grand.

Bien sûr, ce que je décris ci-dessus constitue une opération à grande échelle et il est possible de constituer une opération plus modeste, par exemple en se réappropriant des contenus générés par des tiers.

Le but d’ une opération de désinformation n’ est pas nécessairement de pousser le public à supporter une conviction ou une idée contre une autre. L’ objectif recherché est parfois de polluer simplement la sphère informationnelle afin de semer le doute sur la crédibilité des médias et des pouvoirs publics, voire de monter les gens les uns contre les autres à des fins de déstabilisation.

2. L’ Intelligence Artificielle comme arme de désinformation

Voyons maintenant comment l’IA peut renforcer l’ opération décrite ci-dessus. Cela se fera principalement en automatisant certaines étapes du processus.

Tout d’ abord, l’ étape de création du contenu peut être fortement accélérée via l’ IA générative. Rien de plus simple que de prendre un article existant et demander à un modèle de langage de le réécrire de manière orientée. Idem pour la création à partir de rien. Quelques lignes de texte et une explication claire de l’ objectif recherché suffiront à générer un contenu suffisamment convaincant pour la plupart des internautes. Générer des images ou des vidéos manipulées est également possible via la technique des deepfakes. L’ IA générative permet littéralement de créer des « pipelines » de désinformation largement automatisés…

Figure 2 : Opération de désinformation exploitant l’ IA

Ensuite l’ IA générative va permettre de créer des profils autonomes appelés bots sur les réseaux sociaux. Ils se voient attribuer des règles de comportement pour incarner une personne virtuelle et agiront et réagiront comme tels, encore une fois avec peu ou pas d’ intervention humaine. Twitter/X est notoirement sujet à ce phénomène et on y voit régulièment des bots démasqués par un utilisateur judicieux parvenant à détourner ses instructions, une technique appelée prompt injection en sécurité informatique…

Enfin, l’IA -non générative cette fois- va permettre de regrouper et d’ identifier les personnes ciblées par groupe démographique et géographique, préférences politiques et de consommation en fonction de leur comportement en ligne. Un tel profilage qui est pratique courante dans le secteur de la publicité peut également être utilisé dans le domaine des préférences politiques ou religueuses. Il ne restera alors qu’à choisir le bon message pour convaincre le citoyen ou l’ électeur indécis.

C’ est d’ ailleurs ce type de pratique qui est à la base du scandale de Cambridge Analytica qui avait détourné des informations de comportement des utilisateurs de Facebook à des fins de microciblage politique. Vous trouverez plus d’ informations ici sur cette affaire.

3. Illustration : l’ opération Doppleganger

L’ Opération Doppleganger est une opération de désinformation politique mise en place en mai 2022 par la Russie dans le but principal d’ affaibilir le soutien occidental à l’ Ukraine. Cette opération -toujours active- a pour but de répandre quatre narratifs dans la population occidentale :

  • les sanctions contre la Russie sont inefficaces;
  • les Occidentaux sont Russophobes;
  • l’armée ukrainienne est barbare et remplie de néo-nazis;
  • les réfugiés ukrainiens contituent un fardeau pour les pays qui les accueillent.

Doppleganger recourt à de faux sites d’ information qui imitent l’ apparence de médias reconnus comme Der Spiegel, Le Figaro , Le Monde et The Washington Post.

Les articles publiés par Doppleganger sont notoirement critiques du Président ukrainien Volodymyr Zelensky et ont dans le passé fait état de ses prétendues villas sur la Riviera ainsi que des goûts de luxe de son épouse, afin de les ternir à travers des insinuations de corruption… Un autre faux article faisait état d’une taxe de 1,5% sur toutes les transactions monétaires afin de financer la guerre en Ukraine. Pour ce dernier article, les faussaires n’ ont pas hésité à créer un faux site du Ministère des Affaires Etrangères français afin de rendre l’ information plus crédible.

La campagne a été démasquée par l’ EU Disinfo Lab en Septembre 2022. Vous trouverez plus d’ informations à son sujet ici.

Si l’ opération visait initialement l’ Europe, elle s’ est élargie aux Etats-Unis en 2023, et a récemment publié des images de stars américaines comme Beyoncé ou Taylor Swift soutenant un narratif prorusse ou anti-Ukrainien. Elle progage actuellement aussi de la désinformation relative au conflit entre Israel et le Hamas.

4. Réflexions

La désinformation délibérée et organisée dont je parle dans cet article n’ est qu’ une facette de la pollution informationnelle à laquelle nous sommes confrontés quotidiennement. Celle-ci comprend également les informations inutiles ou non demandées comme le spam, les informations destinées à exacerber les émotions telles que la peur ou la colère, certaines formes intrusives de publicité ou encore la mésinformation (personnes colportant de bonne foi une information incorrecte). La multiplicité de ces informations de faible valeur contribue à une surchage informationnelle pouvant amener au rejet et au doute généralisé, y compris envers les médias traditionnels.

Or l’ accès à une information de qualité est plus que jamais crucial. C’est pourquoi je suis convaincu que les médias traditionnels ont une carte importante à jouer en se repositionnant comme gardiens de l’ information correcte et objective. Si les pratiques et l’ éthique journalistique garantissent en général l’ exactitude factuelle de l’ information, il en va autrement pour le second critère : la plupart des médias suivent une ligne éditoriale particulière qui va analyser l’ information objective à travers un prisme subjectif. Prenez la même information et lisez-la dans le Figaro et dans l’ Humanité, vous n’en tirerez pas les mêmes conclusions. Mais il me semble que ceci nuit à la crédibilité des médias en les rendant acteurs du monde informationnel polarisé au-dessus duquel ils devraient s’ élever.

J’imagine donc dans l’ avenir des médias qui se réorienteraient vers un rôle de « fact-checkers » et de pourvoyeurs d’ information où les analyses seraient plus neutres et plus objectives. Il y a certainement une opportunité à saisir mais cela ne pourra fonctionner que si les médias sont perçus comme tels par le public. Il faudra que les médias communiquent sur eux-mêmes…

5. Sources et références

Mistral : la start-up française qui fait du bruit

Voici quelques semaines que la start-up française Mistral fait beaucoup parler d’ elle dans le monde de l’ IA générative.

Fondée en mai 2023 par trois ingénieurs venant de Google Deepmind, Mistral a déjà levé 385 millions d’ euros de capitaux en six mois et est actuellement valorisée à environ 2 milliards d’ euros!

Cette croissace effrénée positionne d’ ores et déjà Mistral comme un des acteurs majeurs du secteur et un concurrent sérieux d’ OpenAI.

Mistral continue à développer ses modèles et capacités, et pourrait bien jouer un rôle-clé dans le futur développement de l’ IA européenne. L’ approche open-source de l’ entreprise et son engagement éthique s’ alignent avec les préférences de nombreuses entreprises européennes.

Le succès de Mistral est supporté par l’ existence d’ un écosystème IA français qui ne cesse de se renforcer. La French Tech bénéficie en effet d’un climat favorable : Xavier Niel a annoncé en septembre des investissements stratégiques dans l’ IA estimés à environ 200 millions d’euros. Ces investissements sont pour partie destinés à acheter des coprocesseurs graphiques (GPU) chez Nvidia afin de doter la société de services cloud Scaleway de la puissance de calcul nécessaire à l’ IA et la mettre à la disposition des start-ups européennes.

Mais l’ argent et la puissance de calcul ne sont pas tout, il faut également une concentration de talents. En novembre, la création de Kyutai a été annoncée, un nouveau laboratoire de recherche IA basé à Paris et bénéficiant de 300 millions d’ euros d’ investissement, à la tête duquel se trouvent des pointures de l’ IA venant de Google et Meta. De fait, les laboratoires de recherche de Google Deepmind et de Meta, présents dans la région, constituent un réservoir de talents qui va pouvoir irriguer les nouvelles entreprises.

De son côté, Station F, un des plus grands incubateurs de start-ups technologiques au monde, se trouve également à Paris, accompagne les premiers pas des jeunes pousses et joue un rôle fédérateur, à travers notamment des événements comme AI-Pulse.

Tout ceci signifie que la France commence à sérieusement concurrencer la Grande-Bretagne, jusqu’ ici acteur dominant de l’ IA européenne.

Il faut mentionner ce développement positif : on entend souvent parler de start-ups européennes qui partent se développer aux USA lorsque leurs besoins en capitaux augmentent, mais l’ inverse commence aussi à se produire : la société américaine Poolside AI a décidé de déménager à Paris, attirée notamment par des coûts salariaux moins exorbitants qu’ aux Etats-Unis…

Modèles Mistral disponibles

Voyons maintenant un peu plus en détail les modèles publiés par Mistral. Il y en a trois, appelés Mistral-7B, Mixtral-8x7B et Mistral-Medium, par ordre de puissance croissante.

  • Mistral-7B ne converse qu’ en Anglais et comporte 7 milliards de paramètres, ce qui le rend exécutable localement sur la plupart des ordinateurs actuels. Ce modèle est disponible librement en open-source.
  • Mixtral-8x7B comprend l’Anglais, le Français, l’Allemand, l’Italien et l’Espagnol. Son architecture est appelée « mixture d’ experts ». Ce modèle est aussi disponible en open-source. mais vu sa taille, seules des machines spécialisées peuvent le faire fonctionner.
  • Mistral-medium : il s’agit d’une version améliorée de Mixtral-8x7B avec la même architecture de base. Mistral déclare que ses performances sont proches de GPT-4 et qu’il excelle dans les tâches de programmation. Ce modèle n’est pas disponible en open-source, il faut demander accès (payant) via l’interface de programmation Mistral.

L’ architecture de type Mixture of Experts utilisée par Mixtral-8x7B comprend 8 groupes distincts de paramètres, plus un bloc de supervision qui n’ active que les deux groupes les plus pertinents lors du passage à travers chaque couche du modèle, puis les recombine ensuite. Cette approche innovante permet au modèle, qui compte 46,7 milliards de paramètres, de n’ exiger « que » la puissance de calcul d’ un modèle de 13 milliards de paramètres. La génération est donc accélérée d’ un facteur 3,5 environ. On soupçonne d’ ailleurs que GPT-4 -dont l’architecture n’ a pas été publiée- utilise lui aussi un modèle de ce type, les rumeurs faisant état de 8 experts de 220 milliards de paramètres chacun (soit 1,7 trillions de paramètres au total).

Une grande partie de l’ engouement pour Mistral provient de la performance de ces modèles par rapport à leur taille. Vous pouvez voir que Mixtral-8x7B est très bien positionné dans le classement réalisé par HuggingFace :

Figure 1 : Classement des LLM selon HuggingFace Chatbot Arena Leaderboard

J’expliquerai dans un prochain article comment faire fonctionner des modèles localement, mais en attendant, vous pouvez essayer les trois modèles de Mistral sur l’ interface web de Perplexity.ai accessible ici.

Il vous suffit de choisir le modèle désiré via le menu déroulant dans le coin inférieur droit (qui permet aussi de choisir d’ autres modèles, les noms débutant par pplx correspondent à ceux développés par Perplexity.ai).

Tour d’horizon de l’ offre générative disponible en novembre 2023

L’ offre de solutions génératives va bien au-delà des modèles de langage qui ont défrayé la chronique en 2023. Différentes modalités et services sont en effet accessibles à l’ utilisateur, et il est temps d’ en faire le tour avant l’ arrivée imminente des modèles multimodaux qui promettent de bouleverser l’offre.

La liste qui suit n’ a pas la prétention d’ être exhaustive, de nouvelles sociétés apparaissant sur une base presque quotidienne. Mon but est plutôt d’ illustrer l’ éventail des possibilités disponibles aujourd’hui, particulièrement dans des domaines moins souvent évoqués comme la vidéo ou la 3D.

Les modalités que je couvre dans cet article sont les suivantes :

  • Conversation textuelle
  • Assistance à la programmation
  • Génération et analyse audio (voix et musique)
  • Génération et analyse d’image
  • Génération vidéo
  • Génération de modèles 3D

Voici la liste complète des services mentionné dans cet article. La fonctionnalité proposée par le service est indiquée en vert au-dessus de l’ icône représentant le service. Vous trouverez les liens d’ accès aux différents services dans les paragraphes ci-dessous.

Figure 1 : L’ offre générative disponible, classée par modalité

Analysons maintenant l’ offre pour chacune des modalités.

1. Modèles conversationnels (texte)

Il s’ agit des modèles avec lesquels il est possible de dialoguer de manière interactive comme chatGPT, Claude, Bard etc… je n’ en parlerai pas plus en détail ici vu le nombre d’ article que je leur ai déjà consacrés dans le passé.

Juste un petit mot pour indiquer que Llama 2, Mistral et Falcon sont des modèles open-source et qu’ il vous est possible de les exécuter localement, sous réserve de disposer d’une machine suffisamment puissante.

2. Assistants de programmation

Les assistants de programmation sont en réalité des modèles conversationnels qui ont été affinés sur du code informatique et intégrés dans un environnement de programmation (IDE).

Ils vous proposent des suggestions de code sur base de votre code existant et/ou de descriptions textuelles que vous introduisez.

Github Copilot et Amazon CodeWhisperer sont offerts comme modules additionnels (plug-ins) qui s’intègrent dans un environnement de développement installé localement comme VSCode.

Replit et Tabnine fonctionnent de manière similaire mais l’ensemble de l’environnement, assistant compris, se trouve dans le cloud.

3. Modèles audio

Les modèles audio offrent de nombreuses possibilités. OpenAI TTS et Elevenlabs proposent de faire réciter un texte par une voix synthétique, tandis que Google MusicLM et OpenAI Jukebox génèrent de la musique synthétique (paroles comprises) sur base d’une idée musicale décrite de manière textuelle.

Vous pouvez accéder ici à une série de morceaux de musique générés par MusicLM.

Mais il est aussi possible de travailler en sens inverse : c’est la reconnaissance vocale; elle génère le texte correspondant à une voix. OpenAI Whisper offre une fonctionnalité de ce type, et OpenAI a intégré à la fois TTS et Whisper à l’application mobile ChatGPT ce qui vous permet de discuter verbalement avec votre modèle conversationnel favori lorsque vous êtes en déplacement…

De son côté, Veed.io exploite la reconnaissance vocale pour générer automatiquement des sous-titres dans une vidéo.

4. Modèles d’image

Comme pour les modèles audio, on retrouve deux grandes familles de services : ceux qui génèrent une image à partir d’une description textuelle, et ceux qui interprètent le contenu d’une image que vous leur fournissez.

Dans la première catégorie, on retrouve Dall-E 3, Midjourney et StableDiffusion XL, et dans la seconde catégorie OpenAI GPT-4V et Google VisionAI.

Ces moteurs sont en général accessibles de manière transparente via l’assistant conversationnel :

  • ChatGPT permet de générer des images via DALL-E 3 et de les analyser via GPT4-V;
  • Google Bard peut analyser des images via VisionAI selon un mécanisme analogue;
  • Bing chat peut générer des images via DALL-E 3.

L’ accès à Midjourney est plus complexe car il faut rejoindre le serveur Midjourney sur Discord et demander la génération d’ image à travers un des canaux de chat après inscription préalable.

Enfin, Wonder vous permet de créer des avatars à partir d’ une photo et d’ une description textuelle de vos idées.

5. Modèles vidéo

Alors là, c’est carrément bluffant : vous tapez une simple description textuelle et le modèle génère une vidéo en retour. RunwayML, Fliki et Genmo offrent cette fonctionnalité.

Voici ce que j’ai obtenu avec RunwayML en tapant simplement le texte : Make a video showing the colosseum in Rome with a Porsche driving in front. La vidéo accessible ici ne dure que quatre secondes car c’est la limite permise par Runway pour l’ abonnement gratuit (que je vous conseille d’essayer).

Synthesia est semblable mais se spécialise dans la génération de vidéos dans lesquelles un speaker récite un texte que vous lui soumettez. Ici encore, voici la preuve par l’exemple : une présentation de mon blog par une interlocutrice virtuelle accessible ici.

Enfin, Wonder Studio vous permet d’ intégrer et d’ animer des personnages d’ animation 3D dans une séquence vidéo existante. L’animation peut se faire en remplaçant un acteur réel par le personnage d’animation, et dans ce cas le modèle tiendra compte de l’ éclairage de la scène, des mouvements de la caméra et même des mimiques faciales de l’ acteur. Regardez plutôt ceci pour une présentation des capacités de l’ application…

Mais tant que nous y sommes, peut-on aussi créer un personnage d’ animation grâce à l’ IA générative? La réponse est oui et nous allons maintenant voir comment…

6. Modèles 3D

Il est en effet possible de générer un modèle 3D à partir d’une description textuelle. C’est ce que permet aujourd’hui le modèle Genie de Luma Labs, et bientôt aussi avec Stable3D de StabilityAI et Magic3D de Nvidia.

Comme Midjourney, Genie est accessible via Discord. Après inscription, il vous suffit d’ entrer dans une des sessions de chat et de taper /genie suivi d’une description de l’ objet 3D que vous désirez. Par exemple, le texte exotic otherworldly blue flamingo a généré le modèle 3D que vous pouvez voir ici.

Et voilà, il ne vous reste plus qu’ à réintégrer vos modèles 3D dans Wonder Studio pour débuter dans l’animation….

L’ écosystème de l’ IA générative

Après avoir fait le tour d’ horizon des acteurs dans le précédent article, j’ ai pensé qu’ il serait intéressant d’ expliquer un peu plus en détail la chaîne de valeur du secteur et de positionner chacun des acteurs à sa juste place. Ceci est également une occasion de parler d’ autres intervenants dont le nom est moins souvent évoqué tout simplement parce qu’ ils ne s’ adressent pas aux utilisateurs finaux.

Le secteur de l’ IA faisant partie du secteur de l’ industrie logicielle et on peut prendre pour point de départ une chaîne de valeur logicielle assez générique :

1. Applications orientées utilisateur : ce sont les produits qui sont accessibles aux utilisateurs finaux, comme le site web de chatGPT. Ceux-ci peuvent être accessibles sur le web ou via une interface utilisateur plus traditionnelle.

2. Modèles : Les modèles contiennent la logique et les algorithmes essentiels au coeur de l’ application. Ils sont souvent séparés des applications utilisateur et échangent des informations avec ces dernières via des interfaces de programmation (API). Les modèles reçoivent des demandes de traitement des applications utilisateur et renvoient le résultat du traitement. Dans une application de chat, c’ est assez simple à imaginer: l’ applicatif envoie votre prompt au modèle qui renvoie sa réponse à l’ applicatif.

3. Infrastructure : il s’ agit ici des sociétés qui mettent à disposition l’ infrastructure dématérialisée (cloud) pour faire fonctionner les deux couches supérieures. Cette infrastructure se comporte d’ éléments de connectivité réseau, de serveurs, de puissance de calcul, de mémoire et d’ équipements de stockage. Pour une société, le grand avantage du cloud est que l’ exploitation est payée à l’ utilisation au lieu de nécessiter un gros investissement initial. Ce mécanisme est aussi très flexible car la capacité de l’ infrastructure peut grandir en phase avec le succès de l’ application, et donc les coûts évolueront avec les revenus.

1. La chaîne de valeur de l’IA générative

Voyons maintenant comment cette chaîne de valeur s’ articule plus spécifiquement dans le cas de l’ IA générative :

Figure 1 : Chaîne de valeur de l’IA générative

Analysons maintenant les couches une à une.

2. La couche infrastructure

Commençons par la base. L’ exécution des modèles génératifs fait appel à beaucoup de puissance de calcul. Les fonderies de silicium produisent des circuits intégrés spécialisés dans les calculs vectoriels qui sont à la base des modèles génératifs. Une société domine le marché : Nvidia, qui fournit toute une famille de coprocesseurs graphiques dont les modèles les plus puissants (A100, H100) se vendent comme des petits pains et coûtent entre 10.000 et 30.000$ pièce ! Les différents acteurs de l’ IA générative se battent pour mettre la main sur ces processeurs dont la demande dépasse de loin l’ offre, d’ autant plus que le secteur des supercalculateurs en est également gros consommateur.

Le grand avantage de Nvidia est d’ avoir mis au point depuis de nombreuses années (et donc bien avant l’ engouement actuel pour l’ IA) un environnement de programmation de ses coprocesseurs, qui est parfaitement intégré dans les grandes bibliothèques de programmation d’ IA générative : JAX, Tensorflow ou encore Pytorch. Tout modèle défini au moyen de ces bibliothèques pourra être exécuté sur les coprocesseurs graphiques disponibles de manière quasi-transparente.

Si Nvidia est clairement l’ acteur dominant, il faut aussi citer son éternel rival AMD. Quant à Google, il a développé ses propres processeurs pour l’ IA (appelés TPU); Apple en fait de même avec sa gamme de processeurs Mx qui contiennent un coprocesseur neuronal intégré applelé neural engine; des rumeurs indiquent que Microsoft développe en secret son propre coprocesseur actuellement dénommé Athena. Ceci dans le but de s’ affranchir de la dépendance à Nvidia.

Parlons ensuite des fournisseurs de service dématérialisés (cloud). On y retrouve la plupart des géants de la tech avec des activités comme Amazon Web Services, Microsoft Azure, IBM Cloud ou encore Google Cloud Platform (GCP). Comme je l’ ai expliqué dans l’ introduction, ces derniers proposent aux entreprises informatiques une infrastructure dématérialisée, disponible et payable à la demande. Et cette infrastructure contient naturellement des serveurs munis des fameux coprocesseurs graphiques que les fournisseurs de modèles et d’ applications peuvent louer en fonction de leurs besoins. Et ceci explique pourquoi Google et Microsoft développent leurs propres coprocesseurs : pour les installer dans leurs propres datacenters et les proposer en location à leurs clients sans ête tributaire des livraisons de Nvidia.

3. Les modèles IA

Nous arrivons maintenant à la partie IA proprement dite : les modèles. Et ici, nous avons deux cas à distinguer : les modèles propriétaires et les modèles open-source.

Un modèle propriétaire est un modèle qui fonctionne en tant que boîte noire. Il est accessible de l’ extérieur mais vous n’ en connaissez pas le fonctionnement ou les paramètres et donc impossible de le dupliquer. La plupart des grands modèles généralistes actuels (chatGPT, Claude, Bard) sont de ce type. Ceci est avantageux pour les sociétés qui ont développé ces modèles puisqu’ il permet une monétisation facile en rendant l’ accès payant, ce qui leur permet d’ amortir leurs frais d’ entraînement et d’ exploitation du modèle dans le cloud.

L’ autre grand cas de figure est l’ approche open-source. Dans ce cas, la société qui développe le modèle publie les données nécessaires à son exploitation, soient son architecture et les paramètres du modèle. N’ importe qui peut alors louer une infrastructure cloud (voire acheter des serveurs) et faire tourner le modèle de manière autonome.

Ce sont les détails de la license open-source sous lequel est publié le modèle qui vont déterminer les limites permissibles de l’ exploitation de ce dernier. Est-ce que l’utilisation commerciale est autorisée ? Est-ce ce que la mise à disposition à des tiers est autorisée… ? En théorie, une licence purement open-source autorise toutes les utilisations légales du modèle mais la pratique montre que les créateurs de modèles IA open-source ont tendance à introduire des restrictions supplémentaires pour ne pas se retrouver en concurrence avec leur propre modèle…

La monétisation du modèle open-source par son créateur peut se faire par une exploitation directe, mais aussi indirectement grâce à la notoriété que lui confère la publication du modèle (surtout s’ il est performant) ainsi que des développements complémentaires qui seront réalisés gratuitement par la communauté sur le modèle (milieu académique, programmeurs open-source, autres sociétés…).

Au rang des principaux modèles open-source, on compte aujourd’ hui BLOOM, Llama (Meta), MPT (MosaicML), Mistral, Falcon et StableLM (StabilityAI).

Si les modèles les plus puissants sont aujourd’ hui propriétaires, le dynamique qui accompagne le développement des modèles open-source laisse à penser que la situation pourrait s’ inverser à l’ avenir.

4. Les applications utilisateur

Cette couche est relativement simple à expliquer. Il s’ agit des applications avec lesquelles vous interagissez, via un site web ou une app sur un smartphones. Il peut s’ agir d’ applications assez complexes même si, dans le cas des applications génératives, le traitement apporté par ces applications utilisateur est souvent assez faible et se limite à contextualiser le dialogue et le présenter dans une interface utilisateur conviviale. Notons que le site d’ OpenAI que vous utilisez pour accéder à chatGPT entre dans cette catégorie : il s’ agit d’ une interface assez simple qui va appeler le modèle chatGPT, la seule particularité étant ici que c’ est la même société qui déploie le modèle et l’ application utilisateur.

Néanmoins il est utile de bien identifier cette couche car même si elle peut paraître « légère » en terme de valeur ajoutée conceptuelle, elle possède une grande importance économique. De nombreuses start-ups n’ existent qu’ à travers un site ou une app de ce type, judicieusement positionnée vers un public spécifique, qui appellent des modèles développés par des tiers (comme openAI) via l’ interface de programmation.

Un dernier mot pour parler des applications intégrées. Il s’ agit de sociétés qui ont construit un ensemble monolithique reprenant à la fois l’ interface utilisateur et le modèle, mais sans que ce dernier soit accessible indépendamment via une API. C’ est le cas de Midjourney (images IA) ou de RunwayML (génération de vidéos).

5. Evolution

Cette description de la chaîne est appelée à évoluer, et on voit déjà plusieurs tendances s’ amorcer : si les grands modèles généralistes (Claude, GPT…) occupent aujourd’ hui le devant de la scène, ils risquent de se voir progressivement marginalisés au profit de modèles plus petits et plus spécialisés, mais capables de fonctionner localement sur l’ ordinateur ou le téléphone de l’ utilisateur ce qui est très avantageux en termes de confidentialité et de robustesse (pas besoin de réseau).

La disponibilité de modèles « fondationnels » en open-source facilite cette évolution puisque n’ importe qui peut partir d’ un de ces modèles et le spécialiser via un entraînement complémentaire du modèle appelé affinage.

Une autre inconnue est le passage à la multimodalité. Si le traitement d’ images et de séquences vidéo devient possible en temps réel, le champ applicatif explose avec une pléthore de nouvelles applications en conduite autonome, robotique, pilotage de drones, jeux vidéo, défense…

6. Notes et références