Après les Chinois de DeepSeek, au tour des Français de Mistral qui présentent leur chatbot appelé Le Chat !
Mistral.AI offre depuis quelques jours un chatbot très complet et performant. Facile d’accès, il offre pratiquement le même niveau de fonctionnalité que les chatbots d’ OpenAI (ChatGPT) ou d’ Anthropic (Claude).
Extrêmement rapide dans la génération de ses réponses, ce modèle est largement capable de devenir votre assistant conversationnel principal pour vos interactions quotidiennes. Il est maintenant disponible aussi en application mobile sur iOS et Android.
Et en ces temps d’ incertitudes internationales, Mistral AI offre une solution 100% européenne qui présente un cadre technique et juridique rassurant pour les utilisateurs basés dans l’ Union Européenne (serveurs hébergés en Europe, respect du RGPD…).
Figure 1 : Interface utilisateur du « Chat » de Mistral AI
Les fonctionnalités disponibles sont très proches de celles de ChatGPT :
Possibilité de recherche sur le Web en activant l’ option correspondante en-dessous de la fenêtre de chat (Web Search);
Possibilité de génération d’images (option Image generation). Ce mécanisme fait appel à un modèle de génération d’ image appelé Flux Ultra développé par Black Forest Labs;
Système de canevas pour la rédaction interactive de texte et de code, semblable à Anthropic Artefacts ou OpenAI Canvas (option Canvas);
Possibilité de générer et d’ exécuter du code pour résoudre des problèmes algorithmiques ou effectuer des calculs complexes (option Code Interpreter) ;
Possibilité d’ attacher des documents pdf et des images pour les analyser.
Différents types d’ abonnement existent mais il est possible d’ employer l’ essentiel des fonctionnalités avec l’ abonnement gratuit, avec toutefois des limites de volume d’ utilisation. Les abonnements payants offrent des fonctionnalités supplémentaires, notamment à l’ intention des journalistes avec la possibilité de consulter les dépêches de l’ Agence France-Presse en temps réel. Si cela vous intéresse, vous trouverez plus d’ informations sur cette intégration ici.
Un autre avantage du Chat de Mistral est la rapidité des réponses « flash » qui est plus de dix fois supérieure à celle de ses concurrents. Ceci est dû au partenariat avec le fournisseur d’ infrastructure IA Cerebras qui a développé un processeur spécialisé pour les modèles de langage.
Figure 2 : Débit de réponse du Chat Mistral « flash » par rapport à ses concurrents. (Source : Cerebras)
Le modèle ne répond pas systématiquement avec une réponse « flash », mais celles-ci sont indiquées avec une petite icône d’ éclair (⚡) dans le coin inférieur gauche de l’ interface conversationnelle. Sans surprise, les abonnements payants offrent un nombre de réponses « flash » supérieur à celui de l’ abonnements gratuit.
Cette rapidité est notamment importante pour la création interactive de codes informatiques, qui fait appel à des générations répétitives. La vidéo ci-dessous illustre bien l’ efficacité de Mistral « flash » dans ce domaine :
2. Applications Mobiles
Le lancement cette semaine d’ applications mobiles sur Android et iOS montre bien que Mistral se positionne comme un acteur majeur dans le domaine des chatbots génératifs, disposant de toute la panoplie des outils d’ accès comme c’est le cas avec Google, OpenAI ou Anthropic.
Les liens de téléchargement des applications mobiles se trouvent ici pour iOS et ici pour Android.
Figure 3 : Interface de l’ App « Le Chat » sur Android (source : MacRumors)
3. La Plateforme : l’ accès des programmeurs
Enfin, et ceci est (à ma connaissance) une première : Mistral est la première société qui offre un accès par interface de programmation gratuit en-dessous d’ un certain volume d’ échanges. Cela permet de tester les capacités du modèle sans avoir à se soucier de la facturation ou de devoir fournir un numéro de carte de crédit.
Le mécanisme d’ accès aux modèles de Mistral via API est décrit en détail sur La Plateforme, qui est accessible ici.
Figure 4 : Console d’ accès à « La Plateforme »
Rien de très nouveau pour les utilisateurs des API d’ OpenAI ou d’ Anthropic : il faut générer une clé API et l’ utiliser dans les appels aux serveurs de Mistral, qui respectent les protocoles de communication établis par OpenAI (mais les messages REST sont bien entendu envoyés vers les serveurs de Mistral)…
Mistral AI offre aussi une approche originale quand à la mise à disposition des paramètres de ses modèles pour une exécution locale (open weights) :
Les modèles les plus avancés (dits frontière) ne sont pas disponibles en open weights mais sont accessibles soit via le chat, soit via une API. Il est possible de faire fonctionner ces modèles dans une infrastructure locale mais cela demande un accord spécifique avec Mistral AI;
Les autres modèles développés par Mistral sont disponibles en open weights ce qui permet de les télécharger et de les exécuter localement avec des outils comme Ollama ou LMStudio.
Conclusions
Il est très satisfaisant de voir que l’ Union Européenne possède au moins un acteur significatif dans le monde des chatbots génératifs.
J’ en profite pour saluer la proactivité de l’ Etat Français qui a pris des mesures concrètes pour soutenir le développement de l’ IA en France. Cela inclut notamment le Sommet pour l’ Action sur l’ Intelligence Artificielle qui a lieu en ce moment à Paris et devrait logiquement donner lieu à des annonces d’ investissements massifs dans l’ IA en France et en Europe.
A ce sujet, je vous invite à lire la tribune de Sam Altman -oui oui c’ est bien lui- qui décrit la stratégie française en IA. L’ article étant réservé aux abonnés du Monde, vous pouvez trouver un scan de l’ article complet sur X ici.
Néanmoins, le principal obstacle sur la course à l’ IA générative reste la puissance de calcul disponible. L’ entraînement de la nouvelle génération de modèles « raisonneurs » fait en effet appel à des quantités de données et de calculs encore plus importantes. Et en termes de puissance de calcul disponible, les Américains sont loin, très loin en tête, suivis de la Chine (qui risque certes d’ être ralentie par les récentes restrictions américaines à l’ exportation de processeurs IA). Résorber cet écart ne sera pas facile.
C’ est pourquoi il me semble important de soutenir des acteurs européens de qualité comme Mistral pour assurer leur pérennité pendant que les investissement nécessaires sont faits dans les data centers qui hébergeront la puissance de calcul requise.
Le monde de l’ IA générative est en ébullition suite à la publication du modèle R1 par la société chinoise DeepSeek la semaine passée.
DeepSeek-R1 est un modèle de raisonnement open-source innovant: contrairement aux modèles de langage traditionnels qui se concentrent sur la génération et la compréhension de textes, DeepSeek-R1 se spécialise dans l’ inférence logique, la résolution de problèmes mathématiques et la planification. Il se positionne dès lors comme un concurrent direct d’ OpenAI-o1 dont j’ai parlé dans mon article précédent.
DeepSeek est une entreprise d’IA chinoise fondée en 2023 par Lian Wenfeng et basée à Hangzhou, près de Shanghaï. Elle se consacre au développement de l’ Intelligence Artificielle Générale. La société DeepSeek compterait environ 200 personnes et est financée par le fonds d’investissement High-Flyer également fondé par Lian Wenfeng.
Le modèle R1 est extrêmement intéressant à plusieurs titres.
Tout d’ abord, il s’ agit d’ un modèle « raisonneur » au même titre qu’ OpenAI-o1 et ses performances sont comparables. Mais à la différence d’ o1, ce modèle est open-source et peut être librement téléchargé et exécuté localement. Qui plus est, DeepSeek a décrit en détail le mécanisme d’ apprentissage par renforcement utilisé pour passer de leur modèle de langage « standard » DeepSeek-V3 au modèle « raisonneur » DeepSeek-R1 (un lien vers le document technique est fourni en référence).
Ensuite, le modèle aurait été développé avec un budget assez limité – on parle de 6 millions d’ USD- ce qui est peu comparé aux dépenses de ses concurrents américains.
Les performances du modèle DeepSeek-R1 étant plus qu’ honorables, cela signifie qu’ une grande partie de l’ avantage compétitif de sociétés « fermées » comme OpenAI a disparu et se retrouve accessible à tous.
Il s’ agit donc d’ un fameux coup de pied dans la fourmilière qui va sérieusement ouvrir le jeu et permettre de nouvelles innovations.
Accéder au modèle
Le modèle DeepSeek-R1 est exploitable de trois manières différentes :
Tout d’ abord, vous pouvez dès aujourd’hui tester DeepSeek-R1 via l’ interface web accessible ici après inscription. Cet accès est entièrement gratuit.
Figure 1 : L’interface utilisateur DeepSeek
L’ interface est très simple et propre. Vous devez cliquer sur le bouton DeepThink (R1) pour utiliser DeepSeek-R1, sinon c’ est le modèle DeepSeek-V3 qui vous répondra.
Seconde possibilité, vous pouvez utiliser le modèle via l’ Interface de programmation (API) de DeepSeek qui est compatible avec celle d’ OpenAI. Les mécanismes d’ accès sont décrits ici.
Le point-clé ici est le prix extrêmement bas pratiqué par DeepSeek par rapport à OpenAI. Le tableau ci-dessous compare les prix entre OpenAI et DeepSeek :
Figure 2 : Comparaison des prix d’ accès via l’ API
Une remarque cependant : DeepSeek se réserverait la possibilité de réutiliser vos interactions avec le modèle pour des entraînements ultérieurs; évitez donc de transmettre des données confidentielles ou personnelles dans vos interactions, que ce soit via l’ interface Web ou via l’ API.
Troisième possibilité, comme le modèle est open-source, vous pouvez télécharger ses paramètres et l’ exécuter localement. Le modèle R1 complet contient cependant 670 milliards de paramètres ce qui le met hors de portée de la plupart des ordinateurs….
Pour contourner cela, DeepSeek met à disposition des « distillations » de son modèle qui sont, elles, de taille beaucoup plus accessible : elles vont de 1,5 à 70 milliards de paramètres. Des programmes comme Ollama ou LMStudio proposent dès aujourd’ hui ces modèles pour téléchargement et exécution locales.
Figure 3 : Liste et performances des versions distillées de DeepSeek R1 (source : DeepSeek)
Le processus de distillation consiste à partir d’ un autre modèle open-source (Qwen, LLama…) et à l’ affiner sur des traces de raisonnement générées par DeepSeek R1. On obtient en sortie un modèle certes moins performant que R1 mais meilleur en raisonnement que le modèle de base dont il est dérivé. Le modèle qui en résulte est donc une sorte de compromis…
Performances
Le modèle DeepSeek présente des performance comparables à celles d’ OpenAI-o1 lorsque les deux modèles sont évalués à travers six benchmarks couramment utilisés pour évaluer les modèles de langage, à savoir :
AIME2024 et MATH-500 sont deux tests destinés à évaluer les capacités de raisonnement mathématique des LLM;
CodeForces et SWE-Bench Verified sont deux tests de la capacité à programmer et résoudre des problèmes informatiques réalistes;
GPQA Diamond est une liste de 198 questions très difficiles en sciences naturelles : biologie, physique et chimie;
MMLU est un test plus large qui couvre non seulement les sciences exactes mais également les sciences humaines et sociales.
Le graphique ci-dessous présente les résultats d’ évaluation :
On voit en effet que DeepSeek-R1 tient la dragée haute à OpenAI-o1 sur chacun des six tests.
Il est aussi intéressant de constater que le modèle distillé DeepSeek-R1-32B (distillé à partir de Qwen-32B) présente des résultats tout à fait honorables et assez proches de ceux d’ o1-mini; or un tel modèle est tout à fait exécutable localement sur une machine de performances convenables.
Enfin, on voit bien l’ impact de l’ apprentissage par renforcement si l’ on compare les performances de DeepSeek-R1 avec celles de DeepSeek-V3 puisque R1 n’est autre que V3 ayant subi un entraînement complémentaire par renforcement.
Censure ?
L’ utilisation des modèles de DeepSeek a fait apparaître un point assez surprenant : le modèle refuse de parler de sujets tabous en Chine comme la souverainté de Taiwan, la disparition de l’ ancien Ministre des Affaires Etrangères Qin Gang, la famine causée par le Grand Bond en Avant de Mao Tsé-Toung ou encore le massacre de la place Tien An Men en 1989.
Ce qui est assez étonnant, c’est que le modèle commence par rédiger tout un texte puis ce dernier disparaît soudain pour présenter ceci :
Figure 5 : Aspects de censure
Cela donne vraiment l’ impression qu’ un robot censeur intervient en fin de génération pour valider ou rejeter le texte. En tous cas c’ est la première fois que je vois un modèle de langage faire cela…
Conclusions
Il est fort probable que l’ arrivée de DeepSeek-R1 va ouvrir grand les vannes des modèles « raisonneurs ». non seulement les algorithmes sont maintenant publiés au grand jour mais DeepSeek autorise quiconque à utiliser les générations de DeepSeek-R1 pour entraîner -ou plutôt distiller- d’ autres modèles afin de les améliorer.
Malgré les réserves relatives à la censure et la réutilisation des données, il faut saluer le tour de force réalisé par l’ équipe de DeepSeek qui a réussi à développer un modèle open source pour environ 5 millions de dollars et dont le coût d’ exploitation est trente fois inférieur par token comparé à OpenAI, qui reste un système fermé.
Cela pourrait remettre en question les milliards de dollars investis par OpenAI pour conserver son avantage technologique, et cela juste au moment où ils annoncent un investissement titanesque (500 milliards) dans le projet Stargate…l’ année 2025 commence fort.
Malheureusement, l’ Europe semble bien absente de cette accélération. Espérons que l’ annonce du Plan de Compétitivité de l’ Union Européenne la semaine prochaine permette de libérer nos forces créatrices. Il est grand temps.
Le modèle o1 d’ OpenAI est maintenant disponible et il représente un changement important dans le fonctionnement et les capacités des modèles de langage.
La mise à disposition de ce modèle fait suite à des rumeurs persistantes autour d’ un modèle « disruptif » développé en secret par OpenAI d’ abord appelé Q-star puis Strawberry. Ces modèles sont importants parce qu’ ils constituent une tentative de transition de la réflexion immédiate et intuitive vers un raisonnement plus lent et plus délibéré.
Cette dualité se retrouve dans les modes de fonctionnement de notre cerveau. Comme l’ a indiqué le psychologue Daniel Kahnemann dans son livre Thinking, Fast and Slow, nos pensées procèdent selon deux schémas différents :
Le Système 1 est une réponse rapide, automatique, inconsciente et émotionnelle de notre cerveau à des situations et à des stimuli. Il peut s’ agir de lire distraitement un texte sur un panneau d’ affichage, de savoir nouer ses lacets sans réfléchir ou de sauter instinctivement par-dessus une flaque d’ eau sur le trottoir. Nous fonctionnons 95% du temps dans ce mode, qui correspond au mode par défaut et automatique de notre cerveau.
Le Système 2 est un mode lent, laborieux et logique dans lequel notre cerveau opère pour résoudre des problèmes plus compliqués. Par exemple, la pensée du système 2 est utilisée pour chercher un ami dans une foule, garer son véhicule dans un espace restreint ou déterminer le rapport qualité/prix de son repas à emporter. Il s’ agit d’un mécanisme de raisonnement logique activé délibérément et consciemment.
Figure 1 : Les deux modèles de fonctionnement du cerveau (source : Daniel Kahnemann)
Or, disposer de modèles capables de fonctionner selon le système 2 est essentiel pour pouvoir évoluer vers des agents IA plus fiables et plus autonomes, comme je l’ avais expliqué dans un article précédent accessible ici: les modèles « raisonneurs » sont une étape importante vers l’ Intelligence Artificielle Générale.
Pour faire simple, OpenAI a appris à un modèle de langage à réfléchir avant de parler. Voyons comment.
1. Mécanismes de raisonnement
Nous ne savons pas précisément comment OpenAI a entraîné le modèle o1. Néamnoins, les grands principes de l’ approche sont connus. Trois phases successives vont transformer un modèle de langage classique comme GPT-4o vers un modèle de raisonnement comme o1.
Lors de la première phase, le modèle « classique » est confronté à une série de problèmes logiques et il lui est demandé de développer son raisonnement étape par étape avant d’ arriver à la solution. Il s’ agit d’ une méthode de prompt engineering appelée Chain of Thought prompting (CoT) et décrit ici. En transformant la question en un ensemble d’ étapes de raisonnement de plus faible complexité, on augmente la probabilité que le modèle ait été confronté lors de son entraînement à des déductions élementaires analogues et qu’ il puisse donc effectuer les sauts logiques correspondants par corrélation.
Figure 2 : Chain of Thought Prompting (source : Wei et al., 2022)
Une fois ces chaînes générées, elles sont évaluées en fonction de leur pertinence tant au niveau de la réponse finale que du chemin logique suivi pour y parvenir. L’ évaluation peut être faite à la main (fastidieux) ou de manière automatisée. En pratique, on va débuter par une série d’ évaluations faites à la main pour entraîner un modèle d’ évaluation automatique, séparé du modèle de langage, qui prendra ensuite le relais et rendra le processus beaucoup plus efficace.
Lors de la seconde phase, les chaînes logiques générées lors de la première phase ainsi que leurs scores de pertinence sont utilisés pour entraîner le modèle (affinage) afin de privilégier les chaînes qui obtiennent la bonne réponse et défavoriser celles qui échouent. A l’ issue de cet affinage, nous disposons d’un modèle amélioré qui cherchera à répondre par étapes logiques à toute question de l’utilisateur, ce qui constitue déjà un grand pas dans la bonne direction.
Cependant, à ce stade, le modèle reste un modèle de langage « classique »: il génère une chaîne de raisonnement unique -certes améliorée- au fil de sa génération textuelle et présente ensuite le résultat à l’ utilisateur quelle qu’ en soit la pertinence. L’ effort déployé par le modèle reste aussi le même quelle que soit la complexité de la question, ce qui n’ est pas idéal…
C’ est ici qu’ intervient la troisième phase. Cette dernière a lieu non pas lors de l’ entraînement mais lors de l’ inférence, c’ est à dire quand l’ utilisateur pose une question au modèle.
Et l’idée de base est simple: comme les modèles de langage sont par nature aléatoires, rien n’ empêche de leur demander de générer plusieurs chaînes de raisonnement complètes en réponse à chaque question et de ne présenter que la plus pertinente (et nous disposons pour cela du modèle d’ évaluation). Au plus le nombre de générations est élevé, au plus la réponse choisie a de chances d’ être de qualité, au prix d’ une plus grande consommation en ressources.
Figure 3 : Chaînes de raisonnement multiples (source : Besta et al., 2023)
Il est imaginable de faire mieux encore et d’ utiliser des algorithmes de recherche dans l’ arbre des raisonnements possibles pour « orienter » la recherche de la réponse vers la voie la plus prometteuse en cours de raisonnement, mais en restant exhaustif dans l’ évaluation des différentes branches. Des algorithmes d’ apprentissage par renforcement comme Monte Carlo Tree Search peuvent être utilisés à cet effet. L’ idée est fascinante et on ne sait pas si de telles techniques sont déjà exploitées par OpenAI pour le modèle o1…
Figure 4 : L’algorithme Monte Carlo Tree Search (source : Jokub Kowalski et al., 2024)
Malheureusement, OpenAI ne permet pas à l’ utilisateur de voir les multiples traces de raisonnement du modèle, et avance pour cela des raisons d’ avantage compétitif. On ne sait donc pas exactement jusqu’où OpenAI est allé dans cette approche, mais chercher de manière plus ou moins exhaustive le meilleur raisonnement pendant la phase d’ exécution permet de s’ affranchir de la limite de l’ entraînement : il suffit de chercher plus longtemps, plus profondément dans l’ arbre des raisonnements possibles pour obtenir une meilleure réponse.
C’ est d’ ailleurs comme cela que o1-pro semble fonctionner : le modèle est le même qu’ o1 mais il va fouiller plus profondément dans l’arbre des raisonnements, ce qui consomme bien sûr de la puissance de calcul et justifie le prix plus élevé…
2. Evaluation
L’ explication ci-dessus laisse quelques points en suspens; il faut notamment disposer d’ un mécanisme d’ évaluation automatique pour déterminer si une chaîne de raisonnement est pertinente ou non. Le problème est que dans beaucoup de domaines, la pertinence ou non d’ un raisonnement est subjective et donc difficilement automatisable.
C’ est pourquoi il est fort probable que l’ entraînement au raisonnement ait été effectué sur des domaines où les raisonnements peuvent être évalués de manière objective, à savoir les sciences exactes, et en particulier les mathématiques et l’ informatique.
C’ est d’ ailleurs ce qui ressort des « benchmarks » de performance publiés par OpenAI qui indiquent que les performances du modèle o1 sont très supérieures à celles de GPT-4o dans les tâches mathématiques, dans la programmation et dans les questions de sciences exactes :
Figure 5 : Performance de gpt4o et o1 dans les domaines formels (source : OpenAI)
Par contre, dans les domaines plus subjectifs comme la rédaction de texte, les modèles de la famille o1 ne sont pas meilleurs que gpt-4o. Il n’ y a donc pas lieu de recourir à o1 pour ce genre de tâches.
Figure 6 : Performance comparée de gpt4o et o1 (source : OpenAI)
3. Accessibilité des modèles o1
Passons maintenant à la partie pratique : OpenAI a mis à disposition une première version appelée « o1-preview » à la mi-septembre, qui a été remplacée début décembre par le modèle définitif « o1 ». Celui-ci est accessible en trois versions:
la version de base « o1« ;
une version allégée appelée « o1-mini« ;
et enfin une version plus puissante appelée « o1-pro« .
Cependant, l’ accessibilité aux modèles de la famille o1 est fortement dépendante de l’ abonnement auquel l’ utilisateur a souscrit : tout d’abord, les utilisateurs gratuits n’ ont pas accès aux modèles de la famille o1.
Les utilisateurs payant l’ abonnement ChatGPT+ peuvent accéder à o1-mini et o1 mais avec des volumes d’ utilisation limités à 50 messages par semaine pour o1 et 50 messages par jour pour o1-mini (d’ où l’ intérêt d’ o1-mini).
Par ailleurs, OpenAI vient d’ introduire un nouvel abonnement appelé ChatGPT Pro à 200 USD/mois! Ce plan haut de gamme est le seul qui donne accès au modèle o1-Pro et offre aussi un accès illimité aux modèles o1 et o1-mini.
Ce qui précède concerne l’ interface utilisateur via le site web, mais les modèles o1-preview et o1-mini sont également accessibles via l’ interface de programmation (API) d’ openAI, mais pas o1-pro. Le prix de l’ utilisation est alors dépendant du nombre de tokens échangés. Mais comme OpenAI ne permet pas de voir la chaîne de raisonnemet complète, l’ utilisateur de l’ API se retrouve contraint de payer à l’ aveuglette…
4. Conclusion
C’est au moment d’ écrire ces lignes que Google vient de sortir son propre modèle de raisonnement appelé Gemini 2.0 Flash Thinking Experimental. Deux équipes chinoises ont aussi publié des modèles de raisonnement, DeepSeek avec DeepSeek-R1-lite-preview, et Alibaba Qwen QwQ-32B-Preview.
Les modèles capables de raisonner sont en passe de devenir un nouveau terrain de compétition, et ce parce qu’ ils ouvrent la voie vers des systèmes plus fiables auxquels il est possible de déléguer plus facilement des tâches rendant possibles des agents IA plus autonomes…
Et enfin, gardons en mémoire que les modèles auxquels nous avons accès vont continuer à progresser. Si OpenAI a décidé de démarrer une nouvelle « lignée » de modèles comme sa dénomination l’ indique, ce n’ est pas innocent et suggère que des modèles raisonneurs plus puissants apparaîtront à l’ avenir, peut-être en ayant recours à des techniques d’ apprentissage par renforcement comme Monte Carlo Tree Search.
Il y a donc lieu de rester curieux et optimistes. Une nouvelle voie de progrès est ouverte. Nous verrone bien où elle mènera.
Graph of Thoughts: Solving Elaborate Problems with Large Language Models, Maciej Besta & autres, publié le 18 août 2023, sur Arxiv : https://arxiv.org/abs/2308.09687
L’ intelligence artificielle générale (AGI) désigne un type d’ IA qui possède la capacité de comprendre, d’ apprendre et d’ effectuer toute tâche intellectuelle qu’ un humain est en mesure de réaliser. Sans surprise, la quête incessante de cette intelligence artificielle générale captive les énergies des chercheurs et l’ imagination du public.
Mais quel chemin suivre pour y arriver ?
Un document interne d’ OpenAI contenant une « feuille de route » pour atteindre l’ AGI a fuité au mois de juillet. Cette feuille de route a ensuite été confirmée par Sam Altman (CEO d’ OpenAI) en septembre, il s’ agit donc d’ une information validée. Dans cet article, je vais présenter le contenu de cette feuille de route. Elle décrit cinq étapes à franchir sur la route vers l’ AGI.
Il est important de présenter cette feuille de route car il ne fait pas de doute que les grands acteurs de l’ IA entrevoient l’ existence d’ une IA généraliste dans un futur relativement proche (5 à 10 ans). J’ai déjà couvert ici l’ article de Dario Amodei, CEO d’ Anthropic. L’ article de Sam Altman The Intelligence Age accessible ici va dans le même sens et Demis Hassabis, PDG de Google Deepmind est lui aussi très ambitieux, comme il l’ a mentionné dans une récente interview accessible ici.
Bien sûr, ces personnages sont juges et partie et profitent du battage médiatique et de l’ intérêt que leurs déclarations suscitent, mais ils sont aussi les mieux placés pour savoir sur quoi leurs départements de R&D travaillent et quels résultats ils obtiennent. Ils peuvent aussi être victimes de leurs propres biais, mais au vu du chemin parcouru, il me semble légitime de prendre leurs déclarations au sérieux.
Présentation de la feuille de route
La feuille de route d’ OpenAI pour atteindre l’ AGI comporte cinq niveaux qui sont décrits dans la figure 1 et détaillés ci-dessous.
Figure 1 : Les cinq niveaux vers l’ AGI (crédit : Tomshardware)
Niveau 1 : Les Dialogueurs
Le premier niveau est celui des « Chatbots », ou « IA avec langage conversationnel », dans lequel les ordinateurs peuvent interagir avec les gens à travers une conversation naturelle.
Cela a été réalisé avec GPT-3.5 dans la première version de ChatGPT et était déjà possible avant cela, mais de manière moins efficace ou avec une conversation moins naturelle. Les grands modèles nativement multimodaux tels que GPT-4o, Gemini Pro 1.5 ou Claude Sonnet 3.5 répondent pleinement à toutes les exigences de ce niveau. Ils sont capables de conversations complexes et peuvent effectuer un raisonnement limité. Nous pouvons donc raisonnablement dire que le niveau 1 est atteint.
Niveau 2 : Les Raisonneurs
L’ étape suivante, le niveau 2, introduit les « raisonneurs » – des systèmes d’ IA capables de s’ attaquer à des problèmes complexes avec la compétence d’ experts humains, et ce sans devoir recourir à des outils extérieurs. Atteindre le niveau 2 signifierait un moment charnière, car cela représente une transition de l’ imitation du comportement humain à la démonstration de véritables prouesses intellectuelles.
Si nous n’ en sommes pas encore là, il est indéniable que les grands acteurs cherchent à améliorer les capacités de raisonnement de leurs modèles. OpenAI a mis à disposition le modèle o1-preview qui offre de performances supérieures aux modèles comme GPT-4o en termes de raisonnement. Et il y a quelques jours, la société chinoise DeepSeek AI a publié un modèle de raisonnement open-source appelé DeepSeek-R1-Lite-Preview; il s’ agit donc d’ un domaine qui devient compétitif et il n’y a rien de tel pour stimuler les progrès…
Vu l’ importance de ces modèles « raisonneurs » sur la route vers de l’ Intelligence Artificielle Générale, j’ y consacrerai un prochain article.
Niveau 3 : Les Agents autonomes
Le niveau 3 de la feuille de route envisage des « agents », c’ est-à-dire des systèmes d’ IA capables de fonctionner de manière autonome pendant de longues périodes, exécutant un ensemble d’ actions dans le but de mener à bien une tâche qui leur est assignée.
Ces agents pourraient transformer les industries en prenant en charge des tâches complexes, en prenant des décisions et en s’ adaptant à des circonstances changeantes sans surveillance humaine constante.
Il faut cependant se garder de toute confusion : le terme d’ « agent » est actuellement utilisé pour décrire des modèles de langage auxquels on a greffé des outils capables d’ interagir avec le monde extérieur via des interfaces.
Ces « agents » ne répondent pas aux exigences des agents IA décrits dans ce niveau 3 de la feuille de route, qui implique une capacité de raisonnement appliquée de manière répétitive pour « refermer la boucle » entre l’ observation de l’ état d’ avancement de la tâche et le choix de nouvelles actions visant à se rapprocher du but.
Aucun système de ce niveau n’ existe sur le marché à ce jour. Des rumeurs font état du développement par OpenAI d’ un produit appelé « Operator » qui serait une première tentative pour offrir un produit de ce type. A suivre…
Niveau 4 : Les Innovateurs
Au niveau 4 de la feuille de route, l’ IA devient un innovateur.
Les systèmes à ce stade possèderont la créativité et l’ ingéniosité nécessaires pour développer des idées et des solutions originales. Une fois arrivés à ce niveau, les agents ne se limitent plus à exécuter les processus de manière compétente comme au niveau 3, mais les améliorent et en inventent de nouveaux plus efficaces. En parallèle, ces agents stimuleraient l’ innovation et le progrès dans divers domaines.
Niveau 5 : Les Organisateurs
Le sommet de la feuille de route d’ Open est le niveau 5, qui implique une intelligence artificielle capable d’ effectuer le travail d’ une organisation entière. Toutes les fonctions de l’ organisation, qu’ elles soient opérationnelles ou conceptuelles, sont réalisées par des agents IA qui travaillent ensemble, apportent des améliorations et exécutent tout ce qui est nécessaire sans qu’aucun humain ne soit directement impliqué.
A ce moment, l’ Intelligence Artificielle Générale est atteinte.
Que faut-il en penser ?
La question est de savoir si les technologies actuelles (Deep Learning en tête) sont suffisantes pour atteindre l’ AGI ou pas.
Comme je l’ ai dit dans l’ introduction, les principaux dirigeants des géants de la tech semblent considérer que ces technologies sont suffisantes et que les principaux défis qui restent sont essentiellemnt des facteurs d’ échelle et de combinaison d’ algorithmes. Leurs scénarios se basent donc sur des extrapolations de la situation actuelle ce qui les amène à émettre des pronostics assez agressifs (AGI dans la décennie).
Cet avis n’est cependant pas partagé par l’ ensemble de la communauté des chercheurs. Des chercheurs réputés comme Yann Le Cun ou Gary Marcus estiment au contraire que l’ apprentissage profond ne suffira pas et qu’il faudra inventer des architectures entièrement nouvelles pour surmonter les points faibles des techniques actuels. Ceci les amène naturellement à des évaluations plus conservatrices quant à l’ apparition de l’ AGI.
Leurs idées pour remédier aux manquements de l’ IA actuelle diffèrent cependant : si Gary Marcus estime nécessaire de réintroduire des approches symboliques pour permettre le raisonnement déductif, Yann Le Cun insiste plutôt sur le besoin de disposer d’ un modèle prédictif du monde…
Je voudrais vous parler aujourd’ hui d’ une application très utile des modèles de langage: Perplexity qui est un engin de recherche conversationnel accessible ici.
Les engins de recherche conversationnels sont basés sur un modèle de langage qui exploite un moteur de recherche internet comme source d’ informations. Le modèle de langage pilote la recherche : il définit les mots-clés, et exploite ensuite le résultat de la recherche pour construire sa propre réponse envers l’ utilisateur.
Ceci permet de combiner les avantages des modèles de langage (capacité de fournir une réponse articulée et cohérente) avec ceux des moteurs de recherche (accès direct et à jour de l’ ensemble des données publiquemeent disponibles sur internet).
Perplexity est un outil extrêmement convivial et efficace à utiliser.
J’ ai remplacé Google Search par Perplexity pour les recherches standard effectuées par mon navigateur. Cela demande un peu d’ adaptation vu nos habitudes bien ancrées, mais je ne regrette pas l’ effort…
1. Demandes navigationnelles et informationnelles
Démarrons par une observation importante : nous avons recours à des moteurs de recherche pour deux types de demandes bien distinctes : les demandes navigationnelles et les demandes informationnelles.
Les demandes navigationnelles correspondent à la recherche d’ un site. Vous ne tapez pas l’ URL en entier mais seulement un partie de celui-ci et éventuellement quelques mots-clés pour arriver sur le site désiré. Pour ce type de recherche, Perplexity fonctionne mais n’ apporte pas réellement de valeur ajoutée par rapport à un moteur de recherche classique, à part éventuellement une présentation plus dépouillée et moins chargée en publicités.
Les demandes informationnelles sont celles où vous recherchez une information ou une explication, à résoudre un problème ou comprendre un concept. Vous ne savez pas exactement où chercher mais vous avez une question. C’ est dans ce type de recherches que Perplexity brille par son efficacité, bien supérieure aux engins traditionnels qui vont vous envoyer vers différentes pages dans lesquelles vous devrez chercher vous-même l’ information. Perplexity va automatiser cette étape et directement fournir une réponse qui tente de répondre à votre besoin. Qui plus est, vous pouvez ensuite engager un dialogue avec Perplexity et demander des éclaircissements supplémentaires.
Il y a lieu de bien distinguer les deux types de recherche. Il m’ arrive encore de recourir à Google Search pour des demandes navigationnelles mais Perplexity est indiscutablement très supérieur pour les recherches informationnelles (et ce sont les plus intéressantes).
2. Interfaces de base et options de recherche
Voyons maintenant comment fonctionne Perplexity. L’ interface offre assez bien de possibilités intéressantes que nous allons passer en revue.
Figure 1 : Interface utilisateur de Perplexity
Outre l’ invite traditionnelle (Ask Anything), le champ Focus permet de préciser le type de recherche; les options possibles sont :
Web : le choix par défaut, la réponse est enrichie par les recherches du modèle sur Internet comme décrit plus haut;
Academic : le modèle concentrera ses recherches sur des documents académiques publiés;
Math : le modèle essaiera de trouver une réponse mathématique et/ou numérique;
Writing : plus proche de chatGPT, ce choix n’effectue pas de recherches internet mais se concentre sur la qualité de rédaction;
Video : oriente la recherche vers des vidéos répondant à la recherche;
Social : oriente la recherche vers les réseaux sociaux, vers des discussions et des opinions liées au sujet.
Figure 2 : Types de recherches possibles
Indépendamment du choix précédent, le bouton Attach permet d’ ajouter des fichiers que vous possédez et qui pourront supporter Perplexity dans sa recherche.
3. Recherches rapides et recherches pro
Il est également possible de choisir entre une recherche « Rapide » et une recherche « Pro » au moyen du commutateur se trouvant à droite de l’ invite.
La différence principale est que la recherche « Pro » ajoute une phase de raisonnement structurées par le modèle; les étapes intermédiaires du raisonnement dont présentées à l’ utilisateur ainsi que les recherches correspondant à chaque étape. Enfin, la dernière étape consiste en une synthèse des informations collectées.
Figure 3 : Bandeau de raisonnement structuré d’ une recherche « Pro »
Les recherches « Pro » sont limitées à un petit nombre par jour (actuellement 3) pour les utilisateurs gratuits de Perplexity ; elles sont pratiquement illimitées pour les utilisateurs payants.
En pratique je trouve les recherches « rapides » satisfaisantes la grande majorité du temps. De plus il vous est toujours possible de poser à nouveau la question en mode « pro » si la réponse rapide ne vous satisfait pas, comme nous allons le voir.
4. Exploitation des résultats
La présentation des résultats d’ une recherche est elle aussi intéressante. Je la trouve d’ une grande sobriété comparé par exemple à une recherche Google.
Voici la structure typique d’ une réponse donnée par Perplexity :
Figure 4 : Structure d’ une réponse typique
Le texte de la réponse se trouve en-dessous des sources et reprend des références numérotées aux différentes sources à différents endroits de la réponse. Vous pouvez voir l’ ensemble des sources en cliquant sur le bloc à droite des sources intitulé Show All.
Figure 5 : Liste des sources
Outre la lecture de la réponse, il est possible d’ entreprendre des actions supplémentaires. Tout d’ abord, les boutons dans la partie droite de l’ écran permettent de rechercher des images (Search Images ) ou des vidéos (Search Videos) en rapport avec la discussion. Les utilisateurs de l’ abonnement payant pourront aussi demander la génération d’ une image (Generate Image).
La partie inférieure de l’ écran permet de continuer le dialogue, par exemple en posant une nouvelle question ou en demandant un éclaircissement. La partie Related propose un série de questions complémentaires ayant trait au sujet, vous pouvez en choisir une ou rédiger une question à la main.
Figure 6 : Actions supplémentaires
Rewrite permet de demander au modèle une réécriture de la réponse, par exemple en passant d’une recherche rapide à une recherche « pro »; Share permet ensuite de partager un lien vers la recherche complète.
C’ est d’ ailleurs un autre avantage majeur de Perplexity : tous les dialogues de recherche précédents sont stockés dans la Library et vous pouvez à tout moment les relire voire continuer le dialogue. Ces dialogues peuvent également être partagés avec d’ autres utilisateurs en leur envoyant le lien correspondant, mais ces derniers ne peuvent pas les modifier: il s’ agit d’ un accès en lecture seule.
5. Autres fonctionnalités : Discover & Spaces
Pour terminer ce tour d’ horizon de Perplexity en étant complet, il faut encore citer les fonctionnalité Discover et Spaces.
Spaces permet de créer un espace partagé de collaboration dans lequel un ou plusieurs utilisateurs que vous invitez pourront dialoguer avec le modèle sur un sujet donné. Chaque dialogue entre un utilisateur et le modèle donnera lieu à un thread spécifique mais ces derniers seront accessibles en lecture par les autres utilisateurs. En fin de compte c’ est assez proche de la fonction de recherche sauf que vous pouvez regrouper plusieurs dialogues de plusieurs utilisateurs au sein d’ un même espace collaboratif.
Les Spaces que vous créez sont configurables en chargeant un ou plusieurs fichiers de référence et en introduisant une instruction qui va décrire le rôle de l’ espace et sa finalité.
Figure 7 : Les espaces collaboratifs de Perplexity
Il n’y a pas grand’ chose à dire sur Discover si ce n’est que ce sont des recherches conversationnelles publiques que Perplexity estime susceptibles de vous intéresser.
6. Pour conclure
Après quelques semaines d’ utilisation intensive de Perplexity, je suis un utilisateur convaincu; c’ est ce qui m’ a poussé à écrire cet article.
Le grand avantage se situe au niveau des recherches informationnelles pour lesquelles la combinaison modèle de langage et engin de recherche fait des merveilles. La possibilité de poser des questions supplémentaires en particulier permet de clarifier énormément de choses par la suite.
J’ aime aussi beaucoup la sobriété de l’ interface ainsi que la possibilité de revoir les dialogues passés et de les partager.
Il y a cependant un risque: celui de l’ affaibissement de l’ esprit critique. Si la réponse est convaincante il est tentant avec ce genre de modèle de ne pas vérifier les sources, ce qui veut dire devenir dépendant d’ une source unique d’ information avec tous les risques et biais que cela peut entraîner. C’ est peut-être l’ avantage un peu paradoxal des recherches « à l’ ancienne » : elles vous obligeaient à consulter plusieurs sites et à mettre en balance les différentes informations à l’ aune de la crédibilité des sources…
Le prix Nobel de chimie 2024 a été attribué à Demis Hassabis, PDG de Google Deepmind, conjointement avec le Dr. John Jumper également de Deepmind et le Professeur David Baker de l’Université de Washington.
Cette distinction a été attribuée pour leurs travaux sur le programme AlphaFold 2 développé par Google Deepmind, qui constitue une véritable révolution dans le domaine des sciences du vivant. Il s’ agit probablement de l’ application la plus prometteuse de l’ Intelligence Artificielle à ce jour. Le modèle, qui permet de prédire la structure tridimensionnelle des protéines à partir de leur séquence d’ acides aminés a résolu un problème de biochimie vieux de plus de cinquante ans. Le prix Nobel ne récompense pas seulement des années de recherches, mais démontre aussi comment l’ apprentissage machine et l’ IA influencent profondément notre compréhension des mécanismes du vivant.
Ce qui rend Alphafold aussi intéressant est sa capacité à faire des prédictions structurales précises de pratiquement n’ importe quelle protéine, une information exploitable par des milliers de chercheurs à travers le monde pour développer de nouveaux médicaments ou mieux comprendre des menaces sanitaires comme la résistance aux antibiotiques. De plus, l’ outil AlphaFold est librement accessible.
Les retombées potentielles d’ Alphafold sont certes nombreuses, mais comme il s’ agit d’ une application très spécifique, il faut se plonger dans le monde de la biologie moléculaire pour bien la comprendre…
Cet article s’ inscrit dans la continuité de mon article précédent intitulé « Les Machines Gracieuses » accessible ici. L’ essai de Dario Amodei, qui est docteur en neurosciences, imagine les transformations de notre société à moyen terme (5-10 ans) en se concentrant largement sur les progrès à attendre de l’ IA dans ses spécialités: la biologie et les neurosciences.
Présenter Alphafold est aussi une opportunité de sortir de l’ omniprésence médiatique des modèles de langage. L’ accessibilité et la popularité de l’ IA générative auprès du grand public a quelque peu éclipsé les progrès parallèles de l’ IA dite « prédictive » ces derniers temps. AlphaFold est une excellente occasion de rappeler que l’ IA prédictive, bien que plus spécialisée, recèle un potentiel énorme lui aussi.
1. Quelques mots de biochimie
Les protéines sont des molécules complexes qui sont responsables de la quasi-totalité des processus biologiques. Elles sont constituées de chaînes d’ acides aminés qui s’ emboîtent dans un ordre bien précis.
Ces chaînes pouvant être assez longues, le nombre de protéines théoriquement possibles est astronomique. Mais le mécanisme d’ assemblage n’ est pas aléatoire, loin de là : l’ être humain est constitué d’ environ 20.000 types de protéines, produites de manière calibrée en fonction de la cellule et de l’ organe.
L’ information décrivant la séquence de chaque protéine constituant nos protéines se trouve enregistrée dans notre ADN, sur lequel on retrouve environ 20.000 gènes, correspondant à nos 20.000 protéines, chaque gène encodant une protéine.
L’ ADN se compose d’ une longue suite de quatre bases différentes (dénommées en abrégé A,C, T et G). Un bloc de trois bases consécutives constitue un « codon », par exemple TTA, ATG etc… Chaque codon encode un acide aminé de la séquence formant la protéine. Un gène est donc une suite de bases ADN consécutives formant des codons qui seront ensuite traduits en une chaîne d’ acides aminés qui se replieront enfin pour former une protéine.
Petite complication, l’ ADN est d’ abord transcrit en ARN messager avant d’ être traduit en acides aminés, et la base T(hymine) est transformé en U(racile) au passsage. Par exemple, le codon TTA dans l’ ADN va devenir UUA dans l’ ARN messager qui encodera ensuite l’ acide aminé Leu(cine) dans le ribosome. La figure 2 montre comment passer du codon de l’ ARN messager à l’ acide aminé, en allant du centre vers l’ extérieur.
Figure 1 : De l’ ADN à la protéine, crédit : Nagwa
Figure 2: Table de traduction des codons de l’ ARN messager aux acides aminés, Credit : Mouagip
Il est fascinant de réaliser que ce mécanisme de transcription/traduction est identique -à quelques variations mineures près- pour l’ ensemble du vivant, depuis la bactérie jusqu’à l’ humain. La principale (la seule ?) distinction entre deux espèces provient de la différence entre les protéines produites et leur rôle.
Que ce mécanisme soit uniforme est un signe de l’ origine commune de l’ ensemble du vivant : si l’ on remonte suffisamment loin dans le temps, on aboutit à l’ organisme appelé LUCA, le dernier ancêtre commun universel à l’ ensemble de tous les êtres vivants actuels. Il est très probable que LUCA possédait déjà le mécanisme décrit ci-dessus expliquant son universalité. A noter que LUCA n’est en rien le premier organisme vivant, il résulte lui-même d’ un long processus évolutif sur la terre primitive. Mais tous les descendants des prédécesseurs de LUCA hormis ce dernier ont disparu…
Les acides aminés étant les mêmes pour tous les organismes, l’ algorithme de prédiction de structure des protéines d’ Alphafold2 peut s’ appliquer à l’ ensemble du règne animal et végétal. Et l’ on retrouve d’ ailleurs d’ importantes similitudes entre les protéines à travers les espèces. Au plus les espèces sont proches au sens de la taxonomie, au plus les protéines sont semblables. Et l’ analyse des différences entre protéines jouant un rôle similaire à travers les espèces est une des sources d’ information utilisées par AlphaFold2 pour prédire la structure des protéines.
2. Le problème du repliement des protéines
Fort bien, nous savons maintenant comment sont stockées dans l’ ADN les séquences d’ acide aminé constituant les protéines. La découverte de ce code remonte au début des années 1960 et fait suite à la découverte de la structure en double hélice de l’ ADN en 1953.
Mais les chercheurs ont rapidement dû faire face à un autre problème : le rôle d’une protéine dépend de sa forme dans l’ espace. En effet, une fois créée dans le ribosome – la machine cellulaire qui transforme l’ ARN messager en séquence d’ acides aminés – la protéine va se replier selon un mécanisme extrêmment complexe faisant intervenir non seulement les attractions et/ou répulsions des atomes entre eux, mais aussi le rôle du milieu aqueux dans lequel plonge la chaîne d’ acide aminés, dont certaines parties sont hydrophiles et d’ autres hydrophobes. La protéine ne deviendra fonctionnelle qu’une fois son repliage achevé. Complication finale, certaines protéines s’ assemblent ensuite entre elles pour former des structures plus complexes appelées multimères. La figure 4 donne une idée des étapes du processus :
Figure 4 : Les étapes conceptuelles du pliage des protéines
Le problème du pliage des protéines est donc de savoir quelle forme géométrique finale adaptera une séquence donnée d’ acides aminés. Cela fait environ cinquante ans (depuis le début des années 1970) que les biochimistes butaient sur ce problème. Ce problème est tellement important qu ‘il a été appelé « la seconde moitié du code génétique » car sans cette information de structure, le rôle des protéines n’ est pas compréhensible.
En l’ absence d’une solution au problème du pliage des protéines, la seule alternative constituait à déterminer expérimentalement la forme de chaque protéine, une par une, par des techniques de cristallographie d’ abord et plus récemment de microscopie électronique. Mais cela restait un effort majeur, demandant plusieurs années de travail à un ou plusieurs chercheurs pour une seule protéine.
Au cours des cinquante dernières années, les laboratoires ont réussi à déterminer la structure d’ environ 220.000 protéines, qui sont regroupées dans la base de données mondiales des protéines PDB (Protein Databank) dont l’ instance européenne est accessible ici. Ce volume de données expérimentales laborieusement collecté au cours des dernières décennies a permis d’ entraîner AlphaFold.
3. Présentation d’ Alphafold
Alphafold utilise des techniques d’ intelligence artificielle pour prédire directement la structure finale (« pliée ») de la protéine à partir de la chaîne d’ acide aminés fournie en entrée. En d’ autres termes, AlphaFold2 ne s’ intéresse pas ni ne cherche à résoudre le processus de pliage sur lequel butaient les chercheurs. Il va au contraire, selon une approche typique du Machine Learning , chercher à prédire directement la forme finale de la protéine sur base de corrélation avec les structures connues qui lui sont présentées lors de l’entraînement du modèle, d’ où l’ importance de la base de données des 220.000 protéines existantes sans lequel rien n’ aurait été possible.
Une clarification : j’ ai parlé jusqu’ ici d’ Alphafold 2, publié en 2020, parce que c’ est ce modèle qui a reçu le prix Nobel 2024 mais Google Deepmind a publié en 2023 un nouveau modèle appelé AlphaFold3 qui est encore plus puissant et c’ est celui dont je vais vous présenter succinctement l’ architecture.
Lorsque l’ on présente une séquence d’ acides aminés à AlphaFold3, ce dernier va fonctionner en trois étapes. Il va tout d’ abord effectuer des recherches préparatoires pour localiser dans plusieurs bases de données la forme des protéines connues les plus proches ainsi que les séquences d’ acide aminés semblables dans d’ autres espèces. Ces données sont synthétisées sans deux ensembles distincts : la représentation par paire, qui décrit les positions et interactions relatives entre deux acides aminés de la chaîne, et la représentation d’ alignement multi-séquences (MSA) qui reprend un ensemble de séquences d’ acides aminés similaire à ce qui est recherché. Ces deux structures sont alors envoyées au second module.
Le second module contitue le coeur du système. Il s’ articule autour d’ un mécanisme d’ attention appelé « Pairformer » semblable à ce qui existe dans les modèles de langage. Ce mécanisme va enrichir l’ information en combinant les données contextuellement proches. Les deux structures (MSA et représentation par paires) sont retravaillées au cours de 48 étapes successives pour être finalement présentées à l’ entrée du module final.
Le module final va utiliser un algorithme de diffusion semblable aux générateurs d’ images pour itérer vers la structure géométrique finale sur base des informations fournies par le pairformer, la différence étant qu’ au lieu de générer des pixels que base d’ un texte, le modèle va générer une liste de positions tridimensionnelles pour chaque atome de la molécule sur base de la preprésentation par paires et de la MSA. Ce qui précède n’ est qu’ un très bref survol du mécanisme, si cela vous intéresse une description beaucoup plus détaillée mais restant accessible est disponible ici.
4. Potentiel pharmaceutique et thérapeutique
Répétons-le : le potentiel thérapeutique d’ Alphafold est très important. Google Deepmind ne s’y est pas trompé puisqu’il a lancé une spin-off appelée Isomorphic Labs qui travaille avec le secteur pharmaceutique pour développer de nouveaux médicaments.
La grande nouveauté d’ AlphaFold3 par rapport à Alphafold 2, c’ est qu’ il permet non seulement de prédire la structure des protéines, mais également leurs interactions avec d’ autres molécules comme l’ ADN ou de plus petites molécules appelées ligands. Or de nombreux médicaments ne sont rien d’ autre que des ligands qui vont modifier l’ action de certaines protéines en se liant avec elles. La possibilité de modéliser de telles interactions in silico devrait donc permettre d’ accélérer l’ identification de nouveaux médicaments potentiels.
Même logique pour les vaccins : pour créer un vaccin, il faut connaître la structure en 3D de l’ agent pathogène pour identifier les régions susceptibles d’ être reconnues par les anticorps de l’ organisme ce qui déclenchera le mécanisme de réponse immunitaire. Vacciner signifie introduire dans l’ organisme des molécules inoffensives présentant les mêmes structures moléculaires afin d’ apprendre au système immunitaire à les reconnaître à l’ avance. Or, avec Alphafold, il suffit de connaître la séquence génétique du virus (son code ADN) pour connaître sa forme tridimensionnelle, ce qui est nettement plus facile à déterminer.
Autre domaine d’ application: les maladies génétiques et les cancers. Il s’ agit cette fois de déterminer l’ impact d’ une variation dans la séquence d’ acides aminés sur la structure de la protéine et son fonctionnement. Cette protéine modifiée peut soit être héritée (maladie génétique) soit résulter de mutations (cancer) soit les deux. Il s’ agit d’ un domaine encore largement inexploré car la lourdeur des techniques traditionnelles rendait impossible l’ analyse du nombre énorme de variants possibles.
L’ idée est ici de prédire la dangerosité d’ un variant dont on connaît la séquence ADN (qui peut aisément être obtenue par séquencage). Pour ce faire, Google Deepmind développe un autre programme appelé AlphaMissense, une adaptation d’ Alphafold visant à catégoriser le risque introduit par un variant.
5. Le problème inverse : le design de protéines
Un point mérite d’ être soulevé ici : si Alphafold a largement résolu le problème « direct » de la prédiction de la structure des protéines à partir d’ une séquence d’ acides aminés, le problème inverse n’ est pas moins important. Le design de protéines consiste à partir d’ une structure spatiale désirée et à chercher la séquence d’ acides aminés correspondante afin de pouvoir la faire fabriquer en série par les cellules.
Résoudre le problème direct nous aide à comprendre le fonctionnement du vivant, mais résoudre le problème inverse ouvrirait une boîte de Pandore : la construction de virus pathogènes voire de cellules artificielles entrerait dans le champ du possible.
Le problème inverse n’ est pas résolu mais il existe une voie de contournement: utiliser un modèle direct comme Alphafold pour générer un très grand nombre de structures, les stocker, puis utiliser un système de recherche pour localiser la structure la plus proche de ce que l’ on cherche et en fournir la séquence.
C’est ce qu’a fait Google Deepmind en publiant les structures de 200 millions de protéines générées par Alphafold. En effet, si la prédiction de structure était difficile avant Aphafold, le problème du séquençage génétique est résolu depuis longtemps. Le nombre de séquences ADN connues est donc bien plus important que celui des structures de protéines. Google Deepmind a simplement utilisé son algorithme sur l’ensemble des séquences qui n’avaient pas encore été modélisées en 3D (soit 99.9% du total)….le résultat est accessible ici.
6. Risques
Alphafold 3 est accessible au public ici. Vous pouvez demander à visualiser la structure d’ une protéine après avoir fourni la séquence d’ acides aminés au format FASTA, et éventuellement ajouter d’ autres éléments en interaction : ADN, ARN, ligands…
Voici un exemple dans lequel j’ ai essayé de voir l’ interaction entre deux protéines, un segment d’ ARN et deux ions Zinc. Les couleurs correspondent au niveau de confiance du modèle comme indiqué sur la légende en haut de l’ image.
Figure 6 : Exemple d’ utilisation d’ Alphafold 3
Le modèle n’ est cependant pas open-source. Vous devez passer par les serveurs de Google Deepmind. Il y a une bonne raison à cela en plus de l’ impératif commercial : les virus sont eux aussi des assemblages de protéines. C’ est pourquoi le modèle bloque la prédiction structurales de certaines séquences suspectes.
Il existe cependant déjà un programme concurrent à Alphafold, appelé RoseTTAFold, qui est librement téléchargeable sur Github ici. Ses performance sont cependant inférieures à Alphafold.
Tant que ces modèles restent limités à la prédiction directe, le danger reste limité. Mais si le problème inverse venait à être résolu, le risque augmenterait considérablement…
Dario Amodei est le PDG d’ Anthropic, un des principaux acteurs de l’ IA générative qui a produit le modèle Claude. Il a récemment publié un texte très intéressant sur les conséquences possibles de l’ IA sur la société dans les prochaines années. Intitulé Machines of Loving Grace, ce texte, assez long et détaillé, est accessible ici.
Illustration : les Machines Gracieuses
Je trouve cet exercice très intéressant et je vais tenter d’ en résumer les principaux enseignements dans l’ article qui suit.
Le texte s’ inscrit dans une série de déclarations ambitieuses de la part des principaux acteurs du secteur, à savoir Sam Altman d’ OpenAI dans son texte The Intelligence Age ainsi que l’ interview de Demis Hassabis, PDG de Google Deepmind au Time Tech Summit 2024. Vous trouverez les liens ci-dessous en référence et si vous en avez le temps et l’ intérêt, je ne puis que vous encourager à les consulter.
Ces discussions tournent autour de la création d’ une intelligence artificielle « généraliste » (AGI en Anglais) dans un avenir relativement proche. La définition de cette AGI reste floue mais cette dernière serait globalement aussi capable et versatile qu’ un expert humain et ce dans tous les domaines, disposerait d’une capacité à agir de manière autonome dans le domaine digital voire dans le monde physique (robotique); par ailleurs, cette AGI serait en mesure de planifier et exécuter des tâches complexes pouvant demander des heures, des jours ou des semaines pour être menées à bien.
Il est frappant que l’ article de Dario Amodei suggère qu’ une telle AGI (qu’ il préfère appeler Powerful AI) pourrait apparaître à partir de 2026 dans scénario le plus optimiste. Étant donné que nous sommes à la fin de l’année 2024 et que le cycle de la recherche à la production d’une IA est d’environ 18 mois, cela implique que plusieurs directions de recherche actuelles pourraient effectivement porter leurs fruits, et il est bien placé pour savoir ce qui se passe dans ses laboratoires…
L’ article décrit avec beaucoup de clarvoyance et d’ équilibre les impacts potentiels de l’ appartition d’ une telle intelligence artificielle généraliste sur la société et sa transformation endéans les 5 à 10 ans après l’ apparition de l’ AGI. Loin des rêveries transhumanistes et de la singularité exponentielle quasi-instantanée chère à Ray Kurzweil, l’ analyse de Dario Amodei prend sobrement en compte les goulets d’ étranglement du monde physiques et les délais de transformation inhérents à chacun de ces secteurs.
De même, il écarte le scénario de l’immobilisme, selon lequel l’intelligence est paralysée par la réglementation et rien ne se passe. Au lieu de cela, il choisit une voie médiane : une intelligence d’abord limitée par toutes sortes de murs, qu’ elle s’ efforce d’ escalader et de surmonter.
Que pouvons-nous donc attendre dans les 5 à 10 ans après l’ an zéro de l’ AGI, que ce dernier soit en 2026 ou quelques années plus tard ?
1. Biologie, neurosciences et santé
L’ un des principaux obstacles à l’ accélération des découvertes biologiques est le temps nécessaire pour les expérimentations sur des cellules, des animaux ou des humains, qui peuvent durer des années. De plus, même lorsque des données sont disponibles, elles sont souvent incomplètes ou entâchées d’ incertitude, compliquant l’ identification précise d’ effets biologiques spécifiques. Ces défis sont aggravés par la complexité des systèmes biologiques, où il est difficile d’ isoler et d’ intervenir de manière prédictive.
L’ auteur souligne qu’ il veut utiliser l’ IA non pas comme un outil d’analyse de données, mais comme un chercheur à part entière qui améliore tous les aspects du travail d’ un biologiste, de la définition à l’ exécution d’ expériences dans le monde réel. Il souligne que la plupart des progrès en biologie proviennent d’ un petit nombre de percées majeures telles que CRISPR pour les manipulations génétiques ou les vaccins à ARN messager, et qu’il y a en moyenne une de ces découvertes majeures par an.
L’ IA pourrait multiplier par dix le rythme de ces découvertes, permettant de réaliser en 5 à 10 ans les progrès que les humains auraient faits en 50 à 100 ans. Des percées comme AlphaFold, qui a révolutionné la compréhension des structures protéiques, montrent d ores et déjà le potentiel de l’ intelligence artificielle pour transformer la biologie.
Cela pourrait conduire à l’ élimination des maladies infectieuses, la prévention de la plupart des cancers, la guérison des maladies génétiques et même la prévention d’ Alzheimer. Il ne considère pas les essais cliniques comme un obstacle. Les essais cliniques sont longs parce que nos médicaments sont mauvais et qu’ ils ne donnent généralement pas d’ indications claires sur leur efficacité. Cela changera si l’ IA ne produit que les médicaments les plus efficaces, avec des techniques de mesure améliorées et des critères d’ évaluation plus précis.
Dario Amodei voit un potentiel analogue dans le domaine des neurosciences, avec l’ élimination de la plupart des maladies mentales comme la schizophrénie, le stress post-traumatique ou l’ addiction à travers une combinaison de développements de nouveaux médicaments et de thérapies comportementales. La possibilité de traiter des maladies mentales ayant des causes neuro-anatomiques comme la psychopathie semble possible mais moins probable.
De tels développements -entraînant une augmentation significative de la durée de vie en bonne santé- auraient un impact positif majeur sur la sécurité sociale et son financement. Il est cependant probable que d’ autres défis apparaîtraient alors comme celui de modifier en profondeur nos infrastructures sociales, y compris les mécanismes de départ à la retraite, ainsi que d’ offrir l’ accès le plus large possible à ces technologies.
2. Aspects socio-économiques et politiques
L’ accès aux nouvelles technologies, notamment en matière de santé, ne va pas de soi. La disparité des conditions de vie entre les pays développés et les pays en développement, où le PIB par habitant en Afrique subsaharienne est d’environ 2 000$, contre 75 000$ aux États-Unis, est alarmante. Si l’ IA améliore uniquement la qualité de vie dans les pays riches, cela constituerait un échec moral majeur. L’ idéal serait que l’ IA aide également le monde en développement à rattraper les pays riches.
Cependant, Dario Amodei est moins confiant dans la capacité de l’ IA à résoudre les problèmes d’ inégalité économique, car l’économie dépend largement de facteurs humains et de la complexité intrinsèque des systèmes économiques. La corruption, omniprésente dans certains pays en développement, complique encore la tâche, mais il reste optimiste quant au potentiel de l’ IA pour surmonter ces défis.
L’ IA pourrait aussi contribuer à la sécurité alimentaire et à la lutte contre le changement climatique, des enjeux particulièrement pressants pour les pays en développement. Les technologies agricoles et les innovations pour atténuer les effets du changement climatique, comme l’ énergie propre ou l’ élimination du carbone atmosphérique, devraient aussi bénéficier des avancées en IA.
Sur le plan politique, Dario Amodei examine la question de savoir si l’ IA favorisera la démocratie et la paix, ou si elle pourrait au contraire renforcer l’ autoritarisme. Même si l’ IA réduit la maladie, la pauvreté et les inégalités, il reste la menace des conflits humains et de l’ autoritarisme. L’ auteur souligne que l’ IA pourrait tout aussi bien servir les « bons » que les « mauvais » acteurs, en particulier en matière de propagande et de surveillance, deux outils majeurs des régimes autoritaires.
Au niveau interne, l’ auteur pense que si les démocraties dominent l’ IA sur la scène mondiale, cela pourrait favoriser l’ exercice démocratique. L’ IA pourrait contrer la propagande autoritaire en offrant un accès libre à l’ information et des outils pour affaiblir les régimes répressifs, tout en améliorant la qualité de vie des citoyens, ce qui, historiquement, a tendance à encourager la démocratie. En outre, l’ IA pourrait aider à renforcer les institutions démocratiques en rendant les systèmes judiciaires plus impartiaux et en réduisant les biais humains dans les décisions juridiques. Elle pourrait également améliorer l’ accès aux services publics, renforcer la capacité des États à répondre aux besoins de leurs citoyens et réduire le cynisme à l’ égard du gouvernement. L’ idée est que l’ IA pourrait jouer un rôle central pour améliorer la transparence, l’ impartialité et l’ efficacité des systèmes démocratiques.
3. Travail et valeurs
Dans un monde où l’ IA se révèle capable de faire tant de choses, quelle valeur encore accorder à l’ éducation, à l’ effort, au travail et à la rémunération de ce dernier ?
Dario Amodei fait deux constats : le premier est que notre société est organisée de manière à traiter les déséquilibres macroéconomiques de manière progressive et décentralisée. C’est un point que j’ avais également fait dans mon article sur les risques structurels de l’ IA accessible ici. Cela ne constitue pas une garantie absolue de succès mais nous disposons à tout le moins d’ institutions représentatives et en principle capables de traiter ce genre de questions si les bouleversements ne sont pas trop rapides.
Le second est que ce n’ est pas parce qu’ une IA peut faire votre travail mieux que vous que votre travail perd sa valeur ou sa signification. Ce n’ est pas parce que vous ne courrez jamais aussi vote qu’ Usain Bolt que vous abandonnez le jogging. L’ immense majorité des gens ne sont exceptionnels en aucun domaine et cela ne semble pas les gêner outre mesure ni les empêcher de vivre ni de gagner leur vie. Par ailleurs, beaucoup de gens passent une partie importante de leur vie à effectuer des activités non-productives comme jouer à des jeux vidéos…Ce que les gens recherchent avant tout, c’est un sens de l’ accomplissement.
Et il suffit que certaines tâches restent comparativement plus difficiles pour des IA pour que les humains conservent une vraie valeur ajoutée. L’ interaction avec le monde physique restera probablement un de ces domaines, au moins dans un premier temps.
Sur le plus long terme, si des IA devaient devenir supérieures aux humains en tous points, il faudrait alors engager une discussion plus large sur notre modèle socio-économique, mais les structures sont en place pour ce faire, d’ autant plus que ces transitions devraient être progressives. La forme définitive que prendrait notre société est difficile à estimer aujourd’ hui. Mais une chose à la fois…
4. Conclusion
Ma réserve principale quant à ce texte remarquable est qu’ il ne aborde pas deux autres domaines où l’ IA peut jouer un rôle transformationnel : l’ éducation et la recherche scientifique non liée aux sciences du vivant. Quoi qu’ il en soi, l’ ajout de ces deux élements supplémentaire ne ferait que renforcer l’ impression d’ensemble qui se dégage du texte…
Je ne peux qu’ en appeler à tout le monde : prenez cela au sérieux ! Si les scénarios décrits ci-dessus ne sont pas certains, ils sont plausibles et ce qu’écrit Dario Amodei n’ est pas insignifiant, ni sans intérêt.
Nous devons en parler maintenant et réfléchir à ce à quoi notre monde pourrait ressembler dans cinq ou dix ans. Car l’ intelligence artificielle pourrait bien bouleverser nos vies bien plus vite que prévu, et nous nous trouvons ici en face d’ une transformation potentiellement plus profonde que celle que nous avons connue avec les ordinateurs ou Internet.
Le problème de la désinformation est très ancien. Discerner le vrai du faux est souvent une tâche ardue, surtout quand la manipulation est volontaire et réalisée par des spécialistes décidés à influencer l’ environnement informationnel pour leur propres fins. La démocratie reposant sur l’ avis de ses citoyens et cet avis dépendant des informations dont ils disposent, il y a un avantage politique évident à tirer de l’ instrumentalisation de l’ information.
Il n’ est donc pas étonnant que ce type d’ exploitation remonte à la nuit des temps. Dès la Grèce antique, Thucydide se plaignait du peu d’ effort que le peuple fait dans la recherche de la vérité, préférant prendre pour argent comptant la première histoire qu’ il entend. A la même époque, les sophistes enseignent aux politiciens comment convaincre les électeurs de prendre leur parti, indépendamment de la pertinence de leurs idées. Et quiconque a dû traduire dans sa jeunesse des passages de La Guerre des Gaules se rend vite compte que cet ouvrage relève plus de la propagande politique que de la narration objective.
Aujourd’ hui, la situation est plus complexe et -en toute logique- pire que dans le passé, et ce pour trois raisons.
Tout d’ abord, les technologies digitales permettent la diffusion de l’ information à grande échelle et à moindre coût. Ensuite, les médias sociaux créent une nouvelle dynamique informationnelle dans laquelle il est à la fois possible d’ atteindre une audience massive sans filtrage préalable, mais également de diffuser ces informations sous le couvert de l’ anonymat. Troisièmement, le déluge de données générées par ces technologies rend possible le recours à l’ Intelligence Artificielle à ces fins de génération de contenu et de ciblage comme nous le verrons plus bas.
Par ailleurs, si la politique et les relations internationales constituent le terrain d’ affrontement informationnel le plus visible, certains acteurs économiques agissent de la même manière. Le point de contention étant ici souvent la toxicité ou la dangerosité de certains produits, le lieu de l’ affrontement se déplace vers le monde scientifique : études orientées, chercheurs décrédibilisés, instillation de doutes sur certains résultats défavorables, crédibilisation à travers des alliances avec des acteurs académiques ou professionnels… La saga du lien entre tabagisme et cancer, ou de celui entre énergies fossiles et réchauffement climatique sont révélatrices de ce genre de pratiques. Il faut cependant éviter ici une grille d’ analyse trop catastrophiste ou unilatérale : la grande majorité des entreprises s’ abstiennent de recourir à ce genre de pratiques; par ailleurs les associations de consommateurs et les ONG qui leur font face ne sont pas nécessairement au-dessus de tout soupçon elles non plus.
1. Architecture d’une opération moderne de désinformation
Voyons maintenant l’ architecture d’ une opération de désinformation organisée, sans encore recourir à l’ IA.
Celle-ci va débuter par la mise en place d’ une équipe chargée de la création de contenus subversifs. Pour cela, différentes techniques sont possibles. La première est de se baser sur des articles existants puis de les réécrire de manière orientée. L’ avantage est que les médias existants fournissent une source inépuisable de contenus qui peuvent en outre être filtrés en fonction de la thématique poursuivie. La seconde approche consiste à inventer une histoire de toutes pièces et la rédiger en conséquence.
Figure 1 : Eléments d’ une opération de désinformation organisée
Une fois le contenu créé et quelle qu’en soit sa forme (texte, image, vidéo…) il faudra s’ assurer de la publication de ce dernier sur Internet. Et c’ est ici que les acteurs et les activités se multiplient… Blogs, sites d’ information et organisations fantoches serviront de relais aux informations produites. Idéalement, les sites d’ informations et blogs mélangeront l’ information fabriquée de toutes pièces à de l’ information réelle pour ne pas trop dévoiler leur jeu. Une autre stratégie judicieuse constitue à démarrer une activité et constituer un lectorat fidèle en ne publiant que des informations réelles dans un premier temps, pour n’ introduire que plus tard des contenus fallacieux. Enfin, les organisations fantoches se présentent sous la vitrine d’ une activité publique honorable mais servent en réalité une information « frelatée ». Pour finir, l’ ensemble de ces acteurs référeront mutuellement leurs publications afin de renforcer leur crédibilité mutuelle. Un article publié sur un site d’ information sera repris par un blog (éventuellement avec des commentaires positifs) et vice-versa…les désinformeurs les plus ambitieux vont même jusqu’à créer de toutes pièces des sites d’ information imitant les médias légitimes pour servir leur contenu.
Une fois cet écosystème auto-référençant en place, reste à « pousser » l’ information vers les utilisateurs finaux. En effet, même si certains viendront d’ eux-mêmes chercher l’ information sur ces sites, afin de maximiser l’ impact il vaut mieux contacter proactivement les personnes visées soit via les réseaux sociaux, soit par le biais d’ influenceurs.
Le recours aux réseaux sociaux se fait par l’ intermédiaire de profils anonymes ou usurpés. Un profil sera construit au fil du temps et chechera à atteindre une catégorie donnée d’ utilisateurs en présentant un contenu attractif pour ces derniers, en les contactant proactivement etc… les opérations de désinformation les plus élaborées établissent différents types de messages destinés à différentes catégories d’ utiliateurs et qui « résonnent » mieux avec les préoccupations de ces derniers.
Les influenceurs jouent un rôle analogue. Il s’ agira ici souvent de personnes connues créant des contenus vidéo sur Youtube et/ou Tiktok et qui vont mentionner les contenus manipulés au cours de leurs vidéos. Il est plus difficile de créer un influenceur qu’ un simple utilisateur de réseaux sociaux mais son impact sera plus grand.
Bien sûr, ce que je décris ci-dessus constitue une opération à grande échelle et il est possible de constituer une opération plus modeste, par exemple en se réappropriant des contenus générés par des tiers.
Le but d’ une opération de désinformation n’ est pas nécessairement de pousser le public à supporter une conviction ou une idée contre une autre. L’ objectif recherché est parfois de polluer simplement la sphère informationnelle afin de semer le doute sur la crédibilité des médias et des pouvoirs publics, voire de monter les gens les uns contre les autres à des fins de déstabilisation.
2. L’ Intelligence Artificielle comme arme de désinformation
Voyons maintenant comment l’IA peut renforcer l’ opération décrite ci-dessus. Cela se fera principalement en automatisant certaines étapes du processus.
Tout d’ abord, l’ étape de création du contenu peut être fortement accélérée via l’ IA générative. Rien de plus simple que de prendre un article existant et demander à un modèle de langage de le réécrire de manière orientée. Idem pour la création à partir de rien. Quelques lignes de texte et une explication claire de l’ objectif recherché suffiront à générer un contenu suffisamment convaincant pour la plupart des internautes. Générer des images ou des vidéos manipulées est également possible via la technique des deepfakes. L’ IA générative permet littéralement de créer des « pipelines » de désinformation largement automatisés…
Figure 2 : Opération de désinformation exploitant l’ IA
Ensuite l’ IA générative va permettre de créer des profils autonomes appelés bots sur les réseaux sociaux. Ils se voient attribuer des règles de comportement pour incarner une personne virtuelle et agiront et réagiront comme tels, encore une fois avec peu ou pas d’ intervention humaine. Twitter/X est notoirement sujet à ce phénomène et on y voit régulièment des bots démasqués par un utilisateur judicieux parvenant à détourner ses instructions, une technique appelée prompt injection en sécurité informatique…
Enfin, l’IA -non générative cette fois- va permettre de regrouper et d’ identifier les personnes ciblées par groupe démographique et géographique, préférences politiques et de consommation en fonction de leur comportement en ligne. Un tel profilage qui est pratique courante dans le secteur de la publicité peut également être utilisé dans le domaine des préférences politiques ou religueuses. Il ne restera alors qu’à choisir le bon message pour convaincre le citoyen ou l’ électeur indécis.
C’ est d’ ailleurs ce type de pratique qui est à la base du scandale de Cambridge Analytica qui avait détourné des informations de comportement des utilisateurs de Facebook à des fins de microciblage politique. Vous trouverez plus d’ informations ici sur cette affaire.
3. Illustration : l’ opération Doppleganger
L’ Opération Doppleganger est une opération de désinformation politique mise en place en mai 2022 par la Russie dans le but principal d’ affaibilir le soutien occidental à l’ Ukraine. Cette opération -toujours active- a pour but de répandre quatre narratifs dans la population occidentale :
les sanctions contre la Russie sont inefficaces;
les Occidentaux sont Russophobes;
l’armée ukrainienne est barbare et remplie de néo-nazis;
les réfugiés ukrainiens contituent un fardeau pour les pays qui les accueillent.
Doppleganger recourt à de faux sites d’ information qui imitent l’ apparence de médias reconnus comme Der Spiegel, Le Figaro , Le Monde et The Washington Post.
Les articles publiés par Doppleganger sont notoirement critiques du Président ukrainien Volodymyr Zelensky et ont dans le passé fait état de ses prétendues villas sur la Riviera ainsi que des goûts de luxe de son épouse, afin de les ternir à travers des insinuations de corruption… Un autre faux article faisait état d’une taxe de 1,5% sur toutes les transactions monétaires afin de financer la guerre en Ukraine. Pour ce dernier article, les faussaires n’ ont pas hésité à créer un faux site du Ministère des Affaires Etrangères français afin de rendre l’ information plus crédible.
La campagne a été démasquée par l’ EU Disinfo Lab en Septembre 2022. Vous trouverez plus d’ informations à son sujet ici.
Si l’ opération visait initialement l’ Europe, elle s’ est élargie aux Etats-Unis en 2023, et a récemment publié des images de stars américaines comme Beyoncé ou Taylor Swift soutenant un narratif prorusse ou anti-Ukrainien. Elle progage actuellement aussi de la désinformation relative au conflit entre Israel et le Hamas.
4. Réflexions
La désinformation délibérée et organisée dont je parle dans cet article n’ est qu’ une facette de la pollution informationnelle à laquelle nous sommes confrontés quotidiennement. Celle-ci comprend également les informations inutiles ou non demandées comme le spam, les informations destinées à exacerber les émotions telles que la peur ou la colère, certaines formes intrusives de publicité ou encore la mésinformation (personnes colportant de bonne foi une information incorrecte). La multiplicité de ces informations de faible valeur contribue à une surchage informationnelle pouvant amener au rejet et au doute généralisé, y compris envers les médias traditionnels.
Or l’ accès à une information de qualité est plus que jamais crucial. C’est pourquoi je suis convaincu que les médias traditionnels ont une carte importante à jouer en se repositionnant comme gardiens de l’ information correcte et objective. Si les pratiques et l’ éthique journalistique garantissent en général l’ exactitude factuelle de l’ information, il en va autrement pour le second critère : la plupart des médias suivent une ligne éditoriale particulière qui va analyser l’ information objective à travers un prisme subjectif. Prenez la même information et lisez-la dans le Figaro et dans l’ Humanité, vous n’en tirerez pas les mêmes conclusions. Mais il me semble que ceci nuit à la crédibilité des médias en les rendant acteurs du monde informationnel polarisé au-dessus duquel ils devraient s’ élever.
J’imagine donc dans l’ avenir des médias qui se réorienteraient vers un rôle de « fact-checkers » et de pourvoyeurs d’ information où les analyses seraient plus neutres et plus objectives. Il y a certainement une opportunité à saisir mais cela ne pourra fonctionner que si les médias sont perçus comme tels par le public. Il faudra que les médias communiquent sur eux-mêmes…
Morality and ethics should play no part : Leaks reveal how Russia’s foreign intelligence agency runs disinformation campaigns in the West, par Christo Grozev, Roman Dobrokhotov et Michael Weiss, le 4 juillet 2024 : https://theins.press/en/politics/272870
Les progrès rapides de l’ Intelligence Artificielle dans le civil se reflètent dans le domaine militaire. Ces derniers temps, trois facteurs additionnels accélèrent encore l’ adoption de l’ IA par les forces armées.
Le premier est la guerre russo-ukrainienne. Ce conflit de grande ampleur entre deux puissances technologiques pousse les belligérants à innover sans cesse. L’ Ukraine notamment cherche à compenser son infériorité numérique relative par une innovation tous azimuths, qui s’ appuie en grande partie sur l’ utilisation à grande échelle de drones qui constituent des plateformes idéales pour l’ intelligence artificielle.
Le second, ce sont les progrès fulgurants de ces dernières années dans l’ IA « civile » à travers les modèles de langage et multimodaux qui peuplent l’ essentiel de mes articles, et qui trouvent des débouchés naturels dans les applications de défense….
Enfin, la rivalité géopolitique entre USA et Chine, qui se joue également dans le domaine technologique, constitue le troisième facteur, chacune des deux puissances considérant la maîtrise de l’ IA comme un avantage militaire majeur. Les manoeuvres américaines pour restreindre l’ accès par la Chine aux circuits intégrés de dernière génération, ainsi que les tentatives de cette dernière de substituer ces importations par une production indigène, sont au coeur de cette confrontation…
Plus généralement, la technologie est un acteur clé de l’ art militaire, pas seulement sur le champ de bataille mais bien dans toute la chaîne militaire.
Figure 1 : Axes de développement de l’ IA militaire
La figure 1 montre les quatre axes principaux de développment de l’ IA militaire, que nous allons maintenant analyser plus en détail.
1. Les drones et les armes offensives
Le conflit russo-ukrainien a révélé l’ importance des drones qui sont utilisés pour la première fois massivement dans un conflit. L’ Ukraine déclare pouvoir produire 150.000 dronespar mois et 2 millions d’ ici la fin d’ année, avec 165 différents modèles déployés ou en développement. Ces drones, qui sont parfois munis d’ une charge explosive, causent beaucoup de dégâts par leur précision et leur maniabilité. Et vu leur vitesse (certains atteignent 150km/h) il est très difficile de leur échapper.
Ce sont pour l’ immense majorité des drones commerciaux ou leurs dérivés qui ne font pas appel à l’ intelligence articielle. Leur pilotage se fait par radiocommande ce qui les rend vulnérables au brouillage, et leurs opérateurs à la détection par radiogoniométrie. Par ailleurs, les deux camps ont mis en place des techniques de guerre électronique pour brouiller les fréquences utilisées par les adversaires, voire prendre le contrôle des drones ennemis ou encore depuis peu les abattre en combat aérien avec des drones anti-drone…
En outre, les cibles se trouvant en général au sol et à plusieurs kilomètres de distance des opérateurs, la trajectoire terminale vers la cible se fait à l’ aveugle à cause de la courbure de la terre (ils sont « sous l’ horizon » et il en résulte que la transmission VHF qui se fait en point-à-point est coupée).
Ces drones font donc l’ objet d’ importantes limitations et des solutions originales ont vu le jour comme un drone déroulant une longue bobine de fibre optique derrière lui pour remplacer la liaison radio. Mais ce type de solution introduit de nouveaux inconvénients et restera probablement anecdotique.
La solution qui semble la plus prometteuse à court terme est d’ introduire un système IA de reconnaissance d’ objet sur le drone afin d’ assurer au moins le guidage terminal. De telles solutions existent à un coût modique et un poids raisonnable. Un Raspberry Pi 5 muni d’une carte IA et d’une caméra coûtera environ 200 euros. Une étape suivante, sur laquelle travaille Eric Schmidt, l’ ancien PDG de Google, est de créer de tels drones utilisant un ciblage IA de manière industrielle. Ce projet, appelé White Stork, a été révélé au début de l’ année 2024.
En parallèle, les principales armées développent et testent des drones IA volant en essaim. Le vol en essaim signifie qu’ une escadrille de drones coordonne de manière autonome ses actions, déléguant des actions spécifiques à certains drones, comme la reconnaissance d’ une zone ou l’ attaque d’une cible. Au moins onze pays ont annoncé de tels programmes sur lesquels vous trouverez plus d’ informations ici.
Les développements IA au niveau des armes offensives vont bien sûr au-delà des drones, mais j’ ai choisi ces derniers car ils sont représentatifs du potentiel de l’IA pour des armes offensives, avec en prime le faible coût qui les rend déployables en nombre ainsi que l’ expérience collectée sur le champ de bataille qui en fera vraisemblablement des acteurs incontournables des conflits futurs.
2. Renseignements, Surveillance et Reconnaissance (ISR)
Mais si les drones et les armes offensives capturent l’ imagination, ce n’ est pas nécessairement là que l’ apport de l’IA est le plus important : la planification et la conduite des opérations militaires nécessitent la prise en compte d’ une multiplicité de facteurs à commencer par la connaissance du terrain et des dispositions de l’ adversaire. Les états-majors ont besoin d’ être nourris en permanence en informations de toutes sortes provenant du terrain pour pouvoir agir.
Ces activités sont reprises sous le terme d’ ISR ( en français : Renseignements, Surveillance et Reconnaissance). Le champ de bataille actuel est effectivement saturé de capteurs de toutes sortes : drones et avions de reconnaissance, imagerie satellite, informations provenant de sources humaines (espions et unités de reconnaissance), interception et décryptage des communications ennemies, analyse du spectre électromagnétique pour identifier et localiser les émetteurs et les radars, suivi du sentiment de la population civile sur les réseaux sociaux, localisation des téléphones mobiles…. le volume d’ informations à traiter est énorme et il n’ est pas envisagable de transmettre ces données brutes telles quelles aux états-majors qui seraient noyés sous la masse.
C’ est ici qu’ intervient l’ IA pour prétraiter ces informations, à travers des techniques comme la détection d’ objets ou la retranscription textuelle de données audio. Par exemple, les USA ont lancé le projet MAVEN en 2017 pour analyser le déluge d’ images provenant des drones de surveillance. Seuls les objets d’ intérêt (véhicules, armes…) sont alors pris en compte. Mais le système a ses limites et il n’ est pas toujours aisé de discriminer un combattant d’ un civil…
Un autre exemple intéressant est le système déployé par les Ukrainiens pour détecter et localiser les drones Shahid lancés par les Russes sur les villes ukrainiennes. Ce système s’ appuie sur 8000 téléphones mobiles disposés sur des mâts à travers l’ Ukraine et qui sont connectés en permanence vers un système central qui écoute les sons capturés par les micros. La signature audio de ces drones est alors isolée ce qui permet la localisation par triangulation entre les niveaux de bruit reçus par les mobiles les plus proches. Reste alors à la DCA à faire son oeuvre. Je trouve cela d’ une ingéniosité remarquable…
Pour l’ interception des communications vocales, l’ IA peut intervenir à plusieurs niveaux, tout d’ abord pour tenter de reconnaître la voix parmi une base de données de locuteurs, et ensuite pour retranscrire l’ audio en texte et enfin pour essayer de déterminer si le texte contient des informations pertinentes pour l’ analyste, un rôle taillé sur mesure pour les modèles de langage qui vont exceller dans cette tâche. L’ analyse des réseaux sociaux relève de la même logique.
Mais une fois que les points d’ intérêt ont été extraits dans chaque flux de données brutes, un nouveau défi apparaît : identifier les correspondances entre les différentes sources d’ information afin de réaliser une validation croisée : si l’ imagerie vous montre un radar à un endroit, est-ce confirmé par l’ analyse du spectre électromagnétique qui montre un émetteur à la bonne longeur d’onde au même endroit ? Si vous avez détecté des signaux provenant de téléphones mobiles depuis un bosquet, l’infrarouge thermique confirme-t’ il la présence de combattants ennemis ? Il faut être prudent car l’ ennemi cherche évidemment à brouiller les cartes en recourrant à la fois au camouflage et à des leurres (il y a même de faux F-16 gonflables grandeur nature, voyez ici ! ).
C’ est le rôle des Systèmes d’ Aide à la Décision (acronyme anglais : DSS) qui vont prendre le relais et fusionner les données provenant de différentes sources pour offrir une vue unifiée qui va ensuite servir de base à la partie décisionnelle du processus.
3. Les systèmes de commandement et de contrôle (C2)
Une fois l’ information collectée et validée, celle-ci sert à la définition des actions à entreprendre pour traiter au mieux la situation sur le terrain. C’ est le rôle des systèmes de commande et contrôle (C2, encore un acronyme, le monde de la défense en est très friand).
Traiter la situation sur le terrain est un euphémisme qui signifie souvent détruire les menaces ennemies identifiées. Et ici, la rapidité est un facteur essentiel. Or justement, l’ IA permet d’ accélérer les choses, soit en combinant plusieurs étapes en une (par exemple support à la décision et commandement), soit en organisant l’ opération d’ attaque en aval de la décision de l’ opérateur, qui devient parfois le maillon le plus lent de la chaîne, surtout si il doit demander confirmation à un supérieur.
Une bonne illustration de cette contrainte de temps est le tir d’ artillerie de contre-batterie dans lequel une batterie va tirer sur une batterie ennemie; la trajectoire des obus détectés par radar révèle inévitablement la position du tireur. Pour se protéger, les canons se déplacent et tirent continuellement sans jamais rester à la même place car chaque tir révèle leur position et les expose à une riposte. Et quand on sait qu’un obus de 155mm met environ 60 secondes pour atteindre sa cible à 20km de distance, on comprend qu’il s’agit d’ une course de vitesse de part et d’ autre….cette vidéo se passe de commentaires.
C’est ici qu’ intervient la notion sensible d’ autonomie léthale. En effet, l’ aboutissement de l’ impératif de rapidité suggérerait de laisser une IA planifier l’ action de destruction de bout en bout sans intervention humaine.
C’ est un sujet délicat, tout d’ abord parce que les différents pays n’ ont pas la même position sur ce sujet qui fait l’ objet d’ intenses débats aux Nations Unies, ensuite parce que des armes autonomes existent depuis très longtemps sans qu’ il n’ y ait besoin d’ une quelconque intelligence embarquée : une mine antipersonnel (voire marine) est en effet une arme autonome rudimentaire. Idem pour les munitions rôdeuses qui survolent le champ de bataille à la recherche de cibles d’ opportunité comme le Harop israélien.
Sujet complexe aussi parce que la notion d’ autonomie cause moins de controverses dans des situations défensives comme la défence aérienne, une domaine où le temps de réaction est extrêmement court. Un missile ballistique tactique possède une vitesse terminale supérieure à Mach 5 (Mach 7.5 pour un missile russe de type Iskander). Le temps de vol total de ce genre de missile de 500km de portée est de 5 minutes, et ils ne sont souvent détectables que pendant la seconde moitié du vol parabolique soit une à deux minutes avant l’ impact; ce délai est trop court pour donner l’ alerte et évacuer la zone visée. Et la fenêtre de temps pour lancer un missile antiaérien type Patriot est encore raccourcie par le temps nécessaire à l’ intercepteur pour rejoindre sa cible…
Si ce type d’ action « réactive » est à la portée technique des systèmes actuels, il est possible de voir plus loin et d’ imaginer un algorithme proposant des plans entiers d’ opérations à grande échelle pour décision par les états-majors. Dans un conflit à haute intensité où l’ environnement change très rapidement, il n’ y aura peut-être pas d’ autre solution, surtout face à un adversaire agissant de même manière.
La génération autonome de plans entiers de bataille est aujourd’ hui un domaine de recherche active. le DARPA est occupé à effectuer des développements en ce sens en particulier à travers le projet SCEPTER, sur lequel vous pourrez trouver plus d’ informations ici.
4. Logistique et fonctions de support
Je parlais plus haut de la difficulté de générer des plans de bataille complets. En voici un bel exemple : à tout moment d’ une opération, l’ ensemble des unités doit rester ravitaillé. Et c’ est loin d’ être simple : une armée moderne déployée nécessite une chaîne logistique énorme.
En effet, les unités sur le front consomment sans cesse munitions, carburant, nourriture et eau, pièces de rechange et matériel médical sans parler de tout le reste; de plus ce flux est bidirectionnel : prisonniers, blessés et morts, véhicules endommagés doivent être renvoyés du front vers l’ arrière.
Les quantités dont nous parlons sont énormes. Si un fantassin a besoin d’environ 20kg de provisions de tous types par jour, les besoins explosent pour une grande unité mécanisée. Une division blindée américaine (300 chars et 200 véhicules de combat d’infanterie) nécessite environ 7.500 tonnes de ravitaillement de tous types par jour soit 300 containers ! Je ne veux pas trop m’ éloigner de mon sujet donc si ce domaine vous intéresse, je vous conseille absolument le livre de Mike Martin How to Fight a Waret en particulier le chapitre 2. Logistics. Vous y découvrirez le rôle vital des routes, des containers, des palettes et des camions-citernes dans la logistique militaire.
Comment l’ Intelligence Artificielle peut-elle supporter la logistique ?
De plusieurs manières. Tout d’ abord, il y a bien sûr la gestion intelligente des différents stocks. Cela n’ est pas vraiment une nouveauté.
Ensuite, la maintenance prédictive : à force de tirer, les canons s’ usent et doivent être remplacés. Et à force de voler, les avions ont besoin de nouvelles pièces de rechange. L’ approche traditionnelle s’ appelle maintenance préventive. Elle consiste à remplacer automatiquement la pièce après un certain nombre de tirs ou d’ heures de vol indépendamment de l’ état de la pièce. La maintenance prédictive va prendre en compte l’ état réel de la pièce sur base des informations de fonctionnement de cette dernière pour suggérer un remplacement au meilleur moment.
Enfin et bien sûr la conduite autonome et le déploiement de véhicules de toutes taille sans pilote pour acheminer le ravitaillement et évacuer les blessés. Ces véhicules peuvent être terrestres ou aériens pour les faibles charges (drones).
Il y a déjà pas mal d’ expérientations en ce sens, notamment dans le conflit russo-ukrainien. L’ Ukraine teste un véhicule autonome pour l’évacuation des blessés.
5. Conclusions
Si le tableau exposé semble inquiétant, il faut se rappeler qu’ il en a toujours été ainsi. Plusieurs développements asymétriques ont eu lieu depuis la Seconde Guerre Mondiale, à commencer par les armes nucléaires, puis les munitions de précision. Les USA appellent d’ ailleurs l’intelligence artificielle militaire le ‘troisième décalage’ (third offset) en référence aux deux précédents.
Je voudrais terminer par trois réflexions :
Tout d’ abord un éventuel avantage asymétrique conféré par l’ IA risque de ne pas être de longue durée vu que la plupart des technologies son connues et qu’ une grande part de la recherche et des découvertes se fait dans le secteur privé; Ceci me pousse à croire qu’ on va simplment se déplacer vers un nouvel équilibre.
Ensuite il faut garder la tête froide. Une arme autonome fiable utilisée sur le champ de bataille, malgré son côté terrifiant, sera probablement moins dangereuse pour les civils qu’un outil d’aide à la décision mal exploité par un opérateur validant trop facilement les propositions de bombardement d’ une ville suggérée par une IA.
Et en fin de compte, ce seront des humains qui décideront dans quels contexte et avec quelles règles d’ engagement ces systèmes seront utilisés. Et malheureusement, l’ humain ne vaut pas nécessairement mieux que la machine. Il suffit de se retourner vers notre passé, même très récent, pour en avoir la preuve.
J’ ai voulu profiter de ces vacances d’ été pour tenter quelque chose de nouveau: la génération créative d’ images IA. L’ idée me trottait dans la tête depuis mes premières tentatives en fin d’ année passée dont j’ avais parlé dans cet article.
J’ai finalement décidé de franchir le pas et de mettre en place un site de vente d’ images générées par l’ IA appelé Artificiellement Créatif auquel vous pourrez accéder ici.
Le thème initial, ce sont les Estampes Japonaises, un domaine artistique que je trouve fascinant tant par le caractère très original des graphismes et le lien de parenté avec le monde actuel des mangas. Tout le monde connaît l’Estampe Japonaise la plus connue, la Grande Vague de Kanagawa d’Hokusai; il s’ agit d’ un genre artistique à part entière qui vaut le détour.
Les estampes japonaises sont des gravures sur bois (xylogravures) qui dont utilisées comme matrices pour l’ impression des différentes couleurs sur un support en papier. Si la gravure initiale des matrices de bois est fastidieuse, elle permet ensuite de réaliser des impressions en série. Ceci explique qu’ il est possible aujourd’ hui de trouver des estampes japonaises anciennes à des prix tout à fait raisonnables. Cette efficacité les a rendues extrêmement populaires au Japon des XVIII et XIXème siècles sous le nom d’ Ukiyo-e. Aujourd’hui encore, des artistes japonais utilisent ces techniques pour réaliser des Ukiyo-e modernes…
Mais si j’ aime beaucoup ce type d’ imagerie, mon talent artistique n’ est pas au rendez-vous. Je ne sais pas si cela vient du fait que je suis une personne très débutante dans l’ art ou bien du fait que j’ aime beaucoup ce genre d’ imagerie. Mais force est de constater que les arts graphiques sont hors de mon atteinte…je me sens plus à l’ aise dans l’ écriture.
Et je ne suis pas le seul, loin de là. Une étude citée par Ethan Mollick dans son livre Co-intelligence estime que seuls 31% des personnes estiment être en mesure de réaliser leur potentiel créatif. Beaucoup de gens aimeraient -comme moi- réaliser leur potentiel créatif mais en sont incapables par suite de manque de connaissance technique et/ou de talent. Il y a beaucoup d’ énergie créative frustrée dans le monde…
J’ ai donc décidé de franchir le pas et de me faire aider par l’ IA pour me permettre d’ entrer dans un domaine qui me serait normalement inaccessible. Je ne prétends pas que ces générations d’ images de type Ukiyo-e constituent de l’ art ni que je suis un artiste mais au moins j’ ai le sentiment d’ avoir élargi le champ de mes possibles…
Voilà. Je vous invite à jeter de temps en temps un oeil à mes réalisations. Le site est accessible via le menu du blog, section Art virtuel.