Étiquette : intelligence-artificielle (Page 1 of 2)

Comprendre les agents IA comme Claude Code et Claude Cowork

2 mars 2026 / Arnaud Stévins

Le mode d’ utilisation des modèles de langage est en pleine mutation. Nous passons de la période des « chatbots » en ligne à celle des agents IA. Ils excellent déjà dans le domaine de la programmation: j’ ai passé les dernières semaines à utiliser Claude Code pour un projet d’ application en ligne.

Claude Code est plutôt orienté programmation, mais Anthropic a déjà mis en ligne un équivalent pour les tâches bureautiques appelé Claude Cowork. Même si vous ne programmez pas, je vous suggère d’ essayer au minimum Cowork, parce que cela va avoir des impacts sur le monde professionnel.

Figure 1 : Ecran d’ accueil de Claude Cowork

1. Qu’ est-ce qu’ un agent IA ?

Ce qui rend Claude Code et Claude Cowork si puissants repose sur une idée assez simple : une boucle qui va lire des fichiers et exécuter vos commandes sur ces fichiers de manière répétitive jusqu’ au moment où vous décidez d’ arrêter la session. Votre but premier est de pousser l’ agent à transformer les fichiers se trouvant dans le répertoire jusqu’au résulat désiré : présentation, rapport ou programme applicatif…

Quel est l’ avantage par rapport à une interface web classique type ChatGPT ? Dans une interface conversationnelle classique, vous devez jouer le rôle de la « petite main » qui va sans cesse copier-coller les fichiers source, recopier et exécuter les commandes et fournir en retour au modèle les messages d’ erreur, fournir du contexte en chargeant manuellement des fichiers de support etc…

Tout cela est fini. L’ agent s’ occupe de modifier directement les fichiers. Mais il y a plus : l’ agent peut aussi exécuter directement des commandes et en voir le résultat, puis les répéter automatiquement jusqu’ à obtenir le résultat attendu. Vous pourriez lui dire : « corrige le bug dans auth.py » et le laisser se débrouiller pendant que vous allez prendre un café. L’ agent lit le fichier, l’ analyse et décide éventellement de lire d’ autres fichiers pertinents; il identifie ensuite et corrige le problème dans le fichier, lance des tests, analyse le résultat et recommence en cas d’ échec, jusqu’à finalement aboutir (ou abandonner)…

Figure 2 : Lancement d’une session Claude Code

Bref, une agent IA est une application informatique qui va :

attendre une consigne de l’utilisateur
consulter un modèle de langage pour évaluer les actions à prendre
exécuter les actions (lire/changer des fichiers, exécuter des commandes, exploiter des API…)
observer le résultat des actions
décider quelle action entreprendre ensuite
répéter jusqu’ à obtenir le résultat désiré ou abandonner
rendre la main à l’ utilisateur en expliquant ce qui s’ est passé

2. Comment « bien » utiliser ces agents ?

Commençons par deux règles de bonne pratique :

Pour les tâches complexes, demandez à l’ agent de constituer un plan d’ action avant de démarrer l’ exécution. La planification est un mode de fonctionnement spécifique que vous pouvez activer. Une fois le plan généré, relisez-le et demandez à l’ agent de le modifier jusqu’à obtenir satisfaction. Ne lancez l’ exécution que quand le plan vous convient.
Dans la mesure du possible, essayez d’ avoir un mécanisme d’ évaluation du résultat en place, afin que l’ agent puisse valider sont travail ou l’ adapter si nécessaire. Fermer la boucle rend l’ agent beaucoup plus autonome. Etablir des tests automatisés est souvent possible pour du code informatique, mais pas toujours évident pour d’ autres tâches cognitives.

Dans tous les cas, il est préférable d’ avoir bien décrit la requête et le contexte au préalable dans un document que vous pourrez réutiliser au besoin. Ce que vous tapez dans la conversation ne survivra pas à la session en cours, tandis que ce que vous écrivez dans un fichier restera toujours exploitable.

Autre suggestion, privilégier les fichiers « texte » qui contiennent peu ou pas de formatage. Le code informatique répond parfaitement à cette exigence. Et pour les applications bureautiques, mieux vaut un fichier au format Markdown qu’ un fichier Word/Excel/pdf, car c’ est le format le plus efficace en terme de consommation de tokens.

3. Sécurité et permissions

Donner à l’ agent un accès direct aux système de fichiers et à la ligne de commande constitue un risque de sécurité évident. C’est pourquoi les agents IA possèdent un modèle de permissions assez sophistiqué que vous pouvez adapter en fonction des besoins.

Pour les actions pouvant impacter le système, la permission par défaut est en général « Ask », qui signifie que l’ agent va demander votre autorisation au cas par cas. Pour les actions en lecture seul, la permission est en général « Allow » au moins pour le répertoire de travai. Des commandes plus agressives seront bloquées par défaut (« Deny »).

4. Etendre le modèle IA avec les plug-ins

Un agent IA qui se respecte aura peut-être besoin de faire plus que manipuler des fichiers locaux pour atteindre le résultat attendu. Recherches sur le web, consultation d’ une base de données, consulter un catalogue de produits, voire même placer une commande sur Amazon : tout cela est possible via un mécanisme astucieux appelé « plug-ins » permettant d’ étendre les capacités de Claude Code et Claude Cowork en fonction des besoins.

Ce mécanisme de « plug-ins », développé par Anthropic, repose sur deux idées : les skills, qui sont une description textuelle de compétences additionnelles que l’ on veut attribuer à l’ agent (par exemple : spécialiste en cybersécurité) et les serveurs MCP qui décrivent comment accéder à des services tiers via une interface de programmation. Les deux concepts se renforcent mutuellement au sein du même plus-in : un skill va expliquer comment l’ agent peut exploiter un serveur externe dont l’ accès est fourni par le serveur MCP.

Ces plus-ins sont disponibles sur des sites appelés Marketplaces. Le système est donc assez simple à utiliser : définissez la Marketplace que vous voulez utiliser dans l’ agent IA et ensuite, parcourez la liste des plug-ins et installez ceux qui vous intéressent. Et voilà, votre agent est dispose maintenant de capacités étendues…

Figure 3 : La Marketplace d’ Anthropic (claude.com/plugins)

5. Conclusions

Le mécanisme d’ agents IA mis en avant par Claude Code et Claude Cowork qui offrent un moyen de multiplier la valeur ajoutée d’ un modèle de langage à travers un environnement d’ exécution interactif offre de larges perspecives et va impacter de nombreux domaines cognitifs.

Une fois que les mécanismes d’ extension des compétences et d’ interfaçage seront tout à fait matures (ce qui n’ est pas encore le cas), ces agents pourront coordonner des opérations complexes. Le chemin parcouru est impressionnant quand on pense que ChatGPT 3.5 a été publié en novembre 2022 soit il y a à peine trois ans.

Néanmoins, ces modèles ne fonctionnent que si les instructions qu’ils reçoivent sont suffisamment claires, et même dans ce cas, il subsiste toujours un risque d’ erreur. Les tâches de nature « systématique » sont mieux servies par un algorithme clasique que par un agent brillant mais incertain. Quitte à utiliser le génie en silicium pour écrire le programme…

Sources et références

Tweet X de Eyad : The Complete Claude Code tutorial : https://x.com/eyad_khrais/status/2010076957938188661?s=20
Tweet X de Eyad : The Claude Code tutorial level 2 : https://x.com/eyad_khrais/status/2010810802023141688?s=20
Tweet X de Nader Dabit : You could’ve invented Claude Code : https://x.com/dabit3/status/2009668398691582315?s=20
Article X de Numan Ali : Claude code’s new task system, the practical guide and explainer : https://x.com/nummanali/status/2014684862985175205?s=20

La mission Genesis

30 novembre 2025 / Arnaud Stévins

Le 24 novembre 2025, le président des États-Unis signe un décret historique: le lancement officiel de la Mission Genesis, une initiative de grande envergure destinée à fusionner données publiques, super-ordinateurs, laboratoires nationaux et intelligence artificielle.

La mission sera conduite par l’ U.S. Department of Energy (DoE), à travers ses 17 laboratoires nationaux, en collaboration avec universités, entreprises technologiques et centres de recherche. Elle s’appuiera sur l’expertise des quelque 40 000 scientifiques, ingénieurs et techniciens du DoE, ainsi que sur celle des acteurs secteur privé.

L’ initiative a pour objectif d’ ouvrir une nouvelle ère d’ innovation et de découvertes accélérées par l’IA, capables de répondre aux défis les plus complexes de notre époque. Elle se concentrera sur des défis majeurs comme la fusion nucléaire, les réacteurs nucléaires avancés, la modernisation du réseau électrique, les nouveaux matériaux, l’ informatique quantique et la mise au point de nouveaux médicaments.

Figure 1 : Pictogramme de la Mission Genesis

Contenu du projet Genesis

L’ idée est de bâtir une plateforme intégrée qui permettra d’ entraîner des modèles IA scientifiques avancés menant à des agents chercheurs autonomes fonctionnant en boucle fermée. Ceux-ci pourront à la fois contenir des modèles génératifs, pour échafauder des hypothèses créatives, mais aussi des modèles prédictifs afin d’ orienter et de valider les intuitions du modèle génératif.

Le processus scientifique décrit dans la feuille de route du DOE relève presque de la science-fiction :

La conception par l’ IA : elle examine les données et émet l’hypothèse suivante : « Si nous mélangeons ces alliages à 4 000 degrés, nous obtenons un supraconducteur. »;
L’ IA définit ensuite un protocole de validation expérimental et l’ envoie à un laboratoire lui aussi robotisé (que le DoE est en train de construire) pour réaliser le mélange et tester ses propriétés;
Le robot renvoie instantanément les résultats. En cas d’échec, l’ IA modifie la formule;

Ce cycle se répète des milliers de fois par jour, 24 heures sur 24, 7 jours sur 7. Pas de sommeil. Pas de demande de subvention.

Le projet se caractérise aussi par des délais ambitieux, qui attestent de son importance pour l’ administration américaine :

60 jours pour identifier 20 défis hautement prioritaires à relever;
90 jours pour répertorier toutes les ressources informatiques à sa disposition;
120 jours pour établir un plan visant à exploiter les données provenant à la fois de sources fédérales et d’autres instituts de recherche;
270 jours pour démontrer que son plan peut permettre de progresser sur au moins l’ un des défis identifiés.

Réflexions

Que l’ on ne s’ y trompe pas, il s’ agit d’ une initiative majeure. Lors d’une conférence de presse, Michael Kratsios, conseiller scientifique du président Trump, a qualifié la mission Genesis de « plus grande mobilisation de ressources scientifiques fédérales depuis le programme Apollo ».

Un des objectifs centraux de cette mission est de doubler la productivité et l’ impact de la recherche et de l’ innovation américaines en l’ espace d’ une décennie en assistant les effectifs scientifiques avec de l’ IA plutôt qu’en les remplaçant. Ce n’est pas rien.

De plus, les laboratoires du Department of Energy disposent des supercalculateurs les plus rapides et d’ une expérience dans la conduite de recherches contrôlées à haut risque, essentielle pour l’ expérimentation dans certains domaines.

Les géants de l’ IA américaine (Google, OpenAI, Anthropic, Nvidia etc..) sont aussi cités comme participants et devraient obtenir l’ accès à des pétaoctets de données expérimentales exclusives qui ont été conservées dans des installations gouvernementales sécurisées pendant des décennies.

Toutes ces données, jusqu’ ici cloisonnées au sein des archives scientifiques du NIH, du DOE, de la NASA, de la NOAA, de la DARPA, de la NSF, du CDC, de la FDA, de l’USDA, du Bureau du recensement et des services de renseignement seront regroupées dans un ensemble unifié.

Ceci ne signifie cependant pas que les géants de la tech sont au centre de cette initiative; ils interviendront plutôt en tant qu’ experts et conseillers, mais bénéficieront de ses retombées.

Les capacités des modèles feront un bond en avant, car ces données contiennent précisément le type d’ informations à haut signal, structurées et à long terme dont les modèles de pointe ont besoin pour leur entraînement.

Sources et références

Site officiel du Department of Energy : https://genesis.energy.gov
Annonce officielle du Department of Energy: https://www.energy.gov/articles/energy-department-launches-genesis-mission-transform-american-science-and-innovation
Post X par SightBringer sur le project Genesis : https://x.com/_The_Prophet__/status/1993115246379307111?s=20

Que font vraiment 700 millions de personnes avec ChatGPT ? Première étude détaillée

5 octobre 2025 / Arnaud Stévins / 10 Comments

Imaginez un outil qui, en moins de trois ans, devient une habitude hebdomadaire pour plus de 700 millions d’ utilisateurs, soit environ 10% de la population adulte du monde.

Cet outil, c’ est bien sûr ChatGPT, qui répondait en moyenne à 2,5 millards de questions par jour en juin 2025 (soit environ 29.000 par seconde!). Mais que demandent les utilisateurs ? A quelles fins utilisent-ils des modèles de langage ?

OpenAI et le National Bureau of Economic Research (NBER) ont rédigé la première étude statistique détaillée d’utilisation du modèle de langage le plus populaire : ChatGPT. Ce sont les résultats de cette étude que je voudrais vous présenter dans cet article.

Attention : l’ étude ne porte que sur l’ interface web ChatGPT et ne reprend que les utilisateurs sur les plans « consommateur » (Free, Plus et Pro). Les utilisateurs sur les plans entreprise (Business et Enterprise) ne sont pas repris, ni les accès par API, ce qui a des conséquences pour l’ interprétation des résultats…

1. Profil des utilisateurs et volumes de conversation

Voyons d’ abord le nombre d’ utilisateurs ChatGPT actifs au moins une fois par semaine. Ce nombre passe de 100 millions début 2024 à 400 millions début 2025 pour atteindre en juillet 2025 environ 700 millions d’ utilisateurs soit 10% de la population adulte mondiale; ces chiffres sont cependant un peu surévalués car ils mesurent le nombre de comptes et certains utilisateurs peuvent disposer de plusieurs comptes.

Figure 1 : Nombre de comptes ChatGPT (« Free », »Plus », »Pro ») actifs au moins une fois par semaine (crédit : étude OpenAI/NBER)

Quant au nombre total de messages échangés chaque jour sur ChatGPT, il passe de 451 millions en juin 2024 à environ 2,6 milliards en juin 2025 (en moyennes hebdomadaires) et tout semble indiquer que cette croissance devrait se poursuivre. Pour donner une idée de comparaison, Google a indiqué au mois de mars traiter approximativement 14 milliards de recherches par jour.

Un point intéressant est que la croissance du trafic sur le site de ChatGPT semble provenir essentiellement de l’ arrivée de nouveaux utilisateurs, et non d’ une augmentation de la fréquence d’ utilisation par les utilisateurs plus anciens, qui reste stable.

Quant au profil des utilisateurs, il est clairement orienté vers les jeunes puisque 46% des utilisateurs ayant mentionné leur âge ont entre 18 et 25 ans. Et si 80% des utilisateurs étaient des hommes lors du lancement de ChatGPT fin 2022, la proportion est passée à 52% de femmes aujourd’ hui ce qui est en phase avec la moyenne de la population.

Enfin, une tendance très intéressante est que ChatGPT connaît actuellement une croissance quatre fois supérieure dans les pays à faibles et moyens revenus par rapport aux pays les plus riches. Ceci montre la globalisation rapide de cet outil.

2. Catégories d’ utilisation

L’ étude a analysé de manière détaillée et classé plus d’ un million de conversations provenant de la base globale des utilisateurs de ChatGPT, tout en protégeant l’ anonymité des messages individuels.

Figure 2 : Répartition des conversations par catégorie (crédit : étude OpenAI/NBER)

Les catégories d’ utilisation les plus fréquentes sont :

conseils pratiques (28,3%) : instruction et éducation, explications « comment faire? », conseils de beauté, de fitness ou de soins….
écriture (28,1%) : il est intéressant ici que les demandes de rédaction directe (8%) sont inférieures aux demandes d’ édition et de revue de textes déjà rédigés (10,6%). La traduction de textes compte pour environ 4,5% des conversations;
recherche d’ informations (21,3%) : cette catégorie est en forte croissance, passant de 14% des utilisateurs à 24,4% en un an (le chiffre de 21,3% est une moyenne). Il est intéressant que la tendance des modèles de langage à occasionnellement affabuler ne semble pas rebuter les utilisateurs; il est vrai que les modèles de langage se sont améliorés dans la fourniture de liens vers leurs sources, ce qui permet une vérification de l’ information a posteriori.

Par contre, seuls 1,9% des messages ont trait à des questions relationnelles ou à des réflections personnelles, et 2% à du bavardage et à des salutations(!). Quoi qu’ en disent les médias, un outil comme ChatGPT est utilisé comme un outil et non comme un compagnon ou un confident.

3. L’ utilisation privée avant le travail

Autre point intéressant, les chercheurs ont cherché à distinguer les conversations à caractère professionnel de celles à caractère privé. Et les conclusions sont claires : la proportion des conversations non-professionelles est passée en un an de 53% à 72,2%.

Malgré toutes les déclarations suggérant que les modèles de langage vont révolutionner l’ emploi et le milieu professionnel, une conclusion s’ impose : ChatGPT est principalement un outil utilisé dans la vie privée.

Figure 3 : Proportion de conversations à caractère non-professionnel (crédit : étude OpenAI/NBER)

Ce constat doit être fait avec une réserve : les abonnements « entreprise » ne sont pas repris dans l’ étude et il est probable que leur inclusion augmenterait la part de conversations professionnelles, mais sans toutefois remettre en cause le caractère principalement privé de l’ utilisation.

Les utilisateurs hautement qualifiés et ceux exerçant des professions libérales sont plus susceptibles d’ utiliser ChatGPT dans le cadre de leur travail. Dans le cadre professionnel, les utilisateurs techniques envoient davantage de messages de questionnement et de recherche d’ informations, tandis que les cadres se concentrent sur la rédaction (52 % de leurs messages professionnels).

4. Les absents

L’ étude fait aussi état d’ une utilisation assez faible des capacités de traitement des images offertes par ChatGPT, tant en analyse qu’en génération (environ 6% des requêtes).

De même la programmation est peu présente (4,2% des requêtes), ce qui paraît surprenant. La raison est très probablement l’ exclusion de l’ interface API de l’ étude, alors que les assistants intégrés de programmation type Github Copilot et Cursor recourent systématiquement à l’ accès par l’ API.

5. Remarques finales

Anthropic a publié une étude comparable relative à l’ utilisation de Claude le même jour qu’ OpenAI (le 15 septembre) et les résultats de cette seconde étude sont assez différents !

Le grand avantage de l’ étude d’ Anthropic est qu’ elle couvre aussi les accès API; elle est donc plus complète. Elle est aussi entièrement accessible alors que l’ étude complète d’ OpenAI se trouve sur le site du National Bureau of Economic Research et n’ est pas librement accessible; je confesse que j’ai dû baser cet article sur des sources indirectes….

Je vous présenterai les résultats de l’ étude d’ Anthropic dans le prochain article.

D’ ici là, portez-vous bien et n’ oubliez pas de soumettre toutes vos questions -même les plus insolites- à votre modèle de langage favori.

Sources et références

How people are using ChatGPT : Article sur le site d’ OpenAI, le 15 septembre 2025 : https://openai.com/index/how-people-are-using-chatgpt/
What do people actually use ChatGPT for? OpenAI provides some numbers, par Kyle Orland pour ArsTechnica le 15 septembre 2025 : https://arstechnica.com/ai/2025/09/seven-things-we-learned-from-openais-first-study-on-chatgpt-usage/
What Over 2.5 Billion Daily Messages Reveal About How People Use ChatGPT*, par N S.T. Chong pour l’ United Nations University (UNU), le 29 septembre 2025 : https://c3.unu.edu/blog/what-over-2-5-billion-daily-messages-reveal-about-how-people-use-chatgpt

Dans le cerveau des modèles de langage, deuxième partie : les raisonnements

30 juin 2025 / Arnaud Stévins / 12 Comments

Nous avons vu dans l’ article précédent comment les chercheurs d’ Anthropic ont réussi à modifier un de leurs modèles de langage pour faire apparaître des concepts interprétables au sein des différentes couches du modèle.

Ces recherches, qui remontent à 2024, constituent une première étape. Mais les chercheurs d’ Anthropic sont allés plus loin et ont cherché à comprendre comment ces concepts se combinent dans un modèle pour échafauder une réponse plausible à la demande de l’ utilisateur.

C’ est ce que je vais tenter de vous expliquer dans cet article, et comme vous le verrez, cela apporte pas mal d’ enseignements très intéressants sur le fonctionnement intime des modèles.

Comment tracer les pensées du modèle ?

Nous avons vu dans l’ article précédent comment les chercheurs avaient réussi à adjoindre une sous-couche « interprétable » à chaque couche du modèle, ce qui permettait d’ identifier et de localiser un ensemble de concepts. Mais ce mécanisme ne permettait pas encore de comprendre comment ces concepts s’ articulent en une réflexion cohérente.

Pour pouvoir tracer les pensées du modèle, les chercheurs ont créé un modèle de substitution plus riche que celui présenté dans l’ article précédent:

chaque couche du modèle original est remplacée par une couche interprétable équivalente, appelée couche de transcodage;
chaque couche de transcodage agit non seulement sur la prochaine couche du modèle mais aussi les couches suivantes. Ceci permet à une caractéristique interprétable située en amont du modèle d’ agir directement sur une autre caractéristique interprétable située n’ importe où en aval.

Ceci mène au modèle de substitution présenté dans la figure 1.

Figure 1 : Du modèle original au modèle de remplacement

Une fois que ce modèle de remplacement a été correctement entraîné, on va pouvoir lui soumettre un texte d’ entrée et voir quelles sont les caractéristiques interprétables qui sont activées par la question, mais aussi comment ces caractéristiques s’ influencent mutuellement pour aboutir à la formation de la réponse.

En fait le « truc » est toujours le même : on remplace un modèle par un autre qui fait la même chose mais dans lequel on peut mesurer ce qui nous intéresse. Parce que les informaticiens ont un grand avantage sur les biologistes : tous les calculs intermédiaires sont accessibles et tout est mesurable !

Le résultat de ces mesures se présente sous la forme de graphes d’attribution, une représentation graphique des étapes de calcul utilisées par le modèle pour déterminer le texte de sortie pour un texte d’ entrée particulier.

Voici un exemple de graphe d’ attribution simple pour vous donner une idée de ce que cela signifie :

Figure 2 : Un graphe d’ attribution élémentaire (source : Anthropic)

Voyons maintenant quelques découvertes intéressantes que les chercheurs ont faites en analysant les graphes d’ attribution générés pour des textes d’ entrée judicieusement choisis…

Découverte 1 : les modèles ne dévoilent pas toujours leurs pensées

C’ est la première question à se poser : demandez au modèle d’ expliquer chaque étape de son raisonnement (chain of thought prompting). L’ explication fournie correspond-elle systématiquement au raisonnement intérieur du modèle?

Parce que si c’ est le cas, pas besoin de faire toutes ces recherches, il suffit de demander au modèle d’ expliciter son raisonnement. Malheureusement, ce n’ est pas ce que les chercheurs ont découvert.

Prenons un exemple simple de calcul mental. Les chercheurs ont demandé au modèle combien font 36+59. Ils ont découvert que le modèle utilise « en interne » un double chaîne de raisonnement, la première cherchant une réponse approximative et la seconde se limitant à calculer le chiffre des unités; les deux sont ensuite combinés pour estimer une réponse. A noter que c’ est assez proche de ce que nous faisons intuitivement en calcul mental.

Voici le graphe d’ attribution correspondant :

Figure 3 : Graphe d’ attribution pour un calcul élémentaire (source : Anthropic)

Mais quand on demande au modèle d’ expliquer son raisonnement, il explique l’ algorithme standard d’addition écrite avec le report des unités sur les dizaines. Ce qui est un tout autre mécanisme !

Figure 4 : Explication fournie par le modèle (source : Anthropic)

Plus généralement, les chercheurs ont remarqué que le modèle décrit son raisonnement correctement dans certains cas, mais ce n’ est pas systématique.

Par exemple, lorsqu’ on lui demande de calculer le cosinus d’un grand nombre qu’ il ne peut pas calculer facilement, le modèle se livre parfois à ce que les chercheurs appellent du bullshitting (!), c’est-à-dire qu’ il donne une réponse, n’ importe laquelle, sans se soucier de savoir si elle est vraie ou fausse. Même s’ il prétend avoir effectué un calcul, les techniques d’ interprétabilité ne révèlent aucune preuve de l’ existence de ce calcul !

Autre cas intéressant, lorsqu’ on lui donne un calcul ainsi que sa réponse et on lui demande d’ expiquer comment trouver le résultat, le modèle travaille parfois à rebours, trouvant des étapes intermédiaires qui mèneraient à cette cible, faisant ainsi preuve d’ une forme de raisonnement motivé. D’ autant plus qu’ il n’ hésite pas à faire aussi cela lorsque la réponse qu’ on lui donne est fausse !

Bref, on ne peut pas considérer les explications et justifications du modèle comme transparentes et une analyse « intrusive » est nécessaire pour comprendre ce qui se passe réellement dans sa « tête ». C’ est bien dommage mais c’ est comme ça.

Découverte 2 : le modèle possède un seul modèle cognitif multilingue

Ceci est, pour moi, remarquable : le modèle semble posséder un espace conceptuel unique qui est partagé entre les différentes langues, ce qui suggère qu’il possède une sorte de « langage de pensée » universel.

En effet, comme l’ entraînement des modèles se fait sur un ensemble de textes en grande majorité individuellement unilingues, on pourrait imaginer que ces modèles contiennent en leur sein une série de mini-modèles conceptuels indépendants, chaque langue créant sa propre réalité intérieure au fil de l’ entraînement.

Au contraire, les chercheurs d’ Anthropic ont montré qu’ il n’ existe pas de «modèle français» ni de «modèle chinois» fonctionnant en parallèle et répondant aux demandes dans leur propre langue.

Ils ont demandé au modèle le « contraire de petit » dans différentes langues, les mêmes caractéristiques fondamentales des concepts de petitesse et d’ opposition s’ activent pour déclencher un concept de grandeur, qui est finalement traduit dans la langue de la question.

Figure 5 : Le modèle conceptuel multilingue (source: Anthropic)

D’ un point de vue pratique, cela suggère que les modèles peuvent apprendre quelque chose dans une langue et appliquer ces connaissances lorsqu’ ils conversent dans une autre langue, ce qui est tout à fait positif et très important à comprendre.

Découverte 3 : le modèle planifie sa réponse plusieurs mots à l’ avance

L’ algorithme de base des modèles de langage repose sur une prédiction mot à mot. Mais le modèle planifie-t’ il plus loin que le prochain mot ? A-t’ il une idée « derrière la tête » quand il fait sa prédiction ?

Un bon cas pour tester ceci est la rédaction d’ un poème. En effet, pour écrire un poème, il faut satisfaire à deux contraintes en même temps : les vers doivent rimer et ils doivent avoir un sens. Il y a deux façons d’ imaginer comment un modèle y parvient :

l’ improvisation pure – le modèle pourrait écrire le début de chaque ligne sans se soucier de la nécessité de rimer à la fin. Puis, au dernier mot de chaque ligne, il choisirait un mot qui (1) a un sens compte tenu de la ligne qu’il vient d’écrire et (2) correspond au schéma de rimes;
la planification – le modèle peut également adopter une stratégie plus sophistiquée. Au début de chaque ligne, il pourrait imaginer le mot qu’ il prévoit d’ utiliser à la fin, en tenant compte du schéma de rimes et du contenu des lignes précédentes. Il pourrait ensuite utiliser ce « mot prévu » pour rédiger la ligne suivante, de manière à ce que le mot prévu s’ insère naturellement à la fin de la ligne.

Lequel des deux modèles est correct ? Vu l’ algorithme des modèles de langage, on pourrait pencher pour la première hypothèse. C’ était d’ ailleurs ce que pensaient des chercheurs au début de leurs recherches. Et pourtant, ils ont trouvé des éléments suggérant clairement que le modèle fait de la planification plusieurs mots à l’ avance…

Comme on peut le voir sur la figure 6, le modèle planifie à l’ avance plusieurs possibilités pour le mot final de la ligne, et planifie ensuite le reste de la ligne « à l’envers » pour que cette dernière soit cohérente.

Figure 6 : Planification direct et inverse d’ une rime (source: Anthropic)

Les chercheurs ont également modifié les concepts en cours d’ élaboration de la rime. Le modèle prévoyait de terminer sa ligne par « rabbit » mais si l’ on annule ce concept en cours de route voire le remplace par un autre, le modèle change de rime.

Figure 7 : Modification du concept final en cours de rime (source: Anthropic)

Ceci montre que les modèles préparent leurs réponses plusieurs mots à l’ avance, et sont non seulement capbles de planifier vers l’ avant mais aussi vers l’ arrière (rétro-planning) quand c’ est nécessaire. Les modèles sont aussi capables de planifications multiples en parallèle, et il est possible d’ intervenir directement sur ces plans en cours de route en modifiant les concepts sous-jacents.

Conclusion

Ces recherches lèvent un coin du voile sur ce qui se passe réellement au sein des modèles de langage. Il me semble clair que ces recherches ne sont qu’ à leurs débuts et que beaucoup de choses sont encore à découvrir dans le domaine de l’ interprétabilité.

Si vous voulez en savoir plus sur ce sujet, je ne puis que vous suggérer de lire directement l’ article On the Biology of a Large Language Model que je cite ci-dessous en référence. Les chercheurs y présentent douze traces de raisonnement différentes apportant chacune son lot d’ enseignements…

Pour ma part, ce qui me fascine le plus, ce sont les analogies évidentes entre la manière dont ces modèles « réfléchissent » et la manière dont nous le faisons…

Sources et références

Tracing the thoughts of a Large Language Model, par Anthropic Interpretability research team, le 27 mars 2025: https://www.anthropic.com/research/tracing-thoughts-language-model
Circuit Tracing: Revealing Computational Graphs in Language Models, par Anthropic Interpretability research team, le 27 mars 2025 : https://transformer-circuits.pub/2025/attribution-graphs/methods.html
On the Biology of a Large Language Model, , par Anthropic Interpretability research team, le 27 mars 2025: https://transformer-circuits.pub/2025/attribution-graphs/biology.html
What’s going on inside Claude’s mind ?, par Nikhil Anand pour Medium, le 23 mai 2025 : https://medium.com/ai-advances/whats-going-on-inside-claude-s-mind-bfb8bb9cf6a1

Quelques nouvelles et un point sur les modèles de langage en mai 2025

22 mai 2025 / Arnaud Stévins / 6 Comments

Et voilà, j’ ai décidé de joindre le geste à la parole dans le cadre de la résilience digitale. J’ ai transféré le nom de domaine et l’ hébergement du blog vers l’ Union Européenne. Le blog se trouve maintenant à l’ adresse https://artificiellementintelligent.eu qui est hébergé par la société française OVH, un des leaders européens dans le domaine et offre des hébergements WordPress compétitifs. L’ancien site reste provisoirement accessible sur https://artificiellementintelligent.wordpress.com.

Ce message est donc le premier que vous recevez depuis la nouvelle mouture du blog, ce qui explique aussi la modification du format des emails de notification car j’ai dû adapter la configuration et les plug-ins de WordPress chemin faisant.

Ces préliminaires étant dits, je vais faire un rapide point sur la situation actuelle des modèles de langage. Les modèles de langage actuels peuvent grosso modo se regrouper en trois grandes catégories :

les modèles généralistes : ces modèles sont focalisés sur la conversation et le dialogue. Ils puisent dans leurs vastes connaissances, recherchent des informations et répondent de manière interactive aux questions variées de l’ utilisateur. Souvent multimodaux, ils peuvent aussi interpréter des images, de l’ audio voire de la vidéo et sont parfois capables de générer nativement des images. Ils sont habituellement accessibles via des interfaces web ou des applications mobiles conversationnelles;
les modèles de codage : ces modèles excellent dans l’ analyse et la génération de programmes informatiques. Ils sont typiquement exploités via des environnements de développement comme VSCode qui utilisent l’ interface de programmation pour accéder au modèle. Ces modèles sont en général capables d’ interpréter les images (diagrammes, interface utilisateur…) et se caractérisent par des fenêtres de contexte de grande taille, vu la taille souvent importante des codes source;
les modèles raisonneurs : ces modèles sont entraînés à construire des chaînes de raisonnement logiques. Ils sont à la base des applications comme « Deep Research » qui permettent d’ analyser un sujet de manière approfondie et de rédiger un rapport détaillé. La tendance actuelle est de leur adjoindre différents outils accessibles en cours de raisonnement afin qu’ ils puissent tester leurs hypothèses et continuer à raisonner sur les résultats intermédiaires obtenus. C’ est la voie vers les fameux « agents » dont on entend beaucoup parler et qui devraient enregistrer des progrès importants cette année.

Sur base de cette classification simple, voici les modèles « phare » actuellement mis à disposition par les principaux acteurs :

	Modèle généraliste multimodal	Modèle de codage	Modèle raisonneur
OpenAI	ChatGPT-4o	GPT-4.1	o3
Google	Gemini 2.5 Pro	Gemini 2.5 Pro	Gemini 2.5 Pro Deep Think
Anthropic	Claude 3.7 Sonnet	Claude 3.7 Sonnet	Claude 3.7 Sonnet Extended Thinking mode
Meta	Llama 4 Maverick	Code Llama 4 (pas encore disponible)	Llama 4 Behemoth (pas encore disponible)
Mistral	Pixtral Large	Codestral	Mistral Large

Figure 1 : Modèles « Haut de gamme » des principaux acteurs, par type d’ utilisation

Il est aussi intéressant de connaître les modalités supportées par les modèles généralistes :

	Modalités d’ entrée	Modalités de sortie
ChatGPT-4o	texte, audio, images, vidéo	texte, audio, images
Gemini 2.5 Pro	texte, audio, images, vidéo	texte
Claude 3.7 Sonnet	texte, images	texte
Llama 4 Maverick	texte, images, vidéo(?)	texte
Pixtral Large	texte, images	texte

Figure 2 : Modalités natives des modèles généralistes

OpenAI offre une palette différenciée de modèles; l’ objectif est de combiner l’ ensemble des capacités en un modèle unique à l’ architecture entièrement nouvelle (le fameux GPT-5), probablement vers la fin de l’ année 2025. Le modèle ChatGPT-4o présente la plus modalité la plus riche de tous les modèles du marché : il est capable d’ analyser, texte, image, audio et même vidéo et de générer nativement du texte et des images !

Notons qu’ OpenAI a décidé de retirer son modèle ChatGPT-4.5, trop coûteux à l’ exploitation pour se focaliser sur ChatGPT-4o pour les interactions conversationnelles et GPT-4.1 pour le codage.

Google est très bien placé avec Gemini 2.5 Pro qui intègre l’ ensemble des capacités dans un seul modèle : conversation, multimodalité (certes moins complète que ChatGPT-4o), génération et exécution de code et raisonnement. Il me semble que Google, qui a longtemps joué en seconde voire en troisième position, semble bien positionné pour reprendre la tête du peloton.

Les modèles d’ Anthropic sont très réputés pour leurs excellentes performances en codage. Anthropic cherche maintenant à renforcer sa position sur ce créneau en se concentrant sur les chaînes de raisonnement complexes avec appel d’ outils intégrés, y compris les environnements d’ exécution de programmes. Leur protocole standardisé MCP (Model Context Protocol), qui permet à un modèle de langage d’accéder à différents outils, s’ inscrit dans cette optique. Par contre, Anthropic accorde moins d’ importance à la multimodalité -moins utile pour la programmation- et leurs modèles ne peuvent générer que du texte et du code.

Enfin, Meta se caractérise par la disponibilité de leurs modèles en format open-weights, ce qui veut dire qu’ils sont utilisables localement. Ceci offre de grands avantages en termes de sécurité et de confidentialité à condition de disposer de machines suffisamment puissantes pour exécuter les modèles. Meta n’ offre pas encore de modèle raisonneur, ce dernier (appelé Behemoth) devrait cependant bientôt être annoncé.

Tous les modèles mentionnés sont de très bon niveau. Pour le travailleur intellectuel « col blanc » typique, la meilleure chose à faire est d’ essayer rapidement les différents modèles pour choisir celui qui vous convient le mieux, et ensuite de vous y tenir et de l’ utiliser chaque fois que vous vous posez une question ou recherchez des informations. C’ est comme cela que vous comprendrez progressivement comment intégrer ces modèles dans votre vie quotidienne et en tirer le meilleur parti.

OpenRouter, le point d’ entrée vers les modèles de langage

1 mai 2025 / Arnaud Stévins

Cela fait quelque temps que j’ ai découvert le site OpenRouter que je trouve extrêmement utile : il permet d’ accéder à la quasi-totalité des modèles de langage accessibles sur le marché de manière simple et conviviale.

Le site offre une interface d’ accès unifiée vers plus de 300 modèles de langage. Les modèles « dernier cri » des principaux fournisseurs sont disponibles, comme Mistral 2 Large, GPT-4.1, Claude 3.7 Sonnet, Meta Llama 4 etc…

Vous ne devrez donc plus souscrire à des abonnements séparés pour chaque fournisseur, ni pour l’ accès web ni pour l’ accès par interface de programmation (API). Autre avantage, le coût d’ utilisation est calculé par token ce qui est en général beaucoup plus intéressant que l’ approche forfaitaire des abonnements type ChatGPT+ ou Google One AI Premium.

C’ est parti pour un tour d’ horizon d’ OpenRouter.

1. Prise en main et interface conversationnelle

L’ écran d’ accueil d’ OpenRouter présente les étapes à suivre pour commencer à utiliser la plateforme : il est d’abord nécessaire de s’ inscrire et d’ acheter des crédits. Vous avez également la possibilité de générer une clé d’ accès API si vous souhaitez interagir avec les modèles via des programmes, mais cette étape est facultative.

Figure 1 : Écran d’ accueil d’ OpenRouter

Les modèles sont accessibles de deux manières : via une interface web conversationnelle, similaire à celle de ChatGPT, et via une interface de programmation (API). Cette API est unifiée pour tous les modèles, ce qui simplifie grandement le travail des développeurs.

L’ interface conversationnelle est classique et permet de sélectionner le modèle à utiliser en haut de l’ écran. Chaque nouveau dialogue est considéré comme une room (salle) associée à un ou plusieurs modèles de langage.

Si plusieurs modèles de langage sont sélectionnés, l’ interface soumettra la même question à tous les modèles activés simultanément. Cela permet de comparer les réponses des différents modèles, mais augmente également le coût.

Il est également possible de désactiver certains modèles sélectionnés. Par exemple, dans l’ image ci-dessous, trois modèles sont sélectionnés, mais Claude 3.7 Sonnet est désactivé. L’ interface répond donc simultanément à mon prompt avec OpenAI ChatGPT 4.1 et Google Gemini 2.5 Pro Preview.

Figure 2 : Interface conversationnelle OpenRouter

L’ interface conversationnelle permet de joindre des résultats de recherche web (Web Search) et des fichiers, y compris des images à analyser. Par contre il n’ est actuellement pas possible de générer des images avec les modèles disponibles sur OpenRouter. Le site se concentre sur les interactions textuelles.

2. Choix des modèles et fournisseurs d’ infrastructure

OpenRouter permet de choisir non seulement les modèles, mais aussi les fournisseurs d’ infrastructure chez lesquels les modèles sont exécutés. La transparence sur les fournisseurs d’ infrastructure est très importante car ceux-ci ont des politiques de modération et de réutilisation des données, des performances techniques et des prix différents.

La figure 3 montre la liste des fournisseurs d’ infrastructure pour le modèle Meta Llama 4 Maverick. On peut voir que le modèle est disponible chez plusieurs fournisseurs :

Figure 3 : Liste des fournisseurs pour Meta Llama 4 Maverick

Passons rapidement en revnue les différentes informations listées pour chaque fournisseur. Les icônes sur la gauche indiquent :

l’ identification du modèle auprès du fournisseur;
le pays dans lequel se situe le fourniseseur ;
la précision des paramètres du modèle. Certains fournisseurs choisissent en effet de recourir à des versions comprimées des modèles pour réduire les coûts de calcul, au prix de résultats moins précis ;
la politique de réutilisation ou non de vos dialogues pour améliorer le modèle. De nombreux fournisseurs choisissent de ne pas réutiliser les données pour des raisons de confidentialité ;
la politique de modération des dialogues par fournisseur. Certains fournisseurs choisissent de ne pas modérer les dialogues pour des raisons de liberté d’ expression ;
si le fournisseur permet l’ interruption d’ un dialogue en cours de génération, ce qui peut permettre de limiter le coût de calcul en cas de dialogue trop long ou partant dans une mauvaise direction ;
si OpenRouter vous permet d’ enregistrer vos clés API obtenues auprès du fournisseur, auquel cas vous payez directement le fournisseur et OpenRouter ne vous facture rien.

Ensuite, les colonnes de chiffres sur la droite fournissent les informations suivantes :

la longueur maximale de la fenêtre de contexte, en tokens. Celle-ci comprend à la fois la question et la réponse. La taille de la fenêtre de contexte dépendant du modèle, elle sera en principe la même pour tous les fournisseurs d’ infrastructure;
le nombre maximum de tokens générés par le modèle lors d’ une réponse;
le coût par million de tokens en entrée (dans votre question);
le coût par million de tokens générés en réponse par le modèle;
la latence, soit le délai moyen d’ attente en secondes entre l’ envoi de la question et la réception du premier token de la réponse;
le débit, soit le nombre moyen de tokens reçus en réponse par seconde;
le taux de disponibilité, soit le pourcentage de temps où le modèle est disponible selon les mesures d’ OpenRouter.

L’ algorithme utilisé par OpenRouter pour déterminer le fournisseur pour un modèle donné est de prioritiser le fournisseur le moins cher parmi ceux offrant la meilleure disponibilité. Si un fournisseur est indisponible, OpenRouter choisira le fournisseur suivant dans l’ ordre déterminé par l’ algorithme.

A noter qu’il est possible de modifier cet ordre en choisissant d’ autres critères de prioritisation, comme la latence ou le débit. Remarque importante, il est également possible d’ exclure de la liste les fournisseurs qui réutilisent vos données à des fins d’ entraînement.

Si la notion de token n’est pas claire pour vous, vous pouvez consulter mon article sur le sujet.

3. Modalités de paiement

OpenRouter est un intermédiaire entre vous et les fournisseurs de modèles et il est donc normal qu’ il soit rémunéré via un système de commission. Celle-ci est prélevée à chaque fois que vous ajoutez des crédits à votre compte. Par contre il n’ y a pas de commission prélevée sur chaque token que vous consommez : OpenRouter applique de manière transparente le prix chargé par le fournisseur d’ infrastructure.

Il est possible de voir sa consommation de tokens et de crédits de manière assez facile sur le site d’ OpenRouter :

Figure 4 : Aperçu de l’ activité et des frais occasionnés par l’ utilisateur

Pour être complet, certains modèles sont offerts gratuitement par OpenRouter : il s’agit des modèles « open-weights » comme Mistral Small 3.1 24B ou DeepSeek R1 Zero. Afin d’ éviter les abus, ces modèles sont limités en nombre de requêtes par jour.

4. Accès API pour les programmeurs

Je clôture par un dernier mot à l’ intention des programmeurs pour lesquels OpenRouter offre trois avantages :

Tout d’ abord, une interface API unifiée qui permet d’ accéder à l’ ensemble des 300 modèles disponibles sur la plateforme. Cela permet de simplifier le développement d’ applications qui utilisent des modèles de langage. L’ API est compatible avec l’ API d’ OpenAI.

Ensuite, OpenRouter propose un système de redondance qui permet de gérer l’ indisponibilité d’ un fournisseur de manière transparente. Si une requête échoue, OpenRouter peut automatiquement essayer une autre requête avec un autre modèle ou un autre fournisseur. Ceci est très pratique pour les applications qui demandent une haute disponibilité : si un modèle ou un fournisseur est indisponible, l’ application peut continuer à fonctionner sans interruption (pour autant qu’ OpenRouter ne soit pas lui-même en panne). Le prix à payer pour cette redondance est une légère augmentation du coût et du délai puisque la requête doit d’ abord être envoyée à OpenRouter ce qui ajoute environ 30ms de temps de réponse.

Enfin, l’ ensemble des frais est centralisé auprès d’ un seul fournisseur quels que soient les modèles utilisés, ce qui permet de simplifier la gestion des coûts.

Voilà, je pense avoir expliqué les grandes lignes de OpenRouter. Bonnes conversations !

La résilience numérique : comment s’ affranchir de notre dépendance digitale

13 mars 2025 / Arnaud Stévins

Cela fait quelque temps que je n’ai pas écrit de billet. Le flux incessant d’ informations inquiétantes en provenance de l’ autre côté de l’ Atlantique m’ a un peu déboussolé. Je me suis donc dit que j’ allais essayer de me ressaisir en écrivant un article sur un sujet de circonstance : la résilience numérique.

Il semble que nous nous acheminons vers une guerre commerciale entre les Etats-Unis et l’ Union Européenne. Or, les flux de services digitaux entre les USA et l’ Europe représentant une part importante de ces volumes d’ échange, on ne peut exclure que ces derniers se retrouvent pris en otage si la guerre commerciale entre les deux blocs venait à dégénérer. Notre dépendance aux infrastructures digitales et aux services en ligne américains est indéniable: la majorité des infrastructures digitales et des services en ligne utilisés en Europe sont hébergés aux États-Unis. Cela inclut les services de messagerie, les réseaux sociaux, le cloud computing, les paiements en ligne, etc…

Le scénario du pire serait une interruption du trafic digital transatlantique et/ou une suspension des services pour les clients européens, décidée par les autorités américaines et imposée à leurs entreprises privées. L’ interruption de la fourniture d’images satellites par la société américaine MAXAR à l’ Ukraine, sur décision de l’ administration américaine, préfigure ce qui pourrait se produire à plus grande échelle à l’ avenir.

Face à ces risques, la résilience numérique désigne notre capacité à continuer à fonctionner et vivre dans le monde digital malgré des perturbations des infrastructures qui sous-tendent ces services.

A quels risques sommes-nous exposés ?

Ils sont principalement de deux types.

Premièrement, une interruption des flux de données entre Europe et USA signifierait l’ inaccessibilité des données dans les datacenters américains ainsi que des services en ligne directement fournis par ces derniers. Sites web, réseaux sociaux et applications de type Software-as-a-Service seraient alors directement impactés.

Deuxième risque, une interruption de type contractuel : suspension des contrats de maintenance et de mise à jour des logiciels made in USA voire interruption des licenses. Dans ce cas ce sont les logiciels installés localement qui risquent d’être impactés , soit totalement (interruption ou non-renouvellement de licenses), soit par une lente dégradation de leurs fonctionnalités et de leur sécurité (suspension des maintenances et mises à jour).

Le matériel physique est le moins impacté : une fois que vous le possédez il sera difficile de l’ empêcher de continuer à fonctionner, mais la dépendance au matériel se fait indirectement via le système d’ exploitation et les systèmes de sauvegarde dans le cloud.

Voyons donc comment améliorer notre résilience numérique face à ces risques.

Que pouvons-vous faire ?

La réponse est simple en théorie : migrer autant que possible vers des services offerts par des entreprises européennes et hébergés dans l’ Union Européenne. En pratique, c’est nettement plus compliqué. Il faut distinguer ce qui est nécessaire de ce qui n’ est que confort et fixer ses priorités. L’ indisponibilité d’ un réseau social n’ est souvent qu’ un désagrément là où l’ interruption des services de messagerie ou de paiement en ligne posera un problème majeur.

Commençons par l’ hébergement de domaines et de sites si vous en possédez : nom de domaine, serveur DNS, hébergement des pages web et d’ adresses mail devraient être migrés vers des fournisseurs de service cloud européens comme Combell et Easyhost en Belgique, OVHcloud en France ou encore Hetzner en Allemagne.

Une difficulté particulière se pose avec les adresses mail de type hotmail ou gmail qui ne peuvent être transférées telles quelles. Il faut alors créer de nouvelles adresses mail et les utiliser pour les échanges, ce qui demande de prévenir les contacts et de les informer de la nouvelle adresse. De plus, les comptes gmail sont aussi souvent utilisés pour l’ authentification sur d’ autres sites, il faudra donc s’ assurer que vous possédez des systèmes d’ authentification alternatifs pour ces sites.

Passons à un sujet qui me tient à coeur : l’ accès aux modèles de langage comme ChatGPT ou Claude. Ceci est facile à transférer, car une alternative française de qualité existe : Mistral. J’ ai résilié mon abonnement à ChatGPT Plus pour en prendre un abonnement Mistral Pro pour un prix d’ ailleurs un peu inférieur (15 euros au lieu de 20 USD). Pour ceux qui utilisent les interfaces de programmation (API), le basculement est lui aussi assez simple.

Autre point à prendre en considération pour la résilience : les applications en ligne accessible via le Web. Difficile de toutes les citer tant elles sont nombreuses mais je vous conseille de réfléchir à celles dont la perte aurait des conséquences significatives pour vous. Je pense notamment aux applications de paiement en ligne comme Paypal, de stockage de documents comme Google Drive ou Dropbox, logistiques comme Amazon ou de transport comme Uber. Il est probablement excessif de les remplacer d’ emblée mais identifer à l’ avance des alternatives européennes -quand elles existent- n’ est pas une mauvaise idée.

Les services de messagerie instantanée sont un autre point d’ intérêt. WhatsApp, Snapchat et Facebook Messenger sont américains, Telegram est russe, Signal est américain mais hébergé en Suisse. Viber est israélien et WeChat chinois. En fin de compte, il ne reste qu’ Element et Threema qui sont européens mais pas encore très utilisés… Element est un service de messagerie instantanée basé sur le protocole Matrix qui est un standard ouvert. Threema est un service de messagerie instantanée qui est basé sur le protocole Signal mais qui est européen. Je me suis inscrit sur Element et j’ ai commencé à l’ utiliser, tout en continuant à utiliser principaleent Whatsapp. Mais je puis basculer rapidement si nécessaire.

Passons au plat de résistance : les sytèmes d’ exploitation des ordinateurs et les sauvegardes de données dans le cloud. Microsoft et Apple étant américains, non seulement il existe un risque d’ interruption des licenses mais les sauvegardes de données dans le cloud (iCloud pour Apple et OneDrive pour Microsoft) sont hébergées aux États-Unis et donc à risque elles aussi. La seule alternative réaliste est d’ utiliser Linux mais ce dernier s’ adresse plutôt aux utilisateurs expérimentés et il faudra le coupler à un service de sauvegarde de fichiers dans le cloud comme pCloud (Suisse) ou faire des copies de sauvegarde locales.

La situation pour les solutions de bureautique est plus facile. LibreOffice qui est open-source offre une alternative résiliente à Google Cloud et Microsoft Office 365. LibreOffice offre aujourd’ hui une assez bonne compatibilité des formats de fichiers malgré une interface qui reste un peu plus rustique que celle de Microsoft Office.

Terminons par les smartphones où l’ européanisation relève encore de la gageure. La seule possibilité est de choisir un système d’ exploitation open-source comme LineageOS ou GrapheneOS, tous deux dérivés d’ Android, ou Ubuntu Touch, dérivé de Linux. Mais la compatibilité avec les applications Android restera limitée. Il faudra ensuite trouver un fabricant proposant un smartphone supportant ces systèmes d’exploitation, comme OnePlus, PinePhone ou un Pixel de Google.

Plus généralement, le site goeuropean.org permet de lister des alternatives européennes pour une large gamme de produits et services. La figure ci-dessous montre une liste de fournisseurs européens pour les principaux services digitaux :

Figure 1 : Liste des principales alternatives digitales européennes (source : buy-european-made.org)

Autres élements à prendre en compte

Ces mesures de résilience digitale complètent les recommandations générales des pouvoirs publics en matière de résilience pour les autres besoins de base tels que la nourriture, l’eau potable, l’argent liquide… L’objectif est d’atteindre une autonomie suffisante, permettant aux citoyens de subsister en cas d’interruption temporaire des services essentiels, par exemple lors d’une cyberattaque grave. Voous trouverez ici un article présentant la situation actuelle du plan de résilience pour la population belge.

Un autre élément à prendre en compte est l’ alimentation électrique. En effet, la résilience digitale implique aussi que vous disposiez d’ une alimentation électrique pour faire fonctionner votre matériel informatique et recharger vos smartphones.

Pour cela, vous pouvez envisager une solution de stockage d’ énergie dans une batterie qui peut être alimentée par différentes sources comme des panneaux solaires déployables en cas de besoin (sur votre terrasse ou dans votre jardin par exemple). Je vous conseille par exemple de jeter un oeil sur les produits de la société Bluetti ici.

Conclusions

Si ce qui précède peut sembler excessivement pessimiste, je pense néanmoins que chaque entreprise et chaque individu devrait se poser la question de sa propre résilience numérique et de la manière dont il peut la renforcer.

Pour les entreprises, il est temps d’ inclure ce type de scénario dans les exercices de gestion des risques.

Troublé par les derniers événements, j’ ai commencé à mettre en place mon propre plan de résilience numérique et je me suis rendu compte de la complexité de l’ exercice. C’est pourquoi j’ ai tenu à rédiger cet article à des fins de sensibilisation.

Je vous encourage à y réfléchir. Un homme averti en vaut deux.

Le Retour du Chat de Mistral

9 février 2025 / Arnaud Stévins

Après les Chinois de DeepSeek, au tour des Français de Mistral qui présentent leur chatbot appelé Le Chat !

Mistral.AI offre depuis quelques jours un chatbot très complet et performant. Facile d’accès, il offre pratiquement le même niveau de fonctionnalité que les chatbots d’ OpenAI (ChatGPT) ou d’ Anthropic (Claude).

Extrêmement rapide dans la génération de ses réponses, ce modèle est largement capable de devenir votre assistant conversationnel principal pour vos interactions quotidiennes. Il est maintenant disponible aussi en application mobile sur iOS et Android.

Et en ces temps d’ incertitudes internationales, Mistral AI offre une solution 100% européenne qui présente un cadre technique et juridique rassurant pour les utilisateurs basés dans l’ Union Européenne (serveurs hébergés en Europe, respect du RGPD…).

1. Le Chat : un chatbot accessible par le Web

Le Chat Mistral est accessible sur le web ici.

Figure 1 : Interface utilisateur du « Chat » de Mistral AI

Les fonctionnalités disponibles sont très proches de celles de ChatGPT :

Possibilité de recherche sur le Web en activant l’ option correspondante en-dessous de la fenêtre de chat (Web Search);
Possibilité de génération d’images (option Image generation). Ce mécanisme fait appel à un modèle de génération d’ image appelé Flux Ultra développé par Black Forest Labs;
Système de canevas pour la rédaction interactive de texte et de code, semblable à Anthropic Artefacts ou OpenAI Canvas (option Canvas);
Possibilité de générer et d’ exécuter du code pour résoudre des problèmes algorithmiques ou effectuer des calculs complexes (option Code Interpreter) ;
Possibilité d’ attacher des documents pdf et des images pour les analyser.

Différents types d’ abonnement existent mais il est possible d’ employer l’ essentiel des fonctionnalités avec l’ abonnement gratuit, avec toutefois des limites de volume d’ utilisation. Les abonnements payants offrent des fonctionnalités supplémentaires, notamment à l’ intention des journalistes avec la possibilité de consulter les dépêches de l’ Agence France-Presse en temps réel. Si cela vous intéresse, vous trouverez plus d’ informations sur cette intégration ici.

Un autre avantage du Chat de Mistral est la rapidité des réponses « flash » qui est plus de dix fois supérieure à celle de ses concurrents. Ceci est dû au partenariat avec le fournisseur d’ infrastructure IA Cerebras qui a développé un processeur spécialisé pour les modèles de langage.

Figure 2 : Débit de réponse du Chat Mistral « flash » par rapport à ses concurrents. (Source : Cerebras)

Le modèle ne répond pas systématiquement avec une réponse « flash », mais celles-ci sont indiquées avec une petite icône d’ éclair (⚡) dans le coin inférieur gauche de l’ interface conversationnelle. Sans surprise, les abonnements payants offrent un nombre de réponses « flash » supérieur à celui de l’ abonnements gratuit.

Cette rapidité est notamment importante pour la création interactive de codes informatiques, qui fait appel à des générations répétitives. La vidéo ci-dessous illustre bien l’ efficacité de Mistral « flash » dans ce domaine :

2. Applications Mobiles

Le lancement cette semaine d’ applications mobiles sur Android et iOS montre bien que Mistral se positionne comme un acteur majeur dans le domaine des chatbots génératifs, disposant de toute la panoplie des outils d’ accès comme c’est le cas avec Google, OpenAI ou Anthropic.

Les liens de téléchargement des applications mobiles se trouvent ici pour iOS et ici pour Android.

Figure 3 : Interface de l’ App « Le Chat » sur Android (source : MacRumors)

3. La Plateforme : l’ accès des programmeurs

Enfin, et ceci est (à ma connaissance) une première : Mistral est la première société qui offre un accès par interface de programmation gratuit en-dessous d’ un certain volume d’ échanges. Cela permet de tester les capacités du modèle sans avoir à se soucier de la facturation ou de devoir fournir un numéro de carte de crédit.

Le mécanisme d’ accès aux modèles de Mistral via API est décrit en détail sur La Plateforme, qui est accessible ici.

Figure 4 : Console d’ accès à « La Plateforme »

Rien de très nouveau pour les utilisateurs des API d’ OpenAI ou d’ Anthropic : il faut générer une clé API et l’ utiliser dans les appels aux serveurs de Mistral, qui respectent les protocoles de communication établis par OpenAI (mais les messages REST sont bien entendu envoyés vers les serveurs de Mistral)…

Mistral AI offre aussi une approche originale quand à la mise à disposition des paramètres de ses modèles pour une exécution locale (open weights) :

Les modèles les plus avancés (dits frontière) ne sont pas disponibles en open weights mais sont accessibles soit via le chat, soit via une API. Il est possible de faire fonctionner ces modèles dans une infrastructure locale mais cela demande un accord spécifique avec Mistral AI;
Les autres modèles développés par Mistral sont disponibles en open weights ce qui permet de les télécharger et de les exécuter localement avec des outils comme Ollama ou LMStudio.

Conclusions

Il est très satisfaisant de voir que l’ Union Européenne possède au moins un acteur significatif dans le monde des chatbots génératifs.

J’ en profite pour saluer la proactivité de l’ Etat Français qui a pris des mesures concrètes pour soutenir le développement de l’ IA en France. Cela inclut notamment le Sommet pour l’ Action sur l’ Intelligence Artificielle qui a lieu en ce moment à Paris et devrait logiquement donner lieu à des annonces d’ investissements massifs dans l’ IA en France et en Europe.

A ce sujet, je vous invite à lire la tribune de Sam Altman -oui oui c’ est bien lui- qui décrit la stratégie française en IA. L’ article étant réservé aux abonnés du Monde, vous pouvez trouver un scan de l’ article complet sur X ici.

Néanmoins, le principal obstacle sur la course à l’ IA générative reste la puissance de calcul disponible. L’ entraînement de la nouvelle génération de modèles « raisonneurs » fait en effet appel à des quantités de données et de calculs encore plus importantes. Et en termes de puissance de calcul disponible, les Américains sont loin, très loin en tête, suivis de la Chine (qui risque certes d’ être ralentie par les récentes restrictions américaines à l’ exportation de processeurs IA). Résorber cet écart ne sera pas facile.

C’ est pourquoi il me semble important de soutenir des acteurs européens de qualité comme Mistral pour assurer leur pérennité pendant que les investissement nécessaires sont faits dans les data centers qui hébergeront la puissance de calcul requise.

Les modèles raisonneurs

22 décembre 2024 / Arnaud Stévins

Le modèle o1 d’ OpenAI est maintenant disponible et il représente un changement important dans le fonctionnement et les capacités des modèles de langage.

La mise à disposition de ce modèle fait suite à des rumeurs persistantes autour d’ un modèle « disruptif » développé en secret par OpenAI d’ abord appelé Q-star puis Strawberry. Ces modèles sont importants parce qu’ ils constituent une tentative de transition de la réflexion immédiate et intuitive vers un raisonnement plus lent et plus délibéré.

Cette dualité se retrouve dans les modes de fonctionnement de notre cerveau. Comme l’ a indiqué le psychologue Daniel Kahnemann dans son livre Thinking, Fast and Slow, nos pensées procèdent selon deux schémas différents :

Le Système 1 est une réponse rapide, automatique, inconsciente et émotionnelle de notre cerveau à des situations et à des stimuli. Il peut s’ agir de lire distraitement un texte sur un panneau d’ affichage, de savoir nouer ses lacets sans réfléchir ou de sauter instinctivement par-dessus une flaque d’ eau sur le trottoir. Nous fonctionnons 95% du temps dans ce mode, qui correspond au mode par défaut et automatique de notre cerveau.
Le Système 2 est un mode lent, laborieux et logique dans lequel notre cerveau opère pour résoudre des problèmes plus compliqués. Par exemple, la pensée du système 2 est utilisée pour chercher un ami dans une foule, garer son véhicule dans un espace restreint ou déterminer le rapport qualité/prix de son repas à emporter. Il s’ agit d’un mécanisme de raisonnement logique activé délibérément et consciemment.

Figure 1 : Les deux modèles de fonctionnement du cerveau (source : Daniel Kahnemann)

Or, disposer de modèles capables de fonctionner selon le système 2 est essentiel pour pouvoir évoluer vers des agents IA plus fiables et plus autonomes, comme je l’ avais expliqué dans un article précédent accessible ici: les modèles « raisonneurs » sont une étape importante vers l’ Intelligence Artificielle Générale.

Pour faire simple, OpenAI a appris à un modèle de langage à réfléchir avant de parler. Voyons comment.

1. Mécanismes de raisonnement

Nous ne savons pas précisément comment OpenAI a entraîné le modèle o1. Néamnoins, les grands principes de l’ approche sont connus. Trois phases successives vont transformer un modèle de langage classique comme GPT-4o vers un modèle de raisonnement comme o1.

Lors de la première phase, le modèle « classique » est confronté à une série de problèmes logiques et il lui est demandé de développer son raisonnement étape par étape avant d’ arriver à la solution. Il s’ agit d’ une méthode de prompt engineering appelée Chain of Thought prompting (CoT) et décrit ici. En transformant la question en un ensemble d’ étapes de raisonnement de plus faible complexité, on augmente la probabilité que le modèle ait été confronté lors de son entraînement à des déductions élementaires analogues et qu’ il puisse donc effectuer les sauts logiques correspondants par corrélation.

Figure 2 : Chain of Thought Prompting (source : Wei et al., 2022)

Une fois ces chaînes générées, elles sont évaluées en fonction de leur pertinence tant au niveau de la réponse finale que du chemin logique suivi pour y parvenir. L’ évaluation peut être faite à la main (fastidieux) ou de manière automatisée. En pratique, on va débuter par une série d’ évaluations faites à la main pour entraîner un modèle d’ évaluation automatique, séparé du modèle de langage, qui prendra ensuite le relais et rendra le processus beaucoup plus efficace.

Lors de la seconde phase, les chaînes logiques générées lors de la première phase ainsi que leurs scores de pertinence sont utilisés pour entraîner le modèle (affinage) afin de privilégier les chaînes qui obtiennent la bonne réponse et défavoriser celles qui échouent. A l’ issue de cet affinage, nous disposons d’un modèle amélioré qui cherchera à répondre par étapes logiques à toute question de l’utilisateur, ce qui constitue déjà un grand pas dans la bonne direction.

Cependant, à ce stade, le modèle reste un modèle de langage « classique »: il génère une chaîne de raisonnement unique -certes améliorée- au fil de sa génération textuelle et présente ensuite le résultat à l’ utilisateur quelle qu’ en soit la pertinence. L’ effort déployé par le modèle reste aussi le même quelle que soit la complexité de la question, ce qui n’ est pas idéal…

C’ est ici qu’ intervient la troisième phase. Cette dernière a lieu non pas lors de l’ entraînement mais lors de l’ inférence, c’ est à dire quand l’ utilisateur pose une question au modèle.

Et l’idée de base est simple: comme les modèles de langage sont par nature aléatoires, rien n’ empêche de leur demander de générer plusieurs chaînes de raisonnement complètes en réponse à chaque question et de ne présenter que la plus pertinente (et nous disposons pour cela du modèle d’ évaluation). Au plus le nombre de générations est élevé, au plus la réponse choisie a de chances d’ être de qualité, au prix d’ une plus grande consommation en ressources.

Figure 3 : Chaînes de raisonnement multiples (source : Besta et al., 2023)

Il est imaginable de faire mieux encore et d’ utiliser des algorithmes de recherche dans l’ arbre des raisonnements possibles pour « orienter » la recherche de la réponse vers la voie la plus prometteuse en cours de raisonnement, mais en restant exhaustif dans l’ évaluation des différentes branches. Des algorithmes d’ apprentissage par renforcement comme Monte Carlo Tree Search peuvent être utilisés à cet effet. L’ idée est fascinante et on ne sait pas si de telles techniques sont déjà exploitées par OpenAI pour le modèle o1…

Figure 4 : L’algorithme Monte Carlo Tree Search (source : Jokub Kowalski et al., 2024)

Malheureusement, OpenAI ne permet pas à l’ utilisateur de voir les multiples traces de raisonnement du modèle, et avance pour cela des raisons d’ avantage compétitif. On ne sait donc pas exactement jusqu’où OpenAI est allé dans cette approche, mais chercher de manière plus ou moins exhaustive le meilleur raisonnement pendant la phase d’ exécution permet de s’ affranchir de la limite de l’ entraînement : il suffit de chercher plus longtemps, plus profondément dans l’ arbre des raisonnements possibles pour obtenir une meilleure réponse.

C’ est d’ ailleurs comme cela que o1-pro semble fonctionner : le modèle est le même qu’ o1 mais il va fouiller plus profondément dans l’arbre des raisonnements, ce qui consomme bien sûr de la puissance de calcul et justifie le prix plus élevé…

2. Evaluation

L’ explication ci-dessus laisse quelques points en suspens; il faut notamment disposer d’ un mécanisme d’ évaluation automatique pour déterminer si une chaîne de raisonnement est pertinente ou non. Le problème est que dans beaucoup de domaines, la pertinence ou non d’ un raisonnement est subjective et donc difficilement automatisable.

C’ est pourquoi il est fort probable que l’ entraînement au raisonnement ait été effectué sur des domaines où les raisonnements peuvent être évalués de manière objective, à savoir les sciences exactes, et en particulier les mathématiques et l’ informatique.

C’ est d’ ailleurs ce qui ressort des « benchmarks » de performance publiés par OpenAI qui indiquent que les performances du modèle o1 sont très supérieures à celles de GPT-4o dans les tâches mathématiques, dans la programmation et dans les questions de sciences exactes :

Figure 5 : Performance de gpt4o et o1 dans les domaines formels (source : OpenAI)

Par contre, dans les domaines plus subjectifs comme la rédaction de texte, les modèles de la famille o1 ne sont pas meilleurs que gpt-4o. Il n’ y a donc pas lieu de recourir à o1 pour ce genre de tâches.

Figure 6 : Performance comparée de gpt4o et o1 (source : OpenAI)

3. Accessibilité des modèles o1

Passons maintenant à la partie pratique : OpenAI a mis à disposition une première version appelée « o1-preview » à la mi-septembre, qui a été remplacée début décembre par le modèle définitif « o1 ». Celui-ci est accessible en trois versions:

la version de base « o1« ;
une version allégée appelée « o1-mini« ;
et enfin une version plus puissante appelée « o1-pro« .

Cependant, l’ accessibilité aux modèles de la famille o1 est fortement dépendante de l’ abonnement auquel l’ utilisateur a souscrit : tout d’abord, les utilisateurs gratuits n’ ont pas accès aux modèles de la famille o1.

Les utilisateurs payant l’ abonnement ChatGPT+ peuvent accéder à o1-mini et o1 mais avec des volumes d’ utilisation limités à 50 messages par semaine pour o1 et 50 messages par jour pour o1-mini (d’ où l’ intérêt d’ o1-mini).

Par ailleurs, OpenAI vient d’ introduire un nouvel abonnement appelé ChatGPT Pro à 200 USD/mois! Ce plan haut de gamme est le seul qui donne accès au modèle o1-Pro et offre aussi un accès illimité aux modèles o1 et o1-mini.

Ce qui précède concerne l’ interface utilisateur via le site web, mais les modèles o1-preview et o1-mini sont également accessibles via l’ interface de programmation (API) d’ openAI, mais pas o1-pro. Le prix de l’ utilisation est alors dépendant du nombre de tokens échangés. Mais comme OpenAI ne permet pas de voir la chaîne de raisonnemet complète, l’ utilisateur de l’ API se retrouve contraint de payer à l’ aveuglette…

4. Conclusion

C’est au moment d’ écrire ces lignes que Google vient de sortir son propre modèle de raisonnement appelé Gemini 2.0 Flash Thinking Experimental. Deux équipes chinoises ont aussi publié des modèles de raisonnement, DeepSeek avec DeepSeek-R1-lite-preview, et Alibaba Qwen QwQ-32B-Preview.

Les modèles capables de raisonner sont en passe de devenir un nouveau terrain de compétition, et ce parce qu’ ils ouvrent la voie vers des systèmes plus fiables auxquels il est possible de déléguer plus facilement des tâches rendant possibles des agents IA plus autonomes…

Et enfin, gardons en mémoire que les modèles auxquels nous avons accès vont continuer à progresser. Si OpenAI a décidé de démarrer une nouvelle « lignée » de modèles comme sa dénomination l’ indique, ce n’ est pas innocent et suggère que des modèles raisonneurs plus puissants apparaîtront à l’ avenir, peut-être en ayant recours à des techniques d’ apprentissage par renforcement comme Monte Carlo Tree Search.

Il y a donc lieu de rester curieux et optimistes. Une nouvelle voie de progrès est ouverte. Nous verrone bien où elle mènera.

5. Sources et références

Open o1 System Card, publié par OpenAI le 5 décembre 2024 : https://cdn.openai.com/o1-system-card-20241205.pdf
Learning to Reason with LLMs, article publié par OpenAI le 12 septembre 2024 : https://openai.com/index/learning-to-reason-with-llms/
Explaining OpenAI’s o1 reasoning models, vidéo Youtube par Sam Witteveen : https://youtu.be/jrA47yocyV0?si=ZJZSGpkB9Ewej4lh
ChatGPT o1 – In-depth analysis and reaction, vidéo Youtube par AI Explained : https://youtu.be/7J44j6Fw8NM?si=KT9kzLJDK3gWOlBR
O1, a new paradigm for ai, article paru sur le blog The Algorithmic Bridge, par Alberto Romero le 13 septembre 2024 : https://www.thealgorithmicbridge.com/p/openai-o1-a-new-paradigm-for-ai
Google releases its own reasoning model, par Kyle Wiggers pour TechCrunch le 19 décembre 2024 : https://techcrunch.com/2024/12/19/google-releases-its-own-reasoning-ai-model/
Graph of Thoughts: Solving Elaborate Problems with Large Language Models, Maciej Besta & autres, publié le 18 août 2023, sur Arxiv : https://arxiv.org/abs/2308.09687

Cinq étapes vers l’ Intelligence Artificielle Générale

1 décembre 2024 / Arnaud Stévins

L’ intelligence artificielle générale (AGI) désigne un type d’ IA qui possède la capacité de comprendre, d’ apprendre et d’ effectuer toute tâche intellectuelle qu’ un humain est en mesure de réaliser. Sans surprise, la quête incessante de cette intelligence artificielle générale captive les énergies des chercheurs et l’ imagination du public.

Mais quel chemin suivre pour y arriver ?

Un document interne d’ OpenAI contenant une « feuille de route » pour atteindre l’ AGI a fuité au mois de juillet. Cette feuille de route a ensuite été confirmée par Sam Altman (CEO d’ OpenAI) en septembre, il s’ agit donc d’ une information validée. Dans cet article, je vais présenter le contenu de cette feuille de route. Elle décrit cinq étapes à franchir sur la route vers l’ AGI.

Il est important de présenter cette feuille de route car il ne fait pas de doute que les grands acteurs de l’ IA entrevoient l’ existence d’ une IA généraliste dans un futur relativement proche (5 à 10 ans). J’ai déjà couvert ici l’ article de Dario Amodei, CEO d’ Anthropic. L’ article de Sam Altman The Intelligence Age accessible ici va dans le même sens et Demis Hassabis, PDG de Google Deepmind est lui aussi très ambitieux, comme il l’ a mentionné dans une récente interview accessible ici.

Bien sûr, ces personnages sont juges et partie et profitent du battage médiatique et de l’ intérêt que leurs déclarations suscitent, mais ils sont aussi les mieux placés pour savoir sur quoi leurs départements de R&D travaillent et quels résultats ils obtiennent. Ils peuvent aussi être victimes de leurs propres biais, mais au vu du chemin parcouru, il me semble légitime de prendre leurs déclarations au sérieux.

Présentation de la feuille de route

La feuille de route d’ OpenAI pour atteindre l’ AGI comporte cinq niveaux qui sont décrits dans la figure 1 et détaillés ci-dessous.

Figure 1 : Les cinq niveaux vers l’ AGI (crédit : Tomshardware)

Niveau 1 : Les Dialogueurs

Le premier niveau est celui des « Chatbots », ou « IA avec langage conversationnel », dans lequel les ordinateurs peuvent interagir avec les gens à travers une conversation naturelle.

Cela a été réalisé avec GPT-3.5 dans la première version de ChatGPT et était déjà possible avant cela, mais de manière moins efficace ou avec une conversation moins naturelle. Les grands modèles nativement multimodaux tels que GPT-4o, Gemini Pro 1.5 ou Claude Sonnet 3.5 répondent pleinement à toutes les exigences de ce niveau. Ils sont capables de conversations complexes et peuvent effectuer un raisonnement limité. Nous pouvons donc raisonnablement dire que le niveau 1 est atteint.

Niveau 2 : Les Raisonneurs

L’ étape suivante, le niveau 2, introduit les « raisonneurs » – des systèmes d’ IA capables de s’ attaquer à des problèmes complexes avec la compétence d’ experts humains, et ce sans devoir recourir à des outils extérieurs. Atteindre le niveau 2 signifierait un moment charnière, car cela représente une transition de l’ imitation du comportement humain à la démonstration de véritables prouesses intellectuelles.

Si nous n’ en sommes pas encore là, il est indéniable que les grands acteurs cherchent à améliorer les capacités de raisonnement de leurs modèles. OpenAI a mis à disposition le modèle o1-preview qui offre de performances supérieures aux modèles comme GPT-4o en termes de raisonnement. Et il y a quelques jours, la société chinoise DeepSeek AI a publié un modèle de raisonnement open-source appelé DeepSeek-R1-Lite-Preview; il s’ agit donc d’ un domaine qui devient compétitif et il n’y a rien de tel pour stimuler les progrès…

Vu l’ importance de ces modèles « raisonneurs » sur la route vers de l’ Intelligence Artificielle Générale, j’ y consacrerai un prochain article.

Niveau 3 : Les Agents autonomes

Le niveau 3 de la feuille de route envisage des « agents », c’ est-à-dire des systèmes d’ IA capables de fonctionner de manière autonome pendant de longues périodes, exécutant un ensemble d’ actions dans le but de mener à bien une tâche qui leur est assignée.

Ces agents pourraient transformer les industries en prenant en charge des tâches complexes, en prenant des décisions et en s’ adaptant à des circonstances changeantes sans surveillance humaine constante.

Il faut cependant se garder de toute confusion : le terme d’ « agent » est actuellement utilisé pour décrire des modèles de langage auxquels on a greffé des outils capables d’ interagir avec le monde extérieur via des interfaces.

Ces « agents » ne répondent pas aux exigences des agents IA décrits dans ce niveau 3 de la feuille de route, qui implique une capacité de raisonnement appliquée de manière répétitive pour « refermer la boucle » entre l’ observation de l’ état d’ avancement de la tâche et le choix de nouvelles actions visant à se rapprocher du but.

Aucun système de ce niveau n’ existe sur le marché à ce jour. Des rumeurs font état du développement par OpenAI d’ un produit appelé « Operator » qui serait une première tentative pour offrir un produit de ce type. A suivre…

Niveau 4 : Les Innovateurs

Au niveau 4 de la feuille de route, l’ IA devient un innovateur.

Les systèmes à ce stade possèderont la créativité et l’ ingéniosité nécessaires pour développer des idées et des solutions originales. Une fois arrivés à ce niveau, les agents ne se limitent plus à exécuter les processus de manière compétente comme au niveau 3, mais les améliorent et en inventent de nouveaux plus efficaces. En parallèle, ces agents stimuleraient l’ innovation et le progrès dans divers domaines.

Niveau 5 : Les Organisateurs

Le sommet de la feuille de route d’ Open est le niveau 5, qui implique une intelligence artificielle capable d’ effectuer le travail d’ une organisation entière. Toutes les fonctions de l’ organisation, qu’ elles soient opérationnelles ou conceptuelles, sont réalisées par des agents IA qui travaillent ensemble, apportent des améliorations et exécutent tout ce qui est nécessaire sans qu’aucun humain ne soit directement impliqué.

A ce moment, l’ Intelligence Artificielle Générale est atteinte.

Que faut-il en penser ?

La question est de savoir si les technologies actuelles (Deep Learning en tête) sont suffisantes pour atteindre l’ AGI ou pas.

Comme je l’ ai dit dans l’ introduction, les principaux dirigeants des géants de la tech semblent considérer que ces technologies sont suffisantes et que les principaux défis qui restent sont essentiellemnt des facteurs d’ échelle et de combinaison d’ algorithmes. Leurs scénarios se basent donc sur des extrapolations de la situation actuelle ce qui les amène à émettre des pronostics assez agressifs (AGI dans la décennie).

Cet avis n’est cependant pas partagé par l’ ensemble de la communauté des chercheurs. Des chercheurs réputés comme Yann Le Cun ou Gary Marcus estiment au contraire que l’ apprentissage profond ne suffira pas et qu’il faudra inventer des architectures entièrement nouvelles pour surmonter les points faibles des techniques actuels. Ceci les amène naturellement à des évaluations plus conservatrices quant à l’ apparition de l’ AGI.

Leurs idées pour remédier aux manquements de l’ IA actuelle diffèrent cependant : si Gary Marcus estime nécessaire de réintroduire des approches symboliques pour permettre le raisonnement déductif, Yann Le Cun insiste plutôt sur le besoin de disposer d’ un modèle prédictif du monde…

Sources et références

The Intelligence Age, par Sam Altman le 23 Septembre 2024 : https://ia.samaltman.com/
OpenAI’ Five Levels of Super AI, par Jodie Cook pour Forbes le 16 juillet 2024 : https://www.forbes.com/sites/jodiecook/2024/07/16/openais-5-levels-of-super-ai-agi-to-outperform-human-capability/
OpenAI outlines plan for AGI – Five Steps to reach superintelligence, par Ryan Morrisson pour Tom’s Hardware, le 12 juillet 2024 : https://www.tomsguide.com/ai/chatgpt/openai-has-5-steps-to-agi-and-were-only-a-third-of-the-way-there
OpenAI’s Operator : The Game-Changing AI Agent Empowering Task Automation, par MacKenzie Fergusn pour OpenTools le 13 novembre 2024 : https://opentools.ai/news/openais-operator-the-game-changing-ai-agent-empowering-task-automation

1. Qu’ est-ce qu’ un agent IA ?

2. Comment « bien » utiliser ces agents ?

3. Sécurité et permissions

4. Etendre le modèle IA avec les plug-ins

5. Conclusions

Sources et références

Contenu du projet Genesis

Réflexions

Sources et références

1. Profil des utilisateurs et volumes de conversation

2. Catégories d’ utilisation

3. L’ utilisation privée avant le travail

4. Les absents

5. Remarques finales

Sources et références

Comment tracer les pensées du modèle ?

Découverte 1 : les modèles ne dévoilent pas toujours leurs pensées

Découverte 2 : le modèle possède un seul modèle cognitif multilingue

Découverte 3 : le modèle planifie sa réponse plusieurs mots à l’ avance

Conclusion

Sources et références

1. Prise en main et interface conversationnelle

2. Choix des modèles et fournisseurs d’ infrastructure

3. Modalités de paiement

4. Accès API pour les programmeurs

A quels risques sommes-nous exposés ?

Que pouvons-vous faire ?

Autres élements à prendre en compte

Conclusions

1. Le Chat : un chatbot accessible par le Web

2. Applications Mobiles

3. La Plateforme : l’ accès des programmeurs

Conclusions

1. Mécanismes de raisonnement

2. Evaluation

3. Accessibilité des modèles o1

4. Conclusion

5. Sources et références

Présentation de la feuille de route

Que faut-il en penser ?

Sources et références

Articles récents

Commentaires récents

Archives

Catégories