Catégorie : Généralités (Page 1 of 3)

Informations sur le fonctionnement du blog, messages non directement liés à l’IA

Comprendre les agents IA comme Claude Code et Claude Cowork

2 mars 2026 / Arnaud Stévins

Le mode d’ utilisation des modèles de langage est en pleine mutation. Nous passons de la période des « chatbots » en ligne à celle des agents IA. Ils excellent déjà dans le domaine de la programmation: j’ ai passé les dernières semaines à utiliser Claude Code pour un projet d’ application en ligne.

Claude Code est plutôt orienté programmation, mais Anthropic a déjà mis en ligne un équivalent pour les tâches bureautiques appelé Claude Cowork. Même si vous ne programmez pas, je vous suggère d’ essayer au minimum Cowork, parce que cela va avoir des impacts sur le monde professionnel.

Figure 1 : Ecran d’ accueil de Claude Cowork

1. Qu’ est-ce qu’ un agent IA ?

Ce qui rend Claude Code et Claude Cowork si puissants repose sur une idée assez simple : une boucle qui va lire des fichiers et exécuter vos commandes sur ces fichiers de manière répétitive jusqu’ au moment où vous décidez d’ arrêter la session. Votre but premier est de pousser l’ agent à transformer les fichiers se trouvant dans le répertoire jusqu’au résulat désiré : présentation, rapport ou programme applicatif…

Quel est l’ avantage par rapport à une interface web classique type ChatGPT ? Dans une interface conversationnelle classique, vous devez jouer le rôle de la « petite main » qui va sans cesse copier-coller les fichiers source, recopier et exécuter les commandes et fournir en retour au modèle les messages d’ erreur, fournir du contexte en chargeant manuellement des fichiers de support etc…

Tout cela est fini. L’ agent s’ occupe de modifier directement les fichiers. Mais il y a plus : l’ agent peut aussi exécuter directement des commandes et en voir le résultat, puis les répéter automatiquement jusqu’ à obtenir le résultat attendu. Vous pourriez lui dire : « corrige le bug dans auth.py » et le laisser se débrouiller pendant que vous allez prendre un café. L’ agent lit le fichier, l’ analyse et décide éventellement de lire d’ autres fichiers pertinents; il identifie ensuite et corrige le problème dans le fichier, lance des tests, analyse le résultat et recommence en cas d’ échec, jusqu’à finalement aboutir (ou abandonner)…

Figure 2 : Lancement d’une session Claude Code

Bref, une agent IA est une application informatique qui va :

attendre une consigne de l’utilisateur
consulter un modèle de langage pour évaluer les actions à prendre
exécuter les actions (lire/changer des fichiers, exécuter des commandes, exploiter des API…)
observer le résultat des actions
décider quelle action entreprendre ensuite
répéter jusqu’ à obtenir le résultat désiré ou abandonner
rendre la main à l’ utilisateur en expliquant ce qui s’ est passé

2. Comment « bien » utiliser ces agents ?

Commençons par deux règles de bonne pratique :

Pour les tâches complexes, demandez à l’ agent de constituer un plan d’ action avant de démarrer l’ exécution. La planification est un mode de fonctionnement spécifique que vous pouvez activer. Une fois le plan généré, relisez-le et demandez à l’ agent de le modifier jusqu’à obtenir satisfaction. Ne lancez l’ exécution que quand le plan vous convient.
Dans la mesure du possible, essayez d’ avoir un mécanisme d’ évaluation du résultat en place, afin que l’ agent puisse valider sont travail ou l’ adapter si nécessaire. Fermer la boucle rend l’ agent beaucoup plus autonome. Etablir des tests automatisés est souvent possible pour du code informatique, mais pas toujours évident pour d’ autres tâches cognitives.

Dans tous les cas, il est préférable d’ avoir bien décrit la requête et le contexte au préalable dans un document que vous pourrez réutiliser au besoin. Ce que vous tapez dans la conversation ne survivra pas à la session en cours, tandis que ce que vous écrivez dans un fichier restera toujours exploitable.

Autre suggestion, privilégier les fichiers « texte » qui contiennent peu ou pas de formatage. Le code informatique répond parfaitement à cette exigence. Et pour les applications bureautiques, mieux vaut un fichier au format Markdown qu’ un fichier Word/Excel/pdf, car c’ est le format le plus efficace en terme de consommation de tokens.

3. Sécurité et permissions

Donner à l’ agent un accès direct aux système de fichiers et à la ligne de commande constitue un risque de sécurité évident. C’est pourquoi les agents IA possèdent un modèle de permissions assez sophistiqué que vous pouvez adapter en fonction des besoins.

Pour les actions pouvant impacter le système, la permission par défaut est en général « Ask », qui signifie que l’ agent va demander votre autorisation au cas par cas. Pour les actions en lecture seul, la permission est en général « Allow » au moins pour le répertoire de travai. Des commandes plus agressives seront bloquées par défaut (« Deny »).

4. Etendre le modèle IA avec les plug-ins

Un agent IA qui se respecte aura peut-être besoin de faire plus que manipuler des fichiers locaux pour atteindre le résultat attendu. Recherches sur le web, consultation d’ une base de données, consulter un catalogue de produits, voire même placer une commande sur Amazon : tout cela est possible via un mécanisme astucieux appelé « plug-ins » permettant d’ étendre les capacités de Claude Code et Claude Cowork en fonction des besoins.

Ce mécanisme de « plug-ins », développé par Anthropic, repose sur deux idées : les skills, qui sont une description textuelle de compétences additionnelles que l’ on veut attribuer à l’ agent (par exemple : spécialiste en cybersécurité) et les serveurs MCP qui décrivent comment accéder à des services tiers via une interface de programmation. Les deux concepts se renforcent mutuellement au sein du même plus-in : un skill va expliquer comment l’ agent peut exploiter un serveur externe dont l’ accès est fourni par le serveur MCP.

Ces plus-ins sont disponibles sur des sites appelés Marketplaces. Le système est donc assez simple à utiliser : définissez la Marketplace que vous voulez utiliser dans l’ agent IA et ensuite, parcourez la liste des plug-ins et installez ceux qui vous intéressent. Et voilà, votre agent est dispose maintenant de capacités étendues…

Figure 3 : La Marketplace d’ Anthropic (claude.com/plugins)

5. Conclusions

Le mécanisme d’ agents IA mis en avant par Claude Code et Claude Cowork qui offrent un moyen de multiplier la valeur ajoutée d’ un modèle de langage à travers un environnement d’ exécution interactif offre de larges perspecives et va impacter de nombreux domaines cognitifs.

Une fois que les mécanismes d’ extension des compétences et d’ interfaçage seront tout à fait matures (ce qui n’ est pas encore le cas), ces agents pourront coordonner des opérations complexes. Le chemin parcouru est impressionnant quand on pense que ChatGPT 3.5 a été publié en novembre 2022 soit il y a à peine trois ans.

Néanmoins, ces modèles ne fonctionnent que si les instructions qu’ils reçoivent sont suffisamment claires, et même dans ce cas, il subsiste toujours un risque d’ erreur. Les tâches de nature « systématique » sont mieux servies par un algorithme clasique que par un agent brillant mais incertain. Quitte à utiliser le génie en silicium pour écrire le programme…

Sources et références

Tweet X de Eyad : The Complete Claude Code tutorial : https://x.com/eyad_khrais/status/2010076957938188661?s=20
Tweet X de Eyad : The Claude Code tutorial level 2 : https://x.com/eyad_khrais/status/2010810802023141688?s=20
Tweet X de Nader Dabit : You could’ve invented Claude Code : https://x.com/dabit3/status/2009668398691582315?s=20
Article X de Numan Ali : Claude code’s new task system, the practical guide and explainer : https://x.com/nummanali/status/2014684862985175205?s=20

La mission Genesis

30 novembre 2025 / Arnaud Stévins

Le 24 novembre 2025, le président des États-Unis signe un décret historique: le lancement officiel de la Mission Genesis, une initiative de grande envergure destinée à fusionner données publiques, super-ordinateurs, laboratoires nationaux et intelligence artificielle.

La mission sera conduite par l’ U.S. Department of Energy (DoE), à travers ses 17 laboratoires nationaux, en collaboration avec universités, entreprises technologiques et centres de recherche. Elle s’appuiera sur l’expertise des quelque 40 000 scientifiques, ingénieurs et techniciens du DoE, ainsi que sur celle des acteurs secteur privé.

L’ initiative a pour objectif d’ ouvrir une nouvelle ère d’ innovation et de découvertes accélérées par l’IA, capables de répondre aux défis les plus complexes de notre époque. Elle se concentrera sur des défis majeurs comme la fusion nucléaire, les réacteurs nucléaires avancés, la modernisation du réseau électrique, les nouveaux matériaux, l’ informatique quantique et la mise au point de nouveaux médicaments.

Figure 1 : Pictogramme de la Mission Genesis

Contenu du projet Genesis

L’ idée est de bâtir une plateforme intégrée qui permettra d’ entraîner des modèles IA scientifiques avancés menant à des agents chercheurs autonomes fonctionnant en boucle fermée. Ceux-ci pourront à la fois contenir des modèles génératifs, pour échafauder des hypothèses créatives, mais aussi des modèles prédictifs afin d’ orienter et de valider les intuitions du modèle génératif.

Le processus scientifique décrit dans la feuille de route du DOE relève presque de la science-fiction :

La conception par l’ IA : elle examine les données et émet l’hypothèse suivante : « Si nous mélangeons ces alliages à 4 000 degrés, nous obtenons un supraconducteur. »;
L’ IA définit ensuite un protocole de validation expérimental et l’ envoie à un laboratoire lui aussi robotisé (que le DoE est en train de construire) pour réaliser le mélange et tester ses propriétés;
Le robot renvoie instantanément les résultats. En cas d’échec, l’ IA modifie la formule;

Ce cycle se répète des milliers de fois par jour, 24 heures sur 24, 7 jours sur 7. Pas de sommeil. Pas de demande de subvention.

Le projet se caractérise aussi par des délais ambitieux, qui attestent de son importance pour l’ administration américaine :

60 jours pour identifier 20 défis hautement prioritaires à relever;
90 jours pour répertorier toutes les ressources informatiques à sa disposition;
120 jours pour établir un plan visant à exploiter les données provenant à la fois de sources fédérales et d’autres instituts de recherche;
270 jours pour démontrer que son plan peut permettre de progresser sur au moins l’ un des défis identifiés.

Réflexions

Que l’ on ne s’ y trompe pas, il s’ agit d’ une initiative majeure. Lors d’une conférence de presse, Michael Kratsios, conseiller scientifique du président Trump, a qualifié la mission Genesis de « plus grande mobilisation de ressources scientifiques fédérales depuis le programme Apollo ».

Un des objectifs centraux de cette mission est de doubler la productivité et l’ impact de la recherche et de l’ innovation américaines en l’ espace d’ une décennie en assistant les effectifs scientifiques avec de l’ IA plutôt qu’en les remplaçant. Ce n’est pas rien.

De plus, les laboratoires du Department of Energy disposent des supercalculateurs les plus rapides et d’ une expérience dans la conduite de recherches contrôlées à haut risque, essentielle pour l’ expérimentation dans certains domaines.

Les géants de l’ IA américaine (Google, OpenAI, Anthropic, Nvidia etc..) sont aussi cités comme participants et devraient obtenir l’ accès à des pétaoctets de données expérimentales exclusives qui ont été conservées dans des installations gouvernementales sécurisées pendant des décennies.

Toutes ces données, jusqu’ ici cloisonnées au sein des archives scientifiques du NIH, du DOE, de la NASA, de la NOAA, de la DARPA, de la NSF, du CDC, de la FDA, de l’USDA, du Bureau du recensement et des services de renseignement seront regroupées dans un ensemble unifié.

Ceci ne signifie cependant pas que les géants de la tech sont au centre de cette initiative; ils interviendront plutôt en tant qu’ experts et conseillers, mais bénéficieront de ses retombées.

Les capacités des modèles feront un bond en avant, car ces données contiennent précisément le type d’ informations à haut signal, structurées et à long terme dont les modèles de pointe ont besoin pour leur entraînement.

Sources et références

Site officiel du Department of Energy : https://genesis.energy.gov
Annonce officielle du Department of Energy: https://www.energy.gov/articles/energy-department-launches-genesis-mission-transform-american-science-and-innovation
Post X par SightBringer sur le project Genesis : https://x.com/_The_Prophet__/status/1993115246379307111?s=20

Détection d’ une première cyberattaque quasi-autonome orchestrée par des outils d’ IA

17 novembre 2025 / Arnaud Stévins

Un développement majeur vient de se produire sur le plan de la cybersécurité : la première cyberattaque largement automatisée dans laquelle les modèles de langage jouent un rôle d’ orchestrateur de haut niveau a été récemment déjouée par Anthropic.

En effet, Anthropic a détecté à la mi-septembre une activité suspecte liée à l’ utilisation de l’ outil Claude Code, un agent intelligent principalement destiné à la programmation mais dont la grande flexibilité offre des possibilités de détournement…

Ce n’ est pas Anthropic lui-même qui était l’ objet de l’ attaque mais bien une trentaine de firmes technologiques, financières et industrielles occidentales ainsi que des administrations publiques. L’ attaquant a été identifié avec un haut niveau de confiance : il s’ agit d’ un groupe actif dans le cyberespionnage lié au gouvernement chinois.

Jusqu’ ici les utilisations de l’ IA générative dans la cybersécurité relevaient plutôt de la fourniture de conseils interactifs de type « chatbot » ou éventuellement d’ agents qui ont accès à des outils informatiques spécialisés, mais interagissent avec les humains à chaque étape.

Pour la premère fois, l’ IA a mené de son propre chef un large éventail d’activités, depuis l’ analyse de vulnérabilité jusqu’à l’ exfiltration des données recherchées. Les superviseurs humains ne sont intervenus que ponctuellement afin de valider les résultats intermédiaires des opérations, avant de passer à la phase suivante. Anthropic estime que 80 à 90% du travail de cyberattaque a été effectué de manière autonome.

Cela marque le premier cas documenté d’ IA agentique ayant réussi à extraire des données sensibles appartenant à des cibles bien protégées par cyberattaque.

Anthropic a décidé de publier les détails de son enquête afin de sensibiliser le secteur à l’ évolution de la menace. En effet, d’ autres modèles pourraient être exploités de la même manière, et ce d’ autant plus que l’ attaque n’ a pas nécessité de déveoppements complexes : elle s’ est contentés de combiner astucieusement des outils existants. Pas besoin de disposer de moyens énormes pour préparer ce type d’ opération.

1. Comment est-ce possible ?

L’ attaque s’ est appuyée sur plusieurs évolutions récentes des modèles d’ IA qui n’existaient pas ou qui étaient à leurs balbutiements il y a seulement un an :

Raisonnement: Le niveau général de capacité des modèles a augmenté au point qu’ ils peuvent suivre des instructions complexes et comprendre le contexte de manière à rendre possibles des tâches sophistiquées. De plus, plusieurs de leurs compétences spécifiques bien développées, en particulier le codage logiciel, se prêtent à une utilisation dans le cadre de cyberattaques.
Autonomie: Les modèles peuvent agir en tant qu’ agents, c’est-à-dire qu’ ils peuvent fonctionner en boucle, où ils prennent des mesures autonomes, enchaînent des tâches et prennent des décisions avec une intervention humaine minimale et occasionnelle. Les modèles récents sont capables d’ exécuter un nombre importants de boucles « Planification-Action-Analyse » successives avant de devoir repasser la main à un humain.
Outillage: Les modèles ont accès à un large éventail d outils logiciels (souvent via le protocole ouvert *Model Context Protocol*). Ils peuvent désormais effectuer des recherches sur le web, récupérer des données et réaliser de nombreuses autres actions qui étaient auparavant l’ apanage des opérateurs humains. Dans le cas des cyberattaques, ces outils peuvent inclure des craqueurs de mots de passe, des scanners de réseau et d’ autres logiciels liés à la sécurité.

Claude Code est l’ outil parfait pour ce genre d’ opération. Il s’ agit d’ un programme « agent » hautement flexible qui peut faire interagir des modèles de langages jouant différents rôles et aux compétences variées pour atteindre un but spécifié par l’ utilisateur, tout en ayant accès à des outils via le protocole MCP. Les rôles pouvant être définis en langage naturel de manière assez libre, et le potentiel applicatif est extrêmement large.

2. Description du mécanisme

Le mécanisme d’attaque utilisait Claude Code et le protocole MCP (Model Context Protocol) pour se connecter aux outils existants d’ analyse et de découverte du réseau et de tests d’intrusion.

Ce genre d’ attaque requiert une succession d’ opérations bien orchestrées; le travail a donc été divisé en tâches techniques distinctes qui semblaient légitimes prises isolément. Ensemble, elles permettaient de mener à bien des chaînes d’ attaques complètes. Les pirates ont prétendu être une entreprise de cybersécurité utilisant ces outils de piratage à des fins légitimes pour tenter de trouver des vulnérabilités chez leurs clients dans le cadre d’ activités de tests d’intrusion.

Figure 1 : Diagramme architectural de l’ opération (Crédit : Anthropic)

Une fois la brèche établie,Claude Code fonctionnait de manière autonome :

il cartographiait la topologie du réseau, puis analysait son contenu pour découvrir les services internes et rechercher des informations précieuses en identifiant les bases de données de valeur. Il extrayait également les identifiants et établissait un accès permanent, puis analysait les données extraites pour en déterminer la valeur en termes de renseignements et exfiltrait celles jugées les plus précieuses. Tout cela avec une supervision humaine limitée.

La figure 2 décrit le déroulement du scénario offensif qui a été établi, et qui reprend les six phases suivantes :

Phase 1 : Initialisation de la campagne et sélection des cibles à attaquer;
Phase 2 : Reconnaissance de l’ infrastructure de la cible et de vulnérabilités potentielles;
Phase 3 : Découverte active et validation des vulnérabilités;
Phase 4 : Identification dans les systèmes et augmentation des privilèges d’ accès;
Phase 5 : Collecte et exfiltration des données;
Phase 6 : Documentation et clôture.

Figure 2 : Vue des phases du processus d’ attaque (Crédit : Anthropic)

Le détail des opérations exécutées lors de chaque phase se trouve dans le document d’ Anthropic en référence.

3. Implications pour la cybersécurité

L’ attaque a été détectée parce que Claude Code fait appel aux modèles de langage hébergés par Anthropic et le trafic échangé (le prompt et les réponses) est surveillé par des programmes d’ identification de menaces qui visent à détecter des activités non autorisées comme les cyberattaques.

Cette attaque constitue un point d’ inflexion pour la cybersécurité : ce type d’ opération autonome en détournant des outils existants permet à des acteurs malveillants disposant de ressources limitées de lancer des attaques sophistiquées. Ce type de capacité existe probablement dans tous les modèles d’ IA de pointe, y compris certains modèles open-weights pour lequel la surveillance décrite plus haut n’ est pas applicable puisqu’ ils sont exécutables localement.

Il subsiste cependant une limitation à ce type d’ opération : Claude code avait des hallucinations pendant les opérations offensives. Il revendiquait parfois des identifiants qui ne fonctionnaient pas ou identifiait des « découvertes critiques » qui n’étaient que des informations publiques. les hallucinations de l’ IA restent un obstacle aux cyberattaques entièrement autonomes et un humain doit encore assurer périodiquement une supervision de haut niveau pour s’assurer que le processus reste sur la bonne voie.

Il faut aussi garder la tête froide et noter que des mécanismes pratiquement identiques peuvent être utilisés en cyber-défense pour identifier les vulnérabilitiés d’ une firme afin de pouvoir les résoudre avant qu’ un cyber-attaquant ne tente d’ en profiter.

Quoi qu’il en soit, le monde de la cybersécurité va devoir s’ adapter rapidement.

Sources et références

Disrupting the first reported AI-orchestrated cyber espionage campaign, publié par Anthropic le 13 novembre 2025 : https://www.anthropic.com/news/disrupting-AI-espionage
Thread X résumé de Karl Mehta sur le même sujet : https://x.com/karlmehta/status/1989698733957943398?s=20

Que font vraiment 700 millions de personnes avec ChatGPT ? Première étude détaillée

5 octobre 2025 / Arnaud Stévins / 10 Comments

Imaginez un outil qui, en moins de trois ans, devient une habitude hebdomadaire pour plus de 700 millions d’ utilisateurs, soit environ 10% de la population adulte du monde.

Cet outil, c’ est bien sûr ChatGPT, qui répondait en moyenne à 2,5 millards de questions par jour en juin 2025 (soit environ 29.000 par seconde!). Mais que demandent les utilisateurs ? A quelles fins utilisent-ils des modèles de langage ?

OpenAI et le National Bureau of Economic Research (NBER) ont rédigé la première étude statistique détaillée d’utilisation du modèle de langage le plus populaire : ChatGPT. Ce sont les résultats de cette étude que je voudrais vous présenter dans cet article.

Attention : l’ étude ne porte que sur l’ interface web ChatGPT et ne reprend que les utilisateurs sur les plans « consommateur » (Free, Plus et Pro). Les utilisateurs sur les plans entreprise (Business et Enterprise) ne sont pas repris, ni les accès par API, ce qui a des conséquences pour l’ interprétation des résultats…

1. Profil des utilisateurs et volumes de conversation

Voyons d’ abord le nombre d’ utilisateurs ChatGPT actifs au moins une fois par semaine. Ce nombre passe de 100 millions début 2024 à 400 millions début 2025 pour atteindre en juillet 2025 environ 700 millions d’ utilisateurs soit 10% de la population adulte mondiale; ces chiffres sont cependant un peu surévalués car ils mesurent le nombre de comptes et certains utilisateurs peuvent disposer de plusieurs comptes.

Figure 1 : Nombre de comptes ChatGPT (« Free », »Plus », »Pro ») actifs au moins une fois par semaine (crédit : étude OpenAI/NBER)

Quant au nombre total de messages échangés chaque jour sur ChatGPT, il passe de 451 millions en juin 2024 à environ 2,6 milliards en juin 2025 (en moyennes hebdomadaires) et tout semble indiquer que cette croissance devrait se poursuivre. Pour donner une idée de comparaison, Google a indiqué au mois de mars traiter approximativement 14 milliards de recherches par jour.

Un point intéressant est que la croissance du trafic sur le site de ChatGPT semble provenir essentiellement de l’ arrivée de nouveaux utilisateurs, et non d’ une augmentation de la fréquence d’ utilisation par les utilisateurs plus anciens, qui reste stable.

Quant au profil des utilisateurs, il est clairement orienté vers les jeunes puisque 46% des utilisateurs ayant mentionné leur âge ont entre 18 et 25 ans. Et si 80% des utilisateurs étaient des hommes lors du lancement de ChatGPT fin 2022, la proportion est passée à 52% de femmes aujourd’ hui ce qui est en phase avec la moyenne de la population.

Enfin, une tendance très intéressante est que ChatGPT connaît actuellement une croissance quatre fois supérieure dans les pays à faibles et moyens revenus par rapport aux pays les plus riches. Ceci montre la globalisation rapide de cet outil.

2. Catégories d’ utilisation

L’ étude a analysé de manière détaillée et classé plus d’ un million de conversations provenant de la base globale des utilisateurs de ChatGPT, tout en protégeant l’ anonymité des messages individuels.

Figure 2 : Répartition des conversations par catégorie (crédit : étude OpenAI/NBER)

Les catégories d’ utilisation les plus fréquentes sont :

conseils pratiques (28,3%) : instruction et éducation, explications « comment faire? », conseils de beauté, de fitness ou de soins….
écriture (28,1%) : il est intéressant ici que les demandes de rédaction directe (8%) sont inférieures aux demandes d’ édition et de revue de textes déjà rédigés (10,6%). La traduction de textes compte pour environ 4,5% des conversations;
recherche d’ informations (21,3%) : cette catégorie est en forte croissance, passant de 14% des utilisateurs à 24,4% en un an (le chiffre de 21,3% est une moyenne). Il est intéressant que la tendance des modèles de langage à occasionnellement affabuler ne semble pas rebuter les utilisateurs; il est vrai que les modèles de langage se sont améliorés dans la fourniture de liens vers leurs sources, ce qui permet une vérification de l’ information a posteriori.

Par contre, seuls 1,9% des messages ont trait à des questions relationnelles ou à des réflections personnelles, et 2% à du bavardage et à des salutations(!). Quoi qu’ en disent les médias, un outil comme ChatGPT est utilisé comme un outil et non comme un compagnon ou un confident.

3. L’ utilisation privée avant le travail

Autre point intéressant, les chercheurs ont cherché à distinguer les conversations à caractère professionnel de celles à caractère privé. Et les conclusions sont claires : la proportion des conversations non-professionelles est passée en un an de 53% à 72,2%.

Malgré toutes les déclarations suggérant que les modèles de langage vont révolutionner l’ emploi et le milieu professionnel, une conclusion s’ impose : ChatGPT est principalement un outil utilisé dans la vie privée.

Figure 3 : Proportion de conversations à caractère non-professionnel (crédit : étude OpenAI/NBER)

Ce constat doit être fait avec une réserve : les abonnements « entreprise » ne sont pas repris dans l’ étude et il est probable que leur inclusion augmenterait la part de conversations professionnelles, mais sans toutefois remettre en cause le caractère principalement privé de l’ utilisation.

Les utilisateurs hautement qualifiés et ceux exerçant des professions libérales sont plus susceptibles d’ utiliser ChatGPT dans le cadre de leur travail. Dans le cadre professionnel, les utilisateurs techniques envoient davantage de messages de questionnement et de recherche d’ informations, tandis que les cadres se concentrent sur la rédaction (52 % de leurs messages professionnels).

4. Les absents

L’ étude fait aussi état d’ une utilisation assez faible des capacités de traitement des images offertes par ChatGPT, tant en analyse qu’en génération (environ 6% des requêtes).

De même la programmation est peu présente (4,2% des requêtes), ce qui paraît surprenant. La raison est très probablement l’ exclusion de l’ interface API de l’ étude, alors que les assistants intégrés de programmation type Github Copilot et Cursor recourent systématiquement à l’ accès par l’ API.

5. Remarques finales

Anthropic a publié une étude comparable relative à l’ utilisation de Claude le même jour qu’ OpenAI (le 15 septembre) et les résultats de cette seconde étude sont assez différents !

Le grand avantage de l’ étude d’ Anthropic est qu’ elle couvre aussi les accès API; elle est donc plus complète. Elle est aussi entièrement accessible alors que l’ étude complète d’ OpenAI se trouve sur le site du National Bureau of Economic Research et n’ est pas librement accessible; je confesse que j’ai dû baser cet article sur des sources indirectes….

Je vous présenterai les résultats de l’ étude d’ Anthropic dans le prochain article.

D’ ici là, portez-vous bien et n’ oubliez pas de soumettre toutes vos questions -même les plus insolites- à votre modèle de langage favori.

Sources et références

How people are using ChatGPT : Article sur le site d’ OpenAI, le 15 septembre 2025 : https://openai.com/index/how-people-are-using-chatgpt/
What do people actually use ChatGPT for? OpenAI provides some numbers, par Kyle Orland pour ArsTechnica le 15 septembre 2025 : https://arstechnica.com/ai/2025/09/seven-things-we-learned-from-openais-first-study-on-chatgpt-usage/
What Over 2.5 Billion Daily Messages Reveal About How People Use ChatGPT*, par N S.T. Chong pour l’ United Nations University (UNU), le 29 septembre 2025 : https://c3.unu.edu/blog/what-over-2-5-billion-daily-messages-reveal-about-how-people-use-chatgpt

La stratégie de l’ aspiration, une piste pour l’ IA en Europe

10 septembre 2025 / Arnaud Stévins / 5 Comments

Je voudrais développer dans cet article une approche de stratégie IA potentiellement gagnante pour l’ Europe, ouvrant la voie vers une croissance économique dont nous avons bien besoin : des niveaux d’ endettement élevés, des États-providence non viables et une population en âge de travailler qui diminuera de 2 millions par an à partir de 2040 créent d’ énormes pressions budgétaires.

L’ IA pourrait inverser le malaise de l’Europe en matière de productivité et restaurer son dynamisme économique. Pour cela, je vais aborder successivement les questions suivantes : quelle est la bonne stratégie que l’ Europe doit adopter pour capturer le plus de valeur possible de l’ Intelligence Artificielle ? Quelles actions entreprendre pour se mettre sur la bonne voie ? Quels sont les faiblesses qui peuvent mettre l’ approche en péril ?

1. La stratégie de l’ aspiration

La stratégie de l’ aspiration fait référence à l’ effet dont bénéficient les pilotes de Formule 1 qui en suivent d’ autres; cette idée est également appelée en anglais The smart second-mover strategy par le Prof. Luis Garicano de la London School of Economy, qui a écrit plusieurs articles très intéressants sur le sujet. Je partage tout à fait son analyse et cite ses articles en référence.

L’ Europe se retrouve actuellement à la traîne dans la course aux modèles génératifs. Les Etats-Unis et la Chine dépensent actuellement des dizaines voire des centaines de milliards de dollars pour développer et exploiter les meilleurs modèles génératifs et se positionner en tête de la course.

Devons-nous chercher à courir dans ce peloton de tête, sachant qu’il ne sera pas facile de rattraper notre retard, tant au niveau des investissements que de nos faiblesses structurelles : manque de géants européens de la tech aux poches bien garnies, coût de l’ énergie bien supérieurs à ceux des Etats-Unis, contraintes administratives ralentissant la construction de nouveaux datacenters, cadre socio-économique décourageant la prise de risque ?

Par ailleurs, il n’ est pas du tout établi que l’ essentiel de la valeur financière se trouve dans la création de nouveaux modèles toujours plus performants. La disponibilité de modèles open-source puissants sur le marché montre bien que les barrières à l’ entrée sont faibles. La chute brutale des bourses américaines lors de la publication du modèle open-source Deepseek-R1 développé avec des moyens relativement modestes montre bien la fragilité de ce modèle économique. Le coût rapidement décroissant de l’ inférence à la demande par token est un autre indicateur du risque de banalisation des services d’IA générative, progressivement réduits à une simple commodité.

Figure 1 : Evolution de coût de l’ inférence par token (crédit : OpenAI)

Une autre possibilité est d’ investir dans la couche matérielle, à savoir les technologies permettant de créer les circuits intégrés nécessaires à l’ exécution des modèles. On pense ici bien sûr à NVIDIA, principal fournisseur des processeurs, mais aussi à la fonderie Taiwanaise TSMC et au Néerlandais ASML qui est le leader sur le marché des machines de lithographie nécessaires à la gravure des puces haut de gamme. Je voudrais en profiter pour mentionner que le BeneLux n’ est pas mal placé dans la course, avec à la fois ASML à Eindhoven et l’ IMEC à Louvain qui est un des principaux centres de recherche mondiaux dans la miniaturisation et circuits électroniques et des nanotechnologies.

Figure 2 : La machine de lithographie EUV Twinscan EXE:5000 d’ ASML (crédit : ASML)

L’ Europe est en situation avantageuse dans la partie « amont » de la couche matérielle. Par contre, sa position est nettement moins favorable sur la partie « aval », à savoir la production de masse des processeurs avancés, qui se fait principalement en Asie, notamment par le leader mondial TSMC.

Mais il existe une troisième piste: mettre l’ accent sur l’ intégration de l’ IA dans les produits, applications et processus opérationnels des entreprises européennes. L’ idée est de devenir le meilleur et le premier des utilisateurs de l’ IA.

Et là, l’ Europe possède pas mal d’ atouts : un grand marché partiellement unifié de 450 millions d’ utilisateurs, un capital humain de premier plan, et de nombreux grands acteurs dans des secteurs industriels susceptibles de bénéficier fortement de l’ IA : industries aérospatiales et automobiles, production mécanique, industrie chimique et pharmaceutique, sans parler d’ un important tissu de PME techniques spécialisées dans les mêmes domaines.

Par ailleurs, ces secteurs sont souvent de grands producteurs de données spécialisées de qualité, qu’ elles proviennent des produits et services, des chaînes de production ou des systèmes de gestion des entreprises. Ces données, une fois consolidées par secteur, peuvent servir de base à des modèles IA spécialisés, qui peuvent être utilisés pour de la prédiction de qualité soutenus par des applications d’ IA générative lorsqu’ une capacité de raisonnement plus généraliste s’ avère nécessaire.

L’ idée est donc de profiter de ce que les autres fournissent pour banaliser leurs services, et en profiter pour créer une couche applicative profondément intégrée dans nos produits et activités. Ceci présente deux avantages : premièrement ces intégrations sont complexes et difficiles à banaliser. La propriété intellectuelle créée ne sera pas aisément recopiable et délocalisable. Et deuxièmement, cela offre d’ importantes possibilités de gains de productivité et de réduction des coûts à travers l’ automatisation d’ un certain nombre de tâches actuellement réalisées par des humains.

2. Comment nous mettre sur la bonne voie

La liste des actions possibles est longue, mais on peut définir trois grands axes:

Premièrement, mettre en place des standards ouverts pour l’ IA générative.

Il s’ agit ici de rendre les modèles IA généralistes (ChatGPT et autres) interchangeables et de les marchandiser en les régulant. Une direction logique serait de standardiser l’ accès aux modèles par API; on peut également plafonner le prix chargé par token ou encore interdire les clauses contractuelles d’ exclusivité et limiter les délais de préavis de résiliation de service. Il faudrait aussi s’ assurer que données échangées avec ces fournisseurs de service sont portables et récupérables par les clients, par exemple l’ historique des dialogues ou les données d’ entraînement utilisées pour un affinage de modèle.

Deuxièmement, aménager l’ EU AI Act pour le rendre plus pro-innovation.

Je pense que l’ AI Act dans son principe est une bonne chose car il offre un cadre légal prévisible aux développeurs d’ applications. Cependant, son formalisme reste très abstrait et généraliste et donc difficilement utilisable en l’ état, alors que les dates d’ entrée en vigueur approchent rapidement (août 2026 pour la plupart des applications). Ces dates devraient être retardées pour donner le temps aux autorités de définir des règles concrètes applicables à chaque secteur d’ activité. Le flou actuel est d’ autant plus gênant que l’ Act repose largement sur des mécanismes d’ auto-évaluation par les implémenteurs ce qui les met dans une situation pour le moins inconfortable…

Figure 3 : Planning de mise en application de l’ EU AI Act (crédit : BakerMcKenzie)

Par ailleurs, la réglementation exige la création d’ un important paquet de documentation dès le déploiement initial de l’ application IA, ce qui pose des difficultés particulières pour les petites entreprises. Une approche de mise en conformité plus itérative et progressive serait souhaitable. Ces soucis avec l’ EU AI Act sont à la base de nombreuses réactions du monde patronal qui demande une mise en pause temporaire, comme cette lettre de 46 CEOs de multinationales européennes qui demande un report des échéances de deux ans (référence ici).

Troisièmement, constituer un écosystème européen des données

C’ est un vaste sujet qui mériterait au moins un article entier à lui tout seul. L’ Union Européenne a défini une stratégie pour constituer des ensembles sectoriels de données. Un premier pas a été franchi en mars 2025 avec l’ European Health Data Space Regulation (EHDS) qui définit les mécanismes et infrastructures pour consolider les données de santé de manière harmonisée au niveau européen, afin de pouvoir entraîner les modèles IA du futur. Une réglementation analogue est actuellement en cours de discussion pour le secteur financier. Lorsqu’ elle sera finalisée, la stratégie européenne des données devrait couvrir quatorze domaines ayant chacun leur espace de données consolidé.

Figure 4 : Illustration de l’ European Health Data Space Regulation (EHDS)

Outre ces trois axes spécifiques à l’ IA, toute mesure générale favorisant l’ innovation est évidemment la bienvenue. Que cela concerne l’ accès aux capital-risque ou la mise en place d’ un type de société pan-européen -le fameux « 28ème régime »-, des initiatives inspirées par le rapport Draghi sur la compétitivité sont en cours de réalisation et doivent être encouragées.

Sur le plus long terme, rien n’ est possible sans une éducation de qualité. Je suis convaincu que l’ éducation est un des domaines ou l’ IA peut apporter le plus de progrès. La relative fragmentation de l’ Europe en 27 systèmes éducatifs distincts peut s’ avérer être ici une force cachée : cela permet de lancer différents types d’ initiatives par pays et de déployer ensuite les meilleures pratiques dans les autres pays.

3. Nos risques et nos faiblesses

Un de nos problème est que de nombreux emplois en Europe se retrouvent dans des secteurs difficiles à automatiser, comme les soins liés au vieillissemnt de la population, le tourisme ou encore les administrations. En l’ absence d’ une révolution en robotique, les soins de santé aux personnes âgées et le tourisme requièrent une interaction humaine et se prêtent mal à l’ automatisation. Dans le cas de l’ administration publique également, de nombreux emplois ne sont pas automatisables facilement : policiers, pompiers, soldats, enseignants sont non seulement difficilement remplaçables mais disposent en général d’ un status privilégié et d’ une puissante représentation syndicale.

Ce qui mène au second point, la résistance au changement. Contrairement à d’ autres régions du monde, l’ Europe possède des règles de protection de l’ emploi extrêmement fortes qui peuvent décourager la prise de risque. Ces règles réduisent considérablement la mobilité des travailleurs et rendent la réallocation des ressources entre entreprises très coûteuses. En outre, les travailleurs de certains secteurs disposent de moyens de pression supplémentaires par leur capacité à paralyser un pays avec un nombre relativement limité de grévistes (transports, agriculteurs…).

Ces résistances au changement sont également de nature réglementaire, avec un « principe de précaution » qui peut s’ avérer contre-productif. Le cas de la législation européenne sur les OGM est emblématique : la culture de nourriture OGM pour la consommation humaine est extrêmement limitée en Europe (en pratique seul maïs OGM est cultivé) alors que, de l’ aveu même des autorités sanitaires de l’ UE, ces derniers ne sont pas plus dangereux que les aliments obtenus par des voies traditionnelles. Ceci est d’ autant plus incompréhensible que l’ Union Européenne importe des quantités importantes de nourriture OGM depuis l’ extérieur de ses frontières (par exemple: germes de soja, huile de colza…) pour la consommation humaine !

Un autre frein à l’ automatisation qui relève indirectement du principe de précaution est plus insidieux : l’ exigence réglementaire d’ avoir un humain dans la boucle dans de nombreux processus critiques. Ceci peut sembler une bonne idée au premier abord, mais aura pour conséquence que la rapidité d’ exécution du processus sera conditionée par la rapidité de l’ humain le plus lent dans le processus, en espérant qu’ il ne soit pas malade ou en vacances…

Cette idée de surveillance humaine est noble dans le principe mais peut s’ avérer contre-productive dans certains cas. Le trading d’ actions à haute fréquence en est un exemple, où l’ exigence de supervision humaine sur chaque ordre boursier rend cette stratégie financière inutilisable en pratique. Un exemple encore plus frappant est le tri des patients aux urgences en cas de suspicion d’ AVC où chaque minute compte. Une IA peut analyser le résultat d’ un scanner lors de l’ arrivée à l’ hôpital et donner un pré-diagnostic en quelques secondes ce qui permet l’ envoi immédiat dans la bonne unité de soins. Attendre qu’ un radiologue donne son diagostic ajoute 30 à 60 minutes (voire plus en période de nuit ou de weekend) et ce délai peut s’ avérer fatal…

Le danger est que l’ ensemble de ces contraintes réduisent très fortement le champ d’ action de l’ automatisation par l’ IA en Europe par rapport à d’ autres régions du monde qui n’ auraient pas les moindres scrupules…Pour ma part je pense que cela vaut la peine de prendre certains risques, quitte à réglementer ex post en cas de problèmes.

4. Conclusion

Sur le fond, je pense que les gains de productivité grâce à l’ IA auront lieu, mais qu’ ils seront plus lents que prévu. Tout comme à l’ époque du boom internet en 1998-2001, un nombre incroyable d’ idées ont jailli en très peu de temps, mais beaucoup d’ entre elles se sont avérées irréalistes vu l’ état des techniques à l’ époque. Leur heure n’ était pas encore venue, mais toutes ces idées ont servi de terreau pour les progrès des vingt années qui ont suivi et la plupart d’ entre elles ont fini par prendre forme.

Je pense que la situation est analogue dans le case de l’ IA. Lorsque j’ entends les PDG des géants de la tech parler d’ une transformation en profondeur de la société vers 2030, je pense qu’ ils ont raison sur le fond mais pas sur le calendrier. Je pense que tout cela sera plus lent et plus progressif. Pour ma part je ne serais pas surpris que la transition dure entre 15 et 20 ans vu l’ énormité de la tâche et les résistances à attendre.

Difficile aussi de quantifier les gains de productivité. Si les économistes les plus prudents estiment l’ impact à environ 2% de croissance du PIB sur dix ans, d’ autres vont jusqu’ à imaginer une croissance de 30% par an ! Les deux dernières références de la liste ci-dessous présentent de telles analyses. Tout dépend de la proportion des tâches effectivement automatisées…

Sources et références

The smart second mover, article par Luis Garicano pour Silicon Continent le 9 juillet 2025 : https://www.siliconcontinent.com/p/the-smart-second-mover
Can AI solve Europe’s problems ?, article par Luis Garicano pour Silicon Continent le 26 juin 2025 : https://substack.com/home/post/p-166874576
The Washington Effect? Europe Weighs Pausing the AI Act par Anda Bologa pour CEPA, le 8 juillet 2025 : https://cepa.org/article/the-washington-effect-europe-weighs-pausing-the-ai-act/
EU guidelines on AI use met with massive criticism par Jürgen Hill pour CIO Magazine le 16 juillet 2025 : https://www.cio.com/article/4022707/massive-criticism-of-eu-guidelines-on-the-use-of-ai.html
AI and explosive growth redux par Andrei Pologea et Anson Ho pour EpochAI le 21 juin 2025 : https://epochai.substack.com/p/ai-and-explosive-growth-redux
The Simple Macroeoconomics of AI, article académique de Daron Acemoglu du MIT le 5 avril 2024 : https://economics.mit.edu/sites/default/files/2024-04/The%20Simple%20Macroeconomics%20of%20AI.pdf

Quelques nouvelles et un point sur les modèles de langage en mai 2025

22 mai 2025 / Arnaud Stévins / 6 Comments

Et voilà, j’ ai décidé de joindre le geste à la parole dans le cadre de la résilience digitale. J’ ai transféré le nom de domaine et l’ hébergement du blog vers l’ Union Européenne. Le blog se trouve maintenant à l’ adresse https://artificiellementintelligent.eu qui est hébergé par la société française OVH, un des leaders européens dans le domaine et offre des hébergements WordPress compétitifs. L’ancien site reste provisoirement accessible sur https://artificiellementintelligent.wordpress.com.

Ce message est donc le premier que vous recevez depuis la nouvelle mouture du blog, ce qui explique aussi la modification du format des emails de notification car j’ai dû adapter la configuration et les plug-ins de WordPress chemin faisant.

Ces préliminaires étant dits, je vais faire un rapide point sur la situation actuelle des modèles de langage. Les modèles de langage actuels peuvent grosso modo se regrouper en trois grandes catégories :

les modèles généralistes : ces modèles sont focalisés sur la conversation et le dialogue. Ils puisent dans leurs vastes connaissances, recherchent des informations et répondent de manière interactive aux questions variées de l’ utilisateur. Souvent multimodaux, ils peuvent aussi interpréter des images, de l’ audio voire de la vidéo et sont parfois capables de générer nativement des images. Ils sont habituellement accessibles via des interfaces web ou des applications mobiles conversationnelles;
les modèles de codage : ces modèles excellent dans l’ analyse et la génération de programmes informatiques. Ils sont typiquement exploités via des environnements de développement comme VSCode qui utilisent l’ interface de programmation pour accéder au modèle. Ces modèles sont en général capables d’ interpréter les images (diagrammes, interface utilisateur…) et se caractérisent par des fenêtres de contexte de grande taille, vu la taille souvent importante des codes source;
les modèles raisonneurs : ces modèles sont entraînés à construire des chaînes de raisonnement logiques. Ils sont à la base des applications comme « Deep Research » qui permettent d’ analyser un sujet de manière approfondie et de rédiger un rapport détaillé. La tendance actuelle est de leur adjoindre différents outils accessibles en cours de raisonnement afin qu’ ils puissent tester leurs hypothèses et continuer à raisonner sur les résultats intermédiaires obtenus. C’ est la voie vers les fameux « agents » dont on entend beaucoup parler et qui devraient enregistrer des progrès importants cette année.

Sur base de cette classification simple, voici les modèles « phare » actuellement mis à disposition par les principaux acteurs :

	Modèle généraliste multimodal	Modèle de codage	Modèle raisonneur
OpenAI	ChatGPT-4o	GPT-4.1	o3
Google	Gemini 2.5 Pro	Gemini 2.5 Pro	Gemini 2.5 Pro Deep Think
Anthropic	Claude 3.7 Sonnet	Claude 3.7 Sonnet	Claude 3.7 Sonnet Extended Thinking mode
Meta	Llama 4 Maverick	Code Llama 4 (pas encore disponible)	Llama 4 Behemoth (pas encore disponible)
Mistral	Pixtral Large	Codestral	Mistral Large

Figure 1 : Modèles « Haut de gamme » des principaux acteurs, par type d’ utilisation

Il est aussi intéressant de connaître les modalités supportées par les modèles généralistes :

	Modalités d’ entrée	Modalités de sortie
ChatGPT-4o	texte, audio, images, vidéo	texte, audio, images
Gemini 2.5 Pro	texte, audio, images, vidéo	texte
Claude 3.7 Sonnet	texte, images	texte
Llama 4 Maverick	texte, images, vidéo(?)	texte
Pixtral Large	texte, images	texte

Figure 2 : Modalités natives des modèles généralistes

OpenAI offre une palette différenciée de modèles; l’ objectif est de combiner l’ ensemble des capacités en un modèle unique à l’ architecture entièrement nouvelle (le fameux GPT-5), probablement vers la fin de l’ année 2025. Le modèle ChatGPT-4o présente la plus modalité la plus riche de tous les modèles du marché : il est capable d’ analyser, texte, image, audio et même vidéo et de générer nativement du texte et des images !

Notons qu’ OpenAI a décidé de retirer son modèle ChatGPT-4.5, trop coûteux à l’ exploitation pour se focaliser sur ChatGPT-4o pour les interactions conversationnelles et GPT-4.1 pour le codage.

Google est très bien placé avec Gemini 2.5 Pro qui intègre l’ ensemble des capacités dans un seul modèle : conversation, multimodalité (certes moins complète que ChatGPT-4o), génération et exécution de code et raisonnement. Il me semble que Google, qui a longtemps joué en seconde voire en troisième position, semble bien positionné pour reprendre la tête du peloton.

Les modèles d’ Anthropic sont très réputés pour leurs excellentes performances en codage. Anthropic cherche maintenant à renforcer sa position sur ce créneau en se concentrant sur les chaînes de raisonnement complexes avec appel d’ outils intégrés, y compris les environnements d’ exécution de programmes. Leur protocole standardisé MCP (Model Context Protocol), qui permet à un modèle de langage d’accéder à différents outils, s’ inscrit dans cette optique. Par contre, Anthropic accorde moins d’ importance à la multimodalité -moins utile pour la programmation- et leurs modèles ne peuvent générer que du texte et du code.

Enfin, Meta se caractérise par la disponibilité de leurs modèles en format open-weights, ce qui veut dire qu’ils sont utilisables localement. Ceci offre de grands avantages en termes de sécurité et de confidentialité à condition de disposer de machines suffisamment puissantes pour exécuter les modèles. Meta n’ offre pas encore de modèle raisonneur, ce dernier (appelé Behemoth) devrait cependant bientôt être annoncé.

Tous les modèles mentionnés sont de très bon niveau. Pour le travailleur intellectuel « col blanc » typique, la meilleure chose à faire est d’ essayer rapidement les différents modèles pour choisir celui qui vous convient le mieux, et ensuite de vous y tenir et de l’ utiliser chaque fois que vous vous posez une question ou recherchez des informations. C’ est comme cela que vous comprendrez progressivement comment intégrer ces modèles dans votre vie quotidienne et en tirer le meilleur parti.

OpenRouter, le point d’ entrée vers les modèles de langage

1 mai 2025 / Arnaud Stévins

Cela fait quelque temps que j’ ai découvert le site OpenRouter que je trouve extrêmement utile : il permet d’ accéder à la quasi-totalité des modèles de langage accessibles sur le marché de manière simple et conviviale.

Le site offre une interface d’ accès unifiée vers plus de 300 modèles de langage. Les modèles « dernier cri » des principaux fournisseurs sont disponibles, comme Mistral 2 Large, GPT-4.1, Claude 3.7 Sonnet, Meta Llama 4 etc…

Vous ne devrez donc plus souscrire à des abonnements séparés pour chaque fournisseur, ni pour l’ accès web ni pour l’ accès par interface de programmation (API). Autre avantage, le coût d’ utilisation est calculé par token ce qui est en général beaucoup plus intéressant que l’ approche forfaitaire des abonnements type ChatGPT+ ou Google One AI Premium.

C’ est parti pour un tour d’ horizon d’ OpenRouter.

1. Prise en main et interface conversationnelle

L’ écran d’ accueil d’ OpenRouter présente les étapes à suivre pour commencer à utiliser la plateforme : il est d’abord nécessaire de s’ inscrire et d’ acheter des crédits. Vous avez également la possibilité de générer une clé d’ accès API si vous souhaitez interagir avec les modèles via des programmes, mais cette étape est facultative.

Figure 1 : Écran d’ accueil d’ OpenRouter

Les modèles sont accessibles de deux manières : via une interface web conversationnelle, similaire à celle de ChatGPT, et via une interface de programmation (API). Cette API est unifiée pour tous les modèles, ce qui simplifie grandement le travail des développeurs.

L’ interface conversationnelle est classique et permet de sélectionner le modèle à utiliser en haut de l’ écran. Chaque nouveau dialogue est considéré comme une room (salle) associée à un ou plusieurs modèles de langage.

Si plusieurs modèles de langage sont sélectionnés, l’ interface soumettra la même question à tous les modèles activés simultanément. Cela permet de comparer les réponses des différents modèles, mais augmente également le coût.

Il est également possible de désactiver certains modèles sélectionnés. Par exemple, dans l’ image ci-dessous, trois modèles sont sélectionnés, mais Claude 3.7 Sonnet est désactivé. L’ interface répond donc simultanément à mon prompt avec OpenAI ChatGPT 4.1 et Google Gemini 2.5 Pro Preview.

Figure 2 : Interface conversationnelle OpenRouter

L’ interface conversationnelle permet de joindre des résultats de recherche web (Web Search) et des fichiers, y compris des images à analyser. Par contre il n’ est actuellement pas possible de générer des images avec les modèles disponibles sur OpenRouter. Le site se concentre sur les interactions textuelles.

2. Choix des modèles et fournisseurs d’ infrastructure

OpenRouter permet de choisir non seulement les modèles, mais aussi les fournisseurs d’ infrastructure chez lesquels les modèles sont exécutés. La transparence sur les fournisseurs d’ infrastructure est très importante car ceux-ci ont des politiques de modération et de réutilisation des données, des performances techniques et des prix différents.

La figure 3 montre la liste des fournisseurs d’ infrastructure pour le modèle Meta Llama 4 Maverick. On peut voir que le modèle est disponible chez plusieurs fournisseurs :

Figure 3 : Liste des fournisseurs pour Meta Llama 4 Maverick

Passons rapidement en revnue les différentes informations listées pour chaque fournisseur. Les icônes sur la gauche indiquent :

l’ identification du modèle auprès du fournisseur;
le pays dans lequel se situe le fourniseseur ;
la précision des paramètres du modèle. Certains fournisseurs choisissent en effet de recourir à des versions comprimées des modèles pour réduire les coûts de calcul, au prix de résultats moins précis ;
la politique de réutilisation ou non de vos dialogues pour améliorer le modèle. De nombreux fournisseurs choisissent de ne pas réutiliser les données pour des raisons de confidentialité ;
la politique de modération des dialogues par fournisseur. Certains fournisseurs choisissent de ne pas modérer les dialogues pour des raisons de liberté d’ expression ;
si le fournisseur permet l’ interruption d’ un dialogue en cours de génération, ce qui peut permettre de limiter le coût de calcul en cas de dialogue trop long ou partant dans une mauvaise direction ;
si OpenRouter vous permet d’ enregistrer vos clés API obtenues auprès du fournisseur, auquel cas vous payez directement le fournisseur et OpenRouter ne vous facture rien.

Ensuite, les colonnes de chiffres sur la droite fournissent les informations suivantes :

la longueur maximale de la fenêtre de contexte, en tokens. Celle-ci comprend à la fois la question et la réponse. La taille de la fenêtre de contexte dépendant du modèle, elle sera en principe la même pour tous les fournisseurs d’ infrastructure;
le nombre maximum de tokens générés par le modèle lors d’ une réponse;
le coût par million de tokens en entrée (dans votre question);
le coût par million de tokens générés en réponse par le modèle;
la latence, soit le délai moyen d’ attente en secondes entre l’ envoi de la question et la réception du premier token de la réponse;
le débit, soit le nombre moyen de tokens reçus en réponse par seconde;
le taux de disponibilité, soit le pourcentage de temps où le modèle est disponible selon les mesures d’ OpenRouter.

L’ algorithme utilisé par OpenRouter pour déterminer le fournisseur pour un modèle donné est de prioritiser le fournisseur le moins cher parmi ceux offrant la meilleure disponibilité. Si un fournisseur est indisponible, OpenRouter choisira le fournisseur suivant dans l’ ordre déterminé par l’ algorithme.

A noter qu’il est possible de modifier cet ordre en choisissant d’ autres critères de prioritisation, comme la latence ou le débit. Remarque importante, il est également possible d’ exclure de la liste les fournisseurs qui réutilisent vos données à des fins d’ entraînement.

Si la notion de token n’est pas claire pour vous, vous pouvez consulter mon article sur le sujet.

3. Modalités de paiement

OpenRouter est un intermédiaire entre vous et les fournisseurs de modèles et il est donc normal qu’ il soit rémunéré via un système de commission. Celle-ci est prélevée à chaque fois que vous ajoutez des crédits à votre compte. Par contre il n’ y a pas de commission prélevée sur chaque token que vous consommez : OpenRouter applique de manière transparente le prix chargé par le fournisseur d’ infrastructure.

Il est possible de voir sa consommation de tokens et de crédits de manière assez facile sur le site d’ OpenRouter :

Figure 4 : Aperçu de l’ activité et des frais occasionnés par l’ utilisateur

Pour être complet, certains modèles sont offerts gratuitement par OpenRouter : il s’agit des modèles « open-weights » comme Mistral Small 3.1 24B ou DeepSeek R1 Zero. Afin d’ éviter les abus, ces modèles sont limités en nombre de requêtes par jour.

4. Accès API pour les programmeurs

Je clôture par un dernier mot à l’ intention des programmeurs pour lesquels OpenRouter offre trois avantages :

Tout d’ abord, une interface API unifiée qui permet d’ accéder à l’ ensemble des 300 modèles disponibles sur la plateforme. Cela permet de simplifier le développement d’ applications qui utilisent des modèles de langage. L’ API est compatible avec l’ API d’ OpenAI.

Ensuite, OpenRouter propose un système de redondance qui permet de gérer l’ indisponibilité d’ un fournisseur de manière transparente. Si une requête échoue, OpenRouter peut automatiquement essayer une autre requête avec un autre modèle ou un autre fournisseur. Ceci est très pratique pour les applications qui demandent une haute disponibilité : si un modèle ou un fournisseur est indisponible, l’ application peut continuer à fonctionner sans interruption (pour autant qu’ OpenRouter ne soit pas lui-même en panne). Le prix à payer pour cette redondance est une légère augmentation du coût et du délai puisque la requête doit d’ abord être envoyée à OpenRouter ce qui ajoute environ 30ms de temps de réponse.

Enfin, l’ ensemble des frais est centralisé auprès d’ un seul fournisseur quels que soient les modèles utilisés, ce qui permet de simplifier la gestion des coûts.

Voilà, je pense avoir expliqué les grandes lignes de OpenRouter. Bonnes conversations !

La résilience numérique (suite) : tour d’ horizon des applications en ligne européennes

5 avril 2025 / Arnaud Stévins

Avec le lancement de la guerre commerciale tous azimuths par les Etats-Unis le mercredi 2 avril, je me suis dit qu’ il est plus que jamais opportun et urgent de se renseigner sur les alternatives digitales européennes disponibles. Cet article fait donc suite à mon billet précédent et va plus loin dans le détails de l’ offre européenne pour les applications numériques de la vie quotidienne.

Voyons donc quelles sont les possibilités européennes en termes de

suites bureautiques intégrées;
applications de prise de notes;
applications de visioconférence et de messagerie instantanée;
applications de navigation et de cartographie;
applications de streaming auido et vidéo;
engins de recherche et navigateurs .

1. Suites bureautiques intégrées et partage de documents

Commençons par les alternatives européennes aux suites applicatives intégrées comme Google Workspace et Microsoft365.

Nextcloud est une plateforme de collaboration open-source assez complète qui permet aux utilisateurs de stocker, partager et synchroniser des fichiers. Nextcloud comprend également des applications de chat et de vidéoconférence ainsi qu’ une suite bureautique appelée Nextcloud Office qui permet de créer et d’ éditer des documents, feuilles de calcul et présentations. Son module Nextcloud Groupware offre également des fonctionnalités d’ email, de calendrier, de contacts et de gestion de tâches.

Proton Suite est une collection d’outils développés Proton Technologies, une entreprise suisse. Elle comprend principalement :

ProtonMail, un service de messagerie sécurisé;
ProtonVPN, un réseau privé virtuel;
Proton Calendar, un service de calendrier;
Proton Drive, un espace de stockage virtuel pouvant être synchronisé à vos données locales;
Proton Docs, un éditeur de documents comparable à Google docs;
Proton Pass, un gestionnaire de mots de passe.

Proton Suite se distingue par son engagement envers la confidentialité et la sécurité des données, ce qui en fait une alternative attrayante pour ceux qui recherchent des solutions respectueuses de la vie privée.

Illustration 1 : Capture d’ écran de Proton docs

Cryptpad est une suite en ligne développée par la société française XWiki. Elle permet le partage de fichiers et propose une suite d’ outils bureautiques assez complète comprenant le traitement de texte, les feuilles de calcul, les présentations et les kanbans, tous chiffrés de bout en bout.

Parmi les alternatives mentionnées, Nextcloud est la solution la plus complète et la plus largement adoptée dans l’ UE, en particulier par les secteurs de l’ éducation, des soins de santé et les pouvoirs publics.

Par contre Nextcloud me semble fort complexe pour une installation dans un cadre privé.

Proton Suite me semble plus adaptée à une utilisation privée. Elle pourra être complétée par des applications open-source comme LibreOffice pour les traitements de texte, feuilles de calcul et présentations, ou d’ autres applications reprises ci-dessous pour la vidéoconférence ou les messageries instantanées.

2. Applications de prise de notes et services de traduction

J’ utilise beaucoup Notion pour prendre des notes tandis que d’ autres ne jurent que par Evernotes ou Microsoft OneNote . Mais toutes ces applications sont américaines. StandardNotes est une alternative suisse, au design minimaliste et encryptée de bout en bout. Standardnotes est accessible ici.

Pour les traductions, Deepl est un service de traduction automatique développé par une entreprise allemande. Il est disponible en version gratuite et payante. Il est très performant et je l’ utilise régulièrement. Il remplacera avantageusement Google Translate.

3. Services de visioconférence et messageries instantanées

Jitsi est une collection d’applications open-source multiplateformes pour la voix (VoIP), la visioconférence et la messagerie instantanée. Plus spécifiquement, Jitsi propose Jitsi Meet, une application complète de visioconférence. Jitsi est soutenu par diverses institutions, dont l’ Université de Strasbourg, et la Commission européenne.

Whereby est une plateforme de visioconférence sur le web qui se distingue par sa simplicité d’ utilisation, ne nécessitant aucun téléchargement ni inscription pour les invités. La plateforme offre des fonctionnalités telles que le chat intégré, le mode audio uniquement, et des conversations sécurisées sans stockage ni analyse des données audio et vidéo.

En ce qui concerne les messageries instantanées européennes, j’ avais déjà cité Threema et Element dans mon précédent article.

J’ en profite pour compléter le tableau avec l’ application française Olvid, qui est une messagerie instantanée chiffrée et sécurisée. Elle est considérée par l’ Agence Nationale de la Sécurité des Systèmes d’ Information (ANSSI) comme techniquement supérieure à Whatsapp, Signal et Telegram. Olvid ne demande aucune information personnelle comme numéro de téléphone ou adresse mail pour fonctionner. Elle est notamment utilisée par le gouvernement français.

Illustration 2 : Interface utilisateur Olvid

Une autre possibilité est l’ application Wire qui est une messagerie instantanée, chiffrée et sécurisée. Wire est développée par l’ entreprise suisse Wire Swiss GmbH qui compte dans son personnel de nombreux anciens employés de Skype. Elle est disponible gratuitement pour les utilisateurs privés.

4. Applications de navigation et de cartographie

L’ application web allemande HereWeGo offre des services comparables à Google Maps.

Illustration 3 : Recherche d’ itinéraires avec HereWeGo

Pour la navigation embarquée type Waze, vous pouvez vous tourner vers les apps Osmand, MagicEarth et OrganicMaps. Osmand possède aussi une interface Web similaire à Google Maps accessible ici. Osmand est estonien et MagicEarth est néerlandais.

5. Applications de streaming audio et vidéo

Le streaming audio est un domaine dans lequel la plupart des leaders du marché sont européens : Spotify est suédois, Deezer est français et SoundCloud, une plateforme s’ adressant aux artistes indépendants est allemande.

C’est le tout le contraire dans le domaine du streaming vidéo : Netflix, Amazon Prime Video et Disney+ sont tous américains. Ces géants n’ ont pas à ma connaissance d’ équivalent européen à ce jour. Une solution est de se retourner vers des acteurs traditionnels de la télévision payante comme Canal+ qui offre un service de streaming appelé myCANAL. Cependant ce type d’ offre reste plus axé sur le marché francophone et européen, avec un accent sur le contenu local et les partenariats avec les studios de cinéma.

Youtube est bien entendu américain, mais il existe une alternative française : Dailymotion, actuellement détenue par le groupe Canal+. Deuxième plus grande plateforme de partage de vidéos après YouTube avec environ 112 millions de visiteurs mensuels, Dailymotion permet aux utilisateurs de télécharger et de regarder des vidéos, avec une limite de 60 minutes par vidéo. Dailymotion est gratuit et se finance par la publicité, comme YouTube.

Illustration 4 : Interface utilisateur Dailymotion

6. Engins de recherche et navigateurs web

Plusieurs engins de recherche européens sont accessibles comme Mojeek, Qwant, Metacrawler et Ecosia.

Ecosia est un moteur de recherche qui plante des arbres avec les profits générés par ses activités.

Qwant et Mojeek sont des moteurs de recherche qui ne tracent pas les utilisateurs. En d’ autres terme, la même recherche donnera les mêmes résultats pour tous les utilisateurs ayant les mêmes paramètres de recherche (notamment le pays d’ origine et la langue).

Enfin, Metacrawler est un moteur de recherche qui utilise plusieurs moteurs de recherche pour donner les résultats.

Concernant les navigateurs web, Vivaldi est développé par la société Vivaldi Technologies, basée en Norvège. Il est connu pour ses nombreuses fonctionnalités intégrées, telles que les onglets empilés, les notes et les captures d’écran. Vivaldi met l’accent sur la confidentialité et le contrôle utilisateur, offrant une alternative aux navigateurs plus traditionnels.

LibreWolf est un navigateur web développé par une communauté internationale mais principalement soutenue par des contributeurs européens. Il est basé sur Mozilla Firefox mais supprime tous les éléments de télémesure et de suivi, offrant ainsi une expérience de navigation plus sécurisée et respectueuse de la vie privée.

Waterfox est un navigateur développé par System1, une société basée au Royaume-Uni. Il est également dérivé de Mozilla Firefox et conçu pour être rapide et respectueux de la vie privée, avec un accent sur la compatibilité des extensions et la performance. Waterfox est une alternative intéressante pour les utilisateurs qui recherchent un navigateur performant sans compromettre leur confidentialité.

La résilience numérique : comment s’ affranchir de notre dépendance digitale

13 mars 2025 / Arnaud Stévins

Cela fait quelque temps que je n’ai pas écrit de billet. Le flux incessant d’ informations inquiétantes en provenance de l’ autre côté de l’ Atlantique m’ a un peu déboussolé. Je me suis donc dit que j’ allais essayer de me ressaisir en écrivant un article sur un sujet de circonstance : la résilience numérique.

Il semble que nous nous acheminons vers une guerre commerciale entre les Etats-Unis et l’ Union Européenne. Or, les flux de services digitaux entre les USA et l’ Europe représentant une part importante de ces volumes d’ échange, on ne peut exclure que ces derniers se retrouvent pris en otage si la guerre commerciale entre les deux blocs venait à dégénérer. Notre dépendance aux infrastructures digitales et aux services en ligne américains est indéniable: la majorité des infrastructures digitales et des services en ligne utilisés en Europe sont hébergés aux États-Unis. Cela inclut les services de messagerie, les réseaux sociaux, le cloud computing, les paiements en ligne, etc…

Le scénario du pire serait une interruption du trafic digital transatlantique et/ou une suspension des services pour les clients européens, décidée par les autorités américaines et imposée à leurs entreprises privées. L’ interruption de la fourniture d’images satellites par la société américaine MAXAR à l’ Ukraine, sur décision de l’ administration américaine, préfigure ce qui pourrait se produire à plus grande échelle à l’ avenir.

Face à ces risques, la résilience numérique désigne notre capacité à continuer à fonctionner et vivre dans le monde digital malgré des perturbations des infrastructures qui sous-tendent ces services.

A quels risques sommes-nous exposés ?

Ils sont principalement de deux types.

Premièrement, une interruption des flux de données entre Europe et USA signifierait l’ inaccessibilité des données dans les datacenters américains ainsi que des services en ligne directement fournis par ces derniers. Sites web, réseaux sociaux et applications de type Software-as-a-Service seraient alors directement impactés.

Deuxième risque, une interruption de type contractuel : suspension des contrats de maintenance et de mise à jour des logiciels made in USA voire interruption des licenses. Dans ce cas ce sont les logiciels installés localement qui risquent d’être impactés , soit totalement (interruption ou non-renouvellement de licenses), soit par une lente dégradation de leurs fonctionnalités et de leur sécurité (suspension des maintenances et mises à jour).

Le matériel physique est le moins impacté : une fois que vous le possédez il sera difficile de l’ empêcher de continuer à fonctionner, mais la dépendance au matériel se fait indirectement via le système d’ exploitation et les systèmes de sauvegarde dans le cloud.

Voyons donc comment améliorer notre résilience numérique face à ces risques.

Que pouvons-vous faire ?

La réponse est simple en théorie : migrer autant que possible vers des services offerts par des entreprises européennes et hébergés dans l’ Union Européenne. En pratique, c’est nettement plus compliqué. Il faut distinguer ce qui est nécessaire de ce qui n’ est que confort et fixer ses priorités. L’ indisponibilité d’ un réseau social n’ est souvent qu’ un désagrément là où l’ interruption des services de messagerie ou de paiement en ligne posera un problème majeur.

Commençons par l’ hébergement de domaines et de sites si vous en possédez : nom de domaine, serveur DNS, hébergement des pages web et d’ adresses mail devraient être migrés vers des fournisseurs de service cloud européens comme Combell et Easyhost en Belgique, OVHcloud en France ou encore Hetzner en Allemagne.

Une difficulté particulière se pose avec les adresses mail de type hotmail ou gmail qui ne peuvent être transférées telles quelles. Il faut alors créer de nouvelles adresses mail et les utiliser pour les échanges, ce qui demande de prévenir les contacts et de les informer de la nouvelle adresse. De plus, les comptes gmail sont aussi souvent utilisés pour l’ authentification sur d’ autres sites, il faudra donc s’ assurer que vous possédez des systèmes d’ authentification alternatifs pour ces sites.

Passons à un sujet qui me tient à coeur : l’ accès aux modèles de langage comme ChatGPT ou Claude. Ceci est facile à transférer, car une alternative française de qualité existe : Mistral. J’ ai résilié mon abonnement à ChatGPT Plus pour en prendre un abonnement Mistral Pro pour un prix d’ ailleurs un peu inférieur (15 euros au lieu de 20 USD). Pour ceux qui utilisent les interfaces de programmation (API), le basculement est lui aussi assez simple.

Autre point à prendre en considération pour la résilience : les applications en ligne accessible via le Web. Difficile de toutes les citer tant elles sont nombreuses mais je vous conseille de réfléchir à celles dont la perte aurait des conséquences significatives pour vous. Je pense notamment aux applications de paiement en ligne comme Paypal, de stockage de documents comme Google Drive ou Dropbox, logistiques comme Amazon ou de transport comme Uber. Il est probablement excessif de les remplacer d’ emblée mais identifer à l’ avance des alternatives européennes -quand elles existent- n’ est pas une mauvaise idée.

Les services de messagerie instantanée sont un autre point d’ intérêt. WhatsApp, Snapchat et Facebook Messenger sont américains, Telegram est russe, Signal est américain mais hébergé en Suisse. Viber est israélien et WeChat chinois. En fin de compte, il ne reste qu’ Element et Threema qui sont européens mais pas encore très utilisés… Element est un service de messagerie instantanée basé sur le protocole Matrix qui est un standard ouvert. Threema est un service de messagerie instantanée qui est basé sur le protocole Signal mais qui est européen. Je me suis inscrit sur Element et j’ ai commencé à l’ utiliser, tout en continuant à utiliser principaleent Whatsapp. Mais je puis basculer rapidement si nécessaire.

Passons au plat de résistance : les sytèmes d’ exploitation des ordinateurs et les sauvegardes de données dans le cloud. Microsoft et Apple étant américains, non seulement il existe un risque d’ interruption des licenses mais les sauvegardes de données dans le cloud (iCloud pour Apple et OneDrive pour Microsoft) sont hébergées aux États-Unis et donc à risque elles aussi. La seule alternative réaliste est d’ utiliser Linux mais ce dernier s’ adresse plutôt aux utilisateurs expérimentés et il faudra le coupler à un service de sauvegarde de fichiers dans le cloud comme pCloud (Suisse) ou faire des copies de sauvegarde locales.

La situation pour les solutions de bureautique est plus facile. LibreOffice qui est open-source offre une alternative résiliente à Google Cloud et Microsoft Office 365. LibreOffice offre aujourd’ hui une assez bonne compatibilité des formats de fichiers malgré une interface qui reste un peu plus rustique que celle de Microsoft Office.

Terminons par les smartphones où l’ européanisation relève encore de la gageure. La seule possibilité est de choisir un système d’ exploitation open-source comme LineageOS ou GrapheneOS, tous deux dérivés d’ Android, ou Ubuntu Touch, dérivé de Linux. Mais la compatibilité avec les applications Android restera limitée. Il faudra ensuite trouver un fabricant proposant un smartphone supportant ces systèmes d’exploitation, comme OnePlus, PinePhone ou un Pixel de Google.

Plus généralement, le site goeuropean.org permet de lister des alternatives européennes pour une large gamme de produits et services. La figure ci-dessous montre une liste de fournisseurs européens pour les principaux services digitaux :

Figure 1 : Liste des principales alternatives digitales européennes (source : buy-european-made.org)

Autres élements à prendre en compte

Ces mesures de résilience digitale complètent les recommandations générales des pouvoirs publics en matière de résilience pour les autres besoins de base tels que la nourriture, l’eau potable, l’argent liquide… L’objectif est d’atteindre une autonomie suffisante, permettant aux citoyens de subsister en cas d’interruption temporaire des services essentiels, par exemple lors d’une cyberattaque grave. Voous trouverez ici un article présentant la situation actuelle du plan de résilience pour la population belge.

Un autre élément à prendre en compte est l’ alimentation électrique. En effet, la résilience digitale implique aussi que vous disposiez d’ une alimentation électrique pour faire fonctionner votre matériel informatique et recharger vos smartphones.

Pour cela, vous pouvez envisager une solution de stockage d’ énergie dans une batterie qui peut être alimentée par différentes sources comme des panneaux solaires déployables en cas de besoin (sur votre terrasse ou dans votre jardin par exemple). Je vous conseille par exemple de jeter un oeil sur les produits de la société Bluetti ici.

Conclusions

Si ce qui précède peut sembler excessivement pessimiste, je pense néanmoins que chaque entreprise et chaque individu devrait se poser la question de sa propre résilience numérique et de la manière dont il peut la renforcer.

Pour les entreprises, il est temps d’ inclure ce type de scénario dans les exercices de gestion des risques.

Troublé par les derniers événements, j’ ai commencé à mettre en place mon propre plan de résilience numérique et je me suis rendu compte de la complexité de l’ exercice. C’est pourquoi j’ ai tenu à rédiger cet article à des fins de sensibilisation.

Je vous encourage à y réfléchir. Un homme averti en vaut deux.

Les modèles raisonneurs

22 décembre 2024 / Arnaud Stévins

Le modèle o1 d’ OpenAI est maintenant disponible et il représente un changement important dans le fonctionnement et les capacités des modèles de langage.

La mise à disposition de ce modèle fait suite à des rumeurs persistantes autour d’ un modèle « disruptif » développé en secret par OpenAI d’ abord appelé Q-star puis Strawberry. Ces modèles sont importants parce qu’ ils constituent une tentative de transition de la réflexion immédiate et intuitive vers un raisonnement plus lent et plus délibéré.

Cette dualité se retrouve dans les modes de fonctionnement de notre cerveau. Comme l’ a indiqué le psychologue Daniel Kahnemann dans son livre Thinking, Fast and Slow, nos pensées procèdent selon deux schémas différents :

Le Système 1 est une réponse rapide, automatique, inconsciente et émotionnelle de notre cerveau à des situations et à des stimuli. Il peut s’ agir de lire distraitement un texte sur un panneau d’ affichage, de savoir nouer ses lacets sans réfléchir ou de sauter instinctivement par-dessus une flaque d’ eau sur le trottoir. Nous fonctionnons 95% du temps dans ce mode, qui correspond au mode par défaut et automatique de notre cerveau.
Le Système 2 est un mode lent, laborieux et logique dans lequel notre cerveau opère pour résoudre des problèmes plus compliqués. Par exemple, la pensée du système 2 est utilisée pour chercher un ami dans une foule, garer son véhicule dans un espace restreint ou déterminer le rapport qualité/prix de son repas à emporter. Il s’ agit d’un mécanisme de raisonnement logique activé délibérément et consciemment.

Figure 1 : Les deux modèles de fonctionnement du cerveau (source : Daniel Kahnemann)

Or, disposer de modèles capables de fonctionner selon le système 2 est essentiel pour pouvoir évoluer vers des agents IA plus fiables et plus autonomes, comme je l’ avais expliqué dans un article précédent accessible ici: les modèles « raisonneurs » sont une étape importante vers l’ Intelligence Artificielle Générale.

Pour faire simple, OpenAI a appris à un modèle de langage à réfléchir avant de parler. Voyons comment.

1. Mécanismes de raisonnement

Nous ne savons pas précisément comment OpenAI a entraîné le modèle o1. Néamnoins, les grands principes de l’ approche sont connus. Trois phases successives vont transformer un modèle de langage classique comme GPT-4o vers un modèle de raisonnement comme o1.

Lors de la première phase, le modèle « classique » est confronté à une série de problèmes logiques et il lui est demandé de développer son raisonnement étape par étape avant d’ arriver à la solution. Il s’ agit d’ une méthode de prompt engineering appelée Chain of Thought prompting (CoT) et décrit ici. En transformant la question en un ensemble d’ étapes de raisonnement de plus faible complexité, on augmente la probabilité que le modèle ait été confronté lors de son entraînement à des déductions élementaires analogues et qu’ il puisse donc effectuer les sauts logiques correspondants par corrélation.

Figure 2 : Chain of Thought Prompting (source : Wei et al., 2022)

Une fois ces chaînes générées, elles sont évaluées en fonction de leur pertinence tant au niveau de la réponse finale que du chemin logique suivi pour y parvenir. L’ évaluation peut être faite à la main (fastidieux) ou de manière automatisée. En pratique, on va débuter par une série d’ évaluations faites à la main pour entraîner un modèle d’ évaluation automatique, séparé du modèle de langage, qui prendra ensuite le relais et rendra le processus beaucoup plus efficace.

Lors de la seconde phase, les chaînes logiques générées lors de la première phase ainsi que leurs scores de pertinence sont utilisés pour entraîner le modèle (affinage) afin de privilégier les chaînes qui obtiennent la bonne réponse et défavoriser celles qui échouent. A l’ issue de cet affinage, nous disposons d’un modèle amélioré qui cherchera à répondre par étapes logiques à toute question de l’utilisateur, ce qui constitue déjà un grand pas dans la bonne direction.

Cependant, à ce stade, le modèle reste un modèle de langage « classique »: il génère une chaîne de raisonnement unique -certes améliorée- au fil de sa génération textuelle et présente ensuite le résultat à l’ utilisateur quelle qu’ en soit la pertinence. L’ effort déployé par le modèle reste aussi le même quelle que soit la complexité de la question, ce qui n’ est pas idéal…

C’ est ici qu’ intervient la troisième phase. Cette dernière a lieu non pas lors de l’ entraînement mais lors de l’ inférence, c’ est à dire quand l’ utilisateur pose une question au modèle.

Et l’idée de base est simple: comme les modèles de langage sont par nature aléatoires, rien n’ empêche de leur demander de générer plusieurs chaînes de raisonnement complètes en réponse à chaque question et de ne présenter que la plus pertinente (et nous disposons pour cela du modèle d’ évaluation). Au plus le nombre de générations est élevé, au plus la réponse choisie a de chances d’ être de qualité, au prix d’ une plus grande consommation en ressources.

Figure 3 : Chaînes de raisonnement multiples (source : Besta et al., 2023)

Il est imaginable de faire mieux encore et d’ utiliser des algorithmes de recherche dans l’ arbre des raisonnements possibles pour « orienter » la recherche de la réponse vers la voie la plus prometteuse en cours de raisonnement, mais en restant exhaustif dans l’ évaluation des différentes branches. Des algorithmes d’ apprentissage par renforcement comme Monte Carlo Tree Search peuvent être utilisés à cet effet. L’ idée est fascinante et on ne sait pas si de telles techniques sont déjà exploitées par OpenAI pour le modèle o1…

Figure 4 : L’algorithme Monte Carlo Tree Search (source : Jokub Kowalski et al., 2024)

Malheureusement, OpenAI ne permet pas à l’ utilisateur de voir les multiples traces de raisonnement du modèle, et avance pour cela des raisons d’ avantage compétitif. On ne sait donc pas exactement jusqu’où OpenAI est allé dans cette approche, mais chercher de manière plus ou moins exhaustive le meilleur raisonnement pendant la phase d’ exécution permet de s’ affranchir de la limite de l’ entraînement : il suffit de chercher plus longtemps, plus profondément dans l’ arbre des raisonnements possibles pour obtenir une meilleure réponse.

C’ est d’ ailleurs comme cela que o1-pro semble fonctionner : le modèle est le même qu’ o1 mais il va fouiller plus profondément dans l’arbre des raisonnements, ce qui consomme bien sûr de la puissance de calcul et justifie le prix plus élevé…

2. Evaluation

L’ explication ci-dessus laisse quelques points en suspens; il faut notamment disposer d’ un mécanisme d’ évaluation automatique pour déterminer si une chaîne de raisonnement est pertinente ou non. Le problème est que dans beaucoup de domaines, la pertinence ou non d’ un raisonnement est subjective et donc difficilement automatisable.

C’ est pourquoi il est fort probable que l’ entraînement au raisonnement ait été effectué sur des domaines où les raisonnements peuvent être évalués de manière objective, à savoir les sciences exactes, et en particulier les mathématiques et l’ informatique.

C’ est d’ ailleurs ce qui ressort des « benchmarks » de performance publiés par OpenAI qui indiquent que les performances du modèle o1 sont très supérieures à celles de GPT-4o dans les tâches mathématiques, dans la programmation et dans les questions de sciences exactes :

Figure 5 : Performance de gpt4o et o1 dans les domaines formels (source : OpenAI)

Par contre, dans les domaines plus subjectifs comme la rédaction de texte, les modèles de la famille o1 ne sont pas meilleurs que gpt-4o. Il n’ y a donc pas lieu de recourir à o1 pour ce genre de tâches.

Figure 6 : Performance comparée de gpt4o et o1 (source : OpenAI)

3. Accessibilité des modèles o1

Passons maintenant à la partie pratique : OpenAI a mis à disposition une première version appelée « o1-preview » à la mi-septembre, qui a été remplacée début décembre par le modèle définitif « o1 ». Celui-ci est accessible en trois versions:

la version de base « o1« ;
une version allégée appelée « o1-mini« ;
et enfin une version plus puissante appelée « o1-pro« .

Cependant, l’ accessibilité aux modèles de la famille o1 est fortement dépendante de l’ abonnement auquel l’ utilisateur a souscrit : tout d’abord, les utilisateurs gratuits n’ ont pas accès aux modèles de la famille o1.

Les utilisateurs payant l’ abonnement ChatGPT+ peuvent accéder à o1-mini et o1 mais avec des volumes d’ utilisation limités à 50 messages par semaine pour o1 et 50 messages par jour pour o1-mini (d’ où l’ intérêt d’ o1-mini).

Par ailleurs, OpenAI vient d’ introduire un nouvel abonnement appelé ChatGPT Pro à 200 USD/mois! Ce plan haut de gamme est le seul qui donne accès au modèle o1-Pro et offre aussi un accès illimité aux modèles o1 et o1-mini.

Ce qui précède concerne l’ interface utilisateur via le site web, mais les modèles o1-preview et o1-mini sont également accessibles via l’ interface de programmation (API) d’ openAI, mais pas o1-pro. Le prix de l’ utilisation est alors dépendant du nombre de tokens échangés. Mais comme OpenAI ne permet pas de voir la chaîne de raisonnemet complète, l’ utilisateur de l’ API se retrouve contraint de payer à l’ aveuglette…

4. Conclusion

C’est au moment d’ écrire ces lignes que Google vient de sortir son propre modèle de raisonnement appelé Gemini 2.0 Flash Thinking Experimental. Deux équipes chinoises ont aussi publié des modèles de raisonnement, DeepSeek avec DeepSeek-R1-lite-preview, et Alibaba Qwen QwQ-32B-Preview.

Les modèles capables de raisonner sont en passe de devenir un nouveau terrain de compétition, et ce parce qu’ ils ouvrent la voie vers des systèmes plus fiables auxquels il est possible de déléguer plus facilement des tâches rendant possibles des agents IA plus autonomes…

Et enfin, gardons en mémoire que les modèles auxquels nous avons accès vont continuer à progresser. Si OpenAI a décidé de démarrer une nouvelle « lignée » de modèles comme sa dénomination l’ indique, ce n’ est pas innocent et suggère que des modèles raisonneurs plus puissants apparaîtront à l’ avenir, peut-être en ayant recours à des techniques d’ apprentissage par renforcement comme Monte Carlo Tree Search.

Il y a donc lieu de rester curieux et optimistes. Une nouvelle voie de progrès est ouverte. Nous verrone bien où elle mènera.

5. Sources et références

Open o1 System Card, publié par OpenAI le 5 décembre 2024 : https://cdn.openai.com/o1-system-card-20241205.pdf
Learning to Reason with LLMs, article publié par OpenAI le 12 septembre 2024 : https://openai.com/index/learning-to-reason-with-llms/
Explaining OpenAI’s o1 reasoning models, vidéo Youtube par Sam Witteveen : https://youtu.be/jrA47yocyV0?si=ZJZSGpkB9Ewej4lh
ChatGPT o1 – In-depth analysis and reaction, vidéo Youtube par AI Explained : https://youtu.be/7J44j6Fw8NM?si=KT9kzLJDK3gWOlBR
O1, a new paradigm for ai, article paru sur le blog The Algorithmic Bridge, par Alberto Romero le 13 septembre 2024 : https://www.thealgorithmicbridge.com/p/openai-o1-a-new-paradigm-for-ai
Google releases its own reasoning model, par Kyle Wiggers pour TechCrunch le 19 décembre 2024 : https://techcrunch.com/2024/12/19/google-releases-its-own-reasoning-ai-model/
Graph of Thoughts: Solving Elaborate Problems with Large Language Models, Maciej Besta & autres, publié le 18 août 2023, sur Arxiv : https://arxiv.org/abs/2308.09687

1. Qu’ est-ce qu’ un agent IA ?

2. Comment « bien » utiliser ces agents ?

3. Sécurité et permissions

4. Etendre le modèle IA avec les plug-ins

5. Conclusions

Sources et références

Contenu du projet Genesis

Réflexions

Sources et références

1. Comment est-ce possible ?

2. Description du mécanisme

3. Implications pour la cybersécurité

Sources et références

1. Profil des utilisateurs et volumes de conversation

2. Catégories d’ utilisation

3. L’ utilisation privée avant le travail

4. Les absents

5. Remarques finales

Sources et références

1. La stratégie de l’ aspiration

2. Comment nous mettre sur la bonne voie

3. Nos risques et nos faiblesses

4. Conclusion

Sources et références

1. Prise en main et interface conversationnelle

2. Choix des modèles et fournisseurs d’ infrastructure

3. Modalités de paiement

4. Accès API pour les programmeurs

1. Suites bureautiques intégrées et partage de documents

2. Applications de prise de notes et services de traduction

3. Services de visioconférence et messageries instantanées

4. Applications de navigation et de cartographie

5. Applications de streaming audio et vidéo

6. Engins de recherche et navigateurs web

A quels risques sommes-nous exposés ?

Que pouvons-vous faire ?

Autres élements à prendre en compte

Conclusions

1. Mécanismes de raisonnement

2. Evaluation

3. Accessibilité des modèles o1

4. Conclusion

5. Sources et références

Articles récents

Commentaires récents

Archives

Catégories