Rendre l' IA accessible à tous

Auteur/autrice : Arnaud Stévins (Page 1 of 7)

La mission Genesis

Le 24 novembre 2025, le président des États-Unis signe un décret historique: le lancement officiel de la Mission Genesis, une initiative de grande envergure destinée à fusionner données publiques, super-ordinateurs, laboratoires nationaux et intelligence artificielle.

La mission sera conduite par l’ U.S. Department of Energy (DoE), à travers ses 17 laboratoires nationaux, en collaboration avec universités, entreprises technologiques et centres de recherche. Elle s’appuiera sur l’expertise des quelque 40 000 scientifiques, ingénieurs et techniciens du DoE, ainsi que sur celle des acteurs secteur privé.

L’ initiative a pour objectif d’ ouvrir une nouvelle ère d’ innovation et de découvertes accélérées par l’IA, capables de répondre aux défis les plus complexes de notre époque. Elle se concentrera sur des défis majeurs comme la fusion nucléaire, les réacteurs nucléaires avancés, la modernisation du réseau électrique, les nouveaux matériaux, l’ informatique quantique et la mise au point de nouveaux médicaments.

Figure 1 : Pictogramme de la Mission Genesis

Contenu du projet Genesis

L’ idée est de bâtir une plateforme intégrée qui permettra d’ entraîner des modèles IA scientifiques avancés menant à des agents chercheurs autonomes fonctionnant en boucle fermée. Ceux-ci pourront à la fois contenir des modèles génératifs, pour échafauder des hypothèses créatives, mais aussi des modèles prédictifs afin d’ orienter et de valider les intuitions du modèle génératif.

Le processus scientifique décrit dans la feuille de route du DOE relève presque de la science-fiction :

  • La conception par l’ IA : elle examine les données et émet l’hypothèse suivante : « Si nous mélangeons ces alliages à 4 000 degrés, nous obtenons un supraconducteur. »;
  • L’ IA définit ensuite un protocole de validation expérimental et l’ envoie à un laboratoire lui aussi robotisé (que le DoE est en train de construire) pour réaliser le mélange et tester ses propriétés;
  • Le robot renvoie instantanément les résultats. En cas d’échec, l’ IA modifie la formule;

Ce cycle se répète des milliers de fois par jour, 24 heures sur 24, 7 jours sur 7. Pas de sommeil. Pas de demande de subvention.

Le projet se caractérise aussi par des délais ambitieux, qui attestent de son importance pour l’ administration américaine :

  • 60 jours pour identifier 20 défis hautement prioritaires à relever;
  • 90 jours pour répertorier toutes les ressources informatiques à sa disposition;
  • 120 jours pour établir un plan visant à exploiter les données provenant à la fois de sources fédérales et d’autres instituts de recherche;
  • 270 jours pour démontrer que son plan peut permettre de progresser sur au moins l’ un des défis identifiés.

Réflexions

Que l’ on ne s’ y trompe pas, il s’ agit d’ une initiative majeure. Lors d’une conférence de presse, Michael Kratsios, conseiller scientifique du président Trump, a qualifié la mission Genesis de « plus grande mobilisation de ressources scientifiques fédérales depuis le programme Apollo ».

Un des objectifs centraux de cette mission est de doubler la productivité et l’ impact de la recherche et de l’ innovation américaines en l’ espace d’ une décennie en assistant les effectifs scientifiques avec de l’ IA plutôt qu’en les remplaçant. Ce n’est pas rien.

De plus, les laboratoires du Department of Energy disposent des supercalculateurs les plus rapides et d’ une expérience dans la conduite de recherches contrôlées à haut risque, essentielle pour l’ expérimentation dans certains domaines.

Les géants de l’ IA américaine (Google, OpenAI, Anthropic, Nvidia etc..) sont aussi cités comme participants et devraient obtenir l’ accès à des pétaoctets de données expérimentales exclusives qui ont été conservées dans des installations gouvernementales sécurisées pendant des décennies.

Toutes ces données, jusqu’ ici cloisonnées au sein des archives scientifiques du NIH, du DOE, de la NASA, de la NOAA, de la DARPA, de la NSF, du CDC, de la FDA, de l’USDA, du Bureau du recensement et des services de renseignement seront regroupées dans un ensemble unifié.

Ceci ne signifie cependant pas que les géants de la tech sont au centre de cette initiative; ils interviendront plutôt en tant qu’ experts et conseillers, mais bénéficieront de ses retombées.

Les capacités des modèles feront un bond en avant, car ces données contiennent précisément le type d’ informations à haut signal, structurées et à long terme dont les modèles de pointe ont besoin pour leur entraînement.

Sources et références

Détection d’ une première cyberattaque quasi-autonome orchestrée par des outils d’ IA

Un développement majeur vient de se produire sur le plan de la cybersécurité : la première cyberattaque largement automatisée dans laquelle les modèles de langage jouent un rôle d’ orchestrateur de haut niveau a été récemment déjouée par Anthropic.

En effet, Anthropic a détecté à la mi-septembre une activité suspecte liée à l’ utilisation de l’ outil Claude Code, un agent intelligent principalement destiné à la programmation mais dont la grande flexibilité offre des possibilités de détournement…

Ce n’ est pas Anthropic lui-même qui était l’ objet de l’ attaque mais bien une trentaine de firmes technologiques, financières et industrielles occidentales ainsi que des administrations publiques. L’ attaquant a été identifié avec un haut niveau de confiance : il s’ agit d’ un groupe actif dans le cyberespionnage lié au gouvernement chinois.

Jusqu’ ici les utilisations de l’ IA générative dans la cybersécurité relevaient plutôt de la fourniture de conseils interactifs de type « chatbot » ou éventuellement d’ agents qui ont accès à des outils informatiques spécialisés, mais interagissent avec les humains à chaque étape.

Pour la premère fois, l’ IA a mené de son propre chef un large éventail d’activités, depuis l’ analyse de vulnérabilité jusqu’à l’ exfiltration des données recherchées. Les superviseurs humains ne sont intervenus que ponctuellement afin de valider les résultats intermédiaires des opérations, avant de passer à la phase suivante. Anthropic estime que 80 à 90% du travail de cyberattaque a été effectué de manière autonome.

Cela marque le premier cas documenté d’ IA agentique ayant réussi à extraire des données sensibles appartenant à des cibles bien protégées par cyberattaque.

Anthropic a décidé de publier les détails de son enquête afin de sensibiliser le secteur à l’ évolution de la menace. En effet, d’ autres modèles pourraient être exploités de la même manière, et ce d’ autant plus que l’ attaque n’ a pas nécessité de déveoppements complexes : elle s’ est contentés de combiner astucieusement des outils existants. Pas besoin de disposer de moyens énormes pour préparer ce type d’ opération.

1. Comment est-ce possible ?

L’ attaque s’ est appuyée sur plusieurs évolutions récentes des modèles d’ IA qui n’existaient pas ou qui étaient à leurs balbutiements il y a seulement un an :

  • Raisonnement: Le niveau général de capacité des modèles a augmenté au point qu’ ils peuvent suivre des instructions complexes et comprendre le contexte de manière à rendre possibles des tâches sophistiquées. De plus, plusieurs de leurs compétences spécifiques bien développées, en particulier le codage logiciel, se prêtent à une utilisation dans le cadre de cyberattaques.
  • Autonomie: Les modèles peuvent agir en tant qu’ agents, c’est-à-dire qu’ ils peuvent fonctionner en boucle, où ils prennent des mesures autonomes, enchaînent des tâches et prennent des décisions avec une intervention humaine minimale et occasionnelle. Les modèles récents sont capables d’ exécuter un nombre importants de boucles « Planification-Action-Analyse » successives avant de devoir repasser la main à un humain.
  • Outillage: Les modèles ont accès à un large éventail d outils logiciels (souvent via le protocole ouvert *Model Context Protocol*). Ils peuvent désormais effectuer des recherches sur le web, récupérer des données et réaliser de nombreuses autres actions qui étaient auparavant l’ apanage des opérateurs humains. Dans le cas des cyberattaques, ces outils peuvent inclure des craqueurs de mots de passe, des scanners de réseau et d’ autres logiciels liés à la sécurité.

Claude Code est l’ outil parfait pour ce genre d’ opération. Il s’ agit d’ un programme « agent » hautement flexible qui peut faire interagir des modèles de langages jouant différents rôles et aux compétences variées pour atteindre un but spécifié par l’ utilisateur, tout en ayant accès à des outils via le protocole MCP. Les rôles pouvant être définis en langage naturel de manière assez libre, et le potentiel applicatif est extrêmement large.

2. Description du mécanisme

Le mécanisme d’attaque utilisait Claude Code et le protocole MCP (Model Context Protocol) pour se connecter aux outils existants d’ analyse et de découverte du réseau et de tests d’intrusion.

Ce genre d’ attaque requiert une succession d’ opérations bien orchestrées; le travail a donc été divisé en tâches techniques distinctes qui semblaient légitimes prises isolément. Ensemble, elles permettaient de mener à bien des chaînes d’ attaques complètes. Les pirates ont prétendu être une entreprise de cybersécurité utilisant ces outils de piratage à des fins légitimes pour tenter de trouver des vulnérabilités chez leurs clients dans le cadre d’ activités de tests d’intrusion.

Figure 1 : Diagramme architectural de l’ opération (Crédit : Anthropic)

Une fois la brèche établie,Claude Code fonctionnait de manière autonome :

il cartographiait la topologie du réseau, puis analysait son contenu pour découvrir les services internes et rechercher des informations précieuses en identifiant les bases de données de valeur. Il extrayait également les identifiants et établissait un accès permanent, puis analysait les données extraites pour en déterminer la valeur en termes de renseignements et exfiltrait celles jugées les plus précieuses. Tout cela avec une supervision humaine limitée.

La figure 2 décrit le déroulement du scénario offensif qui a été établi, et qui reprend les six phases suivantes :

  • Phase 1 : Initialisation de la campagne et sélection des cibles à attaquer;
  • Phase 2 : Reconnaissance de l’ infrastructure de la cible et de vulnérabilités potentielles;
  • Phase 3 : Découverte active et validation des vulnérabilités;
  • Phase 4 : Identification dans les systèmes et augmentation des privilèges d’ accès;
  • Phase 5 : Collecte et exfiltration des données;
  • Phase 6 : Documentation et clôture.
Figure 2 : Vue des phases du processus d’ attaque (Crédit : Anthropic)

Le détail des opérations exécutées lors de chaque phase se trouve dans le document d’ Anthropic en référence.

3. Implications pour la cybersécurité

L’ attaque a été détectée parce que Claude Code fait appel aux modèles de langage hébergés par Anthropic et le trafic échangé (le prompt et les réponses) est surveillé par des programmes d’ identification de menaces qui visent à détecter des activités non autorisées comme les cyberattaques.

Cette attaque constitue un point d’ inflexion pour la cybersécurité : ce type d’ opération autonome en détournant des outils existants permet à des acteurs malveillants disposant de ressources limitées de lancer des attaques sophistiquées. Ce type de capacité existe probablement dans tous les modèles d’ IA de pointe, y compris certains modèles open-weights pour lequel la surveillance décrite plus haut n’ est pas applicable puisqu’ ils sont exécutables localement.

Il subsiste cependant une limitation à ce type d’ opération : Claude code avait des hallucinations pendant les opérations offensives. Il revendiquait parfois des identifiants qui ne fonctionnaient pas ou identifiait des « découvertes critiques » qui n’étaient que des informations publiques. les hallucinations de l’ IA restent un obstacle aux cyberattaques entièrement autonomes et un humain doit encore assurer périodiquement une supervision de haut niveau pour s’assurer que le processus reste sur la bonne voie.

Il faut aussi garder la tête froide et noter que des mécanismes pratiquement identiques peuvent être utilisés en cyber-défense pour identifier les vulnérabilitiés d’ une firme afin de pouvoir les résoudre avant qu’ un cyber-attaquant ne tente d’ en profiter.

Quoi qu’il en soit, le monde de la cybersécurité va devoir s’ adapter rapidement.

Sources et références

Que font vraiment 700 millions de personnes avec ChatGPT ? Première étude détaillée

Imaginez un outil qui, en moins de trois ans, devient une habitude hebdomadaire pour plus de 700 millions d’ utilisateurs, soit environ 10% de la population adulte du monde.

Cet outil, c’ est bien sûr ChatGPT, qui répondait en moyenne à 2,5 millards de questions par jour en juin 2025 (soit environ 29.000 par seconde!). Mais que demandent les utilisateurs ? A quelles fins utilisent-ils des modèles de langage ?

OpenAI et le National Bureau of Economic Research (NBER) ont rédigé la première étude statistique détaillée d’utilisation du modèle de langage le plus populaire : ChatGPT. Ce sont les résultats de cette étude que je voudrais vous présenter dans cet article.

Attention : l’ étude ne porte que sur l’ interface web ChatGPT et ne reprend que les utilisateurs sur les plans « consommateur » (Free, Plus et Pro). Les utilisateurs sur les plans entreprise (Business et Enterprise) ne sont pas repris, ni les accès par API, ce qui a des conséquences pour l’ interprétation des résultats…

1. Profil des utilisateurs et volumes de conversation

Voyons d’ abord le nombre d’ utilisateurs ChatGPT actifs au moins une fois par semaine. Ce nombre passe de 100 millions début 2024 à 400 millions début 2025 pour atteindre en juillet 2025 environ 700 millions d’ utilisateurs soit 10% de la population adulte mondiale; ces chiffres sont cependant un peu surévalués car ils mesurent le nombre de comptes et certains utilisateurs peuvent disposer de plusieurs comptes.

Figure 1 : Nombre de comptes ChatGPT (« Free », »Plus », »Pro ») actifs au moins une fois par semaine (crédit : étude OpenAI/NBER)

Quant au nombre total de messages échangés chaque jour sur ChatGPT, il passe de 451 millions en juin 2024 à environ 2,6 milliards en juin 2025 (en moyennes hebdomadaires) et tout semble indiquer que cette croissance devrait se poursuivre. Pour donner une idée de comparaison, Google a indiqué au mois de mars traiter approximativement 14 milliards de recherches par jour.

Un point intéressant est que la croissance du trafic sur le site de ChatGPT semble provenir essentiellement de l’ arrivée de nouveaux utilisateurs, et non d’ une augmentation de la fréquence d’ utilisation par les utilisateurs plus anciens, qui reste stable.

Quant au profil des utilisateurs, il est clairement orienté vers les jeunes puisque 46% des utilisateurs ayant mentionné leur âge ont entre 18 et 25 ans. Et si 80% des utilisateurs étaient des hommes lors du lancement de ChatGPT fin 2022, la proportion est passée à 52% de femmes aujourd’ hui ce qui est en phase avec la moyenne de la population.

Enfin, une tendance très intéressante est que ChatGPT connaît actuellement une croissance quatre fois supérieure dans les pays à faibles et moyens revenus par rapport aux pays les plus riches. Ceci montre la globalisation rapide de cet outil.

2. Catégories d’ utilisation

L’ étude a analysé de manière détaillée et classé plus d’ un million de conversations provenant de la base globale des utilisateurs de ChatGPT, tout en protégeant l’ anonymité des messages individuels.

Figure 2 : Répartition des conversations par catégorie (crédit : étude OpenAI/NBER)

Les catégories d’ utilisation les plus fréquentes sont :

  • conseils pratiques (28,3%) : instruction et éducation, explications « comment faire? », conseils de beauté, de fitness ou de soins….
  • écriture (28,1%) : il est intéressant ici que les demandes de rédaction directe (8%) sont inférieures aux demandes d’ édition et de revue de textes déjà rédigés (10,6%). La traduction de textes compte pour environ 4,5% des conversations;
  • recherche d’ informations (21,3%) : cette catégorie est en forte croissance, passant de 14% des utilisateurs à 24,4% en un an (le chiffre de 21,3% est une moyenne). Il est intéressant que la tendance des modèles de langage à occasionnellement affabuler ne semble pas rebuter les utilisateurs; il est vrai que les modèles de langage se sont améliorés dans la fourniture de liens vers leurs sources, ce qui permet une vérification de l’ information a posteriori.

Par contre, seuls 1,9% des messages ont trait à des questions relationnelles ou à des réflections personnelles, et 2% à du bavardage et à des salutations(!). Quoi qu’ en disent les médias, un outil comme ChatGPT est utilisé comme un outil et non comme un compagnon ou un confident.

3. L’ utilisation privée avant le travail

Autre point intéressant, les chercheurs ont cherché à distinguer les conversations à caractère professionnel de celles à caractère privé. Et les conclusions sont claires : la proportion des conversations non-professionelles est passée en un an de 53% à 72,2%.

Malgré toutes les déclarations suggérant que les modèles de langage vont révolutionner l’ emploi et le milieu professionnel, une conclusion s’ impose : ChatGPT est principalement un outil utilisé dans la vie privée.

Figure 3 : Proportion de conversations à caractère non-professionnel (crédit : étude OpenAI/NBER)

Ce constat doit être fait avec une réserve : les abonnements « entreprise » ne sont pas repris dans l’ étude et il est probable que leur inclusion augmenterait la part de conversations professionnelles, mais sans toutefois remettre en cause le caractère principalement privé de l’ utilisation.

Les utilisateurs hautement qualifiés et ceux exerçant des professions libérales sont plus susceptibles d’ utiliser ChatGPT dans le cadre de leur travail. Dans le cadre professionnel, les utilisateurs techniques envoient davantage de messages de questionnement et de recherche d’ informations, tandis que les cadres se concentrent sur la rédaction (52 % de leurs messages professionnels).

4. Les absents

L’ étude fait aussi état d’ une utilisation assez faible des capacités de traitement des images offertes par ChatGPT, tant en analyse qu’en génération (environ 6% des requêtes).

De même la programmation est peu présente (4,2% des requêtes), ce qui paraît surprenant. La raison est très probablement l’ exclusion de l’ interface API de l’ étude, alors que les assistants intégrés de programmation type Github Copilot et Cursor recourent systématiquement à l’ accès par l’ API.

5. Remarques finales

Anthropic a publié une étude comparable relative à l’ utilisation de Claude le même jour qu’ OpenAI (le 15 septembre) et les résultats de cette seconde étude sont assez différents !

Le grand avantage de l’ étude d’ Anthropic est qu’ elle couvre aussi les accès API; elle est donc plus complète. Elle est aussi entièrement accessible alors que l’ étude complète d’ OpenAI se trouve sur le site du National Bureau of Economic Research et n’ est pas librement accessible; je confesse que j’ai dû baser cet article sur des sources indirectes….

Je vous présenterai les résultats de l’ étude d’ Anthropic dans le prochain article.

D’ ici là, portez-vous bien et n’ oubliez pas de soumettre toutes vos questions -même les plus insolites- à votre modèle de langage favori.

Sources et références

La stratégie de l’ aspiration, une piste pour l’ IA en Europe

Je voudrais développer dans cet article une approche de stratégie IA potentiellement gagnante pour l’ Europe, ouvrant la voie vers une croissance économique dont nous avons bien besoin : des niveaux d’ endettement élevés, des États-providence non viables et une population en âge de travailler qui diminuera de 2 millions par an à partir de 2040 créent d’ énormes pressions budgétaires.

L’ IA pourrait inverser le malaise de l’Europe en matière de productivité et restaurer son dynamisme économique. Pour cela, je vais aborder successivement les questions suivantes : quelle est la bonne stratégie que l’ Europe doit adopter pour capturer le plus de valeur possible de l’ Intelligence Artificielle ? Quelles actions entreprendre pour se mettre sur la bonne voie ? Quels sont les faiblesses qui peuvent mettre l’ approche en péril ?

1. La stratégie de l’ aspiration

La stratégie de l’ aspiration fait référence à l’ effet dont bénéficient les pilotes de Formule 1 qui en suivent d’ autres; cette idée est également appelée en anglais The smart second-mover strategy par le Prof. Luis Garicano de la London School of Economy, qui a écrit plusieurs articles très intéressants sur le sujet. Je partage tout à fait son analyse et cite ses articles en référence.

L’ Europe se retrouve actuellement à la traîne dans la course aux modèles génératifs. Les Etats-Unis et la Chine dépensent actuellement des dizaines voire des centaines de milliards de dollars pour développer et exploiter les meilleurs modèles génératifs et se positionner en tête de la course.

Devons-nous chercher à courir dans ce peloton de tête, sachant qu’il ne sera pas facile de rattraper notre retard, tant au niveau des investissements que de nos faiblesses structurelles : manque de géants européens de la tech aux poches bien garnies, coût de l’ énergie bien supérieurs à ceux des Etats-Unis, contraintes administratives ralentissant la construction de nouveaux datacenters, cadre socio-économique décourageant la prise de risque ?

Par ailleurs, il n’ est pas du tout établi que l’ essentiel de la valeur financière se trouve dans la création de nouveaux modèles toujours plus performants. La disponibilité de modèles open-source puissants sur le marché montre bien que les barrières à l’ entrée sont faibles. La chute brutale des bourses américaines lors de la publication du modèle open-source Deepseek-R1 développé avec des moyens relativement modestes montre bien la fragilité de ce modèle économique. Le coût rapidement décroissant de l’ inférence à la demande par token est un autre indicateur du risque de banalisation des services d’IA générative, progressivement réduits à une simple commodité.

Figure 1 : Evolution de coût de l’ inférence par token (crédit : OpenAI)

Une autre possibilité est d’ investir dans la couche matérielle, à savoir les technologies permettant de créer les circuits intégrés nécessaires à l’ exécution des modèles. On pense ici bien sûr à NVIDIA, principal fournisseur des processeurs, mais aussi à la fonderie Taiwanaise TSMC et au Néerlandais ASML qui est le leader sur le marché des machines de lithographie nécessaires à la gravure des puces haut de gamme. Je voudrais en profiter pour mentionner que le BeneLux n’ est pas mal placé dans la course, avec à la fois ASML à Eindhoven et l’ IMEC à Louvain qui est un des principaux centres de recherche mondiaux dans la miniaturisation et circuits électroniques et des nanotechnologies.

Figure 2 : La machine de lithographie EUV Twinscan EXE:5000 d’ ASML (crédit : ASML)

L’ Europe est en situation avantageuse dans la partie « amont » de la couche matérielle. Par contre, sa position est nettement moins favorable sur la partie « aval », à savoir la production de masse des processeurs avancés, qui se fait principalement en Asie, notamment par le leader mondial TSMC.

Mais il existe une troisième piste: mettre l’ accent sur l’ intégration de l’ IA dans les produits, applications et processus opérationnels des entreprises européennes. L’ idée est de devenir le meilleur et le premier des utilisateurs de l’ IA.

Et là, l’ Europe possède pas mal d’ atouts : un grand marché partiellement unifié de 450 millions d’ utilisateurs, un capital humain de premier plan, et de nombreux grands acteurs dans des secteurs industriels susceptibles de bénéficier fortement de l’ IA : industries aérospatiales et automobiles, production mécanique, industrie chimique et pharmaceutique, sans parler d’ un important tissu de PME techniques spécialisées dans les mêmes domaines.

Par ailleurs, ces secteurs sont souvent de grands producteurs de données spécialisées de qualité, qu’ elles proviennent des produits et services, des chaînes de production ou des systèmes de gestion des entreprises. Ces données, une fois consolidées par secteur, peuvent servir de base à des modèles IA spécialisés, qui peuvent être utilisés pour de la prédiction de qualité soutenus par des applications d’ IA générative lorsqu’ une capacité de raisonnement plus généraliste s’ avère nécessaire.

L’ idée est donc de profiter de ce que les autres fournissent pour banaliser leurs services, et en profiter pour créer une couche applicative profondément intégrée dans nos produits et activités. Ceci présente deux avantages : premièrement ces intégrations sont complexes et difficiles à banaliser. La propriété intellectuelle créée ne sera pas aisément recopiable et délocalisable. Et deuxièmement, cela offre d’ importantes possibilités de gains de productivité et de réduction des coûts à travers l’ automatisation d’ un certain nombre de tâches actuellement réalisées par des humains.

2. Comment nous mettre sur la bonne voie

La liste des actions possibles est longue, mais on peut définir trois grands axes:

Premièrement, mettre en place des standards ouverts pour l’ IA générative.

Il s’ agit ici de rendre les modèles IA généralistes (ChatGPT et autres) interchangeables et de les marchandiser en les régulant. Une direction logique serait de standardiser l’ accès aux modèles par API; on peut également plafonner le prix chargé par token ou encore interdire les clauses contractuelles d’ exclusivité et limiter les délais de préavis de résiliation de service. Il faudrait aussi s’ assurer que données échangées avec ces fournisseurs de service sont portables et récupérables par les clients, par exemple l’ historique des dialogues ou les données d’ entraînement utilisées pour un affinage de modèle.

Deuxièmement, aménager l’ EU AI Act pour le rendre plus pro-innovation.

Je pense que l’ AI Act dans son principe est une bonne chose car il offre un cadre légal prévisible aux développeurs d’ applications. Cependant, son formalisme reste très abstrait et généraliste et donc difficilement utilisable en l’ état, alors que les dates d’ entrée en vigueur approchent rapidement (août 2026 pour la plupart des applications). Ces dates devraient être retardées pour donner le temps aux autorités de définir des règles concrètes applicables à chaque secteur d’ activité. Le flou actuel est d’ autant plus gênant que l’ Act repose largement sur des mécanismes d’ auto-évaluation par les implémenteurs ce qui les met dans une situation pour le moins inconfortable…

Figure 3 : Planning de mise en application de l’ EU AI Act (crédit : BakerMcKenzie)

Par ailleurs, la réglementation exige la création d’ un important paquet de documentation dès le déploiement initial de l’ application IA, ce qui pose des difficultés particulières pour les petites entreprises. Une approche de mise en conformité plus itérative et progressive serait souhaitable. Ces soucis avec l’ EU AI Act sont à la base de nombreuses réactions du monde patronal qui demande une mise en pause temporaire, comme cette lettre de 46 CEOs de multinationales européennes qui demande un report des échéances de deux ans (référence ici).

Troisièmement, constituer un écosystème européen des données

C’ est un vaste sujet qui mériterait au moins un article entier à lui tout seul. L’ Union Européenne a défini une stratégie pour constituer des ensembles sectoriels de données. Un premier pas a été franchi en mars 2025 avec l’ European Health Data Space Regulation (EHDS) qui définit les mécanismes et infrastructures pour consolider les données de santé de manière harmonisée au niveau européen, afin de pouvoir entraîner les modèles IA du futur. Une réglementation analogue est actuellement en cours de discussion pour le secteur financier. Lorsqu’ elle sera finalisée, la stratégie européenne des données devrait couvrir quatorze domaines ayant chacun leur espace de données consolidé.

Figure 4 : Illustration de l’ European Health Data Space Regulation (EHDS)

Outre ces trois axes spécifiques à l’ IA, toute mesure générale favorisant l’ innovation est évidemment la bienvenue. Que cela concerne l’ accès aux capital-risque ou la mise en place d’ un type de société pan-européen -le fameux « 28ème régime »-, des initiatives inspirées par le rapport Draghi sur la compétitivité sont en cours de réalisation et doivent être encouragées.

Sur le plus long terme, rien n’ est possible sans une éducation de qualité. Je suis convaincu que l’ éducation est un des domaines ou l’ IA peut apporter le plus de progrès. La relative fragmentation de l’ Europe en 27 systèmes éducatifs distincts peut s’ avérer être ici une force cachée : cela permet de lancer différents types d’ initiatives par pays et de déployer ensuite les meilleures pratiques dans les autres pays.

3. Nos risques et nos faiblesses

Un de nos problème est que de nombreux emplois en Europe se retrouvent dans des secteurs difficiles à automatiser, comme les soins liés au vieillissemnt de la population, le tourisme ou encore les administrations. En l’ absence d’ une révolution en robotique, les soins de santé aux personnes âgées et le tourisme requièrent une interaction humaine et se prêtent mal à l’ automatisation. Dans le cas de l’ administration publique également, de nombreux emplois ne sont pas automatisables facilement : policiers, pompiers, soldats, enseignants sont non seulement difficilement remplaçables mais disposent en général d’ un status privilégié et d’ une puissante représentation syndicale.

Ce qui mène au second point, la résistance au changement. Contrairement à d’ autres régions du monde, l’ Europe possède des règles de protection de l’ emploi extrêmement fortes qui peuvent décourager la prise de risque. Ces règles réduisent considérablement la mobilité des travailleurs et rendent la réallocation des ressources entre entreprises très coûteuses. En outre, les travailleurs de certains secteurs disposent de moyens de pression supplémentaires par leur capacité à paralyser un pays avec un nombre relativement limité de grévistes (transports, agriculteurs…).

Ces résistances au changement sont également de nature réglementaire, avec un « principe de précaution » qui peut s’ avérer contre-productif. Le cas de la législation européenne sur les OGM est emblématique : la culture de nourriture OGM pour la consommation humaine est extrêmement limitée en Europe (en pratique seul maïs OGM est cultivé) alors que, de l’ aveu même des autorités sanitaires de l’ UE, ces derniers ne sont pas plus dangereux que les aliments obtenus par des voies traditionnelles. Ceci est d’ autant plus incompréhensible que l’ Union Européenne importe des quantités importantes de nourriture OGM depuis l’ extérieur de ses frontières (par exemple: germes de soja, huile de colza…) pour la consommation humaine !

Un autre frein à l’ automatisation qui relève indirectement du principe de précaution est plus insidieux : l’ exigence réglementaire d’ avoir un humain dans la boucle dans de nombreux processus critiques. Ceci peut sembler une bonne idée au premier abord, mais aura pour conséquence que la rapidité d’ exécution du processus sera conditionée par la rapidité de l’ humain le plus lent dans le processus, en espérant qu’ il ne soit pas malade ou en vacances…

Cette idée de surveillance humaine est noble dans le principe mais peut s’ avérer contre-productive dans certains cas. Le trading d’ actions à haute fréquence en est un exemple, où l’ exigence de supervision humaine sur chaque ordre boursier rend cette stratégie financière inutilisable en pratique. Un exemple encore plus frappant est le tri des patients aux urgences en cas de suspicion d’ AVC où chaque minute compte. Une IA peut analyser le résultat d’ un scanner lors de l’ arrivée à l’ hôpital et donner un pré-diagnostic en quelques secondes ce qui permet l’ envoi immédiat dans la bonne unité de soins. Attendre qu’ un radiologue donne son diagostic ajoute 30 à 60 minutes (voire plus en période de nuit ou de weekend) et ce délai peut s’ avérer fatal…

Le danger est que l’ ensemble de ces contraintes réduisent très fortement le champ d’ action de l’ automatisation par l’ IA en Europe par rapport à d’ autres régions du monde qui n’ auraient pas les moindres scrupules…Pour ma part je pense que cela vaut la peine de prendre certains risques, quitte à réglementer ex post en cas de problèmes.

4. Conclusion

Sur le fond, je pense que les gains de productivité grâce à l’ IA auront lieu, mais qu’ ils seront plus lents que prévu. Tout comme à l’ époque du boom internet en 1998-2001, un nombre incroyable d’ idées ont jailli en très peu de temps, mais beaucoup d’ entre elles se sont avérées irréalistes vu l’ état des techniques à l’ époque. Leur heure n’ était pas encore venue, mais toutes ces idées ont servi de terreau pour les progrès des vingt années qui ont suivi et la plupart d’ entre elles ont fini par prendre forme.

Je pense que la situation est analogue dans le case de l’ IA. Lorsque j’ entends les PDG des géants de la tech parler d’ une transformation en profondeur de la société vers 2030, je pense qu’ ils ont raison sur le fond mais pas sur le calendrier. Je pense que tout cela sera plus lent et plus progressif. Pour ma part je ne serais pas surpris que la transition dure entre 15 et 20 ans vu l’ énormité de la tâche et les résistances à attendre.

Difficile aussi de quantifier les gains de productivité. Si les économistes les plus prudents estiment l’ impact à environ 2% de croissance du PIB sur dix ans, d’ autres vont jusqu’ à imaginer une croissance de 30% par an ! Les deux dernières références de la liste ci-dessous présentent de telles analyses. Tout dépend de la proportion des tâches effectivement automatisées…

Sources et références

Dans le cerveau des modèles de langage, deuxième partie : les raisonnements

Nous avons vu dans l’ article précédent comment les chercheurs d’ Anthropic ont réussi à modifier un de leurs modèles de langage pour faire apparaître des concepts interprétables au sein des différentes couches du modèle.

Ces recherches, qui remontent à 2024, constituent une première étape. Mais les chercheurs d’ Anthropic sont allés plus loin et ont cherché à comprendre comment ces concepts se combinent dans un modèle pour échafauder une réponse plausible à la demande de l’ utilisateur.

C’ est ce que je vais tenter de vous expliquer dans cet article, et comme vous le verrez, cela apporte pas mal d’ enseignements très intéressants sur le fonctionnement intime des modèles.

Comment tracer les pensées du modèle ?

Nous avons vu dans l’ article précédent comment les chercheurs avaient réussi à adjoindre une sous-couche « interprétable » à chaque couche du modèle, ce qui permettait d’ identifier et de localiser un ensemble de concepts. Mais ce mécanisme ne permettait pas encore de comprendre comment ces concepts s’ articulent en une réflexion cohérente.

Pour pouvoir tracer les pensées du modèle, les chercheurs ont créé un modèle de substitution plus riche que celui présenté dans l’ article précédent:

  • chaque couche du modèle original est remplacée par une couche interprétable équivalente, appelée couche de transcodage;
  • chaque couche de transcodage agit non seulement sur la prochaine couche du modèle mais aussi les couches suivantes. Ceci permet à une caractéristique interprétable située en amont du modèle d’ agir directement sur une autre caractéristique interprétable située n’ importe où en aval.

Ceci mène au modèle de substitution présenté dans la figure 1.

Figure 1 : Du modèle original au modèle de remplacement

Une fois que ce modèle de remplacement a été correctement entraîné, on va pouvoir lui soumettre un texte d’ entrée et voir quelles sont les caractéristiques interprétables qui sont activées par la question, mais aussi comment ces caractéristiques s’ influencent mutuellement pour aboutir à la formation de la réponse.

En fait le « truc » est toujours le même : on remplace un modèle par un autre qui fait la même chose mais dans lequel on peut mesurer ce qui nous intéresse. Parce que les informaticiens ont un grand avantage sur les biologistes : tous les calculs intermédiaires sont accessibles et tout est mesurable !

Le résultat de ces mesures se présente sous la forme de graphes d’attribution, une représentation graphique des étapes de calcul utilisées par le modèle pour déterminer le texte de sortie pour un texte d’ entrée particulier.

Voici un exemple de graphe d’ attribution simple pour vous donner une idée de ce que cela signifie :

Figure 2 : Un graphe d’ attribution élémentaire (source : Anthropic)

Voyons maintenant quelques découvertes intéressantes que les chercheurs ont faites en analysant les graphes d’ attribution générés pour des textes d’ entrée judicieusement choisis…

Découverte 1 : les modèles ne dévoilent pas toujours leurs pensées

C’ est la première question à se poser : demandez au modèle d’ expliquer chaque étape de son raisonnement (chain of thought prompting). L’ explication fournie correspond-elle systématiquement au raisonnement intérieur du modèle?

Parce que si c’ est le cas, pas besoin de faire toutes ces recherches, il suffit de demander au modèle d’ expliciter son raisonnement. Malheureusement, ce n’ est pas ce que les chercheurs ont découvert.

Prenons un exemple simple de calcul mental. Les chercheurs ont demandé au modèle combien font 36+59. Ils ont découvert que le modèle utilise « en interne » un double chaîne de raisonnement, la première cherchant une réponse approximative et la seconde se limitant à calculer le chiffre des unités; les deux sont ensuite combinés pour estimer une réponse. A noter que c’ est assez proche de ce que nous faisons intuitivement en calcul mental.

Voici le graphe d’ attribution correspondant :

Figure 3 : Graphe d’ attribution pour un calcul élémentaire (source : Anthropic)

Mais quand on demande au modèle d’ expliquer son raisonnement, il explique l’ algorithme standard d’addition écrite avec le report des unités sur les dizaines. Ce qui est un tout autre mécanisme !

Figure 4 : Explication fournie par le modèle (source : Anthropic)

Plus généralement, les chercheurs ont remarqué que le modèle décrit son raisonnement correctement dans certains cas, mais ce n’ est pas systématique.

Par exemple, lorsqu’ on lui demande de calculer le cosinus d’un grand nombre qu’ il ne peut pas calculer facilement, le modèle se livre parfois à ce que les chercheurs appellent du bullshitting (!), c’est-à-dire qu’ il donne une réponse, n’ importe laquelle, sans se soucier de savoir si elle est vraie ou fausse. Même s’ il prétend avoir effectué un calcul, les techniques d’ interprétabilité ne révèlent aucune preuve de l’ existence de ce calcul !

Autre cas intéressant, lorsqu’ on lui donne un calcul ainsi que sa réponse et on lui demande d’ expiquer comment trouver le résultat, le modèle travaille parfois à rebours, trouvant des étapes intermédiaires qui mèneraient à cette cible, faisant ainsi preuve d’ une forme de raisonnement motivé. D’ autant plus qu’ il n’ hésite pas à faire aussi cela lorsque la réponse qu’ on lui donne est fausse !

Bref, on ne peut pas considérer les explications et justifications du modèle comme transparentes et une analyse « intrusive » est nécessaire pour comprendre ce qui se passe réellement dans sa « tête ». C’ est bien dommage mais c’ est comme ça.

Découverte 2 : le modèle possède un seul modèle cognitif multilingue

Ceci est, pour moi, remarquable : le modèle semble posséder un espace conceptuel unique qui est partagé entre les différentes langues, ce qui suggère qu’il possède une sorte de « langage de pensée » universel.

En effet, comme l’ entraînement des modèles se fait sur un ensemble de textes en grande majorité individuellement unilingues, on pourrait imaginer que ces modèles contiennent en leur sein une série de mini-modèles conceptuels indépendants, chaque langue créant sa propre réalité intérieure au fil de l’ entraînement.

Au contraire, les chercheurs d’ Anthropic ont montré qu’ il n’ existe pas de «modèle français» ni de «modèle chinois» fonctionnant en parallèle et répondant aux demandes dans leur propre langue.

Ils ont demandé au modèle le « contraire de petit » dans différentes langues, les mêmes caractéristiques fondamentales des concepts de petitesse et d’ opposition s’ activent pour déclencher un concept de grandeur, qui est finalement traduit dans la langue de la question.

Figure 5 : Le modèle conceptuel multilingue (source: Anthropic)

D’ un point de vue pratique, cela suggère que les modèles peuvent apprendre quelque chose dans une langue et appliquer ces connaissances lorsqu’ ils conversent dans une autre langue, ce qui est tout à fait positif et très important à comprendre.

Découverte 3 : le modèle planifie sa réponse plusieurs mots à l’ avance

L’ algorithme de base des modèles de langage repose sur une prédiction mot à mot. Mais le modèle planifie-t’ il plus loin que le prochain mot ? A-t’ il une idée « derrière la tête » quand il fait sa prédiction ?

Un bon cas pour tester ceci est la rédaction d’ un poème. En effet, pour écrire un poème, il faut satisfaire à deux contraintes en même temps : les vers doivent rimer et ils doivent avoir un sens. Il y a deux façons d’ imaginer comment un modèle y parvient :

  • l’ improvisation pure – le modèle pourrait écrire le début de chaque ligne sans se soucier de la nécessité de rimer à la fin. Puis, au dernier mot de chaque ligne, il choisirait un mot qui (1) a un sens compte tenu de la ligne qu’il vient d’écrire et (2) correspond au schéma de rimes;
  • la planification – le modèle peut également adopter une stratégie plus sophistiquée. Au début de chaque ligne, il pourrait imaginer le mot qu’ il prévoit d’ utiliser à la fin, en tenant compte du schéma de rimes et du contenu des lignes précédentes. Il pourrait ensuite utiliser ce « mot prévu » pour rédiger la ligne suivante, de manière à ce que le mot prévu s’ insère naturellement à la fin de la ligne.

Lequel des deux modèles est correct ? Vu l’ algorithme des modèles de langage, on pourrait pencher pour la première hypothèse. C’ était d’ ailleurs ce que pensaient des chercheurs au début de leurs recherches. Et pourtant, ils ont trouvé des éléments suggérant clairement que le modèle fait de la planification plusieurs mots à l’ avance…

Comme on peut le voir sur la figure 6, le modèle planifie à l’ avance plusieurs possibilités pour le mot final de la ligne, et planifie ensuite le reste de la ligne « à l’envers » pour que cette dernière soit cohérente.

Figure 6 : Planification direct et inverse d’ une rime (source: Anthropic)

Les chercheurs ont également modifié les concepts en cours d’ élaboration de la rime. Le modèle prévoyait de terminer sa ligne par « rabbit » mais si l’ on annule ce concept en cours de route voire le remplace par un autre, le modèle change de rime.

Figure 7 : Modification du concept final en cours de rime (source: Anthropic)

Ceci montre que les modèles préparent leurs réponses plusieurs mots à l’ avance, et sont non seulement capbles de planifier vers l’ avant mais aussi vers l’ arrière (rétro-planning) quand c’ est nécessaire. Les modèles sont aussi capables de planifications multiples en parallèle, et il est possible d’ intervenir directement sur ces plans en cours de route en modifiant les concepts sous-jacents.

Conclusion

Ces recherches lèvent un coin du voile sur ce qui se passe réellement au sein des modèles de langage. Il me semble clair que ces recherches ne sont qu’ à leurs débuts et que beaucoup de choses sont encore à découvrir dans le domaine de l’ interprétabilité.

Si vous voulez en savoir plus sur ce sujet, je ne puis que vous suggérer de lire directement l’ article On the Biology of a Large Language Model que je cite ci-dessous en référence. Les chercheurs y présentent douze traces de raisonnement différentes apportant chacune son lot d’ enseignements…

Pour ma part, ce qui me fascine le plus, ce sont les analogies évidentes entre la manière dont ces modèles « réfléchissent » et la manière dont nous le faisons…

Sources et références

Dans le cerveau des modèles de langage, première partie : les idées

Un fait surprenant concernant les modèles de langage est que personne ne comprend vraiment comment ils fonctionnent en interne. Ne pas être en mesure de reconstruire de manière déductive les étapes « mentales » à travers lesquelles passe le modèle pour échafauder sa réponse pose des problèmes de sécurité et d’ éthique.

En effet, comment s’ assurer qu’ un modèle répond de manière transparente et ne nous ment pas ou ne poursuit pas un objectif différent de celui que nous lui avons assigné ? Et si nous lui demandons d’ expliciter une décision, va-t’ il expliquer les étapes de son raisonnement ou fournir une justification a posteriori sans relation avec son processus interne initial ? Un modèle pourrait-il nous mentir délibérément si nous le mettons dans une position contradictoire en lui demandant d’ aller à l’ encontre de ses instructions ? Jusqu’ où peut-on être sûr que certaines prohibitions seront respectées ?

Ces questions revêtent une importance de plus en plus grande au fil des progrès des modèles : les modèles se transforment progressivement en agents avec une capacité directe d’ action dans le monde réel : envoi d’ emails, achat de produits…cette délégation sans cesse croissante crée une certaine urgence autour de ces questions de sécurité et d’ éthique.

La société Anthropic, qui a développé les modèles de langage Claude, mène des recherches très actives sur le sujet de l’ interprétabilité des modèles de langage. Ils ont publié plusieurs articles sur le sujet que vous trouverez en référence, et leurs analyses mettent en évidence des phénomènes très intéressants.

Dans ce premier article, je vais me concentrer sur les recherches permettant d’ isoler l’ émergence de concepts « interprétables par des humains » à l’ intérieur des modèles de langage. La manière dont ces concepts sont articulés et interconnectés pour formuler une réponse cohérente fera l’ objet de mon prochain article.

Un petit mot sur l’ architecture des « transformeurs »

Les modèles de langage utilisent l’ architecture des « transformeurs » définie par Google en 2017 dans le célèbre article Attention is all you need. Je me contenterai ici d’ une explication sommaire qui devrait suffire pour nos discussions sur l’ interprétabilité, à savoir :

  • les « transformeurs » sont structurés en couches successives;
  • une couche d’ entrée découpe le texte du « prompt » en tokens puis transforme ces derniers séquence de vecteurs dans un espace de représentation. Ces vecteurs sont des représentations numériques des mots du texte, et la séquence de vecteurs correspond à la séquence de mots du prompt;
  • les autres couches du modèle transforment cette séquence de vecteurs de manière itérative, couche par couche. Les couches sont architecturalement identiques mais contiennent des paramètres de transformation différents qui ont été définis chacun lors de l’ apprentissage (ce sont les fameux « milliards » de coefficients);
  • enfin, la couche de sortie est semblable aux autres sauf qu’ au lieu de transformer la séquence de vecteurs, elle va générer une distribution de probabilités sur le prochain token à ajouter à la séquence (prédiction du prochain mot).

Voici une illustration de cette logique, avec l’ architecture du réseau à gauche et la séquence de vecteurs à droite :

Figure 1 : Architecture et flux de données d’ un transformeur

Pour être complet, chaque couche se comporte de deux sous-couches; la première, appelée couche d’ attention va combiner et enrichir le vecteur avec les informations contenues dans les autres vecteurs de la séquence. La seconde, appelée MLP (Multilayer Perceptron) est un réseau neuronal classique qui va transformer chacun des vecteurs de la séquence après avoir été enrichis par la couche d’ attention. La couche MLP applique la même transformation à chacun des vecteurs de la séquence.

Ceci est illustré dans la figure 2. Il y a une petite astuce : la couche d’ attention est commune, tandis que la couche MLP s’ applique individuellement à chacun des vecteurs « enrichis » fournis par la couche d’ attention.

Figure 2 : Détail d’ une couche du transformeur

Aller dans le détail de cette architecture dépasse largement le cadre de cet article et si vous voulez en avoir une compréhension plus approfondie, je vous conseille soit de lire le paper de Google, soit de lire l’ excellent article de vulgarisation de Jay Alammar « The Illustrated Transformer » accessible ici.

La question de l’ espace de représentation

Ce que j’ ai voulu faire ressortir de cette architecture, c’ est la centralité de l’ espace de représentation. En fin de compte, le transformeur ne fait qu’ enrichir et transformer successivement des vecteurs dans cet espace. Pour vous donner une idée, la dimension de cet espace varie d’ un modèle à l’ autre; Anthropic ne publie pas cette information mais pour OpenAI ChatGPT-4o on sait que l’ espace de représentation compte 1.536 dimensions.

L’ hypothèse que les chercheurs d’ Anthropic ont pu vérifier, c’ est que les concepts intelligibles pour les humains correspondent à des directions dans cet espace de représentation. Ceci avait déjà été établi pour d’ autres modèles d’ apprentissage linguistique comme les « word embeddings » mais pas encore pour les modèles de langage.

Dans un monde idéal, les différents axes de cet espace de représentation correspondraient directement à des concepts intelligibles par l’ homme. Les coefficients des vecteurs indiqueraient alors la présence ou l’ absence de ces concepts. Mais est-ce le cas ? Non, ce serait trop simple. En fait, les axes de cet espace sont des concepts abstraits, mais pas intelligibles par l’ homme, et donc non interprétables.

Pourquoi ? Une explication intuitive est que 1.536 est un nombre bien trop petit pour représenter l’ ensemble des concepts auxquels le réseau a été confronté pendant l’ entraînement. Les concepts vont donc se retrouver « mélangés » dans cet espace (mathématiquement, il s’ agira d’ un ensemble de vecteurs linéairement dépendants vu la trop faible dimension de l’ espace). Cette situation rend impossible l’ extraction de concepts intelligibles par une opération vectorielle élémentaire de type projection.

Le Dictionary Learning à la rescousse

Mais il y a un moyen de s’ en sortir, c’ est de combattre le mal par le mal et de faire appel à un autre algorithme d’ apprentissage machine pour extraire les concepts. Cet algorithme s’ appelle le « Dictionary Learning ».

L’ idée en est la suivante : nous allons entraîner un nouveau réseau de neurones en trois couches de la manière suivante :

  • le réseau doit être capable de générer en sortie les mêmes réponses que celles en entrée (transformation identité). La première et la troisième couche ont donc la même dimension, celle de l’ espace de représentation;
  • nous allons contraindre ce réseau à avoir une couche intermédiaire (la seconde) de beaucoup plus grande taille et pour laquelle le nombre de paramètres actifs à tous moment est très faible (idéalement 1). C’est ce qu’ on appelle une couche « sparse » (éparse).

La première contrainte à elle seule peut paraître étrange, mais elle permet d’ intercaler le nouveau modèle au milieu du modèle original sans en perturber le fonctionnement. Et la couche intermédiaire, une fois entraînée, va se comporter comme un « dictionnaire » de concepts, chacun des neurones de cette couche représentant un concept activé individuellement.

Le nombre de concepts est donc égal au nombre de neurones de cette couche. Et cela fonctionne car au fil de l’ entraînement, ce modèle va chercher à identifier les concepts présents dans l’ espace de représentation et les encoder dans un seul neurone de la couche intermédiaire.

Voici une illustration de cet algorithme:

Figure 3 : Algorithme de Dictionary Learning

Nous y sommes presque ! Il ne reste plus qu’à appliquer ce système de Dictionary Learning séparément pour chacune des couches, ce qui ne vas pas perturber le contionnement du modèle de langage puisque les couches de Dictionary Learning sont transparentes (sortie = entrée). Et voici le modèle final avec les « sondes » d’ analyse implantées :

Figure 4 : Modèle final avec sondes d’ analyse conceptuelle

Nous y sommes enfin. C’ est ce qu’ ont fait les chercheurs d’ Anthropic avec leur modèle Claude 3.0 et ils ont ainsi identifié environ 30 millions de concepts sur l’ ensemble des couches du modèle.

Maintenant que notre appareillage de mesure des concepts est en place, il est possible d’ analyser les concepts activés par des textes spécifiques. Et là, miracle, des concepts intelligibles par l’ homme apparaissent !

Le neurone « Golden Gate »

Parmi ces concepts, les chercheurs ont identifié une grande diversité de caractéristiques abstraites. Il y a des éléments relatifs aux personnes célèbres, aux pays et aux villes. Il y a aussi des éléments relatifs à des concepts abstraits comme les erreurs de programmation ou l’ addition ou encore des notions pratiques comme la présence de caractères coréens dans le texte.

De nombreuses caractéristiques sont multilingues (elles répondent au même concept dans plusieurs langues) et multimodales (elles répondent au même concept dans du texte et des images), et englobent à la fois des instanciations abstraites et concrètes de la même idée (comme du code présentant des failles de sécurité et des discussions abstraites sur les failles de sécurité).

Voici par exemple le neurone « Golden Gate » qui est activé par des textes parlant du Golden Gate. Vous pouvez voir dans la figure ci-dessous l’ influence relative des différents tokens du texte d’ entrée dans l’ activation du concept « Golden Gate » :

Figure 5 : Le concept « Golden Gate » (source : Anthropic)

Au total de nombreux concepts intelligibles ont été mis à jour par les chercheurs et vous en trouverez une liste complète ici. Et voici une illustration de quelques autres concepts identifiés :

Figure 6 : Quelques autres concepts identifiés (source : Anthropic)

On ne peut que rester étonné par la richesse et la diversité des concepts identifiés. Et ce n’ est pas tout, il est aussi possible de manipuler les concepts en modifiant les valeurs d’ activation des neurones à la main ce qui donne des effets très intéressants comme la vidéo qui suit le montre :

La manipulation des concepts internes des modèles entraîne des modifications des réponses du modèle qui vont dans le sens des modifications apportés aux concepts.

Les chercheurs d’ Anthropic ont donc réussi à prouver la correspondance entre les concepts internes des modèles et les concepts intelligibles que l’ on peut observer dans les deux directions : a) si le concept est présent dans le texte d’ entrée, le concept interne est activé et b) si le concept interne est activé manuellement, le concept intelligible est présent dans le texte de sortie.

Ceci valide le fait que ces concepts font partie intégrante de la représentation interne du monde que contient le modèle, et de la façon dont il utilise ces représentations dans la construction d’ une réponse.

Lien avec la sécurité et l’ alignement des modèles

Ces recherches visent à rendre les modèles sûrs au sens large. Il est donc particulièrement intéressant de constater que les chercheurs d’ Anthropic ont trouvé des caractéristiques correspondant à des concepts sensibles comme :

  • la notion de courriel de « spam »;
  • des capacités au potentiel néfaste : hacking informatique, développement d’ armes biologiques;
  • différentes formes de biais et de discrimination;
  • des notions de comportements problématiques par l’ IA : recherche de puissance, manipulation, dissimulation, hypocrisie.
Figure 7 : Exemples de concepts « sensibles » identifiés (source : Anthropic)

En manipulant adroitement ces concepts, il devrait donc être possible de modifier le comportement du modèle dans le sens souhaité.

Les chercheurs d’ Anthropic espèrent que ces découvertes permettront de rendre les modèles plus sûrs. Par exemple, afin de détecter certains comportements dangereux (comme tromper l’utilisateur), de les orienter vers des résultats souhaitables (débiaisage) ou d’éliminer complètement certains sujets dangereux (armes biologiques, hacking..).

Pour conclure

Nous venons de voir comment il est possible d’ isoler et d’ interpréter les composants d’ un modèle de langage lorsqu’ ils sont activés par une question de l’ utilisateur. Ces recherches ont été effectuées par Anthropic en 2024.

Reste à voir comment ces concepts s’ organisent ensemble pour créer une pensée et une réponse cohérentes de la part du modèle. Anthropic a continué ses recherches et vient de publier le résultat de nouvelles recherches à ce sujet.

C’ est ce que je vous propose d’ analyser dans mon prochain article, parce que cet article est déjà largement assez long comme cela !

Sources et références

Quelques nouvelles et un point sur les modèles de langage en mai 2025

Et voilà, j’ ai décidé de joindre le geste à la parole dans le cadre de la résilience digitale. J’ ai transféré le nom de domaine et l’ hébergement du blog vers l’ Union Européenne. Le blog se trouve maintenant à l’ adresse https://artificiellementintelligent.eu qui est hébergé par la société française OVH, un des leaders européens dans le domaine et offre des hébergements WordPress compétitifs. L’ancien site reste provisoirement accessible sur https://artificiellementintelligent.wordpress.com.

Ce message est donc le premier que vous recevez depuis la nouvelle mouture du blog, ce qui explique aussi la modification du format des emails de notification car j’ai dû adapter la configuration et les plug-ins de WordPress chemin faisant.

Ces préliminaires étant dits, je vais faire un rapide point sur la situation actuelle des modèles de langage. Les modèles de langage actuels peuvent grosso modo se regrouper en trois grandes catégories :

  1. les modèles généralistes : ces modèles sont focalisés sur la conversation et le dialogue. Ils puisent dans leurs vastes connaissances, recherchent des informations et répondent de manière interactive aux questions variées de l’ utilisateur. Souvent multimodaux, ils peuvent aussi interpréter des images, de l’ audio voire de la vidéo et sont parfois capables de générer nativement des images. Ils sont habituellement accessibles via des interfaces web ou des applications mobiles conversationnelles;
  2. les modèles de codage : ces modèles excellent dans l’ analyse et la génération de programmes informatiques. Ils sont typiquement exploités via des environnements de développement comme VSCode qui utilisent l’ interface de programmation pour accéder au modèle. Ces modèles sont en général capables d’ interpréter les images (diagrammes, interface utilisateur…) et se caractérisent par des fenêtres de contexte de grande taille, vu la taille souvent importante des codes source;
  3. les modèles raisonneurs : ces modèles sont entraînés à construire des chaînes de raisonnement logiques. Ils sont à la base des applications comme « Deep Research » qui permettent d’ analyser un sujet de manière approfondie et de rédiger un rapport détaillé. La tendance actuelle est de leur adjoindre différents outils accessibles en cours de raisonnement afin qu’ ils puissent tester leurs hypothèses et continuer à raisonner sur les résultats intermédiaires obtenus. C’ est la voie vers les fameux « agents » dont on entend beaucoup parler et qui devraient enregistrer des progrès importants cette année.

Sur base de cette classification simple, voici les modèles « phare » actuellement mis à disposition par les principaux acteurs :

Modèle généraliste multimodalModèle de codageModèle raisonneur
OpenAIChatGPT-4oGPT-4.1o3
GoogleGemini 2.5 ProGemini 2.5 ProGemini 2.5 Pro Deep Think
AnthropicClaude 3.7 SonnetClaude 3.7 SonnetClaude 3.7 Sonnet Extended Thinking mode
MetaLlama 4 MaverickCode Llama 4 (pas encore disponible)Llama 4 Behemoth
(pas encore disponible)
MistralPixtral LargeCodestralMistral Large
Figure 1 : Modèles « Haut de gamme » des principaux acteurs, par type d’ utilisation

Il est aussi intéressant de connaître les modalités supportées par les modèles généralistes :

Modalités d’ entréeModalités de sortie
ChatGPT-4otexte, audio, images, vidéotexte, audio, images
Gemini 2.5 Protexte, audio, images, vidéotexte
Claude 3.7 Sonnettexte, imagestexte
Llama 4 Mavericktexte, images, vidéo(?)texte
Pixtral Largetexte, imagestexte
Figure 2 : Modalités natives des modèles généralistes

OpenAI offre une palette différenciée de modèles; l’ objectif est de combiner l’ ensemble des capacités en un modèle unique à l’ architecture entièrement nouvelle (le fameux GPT-5), probablement vers la fin de l’ année 2025. Le modèle ChatGPT-4o présente la plus modalité la plus riche de tous les modèles du marché : il est capable d’ analyser, texte, image, audio et même vidéo et de générer nativement du texte et des images !

Notons qu’ OpenAI a décidé de retirer son modèle ChatGPT-4.5, trop coûteux à l’ exploitation pour se focaliser sur ChatGPT-4o pour les interactions conversationnelles et GPT-4.1 pour le codage.

Google est très bien placé avec Gemini 2.5 Pro qui intègre l’ ensemble des capacités dans un seul modèle : conversation, multimodalité (certes moins complète que ChatGPT-4o), génération et exécution de code et raisonnement. Il me semble que Google, qui a longtemps joué en seconde voire en troisième position, semble bien positionné pour reprendre la tête du peloton.

Les modèles d’ Anthropic sont très réputés pour leurs excellentes performances en codage. Anthropic cherche maintenant à renforcer sa position sur ce créneau en se concentrant sur les chaînes de raisonnement complexes avec appel d’ outils intégrés, y compris les environnements d’ exécution de programmes. Leur protocole standardisé MCP (Model Context Protocol), qui permet à un modèle de langage d’accéder à différents outils, s’ inscrit dans cette optique. Par contre, Anthropic accorde moins d’ importance à la multimodalité -moins utile pour la programmation- et leurs modèles ne peuvent générer que du texte et du code.

Enfin, Meta se caractérise par la disponibilité de leurs modèles en format open-weights, ce qui veut dire qu’ils sont utilisables localement. Ceci offre de grands avantages en termes de sécurité et de confidentialité à condition de disposer de machines suffisamment puissantes pour exécuter les modèles. Meta n’ offre pas encore de modèle raisonneur, ce dernier (appelé Behemoth) devrait cependant bientôt être annoncé.

Tous les modèles mentionnés sont de très bon niveau. Pour le travailleur intellectuel « col blanc » typique, la meilleure chose à faire est d’ essayer rapidement les différents modèles pour choisir celui qui vous convient le mieux, et ensuite de vous y tenir et de l’ utiliser chaque fois que vous vous posez une question ou recherchez des informations. C’ est comme cela que vous comprendrez progressivement comment intégrer ces modèles dans votre vie quotidienne et en tirer le meilleur parti.

OpenRouter, le point d’ entrée vers les modèles de langage

Cela fait quelque temps que j’ ai découvert le site OpenRouter que je trouve extrêmement utile : il permet d’ accéder à la quasi-totalité des modèles de langage accessibles sur le marché de manière simple et conviviale.

Le site offre une interface d’ accès unifiée vers plus de 300 modèles de langage. Les modèles « dernier cri » des principaux fournisseurs sont disponibles, comme Mistral 2 Large, GPT-4.1, Claude 3.7 Sonnet, Meta Llama 4 etc…

Vous ne devrez donc plus souscrire à des abonnements séparés pour chaque fournisseur, ni pour l’ accès web ni pour l’ accès par interface de programmation (API). Autre avantage, le coût d’ utilisation est calculé par token ce qui est en général beaucoup plus intéressant que l’ approche forfaitaire des abonnements type ChatGPT+ ou Google One AI Premium.

C’ est parti pour un tour d’ horizon d’ OpenRouter.

1. Prise en main et interface conversationnelle

L’ écran d’ accueil d’ OpenRouter présente les étapes à suivre pour commencer à utiliser la plateforme : il est d’abord nécessaire de s’ inscrire et d’ acheter des crédits. Vous avez également la possibilité de générer une clé d’ accès API si vous souhaitez interagir avec les modèles via des programmes, mais cette étape est facultative.

Figure 1 : Écran d’ accueil d’ OpenRouter

Les modèles sont accessibles de deux manières : via une interface web conversationnelle, similaire à celle de ChatGPT, et via une interface de programmation (API). Cette API est unifiée pour tous les modèles, ce qui simplifie grandement le travail des développeurs.

L’ interface conversationnelle est classique et permet de sélectionner le modèle à utiliser en haut de l’ écran. Chaque nouveau dialogue est considéré comme une room (salle) associée à un ou plusieurs modèles de langage.

Si plusieurs modèles de langage sont sélectionnés, l’ interface soumettra la même question à tous les modèles activés simultanément. Cela permet de comparer les réponses des différents modèles, mais augmente également le coût.

Il est également possible de désactiver certains modèles sélectionnés. Par exemple, dans l’ image ci-dessous, trois modèles sont sélectionnés, mais Claude 3.7 Sonnet est désactivé. L’ interface répond donc simultanément à mon prompt avec OpenAI ChatGPT 4.1 et Google Gemini 2.5 Pro Preview.

Figure 2 : Interface conversationnelle OpenRouter

L’ interface conversationnelle permet de joindre des résultats de recherche web (Web Search) et des fichiers, y compris des images à analyser. Par contre il n’ est actuellement pas possible de générer des images avec les modèles disponibles sur OpenRouter. Le site se concentre sur les interactions textuelles.

2. Choix des modèles et fournisseurs d’ infrastructure

OpenRouter permet de choisir non seulement les modèles, mais aussi les fournisseurs d’ infrastructure chez lesquels les modèles sont exécutés. La transparence sur les fournisseurs d’ infrastructure est très importante car ceux-ci ont des politiques de modération et de réutilisation des données, des performances techniques et des prix différents.

La figure 3 montre la liste des fournisseurs d’ infrastructure pour le modèle Meta Llama 4 Maverick. On peut voir que le modèle est disponible chez plusieurs fournisseurs :

Figure 3 : Liste des fournisseurs pour Meta Llama 4 Maverick

Passons rapidement en revnue les différentes informations listées pour chaque fournisseur. Les icônes sur la gauche indiquent :

  • l’ identification du modèle auprès du fournisseur;
  • le pays dans lequel se situe le fourniseseur ;
  • la précision des paramètres du modèle. Certains fournisseurs choisissent en effet de recourir à des versions comprimées des modèles pour réduire les coûts de calcul, au prix de résultats moins précis ;
  • la politique de réutilisation ou non de vos dialogues pour améliorer le modèle. De nombreux fournisseurs choisissent de ne pas réutiliser les données pour des raisons de confidentialité ;
  • la politique de modération des dialogues par fournisseur. Certains fournisseurs choisissent de ne pas modérer les dialogues pour des raisons de liberté d’ expression ;
  • si le fournisseur permet l’ interruption d’ un dialogue en cours de génération, ce qui peut permettre de limiter le coût de calcul en cas de dialogue trop long ou partant dans une mauvaise direction ;
  • si OpenRouter vous permet d’ enregistrer vos clés API obtenues auprès du fournisseur, auquel cas vous payez directement le fournisseur et OpenRouter ne vous facture rien.

Ensuite, les colonnes de chiffres sur la droite fournissent les informations suivantes :

  1. la longueur maximale de la fenêtre de contexte, en tokens. Celle-ci comprend à la fois la question et la réponse. La taille de la fenêtre de contexte dépendant du modèle, elle sera en principe la même pour tous les fournisseurs d’ infrastructure;
  2. le nombre maximum de tokens générés par le modèle lors d’ une réponse;
  3. le coût par million de tokens en entrée (dans votre question);
  4. le coût par million de tokens générés en réponse par le modèle;
  5. la latence, soit le délai moyen d’ attente en secondes entre l’ envoi de la question et la réception du premier token de la réponse;
  6. le débit, soit le nombre moyen de tokens reçus en réponse par seconde;
  7. le taux de disponibilité, soit le pourcentage de temps où le modèle est disponible selon les mesures d’ OpenRouter.

L’ algorithme utilisé par OpenRouter pour déterminer le fournisseur pour un modèle donné est de prioritiser le fournisseur le moins cher parmi ceux offrant la meilleure disponibilité. Si un fournisseur est indisponible, OpenRouter choisira le fournisseur suivant dans l’ ordre déterminé par l’ algorithme.

A noter qu’il est possible de modifier cet ordre en choisissant d’ autres critères de prioritisation, comme la latence ou le débit. Remarque importante, il est également possible d’ exclure de la liste les fournisseurs qui réutilisent vos données à des fins d’ entraînement.

Si la notion de token n’est pas claire pour vous, vous pouvez consulter mon article sur le sujet.

3. Modalités de paiement

OpenRouter est un intermédiaire entre vous et les fournisseurs de modèles et il est donc normal qu’ il soit rémunéré via un système de commission. Celle-ci est prélevée à chaque fois que vous ajoutez des crédits à votre compte. Par contre il n’ y a pas de commission prélevée sur chaque token que vous consommez : OpenRouter applique de manière transparente le prix chargé par le fournisseur d’ infrastructure.

Il est possible de voir sa consommation de tokens et de crédits de manière assez facile sur le site d’ OpenRouter :

Figure 4 : Aperçu de l’ activité et des frais occasionnés par l’ utilisateur

Pour être complet, certains modèles sont offerts gratuitement par OpenRouter : il s’agit des modèles « open-weights » comme Mistral Small 3.1 24B ou DeepSeek R1 Zero. Afin d’ éviter les abus, ces modèles sont limités en nombre de requêtes par jour.

4. Accès API pour les programmeurs

Je clôture par un dernier mot à l’ intention des programmeurs pour lesquels OpenRouter offre trois avantages :

Tout d’ abord, une interface API unifiée qui permet d’ accéder à l’ ensemble des 300 modèles disponibles sur la plateforme. Cela permet de simplifier le développement d’ applications qui utilisent des modèles de langage. L’ API est compatible avec l’ API d’ OpenAI.

Ensuite, OpenRouter propose un système de redondance qui permet de gérer l’ indisponibilité d’ un fournisseur de manière transparente. Si une requête échoue, OpenRouter peut automatiquement essayer une autre requête avec un autre modèle ou un autre fournisseur. Ceci est très pratique pour les applications qui demandent une haute disponibilité : si un modèle ou un fournisseur est indisponible, l’ application peut continuer à fonctionner sans interruption (pour autant qu’ OpenRouter ne soit pas lui-même en panne). Le prix à payer pour cette redondance est une légère augmentation du coût et du délai puisque la requête doit d’ abord être envoyée à OpenRouter ce qui ajoute environ 30ms de temps de réponse.

Enfin, l’ ensemble des frais est centralisé auprès d’ un seul fournisseur quels que soient les modèles utilisés, ce qui permet de simplifier la gestion des coûts.

Voilà, je pense avoir expliqué les grandes lignes de OpenRouter. Bonnes conversations !

La résilience numérique (suite) : tour d’ horizon des applications en ligne européennes

Avec le lancement de la guerre commerciale tous azimuths par les Etats-Unis le mercredi 2 avril, je me suis dit qu’ il est plus que jamais opportun et urgent de se renseigner sur les alternatives digitales européennes disponibles. Cet article fait donc suite à mon billet précédent et va plus loin dans le détails de l’ offre européenne pour les applications numériques de la vie quotidienne.

Voyons donc quelles sont les possibilités européennes en termes de

  • suites bureautiques intégrées;
  • applications de prise de notes;
  • applications de visioconférence et de messagerie instantanée;
  • applications de navigation et de cartographie;
  • applications de streaming auido et vidéo;
  • engins de recherche et navigateurs .

1. Suites bureautiques intégrées et partage de documents

Commençons par les alternatives européennes aux suites applicatives intégrées comme Google Workspace et Microsoft365.

Nextcloud est une plateforme de collaboration open-source assez complète qui permet aux utilisateurs de stocker, partager et synchroniser des fichiers. Nextcloud comprend également des applications de chat et de vidéoconférence ainsi qu’ une suite bureautique appelée Nextcloud Office qui permet de créer et d’ éditer des documents, feuilles de calcul et présentations. Son module Nextcloud Groupware offre également des fonctionnalités d’ email, de calendrier, de contacts et de gestion de tâches.

Proton Suite est une collection d’outils développés Proton Technologies, une entreprise suisse. Elle comprend principalement :

  • ProtonMail, un service de messagerie sécurisé;
  • ProtonVPN, un réseau privé virtuel;
  • Proton Calendar, un service de calendrier;
  • Proton Drive, un espace de stockage virtuel pouvant être synchronisé à vos données locales;
  • Proton Docs, un éditeur de documents comparable à Google docs;
  • Proton Pass, un gestionnaire de mots de passe.

Proton Suite se distingue par son engagement envers la confidentialité et la sécurité des données, ce qui en fait une alternative attrayante pour ceux qui recherchent des solutions respectueuses de la vie privée.

Illustration 1 : Capture d’ écran de Proton docs

Cryptpad est une suite en ligne développée par la société française XWiki. Elle permet le partage de fichiers et propose une suite d’ outils bureautiques assez complète comprenant le traitement de texte, les feuilles de calcul, les présentations et les kanbans, tous chiffrés de bout en bout.

Parmi les alternatives mentionnées, Nextcloud est la solution la plus complète et la plus largement adoptée dans l’ UE, en particulier par les secteurs de l’ éducation, des soins de santé et les pouvoirs publics.

Par contre Nextcloud me semble fort complexe pour une installation dans un cadre privé.

Proton Suite me semble plus adaptée à une utilisation privée. Elle pourra être complétée par des applications open-source comme LibreOffice pour les traitements de texte, feuilles de calcul et présentations, ou d’ autres applications reprises ci-dessous pour la vidéoconférence ou les messageries instantanées.

2. Applications de prise de notes et services de traduction

J’ utilise beaucoup Notion pour prendre des notes tandis que d’ autres ne jurent que par Evernotes ou Microsoft OneNote . Mais toutes ces applications sont américaines. StandardNotes est une alternative suisse, au design minimaliste et encryptée de bout en bout. Standardnotes est accessible ici.

Pour les traductions, Deepl est un service de traduction automatique développé par une entreprise allemande. Il est disponible en version gratuite et payante. Il est très performant et je l’ utilise régulièrement. Il remplacera avantageusement Google Translate.

3. Services de visioconférence et messageries instantanées

Jitsi est une collection d’applications open-source multiplateformes pour la voix (VoIP), la visioconférence et la messagerie instantanée. Plus spécifiquement, Jitsi propose Jitsi Meet, une application complète de visioconférence. Jitsi est soutenu par diverses institutions, dont l’ Université de Strasbourg, et la Commission européenne.

Whereby est une plateforme de visioconférence sur le web qui se distingue par sa simplicité d’ utilisation, ne nécessitant aucun téléchargement ni inscription pour les invités. La plateforme offre des fonctionnalités telles que le chat intégré, le mode audio uniquement, et des conversations sécurisées sans stockage ni analyse des données audio et vidéo.

En ce qui concerne les messageries instantanées européennes, j’ avais déjà cité Threema et Element dans mon précédent article.

J’ en profite pour compléter le tableau avec l’ application française Olvid, qui est une messagerie instantanée chiffrée et sécurisée. Elle est considérée par l’ Agence Nationale de la Sécurité des Systèmes d’ Information (ANSSI) comme techniquement supérieure à Whatsapp, Signal et Telegram. Olvid ne demande aucune information personnelle comme numéro de téléphone ou adresse mail pour fonctionner. Elle est notamment utilisée par le gouvernement français.

Illustration 2 : Interface utilisateur Olvid

Une autre possibilité est l’ application Wire qui est une messagerie instantanée, chiffrée et sécurisée. Wire est développée par l’ entreprise suisse Wire Swiss GmbH qui compte dans son personnel de nombreux anciens employés de Skype. Elle est disponible gratuitement pour les utilisateurs privés.

4. Applications de navigation et de cartographie

L’ application web allemande HereWeGo offre des services comparables à Google Maps.

Illustration 3 : Recherche d’ itinéraires avec HereWeGo

Pour la navigation embarquée type Waze, vous pouvez vous tourner vers les apps Osmand, MagicEarth et OrganicMaps. Osmand possède aussi une interface Web similaire à Google Maps accessible ici. Osmand est estonien et MagicEarth est néerlandais.

5. Applications de streaming audio et vidéo

Le streaming audio est un domaine dans lequel la plupart des leaders du marché sont européens : Spotify est suédois, Deezer est français et SoundCloud, une plateforme s’ adressant aux artistes indépendants est allemande.

C’est le tout le contraire dans le domaine du streaming vidéo : Netflix, Amazon Prime Video et Disney+ sont tous américains. Ces géants n’ ont pas à ma connaissance d’ équivalent européen à ce jour. Une solution est de se retourner vers des acteurs traditionnels de la télévision payante comme Canal+ qui offre un service de streaming appelé myCANAL. Cependant ce type d’ offre reste plus axé sur le marché francophone et européen, avec un accent sur le contenu local et les partenariats avec les studios de cinéma.

Youtube est bien entendu américain, mais il existe une alternative française : Dailymotion, actuellement détenue par le groupe Canal+. Deuxième plus grande plateforme de partage de vidéos après YouTube avec environ 112 millions de visiteurs mensuels, Dailymotion permet aux utilisateurs de télécharger et de regarder des vidéos, avec une limite de 60 minutes par vidéo. Dailymotion est gratuit et se finance par la publicité, comme YouTube.

Illustration 4 : Interface utilisateur Dailymotion

6. Engins de recherche et navigateurs web

Plusieurs engins de recherche européens sont accessibles comme Mojeek, Qwant, Metacrawler et Ecosia.

Ecosia est un moteur de recherche qui plante des arbres avec les profits générés par ses activités.

Qwant et Mojeek sont des moteurs de recherche qui ne tracent pas les utilisateurs. En d’ autres terme, la même recherche donnera les mêmes résultats pour tous les utilisateurs ayant les mêmes paramètres de recherche (notamment le pays d’ origine et la langue).

Enfin, Metacrawler est un moteur de recherche qui utilise plusieurs moteurs de recherche pour donner les résultats.

Concernant les navigateurs web, Vivaldi est développé par la société Vivaldi Technologies, basée en Norvège. Il est connu pour ses nombreuses fonctionnalités intégrées, telles que les onglets empilés, les notes et les captures d’écran. Vivaldi met l’accent sur la confidentialité et le contrôle utilisateur, offrant une alternative aux navigateurs plus traditionnels.

LibreWolf est un navigateur web développé par une communauté internationale mais principalement soutenue par des contributeurs européens. Il est basé sur Mozilla Firefox mais supprime tous les éléments de télémesure et de suivi, offrant ainsi une expérience de navigation plus sécurisée et respectueuse de la vie privée.

Waterfox est un navigateur développé par System1, une société basée au Royaume-Uni. Il est également dérivé de Mozilla Firefox et conçu pour être rapide et respectueux de la vie privée, avec un accent sur la compatibilité des extensions et la performance. Waterfox est une alternative intéressante pour les utilisateurs qui recherchent un navigateur performant sans compromettre leur confidentialité.

La résilience numérique : comment s’ affranchir de notre dépendance digitale

Cela fait quelque temps que je n’ai pas écrit de billet. Le flux incessant d’ informations inquiétantes en provenance de l’ autre côté de l’ Atlantique m’ a un peu déboussolé. Je me suis donc dit que j’ allais essayer de me ressaisir en écrivant un article sur un sujet de circonstance : la résilience numérique.

Il semble que nous nous acheminons vers une guerre commerciale entre les Etats-Unis et l’ Union Européenne. Or, les flux de services digitaux entre les USA et l’ Europe représentant une part importante de ces volumes d’ échange, on ne peut exclure que ces derniers se retrouvent pris en otage si la guerre commerciale entre les deux blocs venait à dégénérer. Notre dépendance aux infrastructures digitales et aux services en ligne américains est indéniable: la majorité des infrastructures digitales et des services en ligne utilisés en Europe sont hébergés aux États-Unis. Cela inclut les services de messagerie, les réseaux sociaux, le cloud computing, les paiements en ligne, etc…

Le scénario du pire serait une interruption du trafic digital transatlantique et/ou une suspension des services pour les clients européens, décidée par les autorités américaines et imposée à leurs entreprises privées. L’ interruption de la fourniture d’images satellites par la société américaine MAXAR à l’ Ukraine, sur décision de l’ administration américaine, préfigure ce qui pourrait se produire à plus grande échelle à l’ avenir.

Face à ces risques, la résilience numérique désigne notre capacité à continuer à fonctionner et vivre dans le monde digital malgré des perturbations des infrastructures qui sous-tendent ces services.

A quels risques sommes-nous exposés ?

Ils sont principalement de deux types.

Premièrement, une interruption des flux de données entre Europe et USA signifierait l’ inaccessibilité des données dans les datacenters américains ainsi que des services en ligne directement fournis par ces derniers. Sites web, réseaux sociaux et applications de type Software-as-a-Service seraient alors directement impactés.

Deuxième risque, une interruption de type contractuel : suspension des contrats de maintenance et de mise à jour des logiciels made in USA voire interruption des licenses. Dans ce cas ce sont les logiciels installés localement qui risquent d’être impactés , soit totalement (interruption ou non-renouvellement de licenses), soit par une lente dégradation de leurs fonctionnalités et de leur sécurité (suspension des maintenances et mises à jour).

Le matériel physique est le moins impacté : une fois que vous le possédez il sera difficile de l’ empêcher de continuer à fonctionner, mais la dépendance au matériel se fait indirectement via le système d’ exploitation et les systèmes de sauvegarde dans le cloud.

Voyons donc comment améliorer notre résilience numérique face à ces risques.

Que pouvons-vous faire ?

La réponse est simple en théorie : migrer autant que possible vers des services offerts par des entreprises européennes et hébergés dans l’ Union Européenne. En pratique, c’est nettement plus compliqué. Il faut distinguer ce qui est nécessaire de ce qui n’ est que confort et fixer ses priorités. L’ indisponibilité d’ un réseau social n’ est souvent qu’ un désagrément là où l’ interruption des services de messagerie ou de paiement en ligne posera un problème majeur.

Commençons par l’ hébergement de domaines et de sites si vous en possédez : nom de domaine, serveur DNS, hébergement des pages web et d’ adresses mail devraient être migrés vers des fournisseurs de service cloud européens comme Combell et Easyhost en Belgique, OVHcloud en France ou encore Hetzner en Allemagne.

Une difficulté particulière se pose avec les adresses mail de type hotmail ou gmail qui ne peuvent être transférées telles quelles. Il faut alors créer de nouvelles adresses mail et les utiliser pour les échanges, ce qui demande de prévenir les contacts et de les informer de la nouvelle adresse. De plus, les comptes gmail sont aussi souvent utilisés pour l’ authentification sur d’ autres sites, il faudra donc s’ assurer que vous possédez des systèmes d’ authentification alternatifs pour ces sites.

Passons à un sujet qui me tient à coeur : l’ accès aux modèles de langage comme ChatGPT ou Claude. Ceci est facile à transférer, car une alternative française de qualité existe : Mistral. J’ ai résilié mon abonnement à ChatGPT Plus pour en prendre un abonnement Mistral Pro pour un prix d’ ailleurs un peu inférieur (15 euros au lieu de 20 USD). Pour ceux qui utilisent les interfaces de programmation (API), le basculement est lui aussi assez simple.

Autre point à prendre en considération pour la résilience : les applications en ligne accessible via le Web. Difficile de toutes les citer tant elles sont nombreuses mais je vous conseille de réfléchir à celles dont la perte aurait des conséquences significatives pour vous. Je pense notamment aux applications de paiement en ligne comme Paypal, de stockage de documents comme Google Drive ou Dropbox, logistiques comme Amazon ou de transport comme Uber. Il est probablement excessif de les remplacer d’ emblée mais identifer à l’ avance des alternatives européennes -quand elles existent- n’ est pas une mauvaise idée.

Les services de messagerie instantanée sont un autre point d’ intérêt. WhatsApp, Snapchat et Facebook Messenger sont américains, Telegram est russe, Signal est américain mais hébergé en Suisse. Viber est israélien et WeChat chinois. En fin de compte, il ne reste qu’ Element et Threema qui sont européens mais pas encore très utilisés… Element est un service de messagerie instantanée basé sur le protocole Matrix qui est un standard ouvert. Threema est un service de messagerie instantanée qui est basé sur le protocole Signal mais qui est européen. Je me suis inscrit sur Element et j’ ai commencé à l’ utiliser, tout en continuant à utiliser principaleent Whatsapp. Mais je puis basculer rapidement si nécessaire.

Passons au plat de résistance : les sytèmes d’ exploitation des ordinateurs et les sauvegardes de données dans le cloud. Microsoft et Apple étant américains, non seulement il existe un risque d’ interruption des licenses mais les sauvegardes de données dans le cloud (iCloud pour Apple et OneDrive pour Microsoft) sont hébergées aux États-Unis et donc à risque elles aussi. La seule alternative réaliste est d’ utiliser Linux mais ce dernier s’ adresse plutôt aux utilisateurs expérimentés et il faudra le coupler à un service de sauvegarde de fichiers dans le cloud comme pCloud (Suisse) ou faire des copies de sauvegarde locales.

La situation pour les solutions de bureautique est plus facile. LibreOffice qui est open-source offre une alternative résiliente à Google Cloud et Microsoft Office 365. LibreOffice offre aujourd’ hui une assez bonne compatibilité des formats de fichiers malgré une interface qui reste un peu plus rustique que celle de Microsoft Office.

Terminons par les smartphones où l’ européanisation relève encore de la gageure. La seule possibilité est de choisir un système d’ exploitation open-source comme LineageOS ou GrapheneOS, tous deux dérivés d’ Android, ou Ubuntu Touch, dérivé de Linux. Mais la compatibilité avec les applications Android restera limitée. Il faudra ensuite trouver un fabricant proposant un smartphone supportant ces systèmes d’exploitation, comme OnePlus, PinePhone ou un Pixel de Google.

Plus généralement, le site goeuropean.org permet de lister des alternatives européennes pour une large gamme de produits et services. La figure ci-dessous montre une liste de fournisseurs européens pour les principaux services digitaux :

Figure 1 : Liste des principales alternatives digitales européennes (source : buy-european-made.org)

Autres élements à prendre en compte

Ces mesures de résilience digitale complètent les recommandations générales des pouvoirs publics en matière de résilience pour les autres besoins de base tels que la nourriture, l’eau potable, l’argent liquide… L’objectif est d’atteindre une autonomie suffisante, permettant aux citoyens de subsister en cas d’interruption temporaire des services essentiels, par exemple lors d’une cyberattaque grave. Voous trouverez ici un article présentant la situation actuelle du plan de résilience pour la population belge.

Un autre élément à prendre en compte est l’ alimentation électrique. En effet, la résilience digitale implique aussi que vous disposiez d’ une alimentation électrique pour faire fonctionner votre matériel informatique et recharger vos smartphones.

Pour cela, vous pouvez envisager une solution de stockage d’ énergie dans une batterie qui peut être alimentée par différentes sources comme des panneaux solaires déployables en cas de besoin (sur votre terrasse ou dans votre jardin par exemple). Je vous conseille par exemple de jeter un oeil sur les produits de la société Bluetti ici.

Conclusions

Si ce qui précède peut sembler excessivement pessimiste, je pense néanmoins que chaque entreprise et chaque individu devrait se poser la question de sa propre résilience numérique et de la manière dont il peut la renforcer.

Pour les entreprises, il est temps d’ inclure ce type de scénario dans les exercices de gestion des risques.

Troublé par les derniers événements, j’ ai commencé à mettre en place mon propre plan de résilience numérique et je me suis rendu compte de la complexité de l’ exercice. C’est pourquoi j’ ai tenu à rédiger cet article à des fins de sensibilisation.

Je vous encourage à y réfléchir. Un homme averti en vaut deux.

« Older posts