Rendre l' IA accessible à tous

Étiquette : ai

La mission Genesis

Le 24 novembre 2025, le président des États-Unis signe un décret historique: le lancement officiel de la Mission Genesis, une initiative de grande envergure destinée à fusionner données publiques, super-ordinateurs, laboratoires nationaux et intelligence artificielle.

La mission sera conduite par l’ U.S. Department of Energy (DoE), à travers ses 17 laboratoires nationaux, en collaboration avec universités, entreprises technologiques et centres de recherche. Elle s’appuiera sur l’expertise des quelque 40 000 scientifiques, ingénieurs et techniciens du DoE, ainsi que sur celle des acteurs secteur privé.

L’ initiative a pour objectif d’ ouvrir une nouvelle ère d’ innovation et de découvertes accélérées par l’IA, capables de répondre aux défis les plus complexes de notre époque. Elle se concentrera sur des défis majeurs comme la fusion nucléaire, les réacteurs nucléaires avancés, la modernisation du réseau électrique, les nouveaux matériaux, l’ informatique quantique et la mise au point de nouveaux médicaments.

Figure 1 : Pictogramme de la Mission Genesis

Contenu du projet Genesis

L’ idée est de bâtir une plateforme intégrée qui permettra d’ entraîner des modèles IA scientifiques avancés menant à des agents chercheurs autonomes fonctionnant en boucle fermée. Ceux-ci pourront à la fois contenir des modèles génératifs, pour échafauder des hypothèses créatives, mais aussi des modèles prédictifs afin d’ orienter et de valider les intuitions du modèle génératif.

Le processus scientifique décrit dans la feuille de route du DOE relève presque de la science-fiction :

  • La conception par l’ IA : elle examine les données et émet l’hypothèse suivante : « Si nous mélangeons ces alliages à 4 000 degrés, nous obtenons un supraconducteur. »;
  • L’ IA définit ensuite un protocole de validation expérimental et l’ envoie à un laboratoire lui aussi robotisé (que le DoE est en train de construire) pour réaliser le mélange et tester ses propriétés;
  • Le robot renvoie instantanément les résultats. En cas d’échec, l’ IA modifie la formule;

Ce cycle se répète des milliers de fois par jour, 24 heures sur 24, 7 jours sur 7. Pas de sommeil. Pas de demande de subvention.

Le projet se caractérise aussi par des délais ambitieux, qui attestent de son importance pour l’ administration américaine :

  • 60 jours pour identifier 20 défis hautement prioritaires à relever;
  • 90 jours pour répertorier toutes les ressources informatiques à sa disposition;
  • 120 jours pour établir un plan visant à exploiter les données provenant à la fois de sources fédérales et d’autres instituts de recherche;
  • 270 jours pour démontrer que son plan peut permettre de progresser sur au moins l’ un des défis identifiés.

Réflexions

Que l’ on ne s’ y trompe pas, il s’ agit d’ une initiative majeure. Lors d’une conférence de presse, Michael Kratsios, conseiller scientifique du président Trump, a qualifié la mission Genesis de « plus grande mobilisation de ressources scientifiques fédérales depuis le programme Apollo ».

Un des objectifs centraux de cette mission est de doubler la productivité et l’ impact de la recherche et de l’ innovation américaines en l’ espace d’ une décennie en assistant les effectifs scientifiques avec de l’ IA plutôt qu’en les remplaçant. Ce n’est pas rien.

De plus, les laboratoires du Department of Energy disposent des supercalculateurs les plus rapides et d’ une expérience dans la conduite de recherches contrôlées à haut risque, essentielle pour l’ expérimentation dans certains domaines.

Les géants de l’ IA américaine (Google, OpenAI, Anthropic, Nvidia etc..) sont aussi cités comme participants et devraient obtenir l’ accès à des pétaoctets de données expérimentales exclusives qui ont été conservées dans des installations gouvernementales sécurisées pendant des décennies.

Toutes ces données, jusqu’ ici cloisonnées au sein des archives scientifiques du NIH, du DOE, de la NASA, de la NOAA, de la DARPA, de la NSF, du CDC, de la FDA, de l’USDA, du Bureau du recensement et des services de renseignement seront regroupées dans un ensemble unifié.

Ceci ne signifie cependant pas que les géants de la tech sont au centre de cette initiative; ils interviendront plutôt en tant qu’ experts et conseillers, mais bénéficieront de ses retombées.

Les capacités des modèles feront un bond en avant, car ces données contiennent précisément le type d’ informations à haut signal, structurées et à long terme dont les modèles de pointe ont besoin pour leur entraînement.

Sources et références

Que font vraiment 700 millions de personnes avec ChatGPT ? Première étude détaillée

Imaginez un outil qui, en moins de trois ans, devient une habitude hebdomadaire pour plus de 700 millions d’ utilisateurs, soit environ 10% de la population adulte du monde.

Cet outil, c’ est bien sûr ChatGPT, qui répondait en moyenne à 2,5 millards de questions par jour en juin 2025 (soit environ 29.000 par seconde!). Mais que demandent les utilisateurs ? A quelles fins utilisent-ils des modèles de langage ?

OpenAI et le National Bureau of Economic Research (NBER) ont rédigé la première étude statistique détaillée d’utilisation du modèle de langage le plus populaire : ChatGPT. Ce sont les résultats de cette étude que je voudrais vous présenter dans cet article.

Attention : l’ étude ne porte que sur l’ interface web ChatGPT et ne reprend que les utilisateurs sur les plans « consommateur » (Free, Plus et Pro). Les utilisateurs sur les plans entreprise (Business et Enterprise) ne sont pas repris, ni les accès par API, ce qui a des conséquences pour l’ interprétation des résultats…

1. Profil des utilisateurs et volumes de conversation

Voyons d’ abord le nombre d’ utilisateurs ChatGPT actifs au moins une fois par semaine. Ce nombre passe de 100 millions début 2024 à 400 millions début 2025 pour atteindre en juillet 2025 environ 700 millions d’ utilisateurs soit 10% de la population adulte mondiale; ces chiffres sont cependant un peu surévalués car ils mesurent le nombre de comptes et certains utilisateurs peuvent disposer de plusieurs comptes.

Figure 1 : Nombre de comptes ChatGPT (« Free », »Plus », »Pro ») actifs au moins une fois par semaine (crédit : étude OpenAI/NBER)

Quant au nombre total de messages échangés chaque jour sur ChatGPT, il passe de 451 millions en juin 2024 à environ 2,6 milliards en juin 2025 (en moyennes hebdomadaires) et tout semble indiquer que cette croissance devrait se poursuivre. Pour donner une idée de comparaison, Google a indiqué au mois de mars traiter approximativement 14 milliards de recherches par jour.

Un point intéressant est que la croissance du trafic sur le site de ChatGPT semble provenir essentiellement de l’ arrivée de nouveaux utilisateurs, et non d’ une augmentation de la fréquence d’ utilisation par les utilisateurs plus anciens, qui reste stable.

Quant au profil des utilisateurs, il est clairement orienté vers les jeunes puisque 46% des utilisateurs ayant mentionné leur âge ont entre 18 et 25 ans. Et si 80% des utilisateurs étaient des hommes lors du lancement de ChatGPT fin 2022, la proportion est passée à 52% de femmes aujourd’ hui ce qui est en phase avec la moyenne de la population.

Enfin, une tendance très intéressante est que ChatGPT connaît actuellement une croissance quatre fois supérieure dans les pays à faibles et moyens revenus par rapport aux pays les plus riches. Ceci montre la globalisation rapide de cet outil.

2. Catégories d’ utilisation

L’ étude a analysé de manière détaillée et classé plus d’ un million de conversations provenant de la base globale des utilisateurs de ChatGPT, tout en protégeant l’ anonymité des messages individuels.

Figure 2 : Répartition des conversations par catégorie (crédit : étude OpenAI/NBER)

Les catégories d’ utilisation les plus fréquentes sont :

  • conseils pratiques (28,3%) : instruction et éducation, explications « comment faire? », conseils de beauté, de fitness ou de soins….
  • écriture (28,1%) : il est intéressant ici que les demandes de rédaction directe (8%) sont inférieures aux demandes d’ édition et de revue de textes déjà rédigés (10,6%). La traduction de textes compte pour environ 4,5% des conversations;
  • recherche d’ informations (21,3%) : cette catégorie est en forte croissance, passant de 14% des utilisateurs à 24,4% en un an (le chiffre de 21,3% est une moyenne). Il est intéressant que la tendance des modèles de langage à occasionnellement affabuler ne semble pas rebuter les utilisateurs; il est vrai que les modèles de langage se sont améliorés dans la fourniture de liens vers leurs sources, ce qui permet une vérification de l’ information a posteriori.

Par contre, seuls 1,9% des messages ont trait à des questions relationnelles ou à des réflections personnelles, et 2% à du bavardage et à des salutations(!). Quoi qu’ en disent les médias, un outil comme ChatGPT est utilisé comme un outil et non comme un compagnon ou un confident.

3. L’ utilisation privée avant le travail

Autre point intéressant, les chercheurs ont cherché à distinguer les conversations à caractère professionnel de celles à caractère privé. Et les conclusions sont claires : la proportion des conversations non-professionelles est passée en un an de 53% à 72,2%.

Malgré toutes les déclarations suggérant que les modèles de langage vont révolutionner l’ emploi et le milieu professionnel, une conclusion s’ impose : ChatGPT est principalement un outil utilisé dans la vie privée.

Figure 3 : Proportion de conversations à caractère non-professionnel (crédit : étude OpenAI/NBER)

Ce constat doit être fait avec une réserve : les abonnements « entreprise » ne sont pas repris dans l’ étude et il est probable que leur inclusion augmenterait la part de conversations professionnelles, mais sans toutefois remettre en cause le caractère principalement privé de l’ utilisation.

Les utilisateurs hautement qualifiés et ceux exerçant des professions libérales sont plus susceptibles d’ utiliser ChatGPT dans le cadre de leur travail. Dans le cadre professionnel, les utilisateurs techniques envoient davantage de messages de questionnement et de recherche d’ informations, tandis que les cadres se concentrent sur la rédaction (52 % de leurs messages professionnels).

4. Les absents

L’ étude fait aussi état d’ une utilisation assez faible des capacités de traitement des images offertes par ChatGPT, tant en analyse qu’en génération (environ 6% des requêtes).

De même la programmation est peu présente (4,2% des requêtes), ce qui paraît surprenant. La raison est très probablement l’ exclusion de l’ interface API de l’ étude, alors que les assistants intégrés de programmation type Github Copilot et Cursor recourent systématiquement à l’ accès par l’ API.

5. Remarques finales

Anthropic a publié une étude comparable relative à l’ utilisation de Claude le même jour qu’ OpenAI (le 15 septembre) et les résultats de cette seconde étude sont assez différents !

Le grand avantage de l’ étude d’ Anthropic est qu’ elle couvre aussi les accès API; elle est donc plus complète. Elle est aussi entièrement accessible alors que l’ étude complète d’ OpenAI se trouve sur le site du National Bureau of Economic Research et n’ est pas librement accessible; je confesse que j’ai dû baser cet article sur des sources indirectes….

Je vous présenterai les résultats de l’ étude d’ Anthropic dans le prochain article.

D’ ici là, portez-vous bien et n’ oubliez pas de soumettre toutes vos questions -même les plus insolites- à votre modèle de langage favori.

Sources et références

Dans le cerveau des modèles de langage, deuxième partie : les raisonnements

Nous avons vu dans l’ article précédent comment les chercheurs d’ Anthropic ont réussi à modifier un de leurs modèles de langage pour faire apparaître des concepts interprétables au sein des différentes couches du modèle.

Ces recherches, qui remontent à 2024, constituent une première étape. Mais les chercheurs d’ Anthropic sont allés plus loin et ont cherché à comprendre comment ces concepts se combinent dans un modèle pour échafauder une réponse plausible à la demande de l’ utilisateur.

C’ est ce que je vais tenter de vous expliquer dans cet article, et comme vous le verrez, cela apporte pas mal d’ enseignements très intéressants sur le fonctionnement intime des modèles.

Comment tracer les pensées du modèle ?

Nous avons vu dans l’ article précédent comment les chercheurs avaient réussi à adjoindre une sous-couche « interprétable » à chaque couche du modèle, ce qui permettait d’ identifier et de localiser un ensemble de concepts. Mais ce mécanisme ne permettait pas encore de comprendre comment ces concepts s’ articulent en une réflexion cohérente.

Pour pouvoir tracer les pensées du modèle, les chercheurs ont créé un modèle de substitution plus riche que celui présenté dans l’ article précédent:

  • chaque couche du modèle original est remplacée par une couche interprétable équivalente, appelée couche de transcodage;
  • chaque couche de transcodage agit non seulement sur la prochaine couche du modèle mais aussi les couches suivantes. Ceci permet à une caractéristique interprétable située en amont du modèle d’ agir directement sur une autre caractéristique interprétable située n’ importe où en aval.

Ceci mène au modèle de substitution présenté dans la figure 1.

Figure 1 : Du modèle original au modèle de remplacement

Une fois que ce modèle de remplacement a été correctement entraîné, on va pouvoir lui soumettre un texte d’ entrée et voir quelles sont les caractéristiques interprétables qui sont activées par la question, mais aussi comment ces caractéristiques s’ influencent mutuellement pour aboutir à la formation de la réponse.

En fait le « truc » est toujours le même : on remplace un modèle par un autre qui fait la même chose mais dans lequel on peut mesurer ce qui nous intéresse. Parce que les informaticiens ont un grand avantage sur les biologistes : tous les calculs intermédiaires sont accessibles et tout est mesurable !

Le résultat de ces mesures se présente sous la forme de graphes d’attribution, une représentation graphique des étapes de calcul utilisées par le modèle pour déterminer le texte de sortie pour un texte d’ entrée particulier.

Voici un exemple de graphe d’ attribution simple pour vous donner une idée de ce que cela signifie :

Figure 2 : Un graphe d’ attribution élémentaire (source : Anthropic)

Voyons maintenant quelques découvertes intéressantes que les chercheurs ont faites en analysant les graphes d’ attribution générés pour des textes d’ entrée judicieusement choisis…

Découverte 1 : les modèles ne dévoilent pas toujours leurs pensées

C’ est la première question à se poser : demandez au modèle d’ expliquer chaque étape de son raisonnement (chain of thought prompting). L’ explication fournie correspond-elle systématiquement au raisonnement intérieur du modèle?

Parce que si c’ est le cas, pas besoin de faire toutes ces recherches, il suffit de demander au modèle d’ expliciter son raisonnement. Malheureusement, ce n’ est pas ce que les chercheurs ont découvert.

Prenons un exemple simple de calcul mental. Les chercheurs ont demandé au modèle combien font 36+59. Ils ont découvert que le modèle utilise « en interne » un double chaîne de raisonnement, la première cherchant une réponse approximative et la seconde se limitant à calculer le chiffre des unités; les deux sont ensuite combinés pour estimer une réponse. A noter que c’ est assez proche de ce que nous faisons intuitivement en calcul mental.

Voici le graphe d’ attribution correspondant :

Figure 3 : Graphe d’ attribution pour un calcul élémentaire (source : Anthropic)

Mais quand on demande au modèle d’ expliquer son raisonnement, il explique l’ algorithme standard d’addition écrite avec le report des unités sur les dizaines. Ce qui est un tout autre mécanisme !

Figure 4 : Explication fournie par le modèle (source : Anthropic)

Plus généralement, les chercheurs ont remarqué que le modèle décrit son raisonnement correctement dans certains cas, mais ce n’ est pas systématique.

Par exemple, lorsqu’ on lui demande de calculer le cosinus d’un grand nombre qu’ il ne peut pas calculer facilement, le modèle se livre parfois à ce que les chercheurs appellent du bullshitting (!), c’est-à-dire qu’ il donne une réponse, n’ importe laquelle, sans se soucier de savoir si elle est vraie ou fausse. Même s’ il prétend avoir effectué un calcul, les techniques d’ interprétabilité ne révèlent aucune preuve de l’ existence de ce calcul !

Autre cas intéressant, lorsqu’ on lui donne un calcul ainsi que sa réponse et on lui demande d’ expiquer comment trouver le résultat, le modèle travaille parfois à rebours, trouvant des étapes intermédiaires qui mèneraient à cette cible, faisant ainsi preuve d’ une forme de raisonnement motivé. D’ autant plus qu’ il n’ hésite pas à faire aussi cela lorsque la réponse qu’ on lui donne est fausse !

Bref, on ne peut pas considérer les explications et justifications du modèle comme transparentes et une analyse « intrusive » est nécessaire pour comprendre ce qui se passe réellement dans sa « tête ». C’ est bien dommage mais c’ est comme ça.

Découverte 2 : le modèle possède un seul modèle cognitif multilingue

Ceci est, pour moi, remarquable : le modèle semble posséder un espace conceptuel unique qui est partagé entre les différentes langues, ce qui suggère qu’il possède une sorte de « langage de pensée » universel.

En effet, comme l’ entraînement des modèles se fait sur un ensemble de textes en grande majorité individuellement unilingues, on pourrait imaginer que ces modèles contiennent en leur sein une série de mini-modèles conceptuels indépendants, chaque langue créant sa propre réalité intérieure au fil de l’ entraînement.

Au contraire, les chercheurs d’ Anthropic ont montré qu’ il n’ existe pas de «modèle français» ni de «modèle chinois» fonctionnant en parallèle et répondant aux demandes dans leur propre langue.

Ils ont demandé au modèle le « contraire de petit » dans différentes langues, les mêmes caractéristiques fondamentales des concepts de petitesse et d’ opposition s’ activent pour déclencher un concept de grandeur, qui est finalement traduit dans la langue de la question.

Figure 5 : Le modèle conceptuel multilingue (source: Anthropic)

D’ un point de vue pratique, cela suggère que les modèles peuvent apprendre quelque chose dans une langue et appliquer ces connaissances lorsqu’ ils conversent dans une autre langue, ce qui est tout à fait positif et très important à comprendre.

Découverte 3 : le modèle planifie sa réponse plusieurs mots à l’ avance

L’ algorithme de base des modèles de langage repose sur une prédiction mot à mot. Mais le modèle planifie-t’ il plus loin que le prochain mot ? A-t’ il une idée « derrière la tête » quand il fait sa prédiction ?

Un bon cas pour tester ceci est la rédaction d’ un poème. En effet, pour écrire un poème, il faut satisfaire à deux contraintes en même temps : les vers doivent rimer et ils doivent avoir un sens. Il y a deux façons d’ imaginer comment un modèle y parvient :

  • l’ improvisation pure – le modèle pourrait écrire le début de chaque ligne sans se soucier de la nécessité de rimer à la fin. Puis, au dernier mot de chaque ligne, il choisirait un mot qui (1) a un sens compte tenu de la ligne qu’il vient d’écrire et (2) correspond au schéma de rimes;
  • la planification – le modèle peut également adopter une stratégie plus sophistiquée. Au début de chaque ligne, il pourrait imaginer le mot qu’ il prévoit d’ utiliser à la fin, en tenant compte du schéma de rimes et du contenu des lignes précédentes. Il pourrait ensuite utiliser ce « mot prévu » pour rédiger la ligne suivante, de manière à ce que le mot prévu s’ insère naturellement à la fin de la ligne.

Lequel des deux modèles est correct ? Vu l’ algorithme des modèles de langage, on pourrait pencher pour la première hypothèse. C’ était d’ ailleurs ce que pensaient des chercheurs au début de leurs recherches. Et pourtant, ils ont trouvé des éléments suggérant clairement que le modèle fait de la planification plusieurs mots à l’ avance…

Comme on peut le voir sur la figure 6, le modèle planifie à l’ avance plusieurs possibilités pour le mot final de la ligne, et planifie ensuite le reste de la ligne « à l’envers » pour que cette dernière soit cohérente.

Figure 6 : Planification direct et inverse d’ une rime (source: Anthropic)

Les chercheurs ont également modifié les concepts en cours d’ élaboration de la rime. Le modèle prévoyait de terminer sa ligne par « rabbit » mais si l’ on annule ce concept en cours de route voire le remplace par un autre, le modèle change de rime.

Figure 7 : Modification du concept final en cours de rime (source: Anthropic)

Ceci montre que les modèles préparent leurs réponses plusieurs mots à l’ avance, et sont non seulement capbles de planifier vers l’ avant mais aussi vers l’ arrière (rétro-planning) quand c’ est nécessaire. Les modèles sont aussi capables de planifications multiples en parallèle, et il est possible d’ intervenir directement sur ces plans en cours de route en modifiant les concepts sous-jacents.

Conclusion

Ces recherches lèvent un coin du voile sur ce qui se passe réellement au sein des modèles de langage. Il me semble clair que ces recherches ne sont qu’ à leurs débuts et que beaucoup de choses sont encore à découvrir dans le domaine de l’ interprétabilité.

Si vous voulez en savoir plus sur ce sujet, je ne puis que vous suggérer de lire directement l’ article On the Biology of a Large Language Model que je cite ci-dessous en référence. Les chercheurs y présentent douze traces de raisonnement différentes apportant chacune son lot d’ enseignements…

Pour ma part, ce qui me fascine le plus, ce sont les analogies évidentes entre la manière dont ces modèles « réfléchissent » et la manière dont nous le faisons…

Sources et références

Quelques nouvelles et un point sur les modèles de langage en mai 2025

Et voilà, j’ ai décidé de joindre le geste à la parole dans le cadre de la résilience digitale. J’ ai transféré le nom de domaine et l’ hébergement du blog vers l’ Union Européenne. Le blog se trouve maintenant à l’ adresse https://artificiellementintelligent.eu qui est hébergé par la société française OVH, un des leaders européens dans le domaine et offre des hébergements WordPress compétitifs. L’ancien site reste provisoirement accessible sur https://artificiellementintelligent.wordpress.com.

Ce message est donc le premier que vous recevez depuis la nouvelle mouture du blog, ce qui explique aussi la modification du format des emails de notification car j’ai dû adapter la configuration et les plug-ins de WordPress chemin faisant.

Ces préliminaires étant dits, je vais faire un rapide point sur la situation actuelle des modèles de langage. Les modèles de langage actuels peuvent grosso modo se regrouper en trois grandes catégories :

  1. les modèles généralistes : ces modèles sont focalisés sur la conversation et le dialogue. Ils puisent dans leurs vastes connaissances, recherchent des informations et répondent de manière interactive aux questions variées de l’ utilisateur. Souvent multimodaux, ils peuvent aussi interpréter des images, de l’ audio voire de la vidéo et sont parfois capables de générer nativement des images. Ils sont habituellement accessibles via des interfaces web ou des applications mobiles conversationnelles;
  2. les modèles de codage : ces modèles excellent dans l’ analyse et la génération de programmes informatiques. Ils sont typiquement exploités via des environnements de développement comme VSCode qui utilisent l’ interface de programmation pour accéder au modèle. Ces modèles sont en général capables d’ interpréter les images (diagrammes, interface utilisateur…) et se caractérisent par des fenêtres de contexte de grande taille, vu la taille souvent importante des codes source;
  3. les modèles raisonneurs : ces modèles sont entraînés à construire des chaînes de raisonnement logiques. Ils sont à la base des applications comme « Deep Research » qui permettent d’ analyser un sujet de manière approfondie et de rédiger un rapport détaillé. La tendance actuelle est de leur adjoindre différents outils accessibles en cours de raisonnement afin qu’ ils puissent tester leurs hypothèses et continuer à raisonner sur les résultats intermédiaires obtenus. C’ est la voie vers les fameux « agents » dont on entend beaucoup parler et qui devraient enregistrer des progrès importants cette année.

Sur base de cette classification simple, voici les modèles « phare » actuellement mis à disposition par les principaux acteurs :

Modèle généraliste multimodalModèle de codageModèle raisonneur
OpenAIChatGPT-4oGPT-4.1o3
GoogleGemini 2.5 ProGemini 2.5 ProGemini 2.5 Pro Deep Think
AnthropicClaude 3.7 SonnetClaude 3.7 SonnetClaude 3.7 Sonnet Extended Thinking mode
MetaLlama 4 MaverickCode Llama 4 (pas encore disponible)Llama 4 Behemoth
(pas encore disponible)
MistralPixtral LargeCodestralMistral Large
Figure 1 : Modèles « Haut de gamme » des principaux acteurs, par type d’ utilisation

Il est aussi intéressant de connaître les modalités supportées par les modèles généralistes :

Modalités d’ entréeModalités de sortie
ChatGPT-4otexte, audio, images, vidéotexte, audio, images
Gemini 2.5 Protexte, audio, images, vidéotexte
Claude 3.7 Sonnettexte, imagestexte
Llama 4 Mavericktexte, images, vidéo(?)texte
Pixtral Largetexte, imagestexte
Figure 2 : Modalités natives des modèles généralistes

OpenAI offre une palette différenciée de modèles; l’ objectif est de combiner l’ ensemble des capacités en un modèle unique à l’ architecture entièrement nouvelle (le fameux GPT-5), probablement vers la fin de l’ année 2025. Le modèle ChatGPT-4o présente la plus modalité la plus riche de tous les modèles du marché : il est capable d’ analyser, texte, image, audio et même vidéo et de générer nativement du texte et des images !

Notons qu’ OpenAI a décidé de retirer son modèle ChatGPT-4.5, trop coûteux à l’ exploitation pour se focaliser sur ChatGPT-4o pour les interactions conversationnelles et GPT-4.1 pour le codage.

Google est très bien placé avec Gemini 2.5 Pro qui intègre l’ ensemble des capacités dans un seul modèle : conversation, multimodalité (certes moins complète que ChatGPT-4o), génération et exécution de code et raisonnement. Il me semble que Google, qui a longtemps joué en seconde voire en troisième position, semble bien positionné pour reprendre la tête du peloton.

Les modèles d’ Anthropic sont très réputés pour leurs excellentes performances en codage. Anthropic cherche maintenant à renforcer sa position sur ce créneau en se concentrant sur les chaînes de raisonnement complexes avec appel d’ outils intégrés, y compris les environnements d’ exécution de programmes. Leur protocole standardisé MCP (Model Context Protocol), qui permet à un modèle de langage d’accéder à différents outils, s’ inscrit dans cette optique. Par contre, Anthropic accorde moins d’ importance à la multimodalité -moins utile pour la programmation- et leurs modèles ne peuvent générer que du texte et du code.

Enfin, Meta se caractérise par la disponibilité de leurs modèles en format open-weights, ce qui veut dire qu’ils sont utilisables localement. Ceci offre de grands avantages en termes de sécurité et de confidentialité à condition de disposer de machines suffisamment puissantes pour exécuter les modèles. Meta n’ offre pas encore de modèle raisonneur, ce dernier (appelé Behemoth) devrait cependant bientôt être annoncé.

Tous les modèles mentionnés sont de très bon niveau. Pour le travailleur intellectuel « col blanc » typique, la meilleure chose à faire est d’ essayer rapidement les différents modèles pour choisir celui qui vous convient le mieux, et ensuite de vous y tenir et de l’ utiliser chaque fois que vous vous posez une question ou recherchez des informations. C’ est comme cela que vous comprendrez progressivement comment intégrer ces modèles dans votre vie quotidienne et en tirer le meilleur parti.

OpenRouter, le point d’ entrée vers les modèles de langage

Cela fait quelque temps que j’ ai découvert le site OpenRouter que je trouve extrêmement utile : il permet d’ accéder à la quasi-totalité des modèles de langage accessibles sur le marché de manière simple et conviviale.

Le site offre une interface d’ accès unifiée vers plus de 300 modèles de langage. Les modèles « dernier cri » des principaux fournisseurs sont disponibles, comme Mistral 2 Large, GPT-4.1, Claude 3.7 Sonnet, Meta Llama 4 etc…

Vous ne devrez donc plus souscrire à des abonnements séparés pour chaque fournisseur, ni pour l’ accès web ni pour l’ accès par interface de programmation (API). Autre avantage, le coût d’ utilisation est calculé par token ce qui est en général beaucoup plus intéressant que l’ approche forfaitaire des abonnements type ChatGPT+ ou Google One AI Premium.

C’ est parti pour un tour d’ horizon d’ OpenRouter.

1. Prise en main et interface conversationnelle

L’ écran d’ accueil d’ OpenRouter présente les étapes à suivre pour commencer à utiliser la plateforme : il est d’abord nécessaire de s’ inscrire et d’ acheter des crédits. Vous avez également la possibilité de générer une clé d’ accès API si vous souhaitez interagir avec les modèles via des programmes, mais cette étape est facultative.

Figure 1 : Écran d’ accueil d’ OpenRouter

Les modèles sont accessibles de deux manières : via une interface web conversationnelle, similaire à celle de ChatGPT, et via une interface de programmation (API). Cette API est unifiée pour tous les modèles, ce qui simplifie grandement le travail des développeurs.

L’ interface conversationnelle est classique et permet de sélectionner le modèle à utiliser en haut de l’ écran. Chaque nouveau dialogue est considéré comme une room (salle) associée à un ou plusieurs modèles de langage.

Si plusieurs modèles de langage sont sélectionnés, l’ interface soumettra la même question à tous les modèles activés simultanément. Cela permet de comparer les réponses des différents modèles, mais augmente également le coût.

Il est également possible de désactiver certains modèles sélectionnés. Par exemple, dans l’ image ci-dessous, trois modèles sont sélectionnés, mais Claude 3.7 Sonnet est désactivé. L’ interface répond donc simultanément à mon prompt avec OpenAI ChatGPT 4.1 et Google Gemini 2.5 Pro Preview.

Figure 2 : Interface conversationnelle OpenRouter

L’ interface conversationnelle permet de joindre des résultats de recherche web (Web Search) et des fichiers, y compris des images à analyser. Par contre il n’ est actuellement pas possible de générer des images avec les modèles disponibles sur OpenRouter. Le site se concentre sur les interactions textuelles.

2. Choix des modèles et fournisseurs d’ infrastructure

OpenRouter permet de choisir non seulement les modèles, mais aussi les fournisseurs d’ infrastructure chez lesquels les modèles sont exécutés. La transparence sur les fournisseurs d’ infrastructure est très importante car ceux-ci ont des politiques de modération et de réutilisation des données, des performances techniques et des prix différents.

La figure 3 montre la liste des fournisseurs d’ infrastructure pour le modèle Meta Llama 4 Maverick. On peut voir que le modèle est disponible chez plusieurs fournisseurs :

Figure 3 : Liste des fournisseurs pour Meta Llama 4 Maverick

Passons rapidement en revnue les différentes informations listées pour chaque fournisseur. Les icônes sur la gauche indiquent :

  • l’ identification du modèle auprès du fournisseur;
  • le pays dans lequel se situe le fourniseseur ;
  • la précision des paramètres du modèle. Certains fournisseurs choisissent en effet de recourir à des versions comprimées des modèles pour réduire les coûts de calcul, au prix de résultats moins précis ;
  • la politique de réutilisation ou non de vos dialogues pour améliorer le modèle. De nombreux fournisseurs choisissent de ne pas réutiliser les données pour des raisons de confidentialité ;
  • la politique de modération des dialogues par fournisseur. Certains fournisseurs choisissent de ne pas modérer les dialogues pour des raisons de liberté d’ expression ;
  • si le fournisseur permet l’ interruption d’ un dialogue en cours de génération, ce qui peut permettre de limiter le coût de calcul en cas de dialogue trop long ou partant dans une mauvaise direction ;
  • si OpenRouter vous permet d’ enregistrer vos clés API obtenues auprès du fournisseur, auquel cas vous payez directement le fournisseur et OpenRouter ne vous facture rien.

Ensuite, les colonnes de chiffres sur la droite fournissent les informations suivantes :

  1. la longueur maximale de la fenêtre de contexte, en tokens. Celle-ci comprend à la fois la question et la réponse. La taille de la fenêtre de contexte dépendant du modèle, elle sera en principe la même pour tous les fournisseurs d’ infrastructure;
  2. le nombre maximum de tokens générés par le modèle lors d’ une réponse;
  3. le coût par million de tokens en entrée (dans votre question);
  4. le coût par million de tokens générés en réponse par le modèle;
  5. la latence, soit le délai moyen d’ attente en secondes entre l’ envoi de la question et la réception du premier token de la réponse;
  6. le débit, soit le nombre moyen de tokens reçus en réponse par seconde;
  7. le taux de disponibilité, soit le pourcentage de temps où le modèle est disponible selon les mesures d’ OpenRouter.

L’ algorithme utilisé par OpenRouter pour déterminer le fournisseur pour un modèle donné est de prioritiser le fournisseur le moins cher parmi ceux offrant la meilleure disponibilité. Si un fournisseur est indisponible, OpenRouter choisira le fournisseur suivant dans l’ ordre déterminé par l’ algorithme.

A noter qu’il est possible de modifier cet ordre en choisissant d’ autres critères de prioritisation, comme la latence ou le débit. Remarque importante, il est également possible d’ exclure de la liste les fournisseurs qui réutilisent vos données à des fins d’ entraînement.

Si la notion de token n’est pas claire pour vous, vous pouvez consulter mon article sur le sujet.

3. Modalités de paiement

OpenRouter est un intermédiaire entre vous et les fournisseurs de modèles et il est donc normal qu’ il soit rémunéré via un système de commission. Celle-ci est prélevée à chaque fois que vous ajoutez des crédits à votre compte. Par contre il n’ y a pas de commission prélevée sur chaque token que vous consommez : OpenRouter applique de manière transparente le prix chargé par le fournisseur d’ infrastructure.

Il est possible de voir sa consommation de tokens et de crédits de manière assez facile sur le site d’ OpenRouter :

Figure 4 : Aperçu de l’ activité et des frais occasionnés par l’ utilisateur

Pour être complet, certains modèles sont offerts gratuitement par OpenRouter : il s’agit des modèles « open-weights » comme Mistral Small 3.1 24B ou DeepSeek R1 Zero. Afin d’ éviter les abus, ces modèles sont limités en nombre de requêtes par jour.

4. Accès API pour les programmeurs

Je clôture par un dernier mot à l’ intention des programmeurs pour lesquels OpenRouter offre trois avantages :

Tout d’ abord, une interface API unifiée qui permet d’ accéder à l’ ensemble des 300 modèles disponibles sur la plateforme. Cela permet de simplifier le développement d’ applications qui utilisent des modèles de langage. L’ API est compatible avec l’ API d’ OpenAI.

Ensuite, OpenRouter propose un système de redondance qui permet de gérer l’ indisponibilité d’ un fournisseur de manière transparente. Si une requête échoue, OpenRouter peut automatiquement essayer une autre requête avec un autre modèle ou un autre fournisseur. Ceci est très pratique pour les applications qui demandent une haute disponibilité : si un modèle ou un fournisseur est indisponible, l’ application peut continuer à fonctionner sans interruption (pour autant qu’ OpenRouter ne soit pas lui-même en panne). Le prix à payer pour cette redondance est une légère augmentation du coût et du délai puisque la requête doit d’ abord être envoyée à OpenRouter ce qui ajoute environ 30ms de temps de réponse.

Enfin, l’ ensemble des frais est centralisé auprès d’ un seul fournisseur quels que soient les modèles utilisés, ce qui permet de simplifier la gestion des coûts.

Voilà, je pense avoir expliqué les grandes lignes de OpenRouter. Bonnes conversations !

Le Retour du Chat de Mistral

Après les Chinois de DeepSeek, au tour des Français de Mistral qui présentent leur chatbot appelé Le Chat !

Mistral.AI offre depuis quelques jours un chatbot très complet et performant. Facile d’accès, il offre pratiquement le même niveau de fonctionnalité que les chatbots d’ OpenAI (ChatGPT) ou d’ Anthropic (Claude).

Extrêmement rapide dans la génération de ses réponses, ce modèle est largement capable de devenir votre assistant conversationnel principal pour vos interactions quotidiennes. Il est maintenant disponible aussi en application mobile sur iOS et Android.

Et en ces temps d’ incertitudes internationales, Mistral AI offre une solution 100% européenne qui présente un cadre technique et juridique rassurant pour les utilisateurs basés dans l’ Union Européenne (serveurs hébergés en Europe, respect du RGPD…).

1. Le Chat : un chatbot accessible par le Web

Le Chat Mistral est accessible sur le web ici.

Figure 1 : Interface utilisateur du « Chat » de Mistral AI

Les fonctionnalités disponibles sont très proches de celles de ChatGPT :

  • Possibilité de recherche sur le Web en activant l’ option correspondante en-dessous de la fenêtre de chat (Web Search);
  • Possibilité de génération d’images (option Image generation). Ce mécanisme fait appel à un modèle de génération d’ image appelé Flux Ultra développé par Black Forest Labs;
  • Système de canevas pour la rédaction interactive de texte et de code, semblable à Anthropic Artefacts ou OpenAI Canvas (option Canvas);
  • Possibilité de générer et d’ exécuter du code pour résoudre des problèmes algorithmiques ou effectuer des calculs complexes (option Code Interpreter) ;
  • Possibilité d’ attacher des documents pdf et des images pour les analyser.

Différents types d’ abonnement existent mais il est possible d’ employer l’ essentiel des fonctionnalités avec l’ abonnement gratuit, avec toutefois des limites de volume d’ utilisation. Les abonnements payants offrent des fonctionnalités supplémentaires, notamment à l’ intention des journalistes avec la possibilité de consulter les dépêches de l’ Agence France-Presse en temps réel. Si cela vous intéresse, vous trouverez plus d’ informations sur cette intégration ici.

Un autre avantage du Chat de Mistral est la rapidité des réponses « flash » qui est plus de dix fois supérieure à celle de ses concurrents. Ceci est dû au partenariat avec le fournisseur d’ infrastructure IA Cerebras qui a développé un processeur spécialisé pour les modèles de langage.

Figure 2 : Débit de réponse du Chat Mistral « flash » par rapport à ses concurrents. (Source : Cerebras)

Le modèle ne répond pas systématiquement avec une réponse « flash », mais celles-ci sont indiquées avec une petite icône d’ éclair (⚡) dans le coin inférieur gauche de l’ interface conversationnelle. Sans surprise, les abonnements payants offrent un nombre de réponses « flash » supérieur à celui de l’ abonnements gratuit.

Cette rapidité est notamment importante pour la création interactive de codes informatiques, qui fait appel à des générations répétitives. La vidéo ci-dessous illustre bien l’ efficacité de Mistral « flash » dans ce domaine :

2. Applications Mobiles

Le lancement cette semaine d’ applications mobiles sur Android et iOS montre bien que Mistral se positionne comme un acteur majeur dans le domaine des chatbots génératifs, disposant de toute la panoplie des outils d’ accès comme c’est le cas avec Google, OpenAI ou Anthropic.

Les liens de téléchargement des applications mobiles se trouvent ici pour iOS et ici pour Android.

Figure 3 : Interface de l’ App « Le Chat » sur Android (source : MacRumors)

3. La Plateforme : l’ accès des programmeurs

Enfin, et ceci est (à ma connaissance) une première : Mistral est la première société qui offre un accès par interface de programmation gratuit en-dessous d’ un certain volume d’ échanges. Cela permet de tester les capacités du modèle sans avoir à se soucier de la facturation ou de devoir fournir un numéro de carte de crédit.

Le mécanisme d’ accès aux modèles de Mistral via API est décrit en détail sur La Plateforme, qui est accessible ici.

Figure 4 : Console d’ accès à « La Plateforme »

Rien de très nouveau pour les utilisateurs des API d’ OpenAI ou d’ Anthropic : il faut générer une clé API et l’ utiliser dans les appels aux serveurs de Mistral, qui respectent les protocoles de communication établis par OpenAI (mais les messages REST sont bien entendu envoyés vers les serveurs de Mistral)…

Mistral AI offre aussi une approche originale quand à la mise à disposition des paramètres de ses modèles pour une exécution locale (open weights) :

  • Les modèles les plus avancés (dits frontière) ne sont pas disponibles en open weights mais sont accessibles soit via le chat, soit via une API. Il est possible de faire fonctionner ces modèles dans une infrastructure locale mais cela demande un accord spécifique avec Mistral AI;
  • Les autres modèles développés par Mistral sont disponibles en open weights ce qui permet de les télécharger et de les exécuter localement avec des outils comme Ollama ou LMStudio.

Conclusions

Il est très satisfaisant de voir que l’ Union Européenne possède au moins un acteur significatif dans le monde des chatbots génératifs.

J’ en profite pour saluer la proactivité de l’ Etat Français qui a pris des mesures concrètes pour soutenir le développement de l’ IA en France. Cela inclut notamment le Sommet pour l’ Action sur l’ Intelligence Artificielle qui a lieu en ce moment à Paris et devrait logiquement donner lieu à des annonces d’ investissements massifs dans l’ IA en France et en Europe.

A ce sujet, je vous invite à lire la tribune de Sam Altman -oui oui c’ est bien lui- qui décrit la stratégie française en IA. L’ article étant réservé aux abonnés du Monde, vous pouvez trouver un scan de l’ article complet sur X ici.

Néanmoins, le principal obstacle sur la course à l’ IA générative reste la puissance de calcul disponible. L’ entraînement de la nouvelle génération de modèles « raisonneurs » fait en effet appel à des quantités de données et de calculs encore plus importantes. Et en termes de puissance de calcul disponible, les Américains sont loin, très loin en tête, suivis de la Chine (qui risque certes d’ être ralentie par les récentes restrictions américaines à l’ exportation de processeurs IA). Résorber cet écart ne sera pas facile.

C’ est pourquoi il me semble important de soutenir des acteurs européens de qualité comme Mistral pour assurer leur pérennité pendant que les investissement nécessaires sont faits dans les data centers qui hébergeront la puissance de calcul requise.

Du rififi dans le monde des modèles de langage : comment DeepSeek R1 change la donne

Le monde de l’ IA générative est en ébullition suite à la publication du modèle R1 par la société chinoise DeepSeek la semaine passée.

DeepSeek-R1 est un modèle de raisonnement open-source innovant: contrairement aux modèles de langage traditionnels qui se concentrent sur la génération et la compréhension de textes, DeepSeek-R1 se spécialise dans l’ inférence logique, la résolution de problèmes mathématiques et la planification. Il se positionne dès lors comme un concurrent direct d’ OpenAI-o1 dont j’ai parlé dans mon article précédent.

DeepSeek est une entreprise d’IA chinoise fondée en 2023 par Lian Wenfeng et basée à Hangzhou, près de Shanghaï. Elle se consacre au développement de l’ Intelligence Artificielle Générale. La société DeepSeek compterait environ 200 personnes et est financée par le fonds d’investissement High-Flyer également fondé par Lian Wenfeng.

Le modèle R1 est extrêmement intéressant à plusieurs titres.

Tout d’ abord, il s’ agit d’ un modèle « raisonneur » au même titre qu’ OpenAI-o1 et ses performances sont comparables. Mais à la différence d’ o1, ce modèle est open-source et peut être librement téléchargé et exécuté localement. Qui plus est, DeepSeek a décrit en détail le mécanisme d’ apprentissage par renforcement utilisé pour passer de leur modèle de langage « standard » DeepSeek-V3 au modèle « raisonneur » DeepSeek-R1 (un lien vers le document technique est fourni en référence).

Ensuite, le modèle aurait été développé avec un budget assez limité – on parle de 6 millions d’ USD- ce qui est peu comparé aux dépenses de ses concurrents américains.

Les performances du modèle DeepSeek-R1 étant plus qu’ honorables, cela signifie qu’ une grande partie de l’ avantage compétitif de sociétés « fermées » comme OpenAI a disparu et se retrouve accessible à tous.

Il s’ agit donc d’ un fameux coup de pied dans la fourmilière qui va sérieusement ouvrir le jeu et permettre de nouvelles innovations.

Accéder au modèle

Le modèle DeepSeek-R1 est exploitable de trois manières différentes :

Tout d’ abord, vous pouvez dès aujourd’hui tester DeepSeek-R1 via l’ interface web accessible ici après inscription. Cet accès est entièrement gratuit.

Figure 1 : L’interface utilisateur DeepSeek

L’ interface est très simple et propre. Vous devez cliquer sur le bouton DeepThink (R1) pour utiliser DeepSeek-R1, sinon c’ est le modèle DeepSeek-V3 qui vous répondra.

Seconde possibilité, vous pouvez utiliser le modèle via l’ Interface de programmation (API) de DeepSeek qui est compatible avec celle d’ OpenAI. Les mécanismes d’ accès sont décrits ici.

Le point-clé ici est le prix extrêmement bas pratiqué par DeepSeek par rapport à OpenAI. Le tableau ci-dessous compare les prix entre OpenAI et DeepSeek :

Figure 2 : Comparaison des prix d’ accès via l’ API

Une remarque cependant : DeepSeek se réserverait la possibilité de réutiliser vos interactions avec le modèle pour des entraînements ultérieurs; évitez donc de transmettre des données confidentielles ou personnelles dans vos interactions, que ce soit via l’ interface Web ou via l’ API.

Troisième possibilité, comme le modèle est open-source, vous pouvez télécharger ses paramètres et l’ exécuter localement. Le modèle R1 complet contient cependant 670 milliards de paramètres ce qui le met hors de portée de la plupart des ordinateurs….

Pour contourner cela, DeepSeek met à disposition des « distillations » de son modèle qui sont, elles, de taille beaucoup plus accessible : elles vont de 1,5 à 70 milliards de paramètres. Des programmes comme Ollama ou LMStudio proposent dès aujourd’ hui ces modèles pour téléchargement et exécution locales.

Figure 3 : Liste et performances des versions distillées de DeepSeek R1 (source : DeepSeek)

Le processus de distillation consiste à partir d’ un autre modèle open-source (Qwen, LLama…) et à l’ affiner sur des traces de raisonnement générées par DeepSeek R1. On obtient en sortie un modèle certes moins performant que R1 mais meilleur en raisonnement que le modèle de base dont il est dérivé. Le modèle qui en résulte est donc une sorte de compromis…

Performances

Le modèle DeepSeek présente des performance comparables à celles d’ OpenAI-o1 lorsque les deux modèles sont évalués à travers six benchmarks couramment utilisés pour évaluer les modèles de langage, à savoir :

  • AIME2024 et MATH-500 sont deux tests destinés à évaluer les capacités de raisonnement mathématique des LLM;
  • CodeForces et SWE-Bench Verified sont deux tests de la capacité à programmer et résoudre des problèmes informatiques réalistes;
  • GPQA Diamond est une liste de 198 questions très difficiles en sciences naturelles : biologie, physique et chimie;
  • MMLU est un test plus large qui couvre non seulement les sciences exactes mais également les sciences humaines et sociales.

Le graphique ci-dessous présente les résultats d’ évaluation :

Figure 4 : Performance comparée de DeepSeek R1 (source : DeepSeek)

On voit en effet que DeepSeek-R1 tient la dragée haute à OpenAI-o1 sur chacun des six tests.

Il est aussi intéressant de constater que le modèle distillé DeepSeek-R1-32B (distillé à partir de Qwen-32B) présente des résultats tout à fait honorables et assez proches de ceux d’ o1-mini; or un tel modèle est tout à fait exécutable localement sur une machine de performances convenables.

Enfin, on voit bien l’ impact de l’ apprentissage par renforcement si l’ on compare les performances de DeepSeek-R1 avec celles de DeepSeek-V3 puisque R1 n’est autre que V3 ayant subi un entraînement complémentaire par renforcement.

Censure ?

L’ utilisation des modèles de DeepSeek a fait apparaître un point assez surprenant : le modèle refuse de parler de sujets tabous en Chine comme la souverainté de Taiwan, la disparition de l’ ancien Ministre des Affaires Etrangères Qin Gang, la famine causée par le Grand Bond en Avant de Mao Tsé-Toung ou encore le massacre de la place Tien An Men en 1989.

Ce qui est assez étonnant, c’est que le modèle commence par rédiger tout un texte puis ce dernier disparaît soudain pour présenter ceci :

Figure 5 : Aspects de censure

Cela donne vraiment l’ impression qu’ un robot censeur intervient en fin de génération pour valider ou rejeter le texte. En tous cas c’ est la première fois que je vois un modèle de langage faire cela…

Conclusions

Il est fort probable que l’ arrivée de DeepSeek-R1 va ouvrir grand les vannes des modèles « raisonneurs ». non seulement les algorithmes sont maintenant publiés au grand jour mais DeepSeek autorise quiconque à utiliser les générations de DeepSeek-R1 pour entraîner -ou plutôt distiller- d’ autres modèles afin de les améliorer.

Malgré les réserves relatives à la censure et la réutilisation des données, il faut saluer le tour de force réalisé par l’ équipe de DeepSeek qui a réussi à développer un modèle open source pour environ 5 millions de dollars et dont le coût d’ exploitation est trente fois inférieur par token comparé à OpenAI, qui reste un système fermé.

Cela pourrait remettre en question les milliards de dollars investis par OpenAI pour conserver son avantage technologique, et cela juste au moment où ils annoncent un investissement titanesque (500 milliards) dans le projet Stargate…l’ année 2025 commence fort.

Malheureusement, l’ Europe semble bien absente de cette accélération. Espérons que l’ annonce du Plan de Compétitivité de l’ Union Européenne la semaine prochaine permette de libérer nos forces créatrices. Il est grand temps.

Sources et références

Cinq étapes vers l’ Intelligence Artificielle Générale

L’ intelligence artificielle générale (AGI) désigne un type d’ IA qui possède la capacité de comprendre, d’ apprendre et d’ effectuer toute tâche intellectuelle qu’ un humain est en mesure de réaliser. Sans surprise, la quête incessante de cette intelligence artificielle générale captive les énergies des chercheurs et l’ imagination du public.

Mais quel chemin suivre pour y arriver ?

Un document interne d’ OpenAI contenant une « feuille de route » pour atteindre l’ AGI a fuité au mois de juillet. Cette feuille de route a ensuite été confirmée par Sam Altman (CEO d’ OpenAI) en septembre, il s’ agit donc d’ une information validée. Dans cet article, je vais présenter le contenu de cette feuille de route. Elle décrit cinq étapes à franchir sur la route vers l’ AGI.

Il est important de présenter cette feuille de route car il ne fait pas de doute que les grands acteurs de l’ IA entrevoient l’ existence d’ une IA généraliste dans un futur relativement proche (5 à 10 ans). J’ai déjà couvert ici l’ article de Dario Amodei, CEO d’ Anthropic. L’ article de Sam Altman The Intelligence Age accessible ici va dans le même sens et Demis Hassabis, PDG de Google Deepmind est lui aussi très ambitieux, comme il l’ a mentionné dans une récente interview accessible ici.

Bien sûr, ces personnages sont juges et partie et profitent du battage médiatique et de l’ intérêt que leurs déclarations suscitent, mais ils sont aussi les mieux placés pour savoir sur quoi leurs départements de R&D travaillent et quels résultats ils obtiennent. Ils peuvent aussi être victimes de leurs propres biais, mais au vu du chemin parcouru, il me semble légitime de prendre leurs déclarations au sérieux.

Présentation de la feuille de route

La feuille de route d’ OpenAI pour atteindre l’ AGI comporte cinq niveaux qui sont décrits dans la figure 1 et détaillés ci-dessous.

Figure 1 : Les cinq niveaux vers l’ AGI (crédit : Tomshardware)

Niveau 1 : Les Dialogueurs

Le premier niveau est celui des « Chatbots », ou « IA avec langage conversationnel », dans lequel les ordinateurs peuvent interagir avec les gens à travers une conversation naturelle.

Cela a été réalisé avec GPT-3.5 dans la première version de ChatGPT et était déjà possible avant cela, mais de manière moins efficace ou avec une conversation moins naturelle. Les grands modèles nativement multimodaux tels que GPT-4o, Gemini Pro 1.5 ou Claude Sonnet 3.5 répondent pleinement à toutes les exigences de ce niveau. Ils sont capables de conversations complexes et peuvent effectuer un raisonnement limité. Nous pouvons donc raisonnablement dire que le niveau 1 est atteint.

Niveau 2 : Les Raisonneurs

L’ étape suivante, le niveau 2, introduit les « raisonneurs » – des systèmes d’ IA capables de s’ attaquer à des problèmes complexes avec la compétence d’ experts humains, et ce sans devoir recourir à des outils extérieurs. Atteindre le niveau 2 signifierait un moment charnière, car cela représente une transition de l’ imitation du comportement humain à la démonstration de véritables prouesses intellectuelles.

Si nous n’ en sommes pas encore là, il est indéniable que les grands acteurs cherchent à améliorer les capacités de raisonnement de leurs modèles. OpenAI a mis à disposition le modèle o1-preview qui offre de performances supérieures aux modèles comme GPT-4o en termes de raisonnement. Et il y a quelques jours, la société chinoise DeepSeek AI a publié un modèle de raisonnement open-source appelé DeepSeek-R1-Lite-Preview; il s’ agit donc d’ un domaine qui devient compétitif et il n’y a rien de tel pour stimuler les progrès…

Vu l’ importance de ces modèles « raisonneurs » sur la route vers de l’ Intelligence Artificielle Générale, j’ y consacrerai un prochain article.

Niveau 3 : Les Agents autonomes

Le niveau 3 de la feuille de route envisage des « agents », c’ est-à-dire des systèmes d’ IA capables de fonctionner de manière autonome pendant de longues périodes, exécutant un ensemble d’ actions dans le but de mener à bien une tâche qui leur est assignée.

Ces agents pourraient transformer les industries en prenant en charge des tâches complexes, en prenant des décisions et en s’ adaptant à des circonstances changeantes sans surveillance humaine constante.

Il faut cependant se garder de toute confusion : le terme d’ « agent  » est actuellement utilisé pour décrire des modèles de langage auxquels on a greffé des outils capables d’ interagir avec le monde extérieur via des interfaces.

Ces « agents » ne répondent pas aux exigences des agents IA décrits dans ce niveau 3 de la feuille de route, qui implique une capacité de raisonnement appliquée de manière répétitive pour « refermer la boucle » entre l’ observation de l’ état d’ avancement de la tâche et le choix de nouvelles actions visant à se rapprocher du but.

Aucun système de ce niveau n’ existe sur le marché à ce jour. Des rumeurs font état du développement par OpenAI d’ un produit appelé « Operator » qui serait une première tentative pour offrir un produit de ce type. A suivre…

Niveau 4 : Les Innovateurs

Au niveau 4 de la feuille de route, l’ IA devient un innovateur.

Les systèmes à ce stade possèderont la créativité et l’ ingéniosité nécessaires pour développer des idées et des solutions originales. Une fois arrivés à ce niveau, les agents ne se limitent plus à exécuter les processus de manière compétente comme au niveau 3, mais les améliorent et en inventent de nouveaux plus efficaces. En parallèle, ces agents stimuleraient l’ innovation et le progrès dans divers domaines.

Niveau 5 : Les Organisateurs

Le sommet de la feuille de route d’ Open est le niveau 5, qui implique une intelligence artificielle capable d’ effectuer le travail d’ une organisation entière. Toutes les fonctions de l’ organisation, qu’ elles soient opérationnelles ou conceptuelles, sont réalisées par des agents IA qui travaillent ensemble, apportent des améliorations et exécutent tout ce qui est nécessaire sans qu’aucun humain ne soit directement impliqué.

A ce moment, l’ Intelligence Artificielle Générale est atteinte.

Que faut-il en penser ?

La question est de savoir si les technologies actuelles (Deep Learning en tête) sont suffisantes pour atteindre l’ AGI ou pas.

Comme je l’ ai dit dans l’ introduction, les principaux dirigeants des géants de la tech semblent considérer que ces technologies sont suffisantes et que les principaux défis qui restent sont essentiellemnt des facteurs d’ échelle et de combinaison d’ algorithmes. Leurs scénarios se basent donc sur des extrapolations de la situation actuelle ce qui les amène à émettre des pronostics assez agressifs (AGI dans la décennie).

Cet avis n’est cependant pas partagé par l’ ensemble de la communauté des chercheurs. Des chercheurs réputés comme Yann Le Cun ou Gary Marcus estiment au contraire que l’ apprentissage profond ne suffira pas et qu’il faudra inventer des architectures entièrement nouvelles pour surmonter les points faibles des techniques actuels. Ceci les amène naturellement à des évaluations plus conservatrices quant à l’ apparition de l’ AGI.

Leurs idées pour remédier aux manquements de l’ IA actuelle diffèrent cependant : si Gary Marcus estime nécessaire de réintroduire des approches symboliques pour permettre le raisonnement déductif, Yann Le Cun insiste plutôt sur le besoin de disposer d’ un modèle prédictif du monde…

Sources et références

Perplexity, le moteur de recherche IA de nouvelle génération

Je voudrais vous parler aujourd’ hui d’ une application très utile des modèles de langage: Perplexity qui est un engin de recherche conversationnel accessible ici.

Les engins de recherche conversationnels sont basés sur un modèle de langage qui exploite un moteur de recherche internet comme source d’ informations. Le modèle de langage pilote la recherche : il définit les mots-clés, et exploite ensuite le résultat de la recherche pour construire sa propre réponse envers l’ utilisateur.

Ceci permet de combiner les avantages des modèles de langage (capacité de fournir une réponse articulée et cohérente) avec ceux des moteurs de recherche (accès direct et à jour de l’ ensemble des données publiquemeent disponibles sur internet).

Perplexity est un outil extrêmement convivial et efficace à utiliser.

J’ ai remplacé Google Search par Perplexity pour les recherches standard effectuées par mon navigateur. Cela demande un peu d’ adaptation vu nos habitudes bien ancrées, mais je ne regrette pas l’ effort…

1. Demandes navigationnelles et informationnelles

Démarrons par une observation importante : nous avons recours à des moteurs de recherche pour deux types de demandes bien distinctes : les demandes navigationnelles et les demandes informationnelles.

Les demandes navigationnelles correspondent à la recherche d’ un site. Vous ne tapez pas l’ URL en entier mais seulement un partie de celui-ci et éventuellement quelques mots-clés pour arriver sur le site désiré. Pour ce type de recherche, Perplexity fonctionne mais n’ apporte pas réellement de valeur ajoutée par rapport à un moteur de recherche classique, à part éventuellement une présentation plus dépouillée et moins chargée en publicités.

Les demandes informationnelles sont celles où vous recherchez une information ou une explication, à résoudre un problème ou comprendre un concept. Vous ne savez pas exactement où chercher mais vous avez une question. C’ est dans ce type de recherches que Perplexity brille par son efficacité, bien supérieure aux engins traditionnels qui vont vous envoyer vers différentes pages dans lesquelles vous devrez chercher vous-même l’ information. Perplexity va automatiser cette étape et directement fournir une réponse qui tente de répondre à votre besoin. Qui plus est, vous pouvez ensuite engager un dialogue avec Perplexity et demander des éclaircissements supplémentaires.

Il y a lieu de bien distinguer les deux types de recherche. Il m’ arrive encore de recourir à Google Search pour des demandes navigationnelles mais Perplexity est indiscutablement très supérieur pour les recherches informationnelles (et ce sont les plus intéressantes).

2. Interfaces de base et options de recherche

Voyons maintenant comment fonctionne Perplexity. L’ interface offre assez bien de possibilités intéressantes que nous allons passer en revue.

Figure 1 : Interface utilisateur de Perplexity

Outre l’ invite traditionnelle (Ask Anything), le champ Focus permet de préciser le type de recherche; les options possibles sont :

  • Web : le choix par défaut, la réponse est enrichie par les recherches du modèle sur Internet comme décrit plus haut;
  • Academic : le modèle concentrera ses recherches sur des documents académiques publiés;
  • Math : le modèle essaiera de trouver une réponse mathématique et/ou numérique;
  • Writing : plus proche de chatGPT, ce choix n’effectue pas de recherches internet mais se concentre sur la qualité de rédaction;
  • Video : oriente la recherche vers des vidéos répondant à la recherche;
  • Social : oriente la recherche vers les réseaux sociaux, vers des discussions et des opinions liées au sujet.
Figure 2 : Types de recherches possibles

Indépendamment du choix précédent, le bouton Attach permet d’ ajouter des fichiers que vous possédez et qui pourront supporter Perplexity dans sa recherche.

3. Recherches rapides et recherches pro

Il est également possible de choisir entre une recherche « Rapide » et une recherche « Pro » au moyen du commutateur se trouvant à droite de l’ invite.

La différence principale est que la recherche « Pro » ajoute une phase de raisonnement structurées par le modèle; les étapes intermédiaires du raisonnement dont présentées à l’ utilisateur ainsi que les recherches correspondant à chaque étape. Enfin, la dernière étape consiste en une synthèse des informations collectées.

Figure 3 : Bandeau de raisonnement structuré d’ une recherche « Pro »

Les recherches « Pro » sont limitées à un petit nombre par jour (actuellement 3) pour les utilisateurs gratuits de Perplexity ; elles sont pratiquement illimitées pour les utilisateurs payants.

En pratique je trouve les recherches « rapides » satisfaisantes la grande majorité du temps. De plus il vous est toujours possible de poser à nouveau la question en mode « pro » si la réponse rapide ne vous satisfait pas, comme nous allons le voir.

4. Exploitation des résultats

La présentation des résultats d’ une recherche est elle aussi intéressante. Je la trouve d’ une grande sobriété comparé par exemple à une recherche Google.

Voici la structure typique d’ une réponse donnée par Perplexity :

Figure 4 : Structure d’ une réponse typique

Le texte de la réponse se trouve en-dessous des sources et reprend des références numérotées aux différentes sources à différents endroits de la réponse. Vous pouvez voir l’ ensemble des sources en cliquant sur le bloc à droite des sources intitulé Show All.

Figure 5 : Liste des sources

Outre la lecture de la réponse, il est possible d’ entreprendre des actions supplémentaires. Tout d’ abord, les boutons dans la partie droite de l’ écran permettent de rechercher des images (Search Images ) ou des vidéos (Search Videos) en rapport avec la discussion. Les utilisateurs de l’ abonnement payant pourront aussi demander la génération d’ une image (Generate Image).

La partie inférieure de l’ écran permet de continuer le dialogue, par exemple en posant une nouvelle question ou en demandant un éclaircissement. La partie Related propose un série de questions complémentaires ayant trait au sujet, vous pouvez en choisir une ou rédiger une question à la main.

Figure 6 : Actions supplémentaires

Rewrite permet de demander au modèle une réécriture de la réponse, par exemple en passant d’une recherche rapide à une recherche « pro »; Share permet ensuite de partager un lien vers la recherche complète.

C’ est d’ ailleurs un autre avantage majeur de Perplexity : tous les dialogues de recherche précédents sont stockés dans la Library et vous pouvez à tout moment les relire voire continuer le dialogue. Ces dialogues peuvent également être partagés avec d’ autres utilisateurs en leur envoyant le lien correspondant, mais ces derniers ne peuvent pas les modifier: il s’ agit d’ un accès en lecture seule.

5. Autres fonctionnalités : Discover & Spaces

Pour terminer ce tour d’ horizon de Perplexity en étant complet, il faut encore citer les fonctionnalité Discover et Spaces.

Spaces permet de créer un espace partagé de collaboration dans lequel un ou plusieurs utilisateurs que vous invitez pourront dialoguer avec le modèle sur un sujet donné. Chaque dialogue entre un utilisateur et le modèle donnera lieu à un thread spécifique mais ces derniers seront accessibles en lecture par les autres utilisateurs. En fin de compte c’ est assez proche de la fonction de recherche sauf que vous pouvez regrouper plusieurs dialogues de plusieurs utilisateurs au sein d’ un même espace collaboratif.

Les Spaces que vous créez sont configurables en chargeant un ou plusieurs fichiers de référence et en introduisant une instruction qui va décrire le rôle de l’ espace et sa finalité.

Figure 7 : Les espaces collaboratifs de Perplexity

Il n’y a pas grand’ chose à dire sur Discover si ce n’est que ce sont des recherches conversationnelles publiques que Perplexity estime susceptibles de vous intéresser.

6. Pour conclure

Après quelques semaines d’ utilisation intensive de Perplexity, je suis un utilisateur convaincu; c’ est ce qui m’ a poussé à écrire cet article.

Le grand avantage se situe au niveau des recherches informationnelles pour lesquelles la combinaison modèle de langage et engin de recherche fait des merveilles. La possibilité de poser des questions supplémentaires en particulier permet de clarifier énormément de choses par la suite.

J’ aime aussi beaucoup la sobriété de l’ interface ainsi que la possibilité de revoir les dialogues passés et de les partager.

Il y a cependant un risque: celui de l’ affaibissement de l’ esprit critique. Si la réponse est convaincante il est tentant avec ce genre de modèle de ne pas vérifier les sources, ce qui veut dire devenir dépendant d’ une source unique d’ information avec tous les risques et biais que cela peut entraîner. C’ est peut-être l’ avantage un peu paradoxal des recherches « à l’ ancienne » : elles vous obligeaient à consulter plusieurs sites et à mettre en balance les différentes informations à l’ aune de la crédibilité des sources…

Les Machines Gracieuses : résumé d’ un essai de Dario Amodei, PDG d’ Anthropic

Dario Amodei est le PDG d’ Anthropic, un des principaux acteurs de l’ IA générative qui a produit le modèle Claude. Il a récemment publié un texte très intéressant sur les conséquences possibles de l’ IA sur la société dans les prochaines années. Intitulé Machines of Loving Grace, ce texte, assez long et détaillé, est accessible ici.

Illustration : les Machines Gracieuses

Je trouve cet exercice très intéressant et je vais tenter d’ en résumer les principaux enseignements dans l’ article qui suit.

Le texte s’ inscrit dans une série de déclarations ambitieuses de la part des principaux acteurs du secteur, à savoir Sam Altman d’ OpenAI dans son texte The Intelligence Age ainsi que l’ interview de Demis Hassabis, PDG de Google Deepmind au Time Tech Summit 2024. Vous trouverez les liens ci-dessous en référence et si vous en avez le temps et l’ intérêt, je ne puis que vous encourager à les consulter.

Ces discussions tournent autour de la création d’ une intelligence artificielle « généraliste » (AGI en Anglais) dans un avenir relativement proche. La définition de cette AGI reste floue mais cette dernière serait globalement aussi capable et versatile qu’ un expert humain et ce dans tous les domaines, disposerait d’une capacité à agir de manière autonome dans le domaine digital voire dans le monde physique (robotique); par ailleurs, cette AGI serait en mesure de planifier et exécuter des tâches complexes pouvant demander des heures, des jours ou des semaines pour être menées à bien.

Il est frappant que l’ article de Dario Amodei suggère qu’ une telle AGI (qu’ il préfère appeler Powerful AI) pourrait apparaître à partir de 2026 dans scénario le plus optimiste. Étant donné que nous sommes à la fin de l’année 2024 et que le cycle de la recherche à la production d’une IA est d’environ 18 mois, cela implique que plusieurs directions de recherche actuelles pourraient effectivement porter leurs fruits, et il est bien placé pour savoir ce qui se passe dans ses laboratoires…

L’ article décrit avec beaucoup de clarvoyance et d’ équilibre les impacts potentiels de l’ appartition d’ une telle intelligence artificielle généraliste sur la société et sa transformation endéans les 5 à 10 ans après l’ apparition de l’ AGI. Loin des rêveries transhumanistes et de la singularité exponentielle quasi-instantanée chère à Ray Kurzweil, l’ analyse de Dario Amodei prend sobrement en compte les goulets d’ étranglement du monde physiques et les délais de transformation inhérents à chacun de ces secteurs.

De même, il écarte le scénario de l’immobilisme, selon lequel l’intelligence est paralysée par la réglementation et rien ne se passe. Au lieu de cela, il choisit une voie médiane : une intelligence d’abord limitée par toutes sortes de murs, qu’ elle s’ efforce d’ escalader et de surmonter.

Que pouvons-nous donc attendre dans les 5 à 10 ans après l’ an zéro de l’ AGI, que ce dernier soit en 2026 ou quelques années plus tard ?

1. Biologie, neurosciences et santé

L’ un des principaux obstacles à l’ accélération des découvertes biologiques est le temps nécessaire pour les expérimentations sur des cellules, des animaux ou des humains, qui peuvent durer des années. De plus, même lorsque des données sont disponibles, elles sont souvent incomplètes ou entâchées d’ incertitude, compliquant l’ identification précise d’ effets biologiques spécifiques. Ces défis sont aggravés par la complexité des systèmes biologiques, où il est difficile d’ isoler et d’ intervenir de manière prédictive.

L’ auteur souligne qu’ il veut utiliser l’ IA non pas comme un outil d’analyse de données, mais comme un chercheur à part entière qui améliore tous les aspects du travail d’ un biologiste, de la définition à l’ exécution d’ expériences dans le monde réel. Il souligne que la plupart des progrès en biologie proviennent d’ un petit nombre de percées majeures telles que CRISPR pour les manipulations génétiques ou les vaccins à ARN messager, et qu’il y a en moyenne une de ces découvertes majeures par an.

L’ IA pourrait multiplier par dix le rythme de ces découvertes, permettant de réaliser en 5 à 10 ans les progrès que les humains auraient faits en 50 à 100 ans. Des percées comme AlphaFold, qui a révolutionné la compréhension des structures protéiques, montrent d ores et déjà le potentiel de l’ intelligence artificielle pour transformer la biologie.

Cela pourrait conduire à l’ élimination des maladies infectieuses, la prévention de la plupart des cancers, la guérison des maladies génétiques et même la prévention d’ Alzheimer. Il ne considère pas les essais cliniques comme un obstacle. Les essais cliniques sont longs parce que nos médicaments sont mauvais et qu’ ils ne donnent généralement pas d’ indications claires sur leur efficacité. Cela changera si l’ IA ne produit que les médicaments les plus efficaces, avec des techniques de mesure améliorées et des critères d’ évaluation plus précis.

Dario Amodei voit un potentiel analogue dans le domaine des neurosciences, avec l’ élimination de la plupart des maladies mentales comme la schizophrénie, le stress post-traumatique ou l’ addiction à travers une combinaison de développements de nouveaux médicaments et de thérapies comportementales. La possibilité de traiter des maladies mentales ayant des causes neuro-anatomiques comme la psychopathie semble possible mais moins probable.

De tels développements -entraînant une augmentation significative de la durée de vie en bonne santé- auraient un impact positif majeur sur la sécurité sociale et son financement. Il est cependant probable que d’ autres défis apparaîtraient alors comme celui de modifier en profondeur nos infrastructures sociales, y compris les mécanismes de départ à la retraite, ainsi que d’ offrir l’ accès le plus large possible à ces technologies.

2. Aspects socio-économiques et politiques

L’ accès aux nouvelles technologies, notamment en matière de santé, ne va pas de soi. La disparité des conditions de vie entre les pays développés et les pays en développement, où le PIB par habitant en Afrique subsaharienne est d’environ 2 000$, contre 75 000$ aux États-Unis, est alarmante. Si l’ IA améliore uniquement la qualité de vie dans les pays riches, cela constituerait un échec moral majeur. L’ idéal serait que l’ IA aide également le monde en développement à rattraper les pays riches.

Cependant, Dario Amodei est moins confiant dans la capacité de l’ IA à résoudre les problèmes d’ inégalité économique, car l’économie dépend largement de facteurs humains et de la complexité intrinsèque des systèmes économiques. La corruption, omniprésente dans certains pays en développement, complique encore la tâche, mais il reste optimiste quant au potentiel de l’ IA pour surmonter ces défis.

L’ IA pourrait aussi contribuer à la sécurité alimentaire et à la lutte contre le changement climatique, des enjeux particulièrement pressants pour les pays en développement. Les technologies agricoles et les innovations pour atténuer les effets du changement climatique, comme l’ énergie propre ou l’ élimination du carbone atmosphérique, devraient aussi bénéficier des avancées en IA.

Sur le plan politique, Dario Amodei examine la question de savoir si l’ IA favorisera la démocratie et la paix, ou si elle pourrait au contraire renforcer l’ autoritarisme. Même si l’ IA réduit la maladie, la pauvreté et les inégalités, il reste la menace des conflits humains et de l’ autoritarisme. L’ auteur souligne que l’ IA pourrait tout aussi bien servir les « bons » que les « mauvais » acteurs, en particulier en matière de propagande et de surveillance, deux outils majeurs des régimes autoritaires.

Au niveau interne, l’ auteur pense que si les démocraties dominent l’ IA sur la scène mondiale, cela pourrait favoriser l’ exercice démocratique. L’ IA pourrait contrer la propagande autoritaire en offrant un accès libre à l’ information et des outils pour affaiblir les régimes répressifs, tout en améliorant la qualité de vie des citoyens, ce qui, historiquement, a tendance à encourager la démocratie. En outre, l’ IA pourrait aider à renforcer les institutions démocratiques en rendant les systèmes judiciaires plus impartiaux et en réduisant les biais humains dans les décisions juridiques. Elle pourrait également améliorer l’ accès aux services publics, renforcer la capacité des États à répondre aux besoins de leurs citoyens et réduire le cynisme à l’ égard du gouvernement. L’ idée est que l’ IA pourrait jouer un rôle central pour améliorer la transparence, l’ impartialité et l’ efficacité des systèmes démocratiques.

3. Travail et valeurs

Dans un monde où l’ IA se révèle capable de faire tant de choses, quelle valeur encore accorder à l’ éducation, à l’ effort, au travail et à la rémunération de ce dernier ?

Dario Amodei fait deux constats : le premier est que notre société est organisée de manière à traiter les déséquilibres macroéconomiques de manière progressive et décentralisée. C’est un point que j’ avais également fait dans mon article sur les risques structurels de l’ IA accessible ici. Cela ne constitue pas une garantie absolue de succès mais nous disposons à tout le moins d’ institutions représentatives et en principle capables de traiter ce genre de questions si les bouleversements ne sont pas trop rapides.

Le second est que ce n’ est pas parce qu’ une IA peut faire votre travail mieux que vous que votre travail perd sa valeur ou sa signification. Ce n’ est pas parce que vous ne courrez jamais aussi vote qu’ Usain Bolt que vous abandonnez le jogging. L’ immense majorité des gens ne sont exceptionnels en aucun domaine et cela ne semble pas les gêner outre mesure ni les empêcher de vivre ni de gagner leur vie. Par ailleurs, beaucoup de gens passent une partie importante de leur vie à effectuer des activités non-productives comme jouer à des jeux vidéos…Ce que les gens recherchent avant tout, c’est un sens de l’ accomplissement.

Et il suffit que certaines tâches restent comparativement plus difficiles pour des IA pour que les humains conservent une vraie valeur ajoutée. L’ interaction avec le monde physique restera probablement un de ces domaines, au moins dans un premier temps.

Sur le plus long terme, si des IA devaient devenir supérieures aux humains en tous points, il faudrait alors engager une discussion plus large sur notre modèle socio-économique, mais les structures sont en place pour ce faire, d’ autant plus que ces transitions devraient être progressives. La forme définitive que prendrait notre société est difficile à estimer aujourd’ hui. Mais une chose à la fois…

4. Conclusion

Ma réserve principale quant à ce texte remarquable est qu’ il ne aborde pas deux autres domaines où l’ IA peut jouer un rôle transformationnel : l’ éducation et la recherche scientifique non liée aux sciences du vivant. Quoi qu’ il en soi, l’ ajout de ces deux élements supplémentaire ne ferait que renforcer l’ impression d’ensemble qui se dégage du texte…

Je ne peux qu’ en appeler à tout le monde : prenez cela au sérieux ! Si les scénarios décrits ci-dessus ne sont pas certains, ils sont plausibles et ce qu’écrit Dario Amodei n’ est pas insignifiant, ni sans intérêt.

Nous devons en parler maintenant et réfléchir à ce à quoi notre monde pourrait ressembler dans cinq ou dix ans. Car l’ intelligence artificielle pourrait bien bouleverser nos vies bien plus vite que prévu, et nous nous trouvons ici en face d’ une transformation potentiellement plus profonde que celle que nous avons connue avec les ordinateurs ou Internet.

5. Notes et références