Le 24 novembre 2025, le président des États-Unis signe un décret historique: le lancement officiel de la Mission Genesis, une initiative de grande envergure destinée à fusionner données publiques, super-ordinateurs, laboratoires nationaux et intelligence artificielle.
La mission sera conduite par l’U.S. Department of Energy (DoE), à travers ses 17 laboratoires nationaux, en collaboration avec universités, entreprises technologiques et centres de recherche. Elle s’appuiera sur l’expertise des quelque 40 000 scientifiques, ingénieurs et techniciens du DoE, ainsi que sur celle des acteurs secteur privé.
L’ initiative a pour objectif d’ ouvrir une nouvelle ère d’ innovation et de découvertes accélérées par l’IA, capables de répondre aux défis les plus complexes de notre époque. Elle se concentrera sur des défis majeurs comme la fusion nucléaire, les réacteurs nucléaires avancés, la modernisation du réseau électrique, les nouveaux matériaux, l’ informatique quantique et la mise au point de nouveaux médicaments.
Figure 1 : Pictogramme de la Mission Genesis
Contenu du projet Genesis
L’ idée est de bâtir une plateforme intégrée qui permettra d’ entraîner des modèles IA scientifiques avancés menant à des agents chercheurs autonomes fonctionnant en boucle fermée. Ceux-ci pourront à la fois contenir des modèles génératifs, pour échafauder des hypothèses créatives, mais aussi des modèles prédictifs afin d’ orienter et de valider les intuitions du modèle génératif.
Le processus scientifique décrit dans la feuille de route du DOE relève presque de la science-fiction :
La conception par l’ IA : elle examine les données et émet l’hypothèse suivante : « Si nous mélangeons ces alliages à 4 000 degrés, nous obtenons un supraconducteur. »;
L’ IA définit ensuite un protocole de validation expérimental et l’ envoie à un laboratoire lui aussi robotisé (que le DoE est en train de construire) pour réaliser le mélange et tester ses propriétés;
Le robot renvoie instantanément les résultats. En cas d’échec, l’ IA modifie la formule;
Ce cycle se répète des milliers de fois par jour, 24 heures sur 24, 7 jours sur 7. Pas de sommeil. Pas de demande de subvention.
Le projet se caractérise aussi par des délais ambitieux, qui attestent de son importance pour l’ administration américaine :
60 jours pour identifier 20 défis hautement prioritaires à relever;
90 jours pour répertorier toutes les ressources informatiques à sa disposition;
120 jours pour établir un plan visant à exploiter les données provenant à la fois de sources fédérales et d’autres instituts de recherche;
270 jours pour démontrer que son plan peut permettre de progresser sur au moins l’ un des défis identifiés.
Réflexions
Que l’ on ne s’ y trompe pas, il s’ agit d’ une initiative majeure. Lors d’une conférence de presse, Michael Kratsios, conseiller scientifique du président Trump, a qualifié la mission Genesis de « plus grande mobilisation de ressources scientifiques fédérales depuis le programme Apollo ».
Un des objectifs centraux de cette mission est de doubler la productivité et l’ impact de la recherche et de l’ innovation américaines en l’ espace d’ une décennie en assistant les effectifs scientifiques avec de l’ IA plutôt qu’en les remplaçant. Ce n’est pas rien.
De plus, les laboratoires du Department of Energy disposent des supercalculateurs les plus rapides et d’ une expérience dans la conduite de recherches contrôlées à haut risque, essentielle pour l’ expérimentation dans certains domaines.
Les géants de l’ IA américaine (Google, OpenAI, Anthropic, Nvidia etc..) sont aussi cités comme participants et devraient obtenir l’ accès à des pétaoctets de données expérimentales exclusives qui ont été conservées dans des installations gouvernementales sécurisées pendant des décennies.
Toutes ces données, jusqu’ ici cloisonnées au sein des archives scientifiques du NIH, du DOE, de la NASA, de la NOAA, de la DARPA, de la NSF, du CDC, de la FDA, de l’USDA, du Bureau du recensement et des services de renseignement seront regroupées dans un ensemble unifié.
Ceci ne signifie cependant pas que les géants de la tech sont au centre de cette initiative; ils interviendront plutôt en tant qu’ experts et conseillers, mais bénéficieront de ses retombées.
Les capacités des modèles feront un bond en avant, car ces données contiennent précisément le type d’ informations à haut signal, structurées et à long terme dont les modèles de pointe ont besoin pour leur entraînement.
Imaginez un outil qui, en moins de trois ans, devient une habitude hebdomadaire pour plus de 700 millions d’ utilisateurs, soit environ 10% de la population adulte du monde.
Cet outil, c’ est bien sûr ChatGPT, qui répondait en moyenne à 2,5 millards de questions par jour en juin 2025 (soit environ 29.000 par seconde!). Mais que demandent les utilisateurs ? A quelles fins utilisent-ils des modèles de langage ?
OpenAI et le National Bureau of Economic Research (NBER) ont rédigé la première étude statistique détaillée d’utilisation du modèle de langage le plus populaire : ChatGPT. Ce sont les résultats de cette étude que je voudrais vous présenter dans cet article.
Attention : l’ étude ne porte que sur l’ interface web ChatGPT et ne reprend que les utilisateurs sur les plans « consommateur » (Free, Plus et Pro). Les utilisateurs sur les plans entreprise (Business et Enterprise) ne sont pas repris, ni les accès par API, ce qui a des conséquences pour l’ interprétation des résultats…
1. Profil des utilisateurs et volumes de conversation
Voyons d’ abord le nombre d’ utilisateurs ChatGPT actifs au moins une fois par semaine. Ce nombre passe de 100 millions début 2024 à 400 millions début 2025 pour atteindre en juillet 2025 environ 700 millions d’ utilisateurs soit 10% de la population adulte mondiale; ces chiffres sont cependant un peu surévalués car ils mesurent le nombre de comptes et certains utilisateurs peuvent disposer de plusieurs comptes.
Figure 1 : Nombre de comptes ChatGPT (« Free », »Plus », »Pro ») actifs au moins une fois par semaine (crédit : étude OpenAI/NBER)
Quant au nombre total de messages échangés chaque jour sur ChatGPT, il passe de 451 millions en juin 2024 à environ 2,6 milliards en juin 2025 (en moyennes hebdomadaires) et tout semble indiquer que cette croissance devrait se poursuivre. Pour donner une idée de comparaison, Google a indiqué au mois de mars traiter approximativement 14 milliards de recherches par jour.
Un point intéressant est que la croissance du trafic sur le site de ChatGPT semble provenir essentiellement de l’ arrivée de nouveaux utilisateurs, et non d’ une augmentation de la fréquence d’ utilisation par les utilisateurs plus anciens, qui reste stable.
Quant au profil des utilisateurs, il est clairement orienté vers les jeunes puisque 46% des utilisateurs ayant mentionné leur âge ont entre 18 et 25 ans. Et si 80% des utilisateurs étaient des hommes lors du lancement de ChatGPT fin 2022, la proportion est passée à 52% de femmes aujourd’ hui ce qui est en phase avec la moyenne de la population.
Enfin, une tendance très intéressante est que ChatGPT connaît actuellement une croissance quatre fois supérieure dans les pays à faibles et moyens revenus par rapport aux pays les plus riches. Ceci montre la globalisation rapide de cet outil.
2. Catégories d’ utilisation
L’ étude a analysé de manière détaillée et classé plus d’ un million de conversations provenant de la base globale des utilisateurs de ChatGPT, tout en protégeant l’ anonymité des messages individuels.
Figure 2 : Répartition des conversations par catégorie (crédit : étude OpenAI/NBER)
Les catégories d’ utilisation les plus fréquentes sont :
conseils pratiques (28,3%) : instruction et éducation, explications « comment faire? », conseils de beauté, de fitness ou de soins….
écriture (28,1%) : il est intéressant ici que les demandes de rédaction directe (8%) sont inférieures aux demandes d’ édition et de revue de textes déjà rédigés (10,6%). La traduction de textes compte pour environ 4,5% des conversations;
recherche d’ informations (21,3%) : cette catégorie est en forte croissance, passant de 14% des utilisateurs à 24,4% en un an (le chiffre de 21,3% est une moyenne). Il est intéressant que la tendance des modèles de langage à occasionnellement affabuler ne semble pas rebuter les utilisateurs; il est vrai que les modèles de langage se sont améliorés dans la fourniture de liens vers leurs sources, ce qui permet une vérification de l’ information a posteriori.
Par contre, seuls 1,9% des messages ont trait à des questions relationnelles ou à des réflections personnelles, et 2% à du bavardage et à des salutations(!). Quoi qu’ en disent les médias, un outil comme ChatGPT est utilisé comme un outil et non comme un compagnon ou un confident.
3. L’ utilisation privée avant le travail
Autre point intéressant, les chercheurs ont cherché à distinguer les conversations à caractère professionnel de celles à caractère privé. Et les conclusions sont claires : la proportion des conversations non-professionelles est passée en un an de 53% à 72,2%.
Malgré toutes les déclarations suggérant que les modèles de langage vont révolutionner l’ emploi et le milieu professionnel, une conclusion s’ impose : ChatGPT est principalement un outil utilisé dans la vie privée.
Figure 3 : Proportion de conversations à caractère non-professionnel (crédit : étude OpenAI/NBER)
Ce constat doit être fait avec une réserve : les abonnements « entreprise » ne sont pas repris dans l’ étude et il est probable que leur inclusion augmenterait la part de conversations professionnelles, mais sans toutefois remettre en cause le caractère principalement privé de l’ utilisation.
Les utilisateurs hautement qualifiés et ceux exerçant des professions libérales sont plus susceptibles d’ utiliser ChatGPT dans le cadre de leur travail. Dans le cadre professionnel, les utilisateurs techniques envoient davantage de messages de questionnement et de recherche d’ informations, tandis que les cadres se concentrent sur la rédaction (52 % de leurs messages professionnels).
4. Les absents
L’ étude fait aussi état d’ une utilisation assez faible des capacités de traitement des images offertes par ChatGPT, tant en analyse qu’en génération (environ 6% des requêtes).
De même la programmation est peu présente (4,2% des requêtes), ce qui paraît surprenant. La raison est très probablement l’ exclusion de l’ interface API de l’ étude, alors que les assistants intégrés de programmation type Github Copilot et Cursor recourent systématiquement à l’ accès par l’ API.
5. Remarques finales
Anthropic a publié une étude comparable relative à l’ utilisation de Claude le même jour qu’ OpenAI (le 15 septembre) et les résultats de cette seconde étude sont assez différents !
Le grand avantage de l’ étude d’ Anthropic est qu’ elle couvre aussi les accès API; elle est donc plus complète. Elle est aussi entièrement accessible alors que l’ étude complète d’ OpenAI se trouve sur le site du National Bureau of Economic Research et n’ est pas librement accessible; je confesse que j’ai dû baser cet article sur des sources indirectes….
Je vous présenterai les résultats de l’ étude d’ Anthropic dans le prochain article.
D’ ici là, portez-vous bien et n’ oubliez pas de soumettre toutes vos questions -même les plus insolites- à votre modèle de langage favori.
Nous avons vu dans l’ article précédent comment les chercheurs d’ Anthropic ont réussi à modifier un de leurs modèles de langage pour faire apparaître des concepts interprétables au sein des différentes couches du modèle.
Ces recherches, qui remontent à 2024, constituent une première étape. Mais les chercheurs d’ Anthropic sont allés plus loin et ont cherché à comprendre comment ces concepts se combinent dans un modèle pour échafauder une réponse plausible à la demande de l’ utilisateur.
C’ est ce que je vais tenter de vous expliquer dans cet article, et comme vous le verrez, cela apporte pas mal d’ enseignements très intéressants sur le fonctionnement intime des modèles.
Comment tracer les pensées du modèle ?
Nous avons vu dans l’ article précédent comment les chercheurs avaient réussi à adjoindre une sous-couche « interprétable » à chaque couche du modèle, ce qui permettait d’ identifier et de localiser un ensemble de concepts. Mais ce mécanisme ne permettait pas encore de comprendre comment ces concepts s’ articulent en une réflexion cohérente.
Pour pouvoir tracer les pensées du modèle, les chercheurs ont créé un modèle de substitution plus riche que celui présenté dans l’ article précédent:
chaque couche du modèle original est remplacée par une couche interprétable équivalente, appelée couche de transcodage;
chaque couche de transcodage agit non seulement sur la prochaine couche du modèle mais aussi les couches suivantes. Ceci permet à une caractéristique interprétable située en amont du modèle d’ agir directement sur une autre caractéristique interprétable située n’ importe où en aval.
Ceci mène au modèle de substitution présenté dans la figure 1.
Figure 1 : Du modèle original au modèle de remplacement
Une fois que ce modèle de remplacement a été correctement entraîné, on va pouvoir lui soumettre un texte d’ entrée et voir quelles sont les caractéristiques interprétables qui sont activées par la question, mais aussi comment ces caractéristiques s’ influencent mutuellement pour aboutir à la formation de la réponse.
En fait le « truc » est toujours le même : on remplace un modèle par un autre qui fait la même chose mais dans lequel on peut mesurer ce qui nous intéresse. Parce que les informaticiens ont un grand avantage sur les biologistes : tous les calculs intermédiaires sont accessibles et tout est mesurable !
Le résultat de ces mesures se présente sous la forme de graphes d’attribution, une représentation graphique des étapes de calcul utilisées par le modèle pour déterminer le texte de sortie pour un texte d’ entrée particulier.
Voici un exemple de graphe d’ attribution simple pour vous donner une idée de ce que cela signifie :
Voyons maintenant quelques découvertes intéressantes que les chercheurs ont faites en analysant les graphes d’ attribution générés pour des textes d’ entrée judicieusement choisis…
Découverte 1 : les modèles ne dévoilent pas toujours leurs pensées
C’ est la première question à se poser : demandez au modèle d’ expliquer chaque étape de son raisonnement (chain of thought prompting). L’ explication fournie correspond-elle systématiquement au raisonnement intérieur du modèle?
Parce que si c’ est le cas, pas besoin de faire toutes ces recherches, il suffit de demander au modèle d’ expliciter son raisonnement. Malheureusement, ce n’ est pas ce que les chercheurs ont découvert.
Prenons un exemple simple de calcul mental. Les chercheurs ont demandé au modèle combien font 36+59. Ils ont découvert que le modèle utilise « en interne » un double chaîne de raisonnement, la première cherchant une réponse approximative et la seconde se limitant à calculer le chiffre des unités; les deux sont ensuite combinés pour estimer une réponse. A noter que c’ est assez proche de ce que nous faisons intuitivement en calcul mental.
Voici le graphe d’ attribution correspondant :
Figure 3 : Graphe d’ attribution pour un calcul élémentaire (source : Anthropic)
Mais quand on demande au modèle d’ expliquer son raisonnement, il explique l’ algorithme standard d’addition écrite avec le report des unités sur les dizaines. Ce qui est un tout autre mécanisme !
Figure 4 : Explication fournie par le modèle (source : Anthropic)
Plus généralement, les chercheurs ont remarqué que le modèle décrit son raisonnement correctement dans certains cas, mais ce n’ est pas systématique.
Par exemple, lorsqu’ on lui demande de calculer le cosinus d’un grand nombre qu’ il ne peut pas calculer facilement, le modèle se livre parfois à ce que les chercheurs appellent du bullshitting (!), c’est-à-dire qu’ il donne une réponse, n’ importe laquelle, sans se soucier de savoir si elle est vraie ou fausse. Même s’ il prétend avoir effectué un calcul, les techniques d’ interprétabilité ne révèlent aucune preuve de l’ existence de ce calcul !
Autre cas intéressant, lorsqu’ on lui donne un calcul ainsi que sa réponse et on lui demande d’ expiquer comment trouver le résultat, le modèle travaille parfois à rebours, trouvant des étapes intermédiaires qui mèneraient à cette cible, faisant ainsi preuve d’ une forme de raisonnement motivé. D’ autant plus qu’ il n’ hésite pas à faire aussi cela lorsque la réponse qu’ on lui donne est fausse !
Bref, on ne peut pas considérer les explications et justifications du modèle comme transparentes et une analyse « intrusive » est nécessaire pour comprendre ce qui se passe réellement dans sa « tête ». C’ est bien dommage mais c’ est comme ça.
Découverte 2 : le modèle possède un seul modèle cognitif multilingue
Ceci est, pour moi, remarquable : le modèle semble posséder un espace conceptuel unique qui est partagé entre les différentes langues, ce qui suggère qu’il possède une sorte de « langage de pensée » universel.
En effet, comme l’ entraînement des modèles se fait sur un ensemble de textes en grande majorité individuellement unilingues, on pourrait imaginer que ces modèles contiennent en leur sein une série de mini-modèles conceptuels indépendants, chaque langue créant sa propre réalité intérieure au fil de l’ entraînement.
Au contraire, les chercheurs d’ Anthropic ont montré qu’ il n’ existe pas de «modèle français» ni de «modèle chinois» fonctionnant en parallèle et répondant aux demandes dans leur propre langue.
Ils ont demandé au modèle le « contraire de petit » dans différentes langues, les mêmes caractéristiques fondamentales des concepts de petitesse et d’ opposition s’ activent pour déclencher un concept de grandeur, qui est finalement traduit dans la langue de la question.
Figure 5 : Le modèle conceptuel multilingue (source: Anthropic)
D’ un point de vue pratique, cela suggère que les modèles peuvent apprendre quelque chose dans une langue et appliquer ces connaissances lorsqu’ ils conversent dans une autre langue, ce qui est tout à fait positif et très important à comprendre.
Découverte 3 : le modèle planifie sa réponse plusieurs mots à l’ avance
L’ algorithme de base des modèles de langage repose sur une prédiction mot à mot. Mais le modèle planifie-t’ il plus loin que le prochain mot ? A-t’ il une idée « derrière la tête » quand il fait sa prédiction ?
Un bon cas pour tester ceci est la rédaction d’ un poème. En effet, pour écrire un poème, il faut satisfaire à deux contraintes en même temps : les vers doivent rimer et ils doivent avoir un sens. Il y a deux façons d’ imaginer comment un modèle y parvient :
l’ improvisation pure – le modèle pourrait écrire le début de chaque ligne sans se soucier de la nécessité de rimer à la fin. Puis, au dernier mot de chaque ligne, il choisirait un mot qui (1) a un sens compte tenu de la ligne qu’il vient d’écrire et (2) correspond au schéma de rimes;
la planification – le modèle peut également adopter une stratégie plus sophistiquée. Au début de chaque ligne, il pourrait imaginer le mot qu’ il prévoit d’ utiliser à la fin, en tenant compte du schéma de rimes et du contenu des lignes précédentes. Il pourrait ensuite utiliser ce « mot prévu » pour rédiger la ligne suivante, de manière à ce que le mot prévu s’ insère naturellement à la fin de la ligne.
Lequel des deux modèles est correct ? Vu l’ algorithme des modèles de langage, on pourrait pencher pour la première hypothèse. C’ était d’ ailleurs ce que pensaient des chercheurs au début de leurs recherches. Et pourtant, ils ont trouvé des éléments suggérant clairement que le modèle fait de la planification plusieurs mots à l’ avance…
Comme on peut le voir sur la figure 6, le modèle planifie à l’ avance plusieurs possibilités pour le mot final de la ligne, et planifie ensuite le reste de la ligne « à l’envers » pour que cette dernière soit cohérente.
Figure 6 : Planification direct et inverse d’ une rime (source: Anthropic)
Les chercheurs ont également modifié les concepts en cours d’ élaboration de la rime. Le modèle prévoyait de terminer sa ligne par « rabbit » mais si l’ on annule ce concept en cours de route voire le remplace par un autre, le modèle change de rime.
Figure 7 : Modification du concept final en cours de rime (source: Anthropic)
Ceci montre que les modèles préparent leurs réponses plusieurs mots à l’ avance, et sont non seulement capbles de planifier vers l’ avant mais aussi vers l’ arrière (rétro-planning) quand c’ est nécessaire. Les modèles sont aussi capables de planifications multiples en parallèle, et il est possible d’ intervenir directement sur ces plans en cours de route en modifiant les concepts sous-jacents.
Conclusion
Ces recherches lèvent un coin du voile sur ce qui se passe réellement au sein des modèles de langage. Il me semble clair que ces recherches ne sont qu’ à leurs débuts et que beaucoup de choses sont encore à découvrir dans le domaine de l’ interprétabilité.
Si vous voulez en savoir plus sur ce sujet, je ne puis que vous suggérer de lire directement l’ article On the Biology of a Large Language Model que je cite ci-dessous en référence. Les chercheurs y présentent douze traces de raisonnement différentes apportant chacune son lot d’ enseignements…
Pour ma part, ce qui me fascine le plus, ce sont les analogies évidentes entre la manière dont ces modèles « réfléchissent » et la manière dont nous le faisons…
Et voilà, j’ ai décidé de joindre le geste à la parole dans le cadre de la résilience digitale. J’ ai transféré le nom de domaine et l’ hébergement du blog vers l’ Union Européenne. Le blog se trouve maintenant à l’ adresse https://artificiellementintelligent.eu qui est hébergé par la société française OVH, un des leaders européens dans le domaine et offre des hébergements WordPress compétitifs. L’ancien site reste provisoirement accessible sur https://artificiellementintelligent.wordpress.com.
Ce message est donc le premier que vous recevez depuis la nouvelle mouture du blog, ce qui explique aussi la modification du format des emails de notification car j’ai dû adapter la configuration et les plug-ins de WordPress chemin faisant.
Ces préliminaires étant dits, je vais faire un rapide point sur la situation actuelle des modèles de langage. Les modèles de langage actuels peuvent grosso modo se regrouper en trois grandes catégories :
les modèles généralistes : ces modèles sont focalisés sur la conversation et le dialogue. Ils puisent dans leurs vastes connaissances, recherchent des informations et répondent de manière interactive aux questions variées de l’ utilisateur. Souvent multimodaux, ils peuvent aussi interpréter des images, de l’ audio voire de la vidéo et sont parfois capables de générer nativement des images. Ils sont habituellement accessibles via des interfaces web ou des applications mobiles conversationnelles;
les modèles de codage : ces modèles excellent dans l’ analyse et la génération de programmes informatiques. Ils sont typiquement exploités via des environnements de développement comme VSCode qui utilisent l’ interface de programmation pour accéder au modèle. Ces modèles sont en général capables d’ interpréter les images (diagrammes, interface utilisateur…) et se caractérisent par des fenêtres de contexte de grande taille, vu la taille souvent importante des codes source;
les modèles raisonneurs : ces modèles sont entraînés à construire des chaînes de raisonnement logiques. Ils sont à la base des applications comme « Deep Research » qui permettent d’ analyser un sujet de manière approfondie et de rédiger un rapport détaillé. La tendance actuelle est de leur adjoindre différents outils accessibles en cours de raisonnement afin qu’ ils puissent tester leurs hypothèses et continuer à raisonner sur les résultats intermédiaires obtenus. C’ est la voie vers les fameux « agents » dont on entend beaucoup parler et qui devraient enregistrer des progrès importants cette année.
Sur base de cette classification simple, voici les modèles « phare » actuellement mis à disposition par les principaux acteurs :
Modèle généralistemultimodal
Modèle de codage
Modèle raisonneur
OpenAI
ChatGPT-4o
GPT-4.1
o3
Google
Gemini 2.5 Pro
Gemini 2.5 Pro
Gemini 2.5 Pro Deep Think
Anthropic
Claude 3.7 Sonnet
Claude 3.7 Sonnet
Claude 3.7 Sonnet Extended Thinking mode
Meta
Llama 4 Maverick
Code Llama 4 (pas encore disponible)
Llama 4 Behemoth (pas encore disponible)
Mistral
Pixtral Large
Codestral
Mistral Large
Figure 1 : Modèles « Haut de gamme » des principaux acteurs, par type d’ utilisation
Il est aussi intéressant de connaître les modalités supportées par les modèles généralistes :
Modalités d’ entrée
Modalités de sortie
ChatGPT-4o
texte, audio, images, vidéo
texte, audio, images
Gemini 2.5 Pro
texte, audio, images, vidéo
texte
Claude 3.7 Sonnet
texte, images
texte
Llama 4 Maverick
texte, images, vidéo(?)
texte
Pixtral Large
texte, images
texte
Figure 2 : Modalités natives des modèles généralistes
OpenAI offre une palette différenciée de modèles; l’ objectif est de combiner l’ ensemble des capacités en un modèle unique à l’ architecture entièrement nouvelle (le fameux GPT-5), probablement vers la fin de l’ année 2025. Le modèle ChatGPT-4o présente la plus modalité la plus riche de tous les modèles du marché : il est capable d’ analyser, texte, image, audio et même vidéo et de générer nativement du texte et des images !
Notons qu’ OpenAI a décidé de retirer son modèle ChatGPT-4.5, trop coûteux à l’ exploitation pour se focaliser sur ChatGPT-4o pour les interactions conversationnelles et GPT-4.1 pour le codage.
Google est très bien placé avec Gemini 2.5 Pro qui intègre l’ ensemble des capacités dans un seul modèle : conversation, multimodalité (certes moins complète que ChatGPT-4o), génération et exécution de code et raisonnement. Il me semble que Google, qui a longtemps joué en seconde voire en troisième position, semble bien positionné pour reprendre la tête du peloton.
Les modèles d’ Anthropic sont très réputés pour leurs excellentes performances en codage. Anthropic cherche maintenant à renforcer sa position sur ce créneau en se concentrant sur leschaînes de raisonnement complexes avec appel d’ outils intégrés, y compris les environnements d’ exécution de programmes. Leur protocole standardisé MCP (Model Context Protocol), qui permet à un modèle de langage d’accéder à différents outils, s’ inscrit dans cette optique. Par contre, Anthropic accorde moins d’ importance à la multimodalité -moins utile pour la programmation- et leurs modèles ne peuvent générer que du texte et du code.
Enfin, Meta se caractérise par la disponibilité de leurs modèles en format open-weights, ce qui veut dire qu’ils sont utilisables localement. Ceci offre de grands avantages en termes de sécurité et de confidentialité à condition de disposer de machines suffisamment puissantes pour exécuter les modèles. Meta n’ offre pas encore de modèle raisonneur, ce dernier (appelé Behemoth) devrait cependant bientôt être annoncé.
Tous les modèles mentionnés sont de très bon niveau. Pour le travailleur intellectuel « col blanc » typique, la meilleure chose à faire est d’ essayer rapidement les différents modèles pour choisir celui qui vous convient le mieux, et ensuite de vous y tenir et de l’ utiliser chaque fois que vous vous posez une question ou recherchez des informations. C’ est comme cela que vous comprendrez progressivement comment intégrer ces modèles dans votre vie quotidienne et en tirer le meilleur parti.
Cela fait quelque temps que j’ ai découvert le site OpenRouter que je trouve extrêmement utile : il permet d’ accéder à la quasi-totalité des modèles de langage accessibles sur le marché de manière simple et conviviale.
Le site offre une interface d’ accès unifiée vers plus de 300 modèles de langage. Les modèles « dernier cri » des principaux fournisseurs sont disponibles, comme Mistral 2 Large, GPT-4.1, Claude 3.7 Sonnet, Meta Llama 4 etc…
Vous ne devrez donc plus souscrire à des abonnements séparés pour chaque fournisseur, ni pour l’ accès web ni pour l’ accès par interface de programmation (API). Autre avantage, le coût d’ utilisation est calculé par token ce qui est en général beaucoup plus intéressant que l’ approche forfaitaire des abonnements type ChatGPT+ ou Google One AI Premium.
C’ est parti pour un tour d’ horizon d’ OpenRouter.
1. Prise en main et interface conversationnelle
L’ écran d’ accueil d’ OpenRouter présente les étapes à suivre pour commencer à utiliser la plateforme : il est d’abord nécessaire de s’ inscrire et d’ acheter des crédits. Vous avez également la possibilité de générer une clé d’ accès API si vous souhaitez interagir avec les modèles via des programmes, mais cette étape est facultative.
Figure 1 : Écran d’ accueil d’ OpenRouter
Les modèles sont accessibles de deux manières : via une interface web conversationnelle, similaire à celle de ChatGPT, et via une interface de programmation (API). Cette API est unifiée pour tous les modèles, ce qui simplifie grandement le travail des développeurs.
L’ interface conversationnelle est classique et permet de sélectionner le modèle à utiliser en haut de l’ écran. Chaque nouveau dialogue est considéré comme une room (salle) associée à un ou plusieurs modèles de langage.
Si plusieurs modèles de langage sont sélectionnés, l’ interface soumettra la même question à tous les modèles activés simultanément. Cela permet de comparer les réponses des différents modèles, mais augmente également le coût.
Il est également possible de désactiver certains modèles sélectionnés. Par exemple, dans l’ image ci-dessous, trois modèles sont sélectionnés, mais Claude 3.7 Sonnet est désactivé. L’ interface répond donc simultanément à mon prompt avec OpenAI ChatGPT 4.1 et Google Gemini 2.5 Pro Preview.
Figure 2 : Interface conversationnelle OpenRouter
L’ interface conversationnelle permet de joindre des résultats de recherche web (Web Search) et des fichiers, y compris des images à analyser. Par contre il n’ est actuellement pas possible de générer des images avec les modèles disponibles sur OpenRouter. Le site se concentre sur les interactions textuelles.
2. Choix des modèles et fournisseurs d’ infrastructure
OpenRouter permet de choisir non seulement les modèles, mais aussi les fournisseurs d’ infrastructure chez lesquels les modèles sont exécutés. La transparence sur les fournisseurs d’ infrastructure est très importante car ceux-ci ont des politiques de modération et de réutilisation des données, des performances techniques et des prix différents.
La figure 3 montre la liste des fournisseurs d’ infrastructure pour le modèle Meta Llama 4 Maverick. On peut voir que le modèle est disponible chez plusieurs fournisseurs :
Figure 3 : Liste des fournisseurs pour Meta Llama 4 Maverick
Passons rapidement en revnue les différentes informations listées pour chaque fournisseur. Les icônes sur la gauche indiquent :
l’ identification du modèle auprès du fournisseur;
le pays dans lequel se situe le fourniseseur ;
la précision des paramètres du modèle. Certains fournisseurs choisissent en effet de recourir à des versions comprimées des modèles pour réduire les coûts de calcul, au prix de résultats moins précis ;
la politique de réutilisation ou non de vos dialogues pour améliorer le modèle. De nombreux fournisseurs choisissent de ne pas réutiliser les données pour des raisons de confidentialité ;
la politique de modération des dialogues par fournisseur. Certains fournisseurs choisissent de ne pas modérer les dialogues pour des raisons de liberté d’ expression ;
si le fournisseur permet l’ interruption d’ un dialogue en cours de génération, ce qui peut permettre de limiter le coût de calcul en cas de dialogue trop long ou partant dans une mauvaise direction ;
si OpenRouter vous permet d’ enregistrer vos clés API obtenues auprès du fournisseur, auquel cas vous payez directement le fournisseur et OpenRouter ne vous facture rien.
Ensuite, les colonnes de chiffres sur la droite fournissent les informations suivantes :
la longueur maximale de la fenêtre de contexte, en tokens. Celle-ci comprend à la fois la question et la réponse. La taille de la fenêtre de contexte dépendant du modèle, elle sera en principe la même pour tous les fournisseurs d’ infrastructure;
le nombre maximum de tokens générés par le modèle lors d’ une réponse;
le coût par million de tokens en entrée (dans votre question);
le coût par million de tokens générés en réponse par le modèle;
la latence, soit le délai moyen d’ attente en secondes entre l’ envoi de la question et la réception du premier token de la réponse;
le débit, soit le nombre moyen de tokens reçus en réponse par seconde;
le taux de disponibilité, soit le pourcentage de temps où le modèle est disponible selon les mesures d’ OpenRouter.
L’ algorithme utilisé par OpenRouter pour déterminer le fournisseur pour un modèle donné est de prioritiser le fournisseur le moins cher parmi ceux offrant la meilleure disponibilité. Si un fournisseur est indisponible, OpenRouter choisira le fournisseur suivant dans l’ ordre déterminé par l’ algorithme.
A noter qu’il est possible de modifier cet ordre en choisissant d’ autres critères de prioritisation, comme la latence ou le débit. Remarque importante, il est également possible d’ exclure de la liste les fournisseurs qui réutilisent vos données à des fins d’ entraînement.
Si la notion de token n’est pas claire pour vous, vous pouvez consulter mon article sur le sujet.
3. Modalités de paiement
OpenRouter est un intermédiaire entre vous et les fournisseurs de modèles et il est donc normal qu’ il soit rémunéré via un système de commission. Celle-ci est prélevée à chaque fois que vous ajoutez des crédits à votre compte. Par contre il n’ y a pas de commission prélevée sur chaque token que vous consommez : OpenRouter applique de manière transparente le prix chargé par le fournisseur d’ infrastructure.
Il est possible de voir sa consommation de tokens et de crédits de manière assez facile sur le site d’ OpenRouter :
Figure 4 : Aperçu de l’ activité et des frais occasionnés par l’ utilisateur
Pour être complet, certains modèles sont offerts gratuitement par OpenRouter : il s’agit des modèles « open-weights » comme Mistral Small 3.1 24B ou DeepSeek R1 Zero. Afin d’ éviter les abus, ces modèles sont limités en nombre de requêtes par jour.
4. Accès API pour les programmeurs
Je clôture par un dernier mot à l’ intention des programmeurs pour lesquels OpenRouter offre trois avantages :
Tout d’ abord, une interface API unifiée qui permet d’ accéder à l’ ensemble des 300 modèles disponibles sur la plateforme. Cela permet de simplifier le développement d’ applications qui utilisent des modèles de langage. L’ API est compatible avec l’ API d’ OpenAI.
Ensuite, OpenRouter propose un système de redondance qui permet de gérer l’ indisponibilité d’ un fournisseur de manière transparente. Si une requête échoue, OpenRouter peut automatiquement essayer une autre requête avec un autre modèle ou un autre fournisseur. Ceci est très pratique pour les applications qui demandent une haute disponibilité : si un modèle ou un fournisseur est indisponible, l’ application peut continuer à fonctionner sans interruption (pour autant qu’ OpenRouter ne soit pas lui-même en panne). Le prix à payer pour cette redondance est une légère augmentation du coût et du délai puisque la requête doit d’ abord être envoyée à OpenRouter ce qui ajoute environ 30ms de temps de réponse.
Enfin, l’ ensemble des frais est centralisé auprès d’ un seul fournisseur quels que soient les modèles utilisés, ce qui permet de simplifier la gestion des coûts.
Voilà, je pense avoir expliqué les grandes lignes de OpenRouter. Bonnes conversations !
Cela fait quelque temps que je n’ai pas écrit de billet. Le flux incessant d’ informations inquiétantes en provenance de l’ autre côté de l’ Atlantique m’ a un peu déboussolé. Je me suis donc dit que j’ allais essayer de me ressaisir en écrivant un article sur un sujet de circonstance : la résilience numérique.
Il semble que nous nous acheminons vers une guerre commerciale entre les Etats-Unis et l’ Union Européenne. Or, les flux de services digitaux entre les USA et l’ Europe représentant une part importante de ces volumes d’ échange, on ne peut exclure que ces derniers se retrouvent pris en otage si la guerre commerciale entre les deux blocs venait à dégénérer. Notre dépendance aux infrastructures digitales et aux services en ligne américains est indéniable: la majorité des infrastructures digitales et des services en ligne utilisés en Europe sont hébergés aux États-Unis. Cela inclut les services de messagerie, les réseaux sociaux, le cloud computing, les paiements en ligne, etc…
Le scénario du pire serait une interruption du trafic digital transatlantique et/ou une suspension des services pour les clients européens, décidée par les autorités américaines et imposée à leurs entreprises privées. L’ interruption de la fourniture d’images satellites par la société américaine MAXAR à l’ Ukraine, sur décision de l’ administration américaine, préfigure ce qui pourrait se produire à plus grande échelle à l’ avenir.
Face à ces risques, la résilience numérique désigne notre capacité à continuer à fonctionner et vivre dans le monde digital malgré des perturbations des infrastructures qui sous-tendent ces services.
A quels risques sommes-nous exposés ?
Ils sont principalement de deux types.
Premièrement, une interruption des flux de données entre Europe et USA signifierait l’ inaccessibilité des données dans les datacenters américains ainsi que des services en ligne directement fournis par ces derniers. Sites web, réseaux sociaux et applications de type Software-as-a-Service seraient alors directement impactés.
Deuxième risque, une interruption de type contractuel : suspension des contrats de maintenance et de mise à jour des logiciels made in USA voire interruption des licenses. Dans ce cas ce sont les logiciels installés localement qui risquent d’être impactés , soit totalement (interruption ou non-renouvellement de licenses), soit par une lente dégradation de leurs fonctionnalités et de leur sécurité (suspension des maintenances et mises à jour).
Le matériel physique est le moins impacté : une fois que vous le possédez il sera difficile de l’ empêcher de continuer à fonctionner, mais la dépendance au matériel se fait indirectement via le système d’ exploitation et les systèmes de sauvegarde dans le cloud.
Voyons donc comment améliorer notre résilience numérique face à ces risques.
Que pouvons-vous faire ?
La réponse est simple en théorie : migrer autant que possible vers des services offerts par des entreprises européennes et hébergés dans l’ Union Européenne. En pratique, c’est nettement plus compliqué. Il faut distinguer ce qui est nécessaire de ce qui n’ est que confort et fixer ses priorités. L’ indisponibilité d’ un réseau social n’ est souvent qu’ un désagrément là où l’ interruption des services de messagerie ou de paiement en ligne posera un problème majeur.
Commençons par l’ hébergement de domaines et de sites si vous en possédez : nom de domaine, serveur DNS, hébergement des pages web et d’ adresses mail devraient être migrés vers des fournisseurs de service cloud européens comme Combell et Easyhost en Belgique, OVHcloud en France ou encore Hetzner en Allemagne.
Une difficulté particulière se pose avec les adresses mail de type hotmail ou gmail qui ne peuvent être transférées telles quelles. Il faut alors créer de nouvelles adresses mail et les utiliser pour les échanges, ce qui demande de prévenir les contacts et de les informer de la nouvelle adresse. De plus, les comptes gmail sont aussi souvent utilisés pour l’ authentification sur d’ autres sites, il faudra donc s’ assurer que vous possédez des systèmes d’ authentification alternatifs pour ces sites.
Passons à un sujet qui me tient à coeur : l’ accès aux modèles de langage comme ChatGPT ou Claude. Ceci est facile à transférer, car une alternative française de qualité existe : Mistral. J’ ai résilié mon abonnement à ChatGPT Plus pour en prendre un abonnement Mistral Pro pour un prix d’ ailleurs un peu inférieur (15 euros au lieu de 20 USD). Pour ceux qui utilisent les interfaces de programmation (API), le basculement est lui aussi assez simple.
Autre point à prendre en considération pour la résilience : les applications en ligne accessible via le Web. Difficile de toutes les citer tant elles sont nombreuses mais je vous conseille de réfléchir à celles dont la perte aurait des conséquences significatives pour vous. Je pense notamment aux applications de paiement en ligne comme Paypal, de stockage de documents comme Google Drive ou Dropbox, logistiques comme Amazon ou de transport comme Uber. Il est probablement excessif de les remplacer d’ emblée mais identifer à l’ avance des alternatives européennes -quand elles existent- n’ est pas une mauvaise idée.
Les services de messagerie instantanée sont un autre point d’ intérêt. WhatsApp, Snapchat et Facebook Messenger sont américains, Telegram est russe, Signal est américain mais hébergé en Suisse. Viber est israélien et WeChat chinois. En fin de compte, il ne reste qu’ Element et Threema qui sont européens mais pas encore très utilisés… Element est un service de messagerie instantanée basé sur le protocole Matrix qui est un standard ouvert. Threema est un service de messagerie instantanée qui est basé sur le protocole Signal mais qui est européen. Je me suis inscrit sur Element et j’ ai commencé à l’ utiliser, tout en continuant à utiliser principaleent Whatsapp. Mais je puis basculer rapidement si nécessaire.
Passons au plat de résistance : les sytèmes d’ exploitation des ordinateurs et les sauvegardes de données dans le cloud. Microsoft et Apple étant américains, non seulement il existe un risque d’ interruption des licenses mais les sauvegardes de données dans le cloud (iCloud pour Apple et OneDrive pour Microsoft) sont hébergées aux États-Unis et donc à risque elles aussi. La seule alternative réaliste est d’ utiliser Linux mais ce dernier s’ adresse plutôt aux utilisateurs expérimentés et il faudra le coupler à un service de sauvegarde de fichiers dans le cloud comme pCloud (Suisse) ou faire des copies de sauvegarde locales.
La situation pour les solutions de bureautique est plus facile. LibreOffice qui est open-source offre une alternative résiliente à Google Cloud et Microsoft Office 365. LibreOffice offre aujourd’ hui une assez bonne compatibilité des formats de fichiers malgré une interface qui reste un peu plus rustique que celle de Microsoft Office.
Terminons par les smartphones où l’ européanisation relève encore de la gageure. La seule possibilité est de choisir un système d’ exploitation open-source comme LineageOS ou GrapheneOS, tous deux dérivés d’ Android, ou Ubuntu Touch, dérivé de Linux. Mais la compatibilité avec les applications Android restera limitée. Il faudra ensuite trouver un fabricant proposant un smartphone supportant ces systèmes d’exploitation, comme OnePlus, PinePhone ou un Pixel de Google.
Plus généralement, le site goeuropean.org permet de lister des alternatives européennes pour une large gamme de produits et services. La figure ci-dessous montre une liste de fournisseurs européens pour les principaux services digitaux :
Figure 1 : Liste des principales alternatives digitales européennes (source : buy-european-made.org)
Autres élements à prendre en compte
Ces mesures de résilience digitale complètent les recommandations générales des pouvoirs publics en matière de résilience pour les autres besoins de base tels que la nourriture, l’eau potable, l’argent liquide… L’objectif est d’atteindre une autonomie suffisante, permettant aux citoyens de subsister en cas d’interruption temporaire des services essentiels, par exemple lors d’une cyberattaque grave. Voous trouverez ici un article présentant la situation actuelle du plan de résilience pour la population belge.
Un autre élément à prendre en compte est l’ alimentation électrique. En effet, la résilience digitale implique aussi que vous disposiez d’ une alimentation électrique pour faire fonctionner votre matériel informatique et recharger vos smartphones.
Pour cela, vous pouvez envisager une solution de stockage d’ énergie dans une batterie qui peut être alimentée par différentes sources comme des panneaux solaires déployables en cas de besoin (sur votre terrasse ou dans votre jardin par exemple). Je vous conseille par exemple de jeter un oeil sur les produits de la société Bluettiici.
Conclusions
Si ce qui précède peut sembler excessivement pessimiste, je pense néanmoins que chaque entreprise et chaque individu devrait se poser la question de sa propre résilience numérique et de la manière dont il peut la renforcer.
Pour les entreprises, il est temps d’ inclure ce type de scénario dans les exercices de gestion des risques.
Troublé par les derniers événements, j’ ai commencé à mettre en place mon propre plan de résilience numérique et je me suis rendu compte de la complexité de l’ exercice. C’est pourquoi j’ ai tenu à rédiger cet article à des fins de sensibilisation.
Je vous encourage à y réfléchir. Un homme averti en vaut deux.
Après les Chinois de DeepSeek, au tour des Français de Mistral qui présentent leur chatbot appelé Le Chat !
Mistral.AI offre depuis quelques jours un chatbot très complet et performant. Facile d’accès, il offre pratiquement le même niveau de fonctionnalité que les chatbots d’ OpenAI (ChatGPT) ou d’ Anthropic (Claude).
Extrêmement rapide dans la génération de ses réponses, ce modèle est largement capable de devenir votre assistant conversationnel principal pour vos interactions quotidiennes. Il est maintenant disponible aussi en application mobile sur iOS et Android.
Et en ces temps d’ incertitudes internationales, Mistral AI offre une solution 100% européenne qui présente un cadre technique et juridique rassurant pour les utilisateurs basés dans l’ Union Européenne (serveurs hébergés en Europe, respect du RGPD…).
Figure 1 : Interface utilisateur du « Chat » de Mistral AI
Les fonctionnalités disponibles sont très proches de celles de ChatGPT :
Possibilité de recherche sur le Web en activant l’ option correspondante en-dessous de la fenêtre de chat (Web Search);
Possibilité de génération d’images (option Image generation). Ce mécanisme fait appel à un modèle de génération d’ image appelé Flux Ultra développé par Black Forest Labs;
Système de canevas pour la rédaction interactive de texte et de code, semblable à Anthropic Artefacts ou OpenAI Canvas (option Canvas);
Possibilité de générer et d’ exécuter du code pour résoudre des problèmes algorithmiques ou effectuer des calculs complexes (option Code Interpreter) ;
Possibilité d’ attacher des documents pdf et des images pour les analyser.
Différents types d’ abonnement existent mais il est possible d’ employer l’ essentiel des fonctionnalités avec l’ abonnement gratuit, avec toutefois des limites de volume d’ utilisation. Les abonnements payants offrent des fonctionnalités supplémentaires, notamment à l’ intention des journalistes avec la possibilité de consulter les dépêches de l’ Agence France-Presse en temps réel. Si cela vous intéresse, vous trouverez plus d’ informations sur cette intégration ici.
Un autre avantage du Chat de Mistral est la rapidité des réponses « flash » qui est plus de dix fois supérieure à celle de ses concurrents. Ceci est dû au partenariat avec le fournisseur d’ infrastructure IA Cerebras qui a développé un processeur spécialisé pour les modèles de langage.
Figure 2 : Débit de réponse du Chat Mistral « flash » par rapport à ses concurrents. (Source : Cerebras)
Le modèle ne répond pas systématiquement avec une réponse « flash », mais celles-ci sont indiquées avec une petite icône d’ éclair (⚡) dans le coin inférieur gauche de l’ interface conversationnelle. Sans surprise, les abonnements payants offrent un nombre de réponses « flash » supérieur à celui de l’ abonnements gratuit.
Cette rapidité est notamment importante pour la création interactive de codes informatiques, qui fait appel à des générations répétitives. La vidéo ci-dessous illustre bien l’ efficacité de Mistral « flash » dans ce domaine :
2. Applications Mobiles
Le lancement cette semaine d’ applications mobiles sur Android et iOS montre bien que Mistral se positionne comme un acteur majeur dans le domaine des chatbots génératifs, disposant de toute la panoplie des outils d’ accès comme c’est le cas avec Google, OpenAI ou Anthropic.
Les liens de téléchargement des applications mobiles se trouvent ici pour iOS et ici pour Android.
Figure 3 : Interface de l’ App « Le Chat » sur Android (source : MacRumors)
3. La Plateforme : l’ accès des programmeurs
Enfin, et ceci est (à ma connaissance) une première : Mistral est la première société qui offre un accès par interface de programmation gratuit en-dessous d’ un certain volume d’ échanges. Cela permet de tester les capacités du modèle sans avoir à se soucier de la facturation ou de devoir fournir un numéro de carte de crédit.
Le mécanisme d’ accès aux modèles de Mistral via API est décrit en détail sur La Plateforme, qui est accessible ici.
Figure 4 : Console d’ accès à « La Plateforme »
Rien de très nouveau pour les utilisateurs des API d’ OpenAI ou d’ Anthropic : il faut générer une clé API et l’ utiliser dans les appels aux serveurs de Mistral, qui respectent les protocoles de communication établis par OpenAI (mais les messages REST sont bien entendu envoyés vers les serveurs de Mistral)…
Mistral AI offre aussi une approche originale quand à la mise à disposition des paramètres de ses modèles pour une exécution locale (open weights) :
Les modèles les plus avancés (dits frontière) ne sont pas disponibles en open weights mais sont accessibles soit via le chat, soit via une API. Il est possible de faire fonctionner ces modèles dans une infrastructure locale mais cela demande un accord spécifique avec Mistral AI;
Les autres modèles développés par Mistral sont disponibles en open weights ce qui permet de les télécharger et de les exécuter localement avec des outils comme Ollama ou LMStudio.
Conclusions
Il est très satisfaisant de voir que l’ Union Européenne possède au moins un acteur significatif dans le monde des chatbots génératifs.
J’ en profite pour saluer la proactivité de l’ Etat Français qui a pris des mesures concrètes pour soutenir le développement de l’ IA en France. Cela inclut notamment le Sommet pour l’ Action sur l’ Intelligence Artificielle qui a lieu en ce moment à Paris et devrait logiquement donner lieu à des annonces d’ investissements massifs dans l’ IA en France et en Europe.
A ce sujet, je vous invite à lire la tribune de Sam Altman -oui oui c’ est bien lui- qui décrit la stratégie française en IA. L’ article étant réservé aux abonnés du Monde, vous pouvez trouver un scan de l’ article complet sur X ici.
Néanmoins, le principal obstacle sur la course à l’ IA générative reste la puissance de calcul disponible. L’ entraînement de la nouvelle génération de modèles « raisonneurs » fait en effet appel à des quantités de données et de calculs encore plus importantes. Et en termes de puissance de calcul disponible, les Américains sont loin, très loin en tête, suivis de la Chine (qui risque certes d’ être ralentie par les récentes restrictions américaines à l’ exportation de processeurs IA). Résorber cet écart ne sera pas facile.
C’ est pourquoi il me semble important de soutenir des acteurs européens de qualité comme Mistral pour assurer leur pérennité pendant que les investissement nécessaires sont faits dans les data centers qui hébergeront la puissance de calcul requise.
Le modèle o1 d’ OpenAI est maintenant disponible et il représente un changement important dans le fonctionnement et les capacités des modèles de langage.
La mise à disposition de ce modèle fait suite à des rumeurs persistantes autour d’ un modèle « disruptif » développé en secret par OpenAI d’ abord appelé Q-star puis Strawberry. Ces modèles sont importants parce qu’ ils constituent une tentative de transition de la réflexion immédiate et intuitive vers un raisonnement plus lent et plus délibéré.
Cette dualité se retrouve dans les modes de fonctionnement de notre cerveau. Comme l’ a indiqué le psychologue Daniel Kahnemann dans son livre Thinking, Fast and Slow, nos pensées procèdent selon deux schémas différents :
Le Système 1 est une réponse rapide, automatique, inconsciente et émotionnelle de notre cerveau à des situations et à des stimuli. Il peut s’ agir de lire distraitement un texte sur un panneau d’ affichage, de savoir nouer ses lacets sans réfléchir ou de sauter instinctivement par-dessus une flaque d’ eau sur le trottoir. Nous fonctionnons 95% du temps dans ce mode, qui correspond au mode par défaut et automatique de notre cerveau.
Le Système 2 est un mode lent, laborieux et logique dans lequel notre cerveau opère pour résoudre des problèmes plus compliqués. Par exemple, la pensée du système 2 est utilisée pour chercher un ami dans une foule, garer son véhicule dans un espace restreint ou déterminer le rapport qualité/prix de son repas à emporter. Il s’ agit d’un mécanisme de raisonnement logique activé délibérément et consciemment.
Figure 1 : Les deux modèles de fonctionnement du cerveau (source : Daniel Kahnemann)
Or, disposer de modèles capables de fonctionner selon le système 2 est essentiel pour pouvoir évoluer vers des agents IA plus fiables et plus autonomes, comme je l’ avais expliqué dans un article précédent accessible ici: les modèles « raisonneurs » sont une étape importante vers l’ Intelligence Artificielle Générale.
Pour faire simple, OpenAI a appris à un modèle de langage à réfléchir avant de parler. Voyons comment.
1. Mécanismes de raisonnement
Nous ne savons pas précisément comment OpenAI a entraîné le modèle o1. Néamnoins, les grands principes de l’ approche sont connus. Trois phases successives vont transformer un modèle de langage classique comme GPT-4o vers un modèle de raisonnement comme o1.
Lors de la première phase, le modèle « classique » est confronté à une série de problèmes logiques et il lui est demandé de développer son raisonnement étape par étape avant d’ arriver à la solution. Il s’ agit d’ une méthode de prompt engineering appelée Chain of Thought prompting (CoT) et décrit ici. En transformant la question en un ensemble d’ étapes de raisonnement de plus faible complexité, on augmente la probabilité que le modèle ait été confronté lors de son entraînement à des déductions élementaires analogues et qu’ il puisse donc effectuer les sauts logiques correspondants par corrélation.
Figure 2 : Chain of Thought Prompting (source : Wei et al., 2022)
Une fois ces chaînes générées, elles sont évaluées en fonction de leur pertinence tant au niveau de la réponse finale que du chemin logique suivi pour y parvenir. L’ évaluation peut être faite à la main (fastidieux) ou de manière automatisée. En pratique, on va débuter par une série d’ évaluations faites à la main pour entraîner un modèle d’ évaluation automatique, séparé du modèle de langage, qui prendra ensuite le relais et rendra le processus beaucoup plus efficace.
Lors de la seconde phase, les chaînes logiques générées lors de la première phase ainsi que leurs scores de pertinence sont utilisés pour entraîner le modèle (affinage) afin de privilégier les chaînes qui obtiennent la bonne réponse et défavoriser celles qui échouent. A l’ issue de cet affinage, nous disposons d’un modèle amélioré qui cherchera à répondre par étapes logiques à toute question de l’utilisateur, ce qui constitue déjà un grand pas dans la bonne direction.
Cependant, à ce stade, le modèle reste un modèle de langage « classique »: il génère une chaîne de raisonnement unique -certes améliorée- au fil de sa génération textuelle et présente ensuite le résultat à l’ utilisateur quelle qu’ en soit la pertinence. L’ effort déployé par le modèle reste aussi le même quelle que soit la complexité de la question, ce qui n’ est pas idéal…
C’ est ici qu’ intervient la troisième phase. Cette dernière a lieu non pas lors de l’ entraînement mais lors de l’ inférence, c’ est à dire quand l’ utilisateur pose une question au modèle.
Et l’idée de base est simple: comme les modèles de langage sont par nature aléatoires, rien n’ empêche de leur demander de générer plusieurs chaînes de raisonnement complètes en réponse à chaque question et de ne présenter que la plus pertinente (et nous disposons pour cela du modèle d’ évaluation). Au plus le nombre de générations est élevé, au plus la réponse choisie a de chances d’ être de qualité, au prix d’ une plus grande consommation en ressources.
Figure 3 : Chaînes de raisonnement multiples (source : Besta et al., 2023)
Il est imaginable de faire mieux encore et d’ utiliser des algorithmes de recherche dans l’ arbre des raisonnements possibles pour « orienter » la recherche de la réponse vers la voie la plus prometteuse en cours de raisonnement, mais en restant exhaustif dans l’ évaluation des différentes branches. Des algorithmes d’ apprentissage par renforcement comme Monte Carlo Tree Search peuvent être utilisés à cet effet. L’ idée est fascinante et on ne sait pas si de telles techniques sont déjà exploitées par OpenAI pour le modèle o1…
Figure 4 : L’algorithme Monte Carlo Tree Search (source : Jokub Kowalski et al., 2024)
Malheureusement, OpenAI ne permet pas à l’ utilisateur de voir les multiples traces de raisonnement du modèle, et avance pour cela des raisons d’ avantage compétitif. On ne sait donc pas exactement jusqu’où OpenAI est allé dans cette approche, mais chercher de manière plus ou moins exhaustive le meilleur raisonnement pendant la phase d’ exécution permet de s’ affranchir de la limite de l’ entraînement : il suffit de chercher plus longtemps, plus profondément dans l’ arbre des raisonnements possibles pour obtenir une meilleure réponse.
C’ est d’ ailleurs comme cela que o1-pro semble fonctionner : le modèle est le même qu’ o1 mais il va fouiller plus profondément dans l’arbre des raisonnements, ce qui consomme bien sûr de la puissance de calcul et justifie le prix plus élevé…
2. Evaluation
L’ explication ci-dessus laisse quelques points en suspens; il faut notamment disposer d’ un mécanisme d’ évaluation automatique pour déterminer si une chaîne de raisonnement est pertinente ou non. Le problème est que dans beaucoup de domaines, la pertinence ou non d’ un raisonnement est subjective et donc difficilement automatisable.
C’ est pourquoi il est fort probable que l’ entraînement au raisonnement ait été effectué sur des domaines où les raisonnements peuvent être évalués de manière objective, à savoir les sciences exactes, et en particulier les mathématiques et l’ informatique.
C’ est d’ ailleurs ce qui ressort des « benchmarks » de performance publiés par OpenAI qui indiquent que les performances du modèle o1 sont très supérieures à celles de GPT-4o dans les tâches mathématiques, dans la programmation et dans les questions de sciences exactes :
Figure 5 : Performance de gpt4o et o1 dans les domaines formels (source : OpenAI)
Par contre, dans les domaines plus subjectifs comme la rédaction de texte, les modèles de la famille o1 ne sont pas meilleurs que gpt-4o. Il n’ y a donc pas lieu de recourir à o1 pour ce genre de tâches.
Figure 6 : Performance comparée de gpt4o et o1 (source : OpenAI)
3. Accessibilité des modèles o1
Passons maintenant à la partie pratique : OpenAI a mis à disposition une première version appelée « o1-preview » à la mi-septembre, qui a été remplacée début décembre par le modèle définitif « o1 ». Celui-ci est accessible en trois versions:
la version de base « o1« ;
une version allégée appelée « o1-mini« ;
et enfin une version plus puissante appelée « o1-pro« .
Cependant, l’ accessibilité aux modèles de la famille o1 est fortement dépendante de l’ abonnement auquel l’ utilisateur a souscrit : tout d’abord, les utilisateurs gratuits n’ ont pas accès aux modèles de la famille o1.
Les utilisateurs payant l’ abonnement ChatGPT+ peuvent accéder à o1-mini et o1 mais avec des volumes d’ utilisation limités à 50 messages par semaine pour o1 et 50 messages par jour pour o1-mini (d’ où l’ intérêt d’ o1-mini).
Par ailleurs, OpenAI vient d’ introduire un nouvel abonnement appelé ChatGPT Pro à 200 USD/mois! Ce plan haut de gamme est le seul qui donne accès au modèle o1-Pro et offre aussi un accès illimité aux modèles o1 et o1-mini.
Ce qui précède concerne l’ interface utilisateur via le site web, mais les modèles o1-preview et o1-mini sont également accessibles via l’ interface de programmation (API) d’ openAI, mais pas o1-pro. Le prix de l’ utilisation est alors dépendant du nombre de tokens échangés. Mais comme OpenAI ne permet pas de voir la chaîne de raisonnemet complète, l’ utilisateur de l’ API se retrouve contraint de payer à l’ aveuglette…
4. Conclusion
C’est au moment d’ écrire ces lignes que Google vient de sortir son propre modèle de raisonnement appelé Gemini 2.0 Flash Thinking Experimental. Deux équipes chinoises ont aussi publié des modèles de raisonnement, DeepSeek avec DeepSeek-R1-lite-preview, et Alibaba Qwen QwQ-32B-Preview.
Les modèles capables de raisonner sont en passe de devenir un nouveau terrain de compétition, et ce parce qu’ ils ouvrent la voie vers des systèmes plus fiables auxquels il est possible de déléguer plus facilement des tâches rendant possibles des agents IA plus autonomes…
Et enfin, gardons en mémoire que les modèles auxquels nous avons accès vont continuer à progresser. Si OpenAI a décidé de démarrer une nouvelle « lignée » de modèles comme sa dénomination l’ indique, ce n’ est pas innocent et suggère que des modèles raisonneurs plus puissants apparaîtront à l’ avenir, peut-être en ayant recours à des techniques d’ apprentissage par renforcement comme Monte Carlo Tree Search.
Il y a donc lieu de rester curieux et optimistes. Une nouvelle voie de progrès est ouverte. Nous verrone bien où elle mènera.
Graph of Thoughts: Solving Elaborate Problems with Large Language Models, Maciej Besta & autres, publié le 18 août 2023, sur Arxiv : https://arxiv.org/abs/2308.09687
L’ intelligence artificielle générale (AGI) désigne un type d’ IA qui possède la capacité de comprendre, d’ apprendre et d’ effectuer toute tâche intellectuelle qu’ un humain est en mesure de réaliser. Sans surprise, la quête incessante de cette intelligence artificielle générale captive les énergies des chercheurs et l’ imagination du public.
Mais quel chemin suivre pour y arriver ?
Un document interne d’ OpenAI contenant une « feuille de route » pour atteindre l’ AGI a fuité au mois de juillet. Cette feuille de route a ensuite été confirmée par Sam Altman (CEO d’ OpenAI) en septembre, il s’ agit donc d’ une information validée. Dans cet article, je vais présenter le contenu de cette feuille de route. Elle décrit cinq étapes à franchir sur la route vers l’ AGI.
Il est important de présenter cette feuille de route car il ne fait pas de doute que les grands acteurs de l’ IA entrevoient l’ existence d’ une IA généraliste dans un futur relativement proche (5 à 10 ans). J’ai déjà couvert ici l’ article de Dario Amodei, CEO d’ Anthropic. L’ article de Sam Altman The Intelligence Age accessible ici va dans le même sens et Demis Hassabis, PDG de Google Deepmind est lui aussi très ambitieux, comme il l’ a mentionné dans une récente interview accessible ici.
Bien sûr, ces personnages sont juges et partie et profitent du battage médiatique et de l’ intérêt que leurs déclarations suscitent, mais ils sont aussi les mieux placés pour savoir sur quoi leurs départements de R&D travaillent et quels résultats ils obtiennent. Ils peuvent aussi être victimes de leurs propres biais, mais au vu du chemin parcouru, il me semble légitime de prendre leurs déclarations au sérieux.
Présentation de la feuille de route
La feuille de route d’ OpenAI pour atteindre l’ AGI comporte cinq niveaux qui sont décrits dans la figure 1 et détaillés ci-dessous.
Figure 1 : Les cinq niveaux vers l’ AGI (crédit : Tomshardware)
Niveau 1 : Les Dialogueurs
Le premier niveau est celui des « Chatbots », ou « IA avec langage conversationnel », dans lequel les ordinateurs peuvent interagir avec les gens à travers une conversation naturelle.
Cela a été réalisé avec GPT-3.5 dans la première version de ChatGPT et était déjà possible avant cela, mais de manière moins efficace ou avec une conversation moins naturelle. Les grands modèles nativement multimodaux tels que GPT-4o, Gemini Pro 1.5 ou Claude Sonnet 3.5 répondent pleinement à toutes les exigences de ce niveau. Ils sont capables de conversations complexes et peuvent effectuer un raisonnement limité. Nous pouvons donc raisonnablement dire que le niveau 1 est atteint.
Niveau 2 : Les Raisonneurs
L’ étape suivante, le niveau 2, introduit les « raisonneurs » – des systèmes d’ IA capables de s’ attaquer à des problèmes complexes avec la compétence d’ experts humains, et ce sans devoir recourir à des outils extérieurs. Atteindre le niveau 2 signifierait un moment charnière, car cela représente une transition de l’ imitation du comportement humain à la démonstration de véritables prouesses intellectuelles.
Si nous n’ en sommes pas encore là, il est indéniable que les grands acteurs cherchent à améliorer les capacités de raisonnement de leurs modèles. OpenAI a mis à disposition le modèle o1-preview qui offre de performances supérieures aux modèles comme GPT-4o en termes de raisonnement. Et il y a quelques jours, la société chinoise DeepSeek AI a publié un modèle de raisonnement open-source appelé DeepSeek-R1-Lite-Preview; il s’ agit donc d’ un domaine qui devient compétitif et il n’y a rien de tel pour stimuler les progrès…
Vu l’ importance de ces modèles « raisonneurs » sur la route vers de l’ Intelligence Artificielle Générale, j’ y consacrerai un prochain article.
Niveau 3 : Les Agents autonomes
Le niveau 3 de la feuille de route envisage des « agents », c’ est-à-dire des systèmes d’ IA capables de fonctionner de manière autonome pendant de longues périodes, exécutant un ensemble d’ actions dans le but de mener à bien une tâche qui leur est assignée.
Ces agents pourraient transformer les industries en prenant en charge des tâches complexes, en prenant des décisions et en s’ adaptant à des circonstances changeantes sans surveillance humaine constante.
Il faut cependant se garder de toute confusion : le terme d’ « agent » est actuellement utilisé pour décrire des modèles de langage auxquels on a greffé des outils capables d’ interagir avec le monde extérieur via des interfaces.
Ces « agents » ne répondent pas aux exigences des agents IA décrits dans ce niveau 3 de la feuille de route, qui implique une capacité de raisonnement appliquée de manière répétitive pour « refermer la boucle » entre l’ observation de l’ état d’ avancement de la tâche et le choix de nouvelles actions visant à se rapprocher du but.
Aucun système de ce niveau n’ existe sur le marché à ce jour. Des rumeurs font état du développement par OpenAI d’ un produit appelé « Operator » qui serait une première tentative pour offrir un produit de ce type. A suivre…
Niveau 4 : Les Innovateurs
Au niveau 4 de la feuille de route, l’ IA devient un innovateur.
Les systèmes à ce stade possèderont la créativité et l’ ingéniosité nécessaires pour développer des idées et des solutions originales. Une fois arrivés à ce niveau, les agents ne se limitent plus à exécuter les processus de manière compétente comme au niveau 3, mais les améliorent et en inventent de nouveaux plus efficaces. En parallèle, ces agents stimuleraient l’ innovation et le progrès dans divers domaines.
Niveau 5 : Les Organisateurs
Le sommet de la feuille de route d’ Open est le niveau 5, qui implique une intelligence artificielle capable d’ effectuer le travail d’ une organisation entière. Toutes les fonctions de l’ organisation, qu’ elles soient opérationnelles ou conceptuelles, sont réalisées par des agents IA qui travaillent ensemble, apportent des améliorations et exécutent tout ce qui est nécessaire sans qu’aucun humain ne soit directement impliqué.
A ce moment, l’ Intelligence Artificielle Générale est atteinte.
Que faut-il en penser ?
La question est de savoir si les technologies actuelles (Deep Learning en tête) sont suffisantes pour atteindre l’ AGI ou pas.
Comme je l’ ai dit dans l’ introduction, les principaux dirigeants des géants de la tech semblent considérer que ces technologies sont suffisantes et que les principaux défis qui restent sont essentiellemnt des facteurs d’ échelle et de combinaison d’ algorithmes. Leurs scénarios se basent donc sur des extrapolations de la situation actuelle ce qui les amène à émettre des pronostics assez agressifs (AGI dans la décennie).
Cet avis n’est cependant pas partagé par l’ ensemble de la communauté des chercheurs. Des chercheurs réputés comme Yann Le Cun ou Gary Marcus estiment au contraire que l’ apprentissage profond ne suffira pas et qu’il faudra inventer des architectures entièrement nouvelles pour surmonter les points faibles des techniques actuels. Ceci les amène naturellement à des évaluations plus conservatrices quant à l’ apparition de l’ AGI.
Leurs idées pour remédier aux manquements de l’ IA actuelle diffèrent cependant : si Gary Marcus estime nécessaire de réintroduire des approches symboliques pour permettre le raisonnement déductif, Yann Le Cun insiste plutôt sur le besoin de disposer d’ un modèle prédictif du monde…
Je voudrais vous parler aujourd’ hui d’ une application très utile des modèles de langage: Perplexity qui est un engin de recherche conversationnel accessible ici.
Les engins de recherche conversationnels sont basés sur un modèle de langage qui exploite un moteur de recherche internet comme source d’ informations. Le modèle de langage pilote la recherche : il définit les mots-clés, et exploite ensuite le résultat de la recherche pour construire sa propre réponse envers l’ utilisateur.
Ceci permet de combiner les avantages des modèles de langage (capacité de fournir une réponse articulée et cohérente) avec ceux des moteurs de recherche (accès direct et à jour de l’ ensemble des données publiquemeent disponibles sur internet).
Perplexity est un outil extrêmement convivial et efficace à utiliser.
J’ ai remplacé Google Search par Perplexity pour les recherches standard effectuées par mon navigateur. Cela demande un peu d’ adaptation vu nos habitudes bien ancrées, mais je ne regrette pas l’ effort…
1. Demandes navigationnelles et informationnelles
Démarrons par une observation importante : nous avons recours à des moteurs de recherche pour deux types de demandes bien distinctes : les demandes navigationnelles et les demandes informationnelles.
Les demandes navigationnelles correspondent à la recherche d’ un site. Vous ne tapez pas l’ URL en entier mais seulement un partie de celui-ci et éventuellement quelques mots-clés pour arriver sur le site désiré. Pour ce type de recherche, Perplexity fonctionne mais n’ apporte pas réellement de valeur ajoutée par rapport à un moteur de recherche classique, à part éventuellement une présentation plus dépouillée et moins chargée en publicités.
Les demandes informationnelles sont celles où vous recherchez une information ou une explication, à résoudre un problème ou comprendre un concept. Vous ne savez pas exactement où chercher mais vous avez une question. C’ est dans ce type de recherches que Perplexity brille par son efficacité, bien supérieure aux engins traditionnels qui vont vous envoyer vers différentes pages dans lesquelles vous devrez chercher vous-même l’ information. Perplexity va automatiser cette étape et directement fournir une réponse qui tente de répondre à votre besoin. Qui plus est, vous pouvez ensuite engager un dialogue avec Perplexity et demander des éclaircissements supplémentaires.
Il y a lieu de bien distinguer les deux types de recherche. Il m’ arrive encore de recourir à Google Search pour des demandes navigationnelles mais Perplexity est indiscutablement très supérieur pour les recherches informationnelles (et ce sont les plus intéressantes).
2. Interfaces de base et options de recherche
Voyons maintenant comment fonctionne Perplexity. L’ interface offre assez bien de possibilités intéressantes que nous allons passer en revue.
Figure 1 : Interface utilisateur de Perplexity
Outre l’ invite traditionnelle (Ask Anything), le champ Focus permet de préciser le type de recherche; les options possibles sont :
Web : le choix par défaut, la réponse est enrichie par les recherches du modèle sur Internet comme décrit plus haut;
Academic : le modèle concentrera ses recherches sur des documents académiques publiés;
Math : le modèle essaiera de trouver une réponse mathématique et/ou numérique;
Writing : plus proche de chatGPT, ce choix n’effectue pas de recherches internet mais se concentre sur la qualité de rédaction;
Video : oriente la recherche vers des vidéos répondant à la recherche;
Social : oriente la recherche vers les réseaux sociaux, vers des discussions et des opinions liées au sujet.
Figure 2 : Types de recherches possibles
Indépendamment du choix précédent, le bouton Attach permet d’ ajouter des fichiers que vous possédez et qui pourront supporter Perplexity dans sa recherche.
3. Recherches rapides et recherches pro
Il est également possible de choisir entre une recherche « Rapide » et une recherche « Pro » au moyen du commutateur se trouvant à droite de l’ invite.
La différence principale est que la recherche « Pro » ajoute une phase de raisonnement structurées par le modèle; les étapes intermédiaires du raisonnement dont présentées à l’ utilisateur ainsi que les recherches correspondant à chaque étape. Enfin, la dernière étape consiste en une synthèse des informations collectées.
Figure 3 : Bandeau de raisonnement structuré d’ une recherche « Pro »
Les recherches « Pro » sont limitées à un petit nombre par jour (actuellement 3) pour les utilisateurs gratuits de Perplexity ; elles sont pratiquement illimitées pour les utilisateurs payants.
En pratique je trouve les recherches « rapides » satisfaisantes la grande majorité du temps. De plus il vous est toujours possible de poser à nouveau la question en mode « pro » si la réponse rapide ne vous satisfait pas, comme nous allons le voir.
4. Exploitation des résultats
La présentation des résultats d’ une recherche est elle aussi intéressante. Je la trouve d’ une grande sobriété comparé par exemple à une recherche Google.
Voici la structure typique d’ une réponse donnée par Perplexity :
Figure 4 : Structure d’ une réponse typique
Le texte de la réponse se trouve en-dessous des sources et reprend des références numérotées aux différentes sources à différents endroits de la réponse. Vous pouvez voir l’ ensemble des sources en cliquant sur le bloc à droite des sources intitulé Show All.
Figure 5 : Liste des sources
Outre la lecture de la réponse, il est possible d’ entreprendre des actions supplémentaires. Tout d’ abord, les boutons dans la partie droite de l’ écran permettent de rechercher des images (Search Images ) ou des vidéos (Search Videos) en rapport avec la discussion. Les utilisateurs de l’ abonnement payant pourront aussi demander la génération d’ une image (Generate Image).
La partie inférieure de l’ écran permet de continuer le dialogue, par exemple en posant une nouvelle question ou en demandant un éclaircissement. La partie Related propose un série de questions complémentaires ayant trait au sujet, vous pouvez en choisir une ou rédiger une question à la main.
Figure 6 : Actions supplémentaires
Rewrite permet de demander au modèle une réécriture de la réponse, par exemple en passant d’une recherche rapide à une recherche « pro »; Share permet ensuite de partager un lien vers la recherche complète.
C’ est d’ ailleurs un autre avantage majeur de Perplexity : tous les dialogues de recherche précédents sont stockés dans la Library et vous pouvez à tout moment les relire voire continuer le dialogue. Ces dialogues peuvent également être partagés avec d’ autres utilisateurs en leur envoyant le lien correspondant, mais ces derniers ne peuvent pas les modifier: il s’ agit d’ un accès en lecture seule.
5. Autres fonctionnalités : Discover & Spaces
Pour terminer ce tour d’ horizon de Perplexity en étant complet, il faut encore citer les fonctionnalité Discover et Spaces.
Spaces permet de créer un espace partagé de collaboration dans lequel un ou plusieurs utilisateurs que vous invitez pourront dialoguer avec le modèle sur un sujet donné. Chaque dialogue entre un utilisateur et le modèle donnera lieu à un thread spécifique mais ces derniers seront accessibles en lecture par les autres utilisateurs. En fin de compte c’ est assez proche de la fonction de recherche sauf que vous pouvez regrouper plusieurs dialogues de plusieurs utilisateurs au sein d’ un même espace collaboratif.
Les Spaces que vous créez sont configurables en chargeant un ou plusieurs fichiers de référence et en introduisant une instruction qui va décrire le rôle de l’ espace et sa finalité.
Figure 7 : Les espaces collaboratifs de Perplexity
Il n’y a pas grand’ chose à dire sur Discover si ce n’est que ce sont des recherches conversationnelles publiques que Perplexity estime susceptibles de vous intéresser.
6. Pour conclure
Après quelques semaines d’ utilisation intensive de Perplexity, je suis un utilisateur convaincu; c’ est ce qui m’ a poussé à écrire cet article.
Le grand avantage se situe au niveau des recherches informationnelles pour lesquelles la combinaison modèle de langage et engin de recherche fait des merveilles. La possibilité de poser des questions supplémentaires en particulier permet de clarifier énormément de choses par la suite.
J’ aime aussi beaucoup la sobriété de l’ interface ainsi que la possibilité de revoir les dialogues passés et de les partager.
Il y a cependant un risque: celui de l’ affaibissement de l’ esprit critique. Si la réponse est convaincante il est tentant avec ce genre de modèle de ne pas vérifier les sources, ce qui veut dire devenir dépendant d’ une source unique d’ information avec tous les risques et biais que cela peut entraîner. C’ est peut-être l’ avantage un peu paradoxal des recherches « à l’ ancienne » : elles vous obligeaient à consulter plusieurs sites et à mettre en balance les différentes informations à l’ aune de la crédibilité des sources…