Mois : juin 2025

Dans le cerveau des modèles de langage, deuxième partie : les raisonnements

30 juin 2025 / Arnaud Stévins / 12 Comments

Nous avons vu dans l’ article précédent comment les chercheurs d’ Anthropic ont réussi à modifier un de leurs modèles de langage pour faire apparaître des concepts interprétables au sein des différentes couches du modèle.

Ces recherches, qui remontent à 2024, constituent une première étape. Mais les chercheurs d’ Anthropic sont allés plus loin et ont cherché à comprendre comment ces concepts se combinent dans un modèle pour échafauder une réponse plausible à la demande de l’ utilisateur.

C’ est ce que je vais tenter de vous expliquer dans cet article, et comme vous le verrez, cela apporte pas mal d’ enseignements très intéressants sur le fonctionnement intime des modèles.

Comment tracer les pensées du modèle ?

Nous avons vu dans l’ article précédent comment les chercheurs avaient réussi à adjoindre une sous-couche « interprétable » à chaque couche du modèle, ce qui permettait d’ identifier et de localiser un ensemble de concepts. Mais ce mécanisme ne permettait pas encore de comprendre comment ces concepts s’ articulent en une réflexion cohérente.

Pour pouvoir tracer les pensées du modèle, les chercheurs ont créé un modèle de substitution plus riche que celui présenté dans l’ article précédent:

chaque couche du modèle original est remplacée par une couche interprétable équivalente, appelée couche de transcodage;
chaque couche de transcodage agit non seulement sur la prochaine couche du modèle mais aussi les couches suivantes. Ceci permet à une caractéristique interprétable située en amont du modèle d’ agir directement sur une autre caractéristique interprétable située n’ importe où en aval.

Ceci mène au modèle de substitution présenté dans la figure 1.

Figure 1 : Du modèle original au modèle de remplacement

Une fois que ce modèle de remplacement a été correctement entraîné, on va pouvoir lui soumettre un texte d’ entrée et voir quelles sont les caractéristiques interprétables qui sont activées par la question, mais aussi comment ces caractéristiques s’ influencent mutuellement pour aboutir à la formation de la réponse.

En fait le « truc » est toujours le même : on remplace un modèle par un autre qui fait la même chose mais dans lequel on peut mesurer ce qui nous intéresse. Parce que les informaticiens ont un grand avantage sur les biologistes : tous les calculs intermédiaires sont accessibles et tout est mesurable !

Le résultat de ces mesures se présente sous la forme de graphes d’attribution, une représentation graphique des étapes de calcul utilisées par le modèle pour déterminer le texte de sortie pour un texte d’ entrée particulier.

Voici un exemple de graphe d’ attribution simple pour vous donner une idée de ce que cela signifie :

Figure 2 : Un graphe d’ attribution élémentaire (source : Anthropic)

Voyons maintenant quelques découvertes intéressantes que les chercheurs ont faites en analysant les graphes d’ attribution générés pour des textes d’ entrée judicieusement choisis…

Découverte 1 : les modèles ne dévoilent pas toujours leurs pensées

C’ est la première question à se poser : demandez au modèle d’ expliquer chaque étape de son raisonnement (chain of thought prompting). L’ explication fournie correspond-elle systématiquement au raisonnement intérieur du modèle?

Parce que si c’ est le cas, pas besoin de faire toutes ces recherches, il suffit de demander au modèle d’ expliciter son raisonnement. Malheureusement, ce n’ est pas ce que les chercheurs ont découvert.

Prenons un exemple simple de calcul mental. Les chercheurs ont demandé au modèle combien font 36+59. Ils ont découvert que le modèle utilise « en interne » un double chaîne de raisonnement, la première cherchant une réponse approximative et la seconde se limitant à calculer le chiffre des unités; les deux sont ensuite combinés pour estimer une réponse. A noter que c’ est assez proche de ce que nous faisons intuitivement en calcul mental.

Voici le graphe d’ attribution correspondant :

Figure 3 : Graphe d’ attribution pour un calcul élémentaire (source : Anthropic)

Mais quand on demande au modèle d’ expliquer son raisonnement, il explique l’ algorithme standard d’addition écrite avec le report des unités sur les dizaines. Ce qui est un tout autre mécanisme !

Figure 4 : Explication fournie par le modèle (source : Anthropic)

Plus généralement, les chercheurs ont remarqué que le modèle décrit son raisonnement correctement dans certains cas, mais ce n’ est pas systématique.

Par exemple, lorsqu’ on lui demande de calculer le cosinus d’un grand nombre qu’ il ne peut pas calculer facilement, le modèle se livre parfois à ce que les chercheurs appellent du bullshitting (!), c’est-à-dire qu’ il donne une réponse, n’ importe laquelle, sans se soucier de savoir si elle est vraie ou fausse. Même s’ il prétend avoir effectué un calcul, les techniques d’ interprétabilité ne révèlent aucune preuve de l’ existence de ce calcul !

Autre cas intéressant, lorsqu’ on lui donne un calcul ainsi que sa réponse et on lui demande d’ expiquer comment trouver le résultat, le modèle travaille parfois à rebours, trouvant des étapes intermédiaires qui mèneraient à cette cible, faisant ainsi preuve d’ une forme de raisonnement motivé. D’ autant plus qu’ il n’ hésite pas à faire aussi cela lorsque la réponse qu’ on lui donne est fausse !

Bref, on ne peut pas considérer les explications et justifications du modèle comme transparentes et une analyse « intrusive » est nécessaire pour comprendre ce qui se passe réellement dans sa « tête ». C’ est bien dommage mais c’ est comme ça.

Découverte 2 : le modèle possède un seul modèle cognitif multilingue

Ceci est, pour moi, remarquable : le modèle semble posséder un espace conceptuel unique qui est partagé entre les différentes langues, ce qui suggère qu’il possède une sorte de « langage de pensée » universel.

En effet, comme l’ entraînement des modèles se fait sur un ensemble de textes en grande majorité individuellement unilingues, on pourrait imaginer que ces modèles contiennent en leur sein une série de mini-modèles conceptuels indépendants, chaque langue créant sa propre réalité intérieure au fil de l’ entraînement.

Au contraire, les chercheurs d’ Anthropic ont montré qu’ il n’ existe pas de «modèle français» ni de «modèle chinois» fonctionnant en parallèle et répondant aux demandes dans leur propre langue.

Ils ont demandé au modèle le « contraire de petit » dans différentes langues, les mêmes caractéristiques fondamentales des concepts de petitesse et d’ opposition s’ activent pour déclencher un concept de grandeur, qui est finalement traduit dans la langue de la question.

Figure 5 : Le modèle conceptuel multilingue (source: Anthropic)

D’ un point de vue pratique, cela suggère que les modèles peuvent apprendre quelque chose dans une langue et appliquer ces connaissances lorsqu’ ils conversent dans une autre langue, ce qui est tout à fait positif et très important à comprendre.

Découverte 3 : le modèle planifie sa réponse plusieurs mots à l’ avance

L’ algorithme de base des modèles de langage repose sur une prédiction mot à mot. Mais le modèle planifie-t’ il plus loin que le prochain mot ? A-t’ il une idée « derrière la tête » quand il fait sa prédiction ?

Un bon cas pour tester ceci est la rédaction d’ un poème. En effet, pour écrire un poème, il faut satisfaire à deux contraintes en même temps : les vers doivent rimer et ils doivent avoir un sens. Il y a deux façons d’ imaginer comment un modèle y parvient :

l’ improvisation pure – le modèle pourrait écrire le début de chaque ligne sans se soucier de la nécessité de rimer à la fin. Puis, au dernier mot de chaque ligne, il choisirait un mot qui (1) a un sens compte tenu de la ligne qu’il vient d’écrire et (2) correspond au schéma de rimes;
la planification – le modèle peut également adopter une stratégie plus sophistiquée. Au début de chaque ligne, il pourrait imaginer le mot qu’ il prévoit d’ utiliser à la fin, en tenant compte du schéma de rimes et du contenu des lignes précédentes. Il pourrait ensuite utiliser ce « mot prévu » pour rédiger la ligne suivante, de manière à ce que le mot prévu s’ insère naturellement à la fin de la ligne.

Lequel des deux modèles est correct ? Vu l’ algorithme des modèles de langage, on pourrait pencher pour la première hypothèse. C’ était d’ ailleurs ce que pensaient des chercheurs au début de leurs recherches. Et pourtant, ils ont trouvé des éléments suggérant clairement que le modèle fait de la planification plusieurs mots à l’ avance…

Comme on peut le voir sur la figure 6, le modèle planifie à l’ avance plusieurs possibilités pour le mot final de la ligne, et planifie ensuite le reste de la ligne « à l’envers » pour que cette dernière soit cohérente.

Figure 6 : Planification direct et inverse d’ une rime (source: Anthropic)

Les chercheurs ont également modifié les concepts en cours d’ élaboration de la rime. Le modèle prévoyait de terminer sa ligne par « rabbit » mais si l’ on annule ce concept en cours de route voire le remplace par un autre, le modèle change de rime.

Figure 7 : Modification du concept final en cours de rime (source: Anthropic)

Ceci montre que les modèles préparent leurs réponses plusieurs mots à l’ avance, et sont non seulement capbles de planifier vers l’ avant mais aussi vers l’ arrière (rétro-planning) quand c’ est nécessaire. Les modèles sont aussi capables de planifications multiples en parallèle, et il est possible d’ intervenir directement sur ces plans en cours de route en modifiant les concepts sous-jacents.

Conclusion

Ces recherches lèvent un coin du voile sur ce qui se passe réellement au sein des modèles de langage. Il me semble clair que ces recherches ne sont qu’ à leurs débuts et que beaucoup de choses sont encore à découvrir dans le domaine de l’ interprétabilité.

Si vous voulez en savoir plus sur ce sujet, je ne puis que vous suggérer de lire directement l’ article On the Biology of a Large Language Model que je cite ci-dessous en référence. Les chercheurs y présentent douze traces de raisonnement différentes apportant chacune son lot d’ enseignements…

Pour ma part, ce qui me fascine le plus, ce sont les analogies évidentes entre la manière dont ces modèles « réfléchissent » et la manière dont nous le faisons…

Sources et références

Tracing the thoughts of a Large Language Model, par Anthropic Interpretability research team, le 27 mars 2025: https://www.anthropic.com/research/tracing-thoughts-language-model
Circuit Tracing: Revealing Computational Graphs in Language Models, par Anthropic Interpretability research team, le 27 mars 2025 : https://transformer-circuits.pub/2025/attribution-graphs/methods.html
On the Biology of a Large Language Model, , par Anthropic Interpretability research team, le 27 mars 2025: https://transformer-circuits.pub/2025/attribution-graphs/biology.html
What’s going on inside Claude’s mind ?, par Nikhil Anand pour Medium, le 23 mai 2025 : https://medium.com/ai-advances/whats-going-on-inside-claude-s-mind-bfb8bb9cf6a1

Dans le cerveau des modèles de langage, première partie : les idées

9 juin 2025 / Arnaud Stévins / 6 Comments

Un fait surprenant concernant les modèles de langage est que personne ne comprend vraiment comment ils fonctionnent en interne. Ne pas être en mesure de reconstruire de manière déductive les étapes « mentales » à travers lesquelles passe le modèle pour échafauder sa réponse pose des problèmes de sécurité et d’ éthique.

En effet, comment s’ assurer qu’ un modèle répond de manière transparente et ne nous ment pas ou ne poursuit pas un objectif différent de celui que nous lui avons assigné ? Et si nous lui demandons d’ expliciter une décision, va-t’ il expliquer les étapes de son raisonnement ou fournir une justification a posteriori sans relation avec son processus interne initial ? Un modèle pourrait-il nous mentir délibérément si nous le mettons dans une position contradictoire en lui demandant d’ aller à l’ encontre de ses instructions ? Jusqu’ où peut-on être sûr que certaines prohibitions seront respectées ?

Ces questions revêtent une importance de plus en plus grande au fil des progrès des modèles : les modèles se transforment progressivement en agents avec une capacité directe d’ action dans le monde réel : envoi d’ emails, achat de produits…cette délégation sans cesse croissante crée une certaine urgence autour de ces questions de sécurité et d’ éthique.

La société Anthropic, qui a développé les modèles de langage Claude, mène des recherches très actives sur le sujet de l’ interprétabilité des modèles de langage. Ils ont publié plusieurs articles sur le sujet que vous trouverez en référence, et leurs analyses mettent en évidence des phénomènes très intéressants.

Dans ce premier article, je vais me concentrer sur les recherches permettant d’ isoler l’ émergence de concepts « interprétables par des humains » à l’ intérieur des modèles de langage. La manière dont ces concepts sont articulés et interconnectés pour formuler une réponse cohérente fera l’ objet de mon prochain article.

Un petit mot sur l’ architecture des « transformeurs »

Les modèles de langage utilisent l’ architecture des « transformeurs » définie par Google en 2017 dans le célèbre article Attention is all you need. Je me contenterai ici d’ une explication sommaire qui devrait suffire pour nos discussions sur l’ interprétabilité, à savoir :

les « transformeurs » sont structurés en couches successives;
une couche d’ entrée découpe le texte du « prompt » en tokens puis transforme ces derniers séquence de vecteurs dans un espace de représentation. Ces vecteurs sont des représentations numériques des mots du texte, et la séquence de vecteurs correspond à la séquence de mots du prompt;
les autres couches du modèle transforment cette séquence de vecteurs de manière itérative, couche par couche. Les couches sont architecturalement identiques mais contiennent des paramètres de transformation différents qui ont été définis chacun lors de l’ apprentissage (ce sont les fameux « milliards » de coefficients);
enfin, la couche de sortie est semblable aux autres sauf qu’ au lieu de transformer la séquence de vecteurs, elle va générer une distribution de probabilités sur le prochain token à ajouter à la séquence (prédiction du prochain mot).

Voici une illustration de cette logique, avec l’ architecture du réseau à gauche et la séquence de vecteurs à droite :

Figure 1 : Architecture et flux de données d’ un transformeur

Pour être complet, chaque couche se comporte de deux sous-couches; la première, appelée couche d’ attention va combiner et enrichir le vecteur avec les informations contenues dans les autres vecteurs de la séquence. La seconde, appelée MLP (Multilayer Perceptron) est un réseau neuronal classique qui va transformer chacun des vecteurs de la séquence après avoir été enrichis par la couche d’ attention. La couche MLP applique la même transformation à chacun des vecteurs de la séquence.

Ceci est illustré dans la figure 2. Il y a une petite astuce : la couche d’ attention est commune, tandis que la couche MLP s’ applique individuellement à chacun des vecteurs « enrichis » fournis par la couche d’ attention.

Figure 2 : Détail d’ une couche du transformeur

Aller dans le détail de cette architecture dépasse largement le cadre de cet article et si vous voulez en avoir une compréhension plus approfondie, je vous conseille soit de lire le paper de Google, soit de lire l’ excellent article de vulgarisation de Jay Alammar « The Illustrated Transformer » accessible ici.

La question de l’ espace de représentation

Ce que j’ ai voulu faire ressortir de cette architecture, c’ est la centralité de l’ espace de représentation. En fin de compte, le transformeur ne fait qu’ enrichir et transformer successivement des vecteurs dans cet espace. Pour vous donner une idée, la dimension de cet espace varie d’ un modèle à l’ autre; Anthropic ne publie pas cette information mais pour OpenAI ChatGPT-4o on sait que l’ espace de représentation compte 1.536 dimensions.

L’ hypothèse que les chercheurs d’ Anthropic ont pu vérifier, c’ est que les concepts intelligibles pour les humains correspondent à des directions dans cet espace de représentation. Ceci avait déjà été établi pour d’ autres modèles d’ apprentissage linguistique comme les « word embeddings » mais pas encore pour les modèles de langage.

Dans un monde idéal, les différents axes de cet espace de représentation correspondraient directement à des concepts intelligibles par l’ homme. Les coefficients des vecteurs indiqueraient alors la présence ou l’ absence de ces concepts. Mais est-ce le cas ? Non, ce serait trop simple. En fait, les axes de cet espace sont des concepts abstraits, mais pas intelligibles par l’ homme, et donc non interprétables.

Pourquoi ? Une explication intuitive est que 1.536 est un nombre bien trop petit pour représenter l’ ensemble des concepts auxquels le réseau a été confronté pendant l’ entraînement. Les concepts vont donc se retrouver « mélangés » dans cet espace (mathématiquement, il s’ agira d’ un ensemble de vecteurs linéairement dépendants vu la trop faible dimension de l’ espace). Cette situation rend impossible l’ extraction de concepts intelligibles par une opération vectorielle élémentaire de type projection.

Le Dictionary Learning à la rescousse

Mais il y a un moyen de s’ en sortir, c’ est de combattre le mal par le mal et de faire appel à un autre algorithme d’ apprentissage machine pour extraire les concepts. Cet algorithme s’ appelle le « Dictionary Learning ».

L’ idée en est la suivante : nous allons entraîner un nouveau réseau de neurones en trois couches de la manière suivante :

le réseau doit être capable de générer en sortie les mêmes réponses que celles en entrée (transformation identité). La première et la troisième couche ont donc la même dimension, celle de l’ espace de représentation;
nous allons contraindre ce réseau à avoir une couche intermédiaire (la seconde) de beaucoup plus grande taille et pour laquelle le nombre de paramètres actifs à tous moment est très faible (idéalement 1). C’est ce qu’ on appelle une couche « sparse » (éparse).

La première contrainte à elle seule peut paraître étrange, mais elle permet d’ intercaler le nouveau modèle au milieu du modèle original sans en perturber le fonctionnement. Et la couche intermédiaire, une fois entraînée, va se comporter comme un « dictionnaire » de concepts, chacun des neurones de cette couche représentant un concept activé individuellement.

Le nombre de concepts est donc égal au nombre de neurones de cette couche. Et cela fonctionne car au fil de l’ entraînement, ce modèle va chercher à identifier les concepts présents dans l’ espace de représentation et les encoder dans un seul neurone de la couche intermédiaire.

Voici une illustration de cet algorithme:

Figure 3 : Algorithme de Dictionary Learning

Nous y sommes presque ! Il ne reste plus qu’à appliquer ce système de Dictionary Learning séparément pour chacune des couches, ce qui ne vas pas perturber le contionnement du modèle de langage puisque les couches de Dictionary Learning sont transparentes (sortie = entrée). Et voici le modèle final avec les « sondes » d’ analyse implantées :

Figure 4 : Modèle final avec sondes d’ analyse conceptuelle

Nous y sommes enfin. C’ est ce qu’ ont fait les chercheurs d’ Anthropic avec leur modèle Claude 3.0 et ils ont ainsi identifié environ 30 millions de concepts sur l’ ensemble des couches du modèle.

Maintenant que notre appareillage de mesure des concepts est en place, il est possible d’ analyser les concepts activés par des textes spécifiques. Et là, miracle, des concepts intelligibles par l’ homme apparaissent !

Le neurone « Golden Gate »

Parmi ces concepts, les chercheurs ont identifié une grande diversité de caractéristiques abstraites. Il y a des éléments relatifs aux personnes célèbres, aux pays et aux villes. Il y a aussi des éléments relatifs à des concepts abstraits comme les erreurs de programmation ou l’ addition ou encore des notions pratiques comme la présence de caractères coréens dans le texte.

De nombreuses caractéristiques sont multilingues (elles répondent au même concept dans plusieurs langues) et multimodales (elles répondent au même concept dans du texte et des images), et englobent à la fois des instanciations abstraites et concrètes de la même idée (comme du code présentant des failles de sécurité et des discussions abstraites sur les failles de sécurité).

Voici par exemple le neurone « Golden Gate » qui est activé par des textes parlant du Golden Gate. Vous pouvez voir dans la figure ci-dessous l’ influence relative des différents tokens du texte d’ entrée dans l’ activation du concept « Golden Gate » :

Figure 5 : Le concept « Golden Gate » (source : Anthropic)

Au total de nombreux concepts intelligibles ont été mis à jour par les chercheurs et vous en trouverez une liste complète ici. Et voici une illustration de quelques autres concepts identifiés :

Figure 6 : Quelques autres concepts identifiés (source : Anthropic)

On ne peut que rester étonné par la richesse et la diversité des concepts identifiés. Et ce n’ est pas tout, il est aussi possible de manipuler les concepts en modifiant les valeurs d’ activation des neurones à la main ce qui donne des effets très intéressants comme la vidéo qui suit le montre :

La manipulation des concepts internes des modèles entraîne des modifications des réponses du modèle qui vont dans le sens des modifications apportés aux concepts.

Les chercheurs d’ Anthropic ont donc réussi à prouver la correspondance entre les concepts internes des modèles et les concepts intelligibles que l’ on peut observer dans les deux directions : a) si le concept est présent dans le texte d’ entrée, le concept interne est activé et b) si le concept interne est activé manuellement, le concept intelligible est présent dans le texte de sortie.

Ceci valide le fait que ces concepts font partie intégrante de la représentation interne du monde que contient le modèle, et de la façon dont il utilise ces représentations dans la construction d’ une réponse.

Lien avec la sécurité et l’ alignement des modèles

Ces recherches visent à rendre les modèles sûrs au sens large. Il est donc particulièrement intéressant de constater que les chercheurs d’ Anthropic ont trouvé des caractéristiques correspondant à des concepts sensibles comme :

la notion de courriel de « spam »;
des capacités au potentiel néfaste : hacking informatique, développement d’ armes biologiques;
différentes formes de biais et de discrimination;
des notions de comportements problématiques par l’ IA : recherche de puissance, manipulation, dissimulation, hypocrisie.

Figure 7 : Exemples de concepts « sensibles » identifiés (source : Anthropic)

En manipulant adroitement ces concepts, il devrait donc être possible de modifier le comportement du modèle dans le sens souhaité.

Les chercheurs d’ Anthropic espèrent que ces découvertes permettront de rendre les modèles plus sûrs. Par exemple, afin de détecter certains comportements dangereux (comme tromper l’utilisateur), de les orienter vers des résultats souhaitables (débiaisage) ou d’éliminer complètement certains sujets dangereux (armes biologiques, hacking..).

Pour conclure

Nous venons de voir comment il est possible d’ isoler et d’ interpréter les composants d’ un modèle de langage lorsqu’ ils sont activés par une question de l’ utilisateur. Ces recherches ont été effectuées par Anthropic en 2024.

Reste à voir comment ces concepts s’ organisent ensemble pour créer une pensée et une réponse cohérentes de la part du modèle. Anthropic a continué ses recherches et vient de publier le résultat de nouvelles recherches à ce sujet.

C’ est ce que je vous propose d’ analyser dans mon prochain article, parce que cet article est déjà largement assez long comme cela !

Sources et références

Tracing the thoughts of a Large Language Model, par Anthropic Interpretability research team, le 27 mars 2025: https://www.anthropic.com/research/tracing-thoughts-language-model
Mapping the mind of a Large Language Model, par Anthropic Interpretability research team, le 21 mai 2024 : https://www.anthropic.com/research/mapping-mind-language-model

Decomposing Language Models Into Understandable Components, par Anthropic Interpretability research team, le 5 octobre 2023: :https://www.anthropic.com/research/decomposing-language-models-into-understandable-components

What’s going on inside Claude’s mind ?, par Nikhil Anand pour Medium, le 23 mai 2025 : https://medium.com/ai-advances/whats-going-on-inside-claude-s-mind-bfb8bb9cf6a1

Mois : juin 2025

Dans le cerveau des modèles de langage, deuxième partie : les raisonnements

Comment tracer les pensées du modèle ?

Découverte 1 : les modèles ne dévoilent pas toujours leurs pensées

Découverte 2 : le modèle possède un seul modèle cognitif multilingue

Découverte 3 : le modèle planifie sa réponse plusieurs mots à l’ avance

Conclusion

Sources et références

Dans le cerveau des modèles de langage, première partie : les idées

Un petit mot sur l’ architecture des « transformeurs »

La question de l’ espace de représentation

Le Dictionary Learning à la rescousse

Le neurone « Golden Gate »

Lien avec la sécurité et l’ alignement des modèles

Pour conclure

Sources et références

Articles récents

Commentaires récents

Archives

Catégories