{"id":2227,"date":"2025-06-30T21:39:09","date_gmt":"2025-06-30T19:39:09","guid":{"rendered":"https:\/\/artificiellementintelligent.eu\/?p=2227"},"modified":"2025-06-30T21:39:09","modified_gmt":"2025-06-30T19:39:09","slug":"dans-le-cerveau-des-modeles-de-langage-deuxieme-partie-les-raisonnements","status":"publish","type":"post","link":"https:\/\/artificiellementintelligent.eu\/index.php\/2025\/06\/30\/dans-le-cerveau-des-modeles-de-langage-deuxieme-partie-les-raisonnements\/","title":{"rendered":"Dans le cerveau des mod\u00e8les de langage, deuxi\u00e8me partie : les raisonnements"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Nous avons vu dans l&rsquo; article pr\u00e9c\u00e9dent comment les chercheurs d&rsquo; <em>Anthropic<\/em> ont r\u00e9ussi \u00e0 modifier un de leurs mod\u00e8les de langage pour faire appara\u00eetre des concepts interpr\u00e9tables au sein des diff\u00e9rentes couches du mod\u00e8le.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ces recherches, qui remontent \u00e0 2024, constituent une premi\u00e8re \u00e9tape. Mais les chercheurs d&rsquo; <em>Anthropic<\/em> sont all\u00e9s plus loin et ont cherch\u00e9 \u00e0 comprendre comment ces concepts se combinent dans un mod\u00e8le pour \u00e9chafauder une r\u00e9ponse plausible \u00e0 la demande de l&rsquo; utilisateur.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">C&rsquo; est ce que je vais tenter de vous expliquer dans cet article, et comme vous le verrez, cela apporte pas mal d&rsquo; enseignements tr\u00e8s int\u00e9ressants sur le fonctionnement intime des mod\u00e8les.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Comment tracer les pens\u00e9es du mod\u00e8le ?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Nous avons vu dans l&rsquo; article pr\u00e9c\u00e9dent comment les chercheurs avaient r\u00e9ussi \u00e0 adjoindre une  sous-couche \u00ab\u00a0interpr\u00e9table\u00a0\u00bb \u00e0 chaque couche du mod\u00e8le, ce qui permettait d&rsquo; identifier et de localiser un ensemble de concepts. Mais ce m\u00e9canisme ne permettait pas encore de comprendre comment ces concepts s&rsquo; articulent en une r\u00e9flexion coh\u00e9rente.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Pour pouvoir tracer les pens\u00e9es du mod\u00e8le, les chercheurs ont cr\u00e9\u00e9 un mod\u00e8le de substitution plus riche que celui pr\u00e9sent\u00e9 dans l&rsquo; article pr\u00e9c\u00e9dent:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>chaque couche du mod\u00e8le original est remplac\u00e9e par une couche interpr\u00e9table \u00e9quivalente, appel\u00e9e <em>couche de transcodage<\/em>;<br><\/li>\n\n\n\n<li>chaque couche de transcodage agit non seulement sur la prochaine couche du mod\u00e8le mais aussi les couches suivantes. Ceci permet \u00e0 une caract\u00e9ristique interpr\u00e9table situ\u00e9e en amont du mod\u00e8le d&rsquo; agir directement sur une autre caract\u00e9ristique interpr\u00e9table situ\u00e9e n&rsquo; importe o\u00f9 en aval.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Ceci m\u00e8ne au mod\u00e8le de substitution pr\u00e9sent\u00e9 dans la figure 1.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"2560\" height=\"1563\" src=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629a-scaled.png\" alt=\"\" class=\"wp-image-2231\" srcset=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629a-scaled.png 2560w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629a-300x183.png 300w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629a-1024x625.png 1024w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629a-768x469.png 768w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629a-1536x938.png 1536w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629a-2048x1250.png 2048w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629a-676x413.png 676w\" sizes=\"auto, (max-width: 2560px) 100vw, 2560px\" \/><figcaption class=\"wp-element-caption\">Figure 1 : Du mod\u00e8le original au mod\u00e8le de remplacement<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Une fois que ce mod\u00e8le de remplacement a \u00e9t\u00e9 correctement entra\u00een\u00e9, on va pouvoir lui soumettre un texte d&rsquo; entr\u00e9e et voir quelles sont les caract\u00e9ristiques interpr\u00e9tables qui sont activ\u00e9es par la question, mais aussi comment ces caract\u00e9ristiques s&rsquo; influencent mutuellement pour aboutir \u00e0 la formation de la r\u00e9ponse.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">En fait le \u00ab\u00a0truc\u00a0\u00bb est toujours le m\u00eame : on remplace un mod\u00e8le par un autre qui fait la m\u00eame chose mais dans lequel on peut mesurer ce qui nous int\u00e9resse. Parce que les informaticiens ont un grand avantage sur les biologistes : tous les calculs interm\u00e9diaires sont accessibles et tout est mesurable !<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Le r\u00e9sultat de ces mesures se pr\u00e9sente sous la forme de <em>graphes d&rsquo;attribution<\/em>, une repr\u00e9sentation graphique des \u00e9tapes de calcul utilis\u00e9es par le mod\u00e8le pour d\u00e9terminer le texte de sortie pour un texte d&rsquo; entr\u00e9e particulier.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Voici un exemple de graphe d&rsquo; attribution simple pour vous donner une id\u00e9e de ce que cela signifie :<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1810\" height=\"1030\" src=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629b.png\" alt=\"\" class=\"wp-image-2234\" srcset=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629b.png 1810w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629b-300x171.png 300w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629b-1024x583.png 1024w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629b-768x437.png 768w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629b-1536x874.png 1536w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629b-676x385.png 676w\" sizes=\"auto, (max-width: 1810px) 100vw, 1810px\" \/><figcaption class=\"wp-element-caption\">Figure 2 : Un graphe d&rsquo; attribution \u00e9l\u00e9mentaire (source : Anthropic)<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Voyons maintenant quelques d\u00e9couvertes int\u00e9ressantes que les chercheurs ont faites en analysant les graphes d&rsquo; attribution g\u00e9n\u00e9r\u00e9s pour des textes d&rsquo; entr\u00e9e judicieusement choisis&#8230;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>D\u00e9couverte 1 : les mod\u00e8les ne d\u00e9voilent pas toujours leurs pens\u00e9es<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">C&rsquo; est la premi\u00e8re question \u00e0 se poser : demandez au mod\u00e8le d&rsquo; expliquer chaque \u00e9tape de son raisonnement (<em>chain of thought prompting<\/em>). L&rsquo; explication fournie correspond-elle syst\u00e9matiquement au raisonnement int\u00e9rieur du mod\u00e8le?<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Parce que si c&rsquo; est le cas, pas besoin de faire toutes ces recherches, il suffit de demander au mod\u00e8le d&rsquo; expliciter son raisonnement. Malheureusement, ce n&rsquo; est pas ce que les chercheurs ont d\u00e9couvert.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Prenons un exemple simple de calcul mental. Les chercheurs ont demand\u00e9 au mod\u00e8le combien font 36+59. Ils ont d\u00e9couvert que le mod\u00e8le utilise \u00ab\u00a0en interne\u00a0\u00bb un double cha\u00eene de raisonnement, la premi\u00e8re cherchant une r\u00e9ponse approximative et la seconde se limitant \u00e0 calculer le chiffre des unit\u00e9s; les deux sont ensuite combin\u00e9s pour estimer une r\u00e9ponse. A noter que c&rsquo; est assez proche de ce que nous faisons intuitivement en calcul mental.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Voici le graphe d&rsquo; attribution correspondant :<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"2560\" height=\"1321\" src=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629c-scaled.png\" alt=\"\" class=\"wp-image-2237\" srcset=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629c-scaled.png 2560w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629c-300x155.png 300w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629c-1024x528.png 1024w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629c-768x396.png 768w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629c-1536x792.png 1536w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629c-2048x1057.png 2048w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629c-676x349.png 676w\" sizes=\"auto, (max-width: 2560px) 100vw, 2560px\" \/><figcaption class=\"wp-element-caption\">Figure 3 : Graphe d&rsquo; attribution pour un calcul \u00e9l\u00e9mentaire (source : Anthropic)<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Mais quand on demande au mod\u00e8le d&rsquo; expliquer son raisonnement, il explique l&rsquo; algorithme standard d&rsquo;addition \u00e9crite avec le report des unit\u00e9s sur les dizaines. Ce qui est un tout autre m\u00e9canisme !<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"770\" height=\"466\" src=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629d.png\" alt=\"\" class=\"wp-image-2239\" srcset=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629d.png 770w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629d-300x182.png 300w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629d-768x465.png 768w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629d-676x409.png 676w\" sizes=\"auto, (max-width: 770px) 100vw, 770px\" \/><figcaption class=\"wp-element-caption\">Figure 4 : Explication fournie par le mod\u00e8le (source : Anthropic)<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Plus g\u00e9n\u00e9ralement, les chercheurs ont remarqu\u00e9 que le mod\u00e8le d\u00e9crit son raisonnement correctement dans certains cas, mais ce n&rsquo; est pas syst\u00e9matique.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Par exemple, lorsqu&rsquo; on lui demande de calculer le cosinus d&rsquo;un grand nombre qu&rsquo; il ne peut pas calculer facilement, le mod\u00e8le se livre parfois \u00e0 ce que les chercheurs appellent du <em>bullshitting<\/em> (!), c&rsquo;est-\u00e0-dire qu&rsquo; il donne une r\u00e9ponse, n&rsquo; importe laquelle, sans se soucier de savoir si elle est vraie ou fausse. M\u00eame s&rsquo; il pr\u00e9tend avoir effectu\u00e9 un calcul, les techniques d&rsquo; interpr\u00e9tabilit\u00e9 ne r\u00e9v\u00e8lent aucune preuve de l&rsquo; existence de ce calcul !<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Autre cas int\u00e9ressant, lorsqu&rsquo; on lui donne un calcul ainsi que sa r\u00e9ponse et on lui demande d&rsquo; expiquer comment trouver le r\u00e9sultat, le mod\u00e8le travaille parfois \u00e0 rebours, trouvant des \u00e9tapes interm\u00e9diaires qui m\u00e8neraient \u00e0 cette cible, faisant ainsi preuve d&rsquo; une forme de <em>raisonnement motiv\u00e9<\/em>. D&rsquo; autant plus qu&rsquo; il n&rsquo; h\u00e9site pas \u00e0 faire aussi cela lorsque la r\u00e9ponse qu&rsquo; on lui donne est fausse !<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Bref, on ne peut pas consid\u00e9rer les explications et justifications du mod\u00e8le comme transparentes et une analyse \u00ab\u00a0intrusive\u00a0\u00bb est n\u00e9cessaire pour comprendre ce qui se passe r\u00e9ellement dans sa \u00ab\u00a0t\u00eate\u00a0\u00bb. C&rsquo; est bien dommage mais c&rsquo; est comme \u00e7a.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>D\u00e9couverte 2 : le mod\u00e8le poss\u00e8de un seul mod\u00e8le cognitif multilingue <\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Ceci est, pour moi, remarquable : le mod\u00e8le semble poss\u00e9der un espace conceptuel unique qui est partag\u00e9 entre les diff\u00e9rentes langues, ce qui sugg\u00e8re qu&rsquo;il poss\u00e8de une sorte de \u00ab langage de pens\u00e9e \u00bb universel.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">En effet, comme l&rsquo; entra\u00eenement des mod\u00e8les se fait sur un ensemble de textes en grande majorit\u00e9 individuellement unilingues, on pourrait imaginer que ces mod\u00e8les contiennent en leur sein une s\u00e9rie de mini-mod\u00e8les conceptuels ind\u00e9pendants, chaque langue cr\u00e9ant sa propre r\u00e9alit\u00e9 int\u00e9rieure au fil de l&rsquo; entra\u00eenement.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Au contraire, les chercheurs d&rsquo; <em>Anthropic<\/em> ont montr\u00e9 qu&rsquo; il n&rsquo; existe pas de \u00abmod\u00e8le fran\u00e7ais\u00bb ni de \u00abmod\u00e8le chinois\u00bb fonctionnant en parall\u00e8le et r\u00e9pondant aux demandes dans leur propre langue.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ils ont demand\u00e9 au mod\u00e8le le \u00ab contraire de petit \u00bb dans diff\u00e9rentes langues, les m\u00eames caract\u00e9ristiques fondamentales des concepts de petitesse et d&rsquo; opposition s&rsquo; activent pour d\u00e9clencher un concept de grandeur, qui est finalement traduit dans la langue de la question.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"2560\" height=\"1170\" src=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629e-scaled.png\" alt=\"\" class=\"wp-image-2242\" srcset=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629e-scaled.png 2560w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629e-300x137.png 300w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629e-1024x468.png 1024w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629e-768x351.png 768w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629e-1536x702.png 1536w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629e-2048x936.png 2048w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629e-676x309.png 676w\" sizes=\"auto, (max-width: 2560px) 100vw, 2560px\" \/><figcaption class=\"wp-element-caption\">Figure 5 : Le mod\u00e8le conceptuel multilingue (source: Anthropic)<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">D&rsquo; un point de vue pratique, cela sugg\u00e8re que les mod\u00e8les peuvent apprendre quelque chose dans une langue et appliquer ces connaissances lorsqu&rsquo; ils conversent dans une autre langue, ce qui est tout \u00e0 fait positif et tr\u00e8s important \u00e0 comprendre.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>D\u00e9couverte 3 : le mod\u00e8le planifie sa r\u00e9ponse plusieurs mots \u00e0 l&rsquo; avance<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">L&rsquo; algorithme de base des mod\u00e8les de langage repose sur une pr\u00e9diction mot \u00e0 mot. Mais le mod\u00e8le planifie-t&rsquo; il plus loin que le prochain mot ? A-t&rsquo; il une id\u00e9e \u00ab\u00a0derri\u00e8re la t\u00eate\u00a0\u00bb quand il fait sa pr\u00e9diction ?<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Un bon cas pour tester ceci est la r\u00e9daction d&rsquo; un po\u00e8me. En effet, pour \u00e9crire un po\u00e8me, il faut satisfaire \u00e0 deux contraintes en m\u00eame temps : les vers doivent rimer et ils doivent avoir un sens. Il y a deux fa\u00e7ons d&rsquo; imaginer comment un mod\u00e8le y parvient :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>l&rsquo; improvisation pure<\/strong> &#8211; le mod\u00e8le pourrait \u00e9crire le d\u00e9but de chaque ligne sans se soucier de la n\u00e9cessit\u00e9 de rimer \u00e0 la fin. Puis, au dernier mot de chaque ligne, il choisirait un mot qui (1) a un sens compte tenu de la ligne qu&rsquo;il vient d&rsquo;\u00e9crire et (2) correspond au sch\u00e9ma de rimes;<br><\/li>\n\n\n\n<li><strong>la planification<\/strong> &#8211; le mod\u00e8le peut \u00e9galement adopter une strat\u00e9gie plus sophistiqu\u00e9e. Au d\u00e9but de chaque ligne, il pourrait imaginer le mot qu&rsquo; il pr\u00e9voit d&rsquo; utiliser \u00e0 la fin, en tenant compte du sch\u00e9ma de rimes et du contenu des lignes pr\u00e9c\u00e9dentes. Il pourrait ensuite utiliser ce \u00ab mot pr\u00e9vu \u00bb pour r\u00e9diger la ligne suivante, de mani\u00e8re \u00e0 ce que le mot pr\u00e9vu s&rsquo; ins\u00e8re naturellement \u00e0 la fin de la ligne.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Lequel des deux mod\u00e8les est correct ? Vu l&rsquo; algorithme des mod\u00e8les de langage, on pourrait pencher pour la premi\u00e8re hypoth\u00e8se. C&rsquo; \u00e9tait d&rsquo; ailleurs ce que pensaient des chercheurs au d\u00e9but de leurs recherches. Et pourtant, ils ont trouv\u00e9 des \u00e9l\u00e9ments sugg\u00e9rant clairement que le mod\u00e8le fait de la planification plusieurs mots \u00e0 l&rsquo; avance&#8230;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Comme on peut le voir sur la figure 6, le mod\u00e8le planifie \u00e0 l&rsquo; avance plusieurs possibilit\u00e9s pour le mot final de la ligne, et planifie ensuite le reste de la ligne \u00ab\u00a0\u00e0 l&rsquo;envers\u00a0\u00bb pour que cette derni\u00e8re soit coh\u00e9rente.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1574\" height=\"918\" src=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629f.png\" alt=\"\" class=\"wp-image-2245\" srcset=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629f.png 1574w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629f-300x175.png 300w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629f-1024x597.png 1024w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629f-768x448.png 768w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629f-1536x896.png 1536w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629f-676x394.png 676w\" sizes=\"auto, (max-width: 1574px) 100vw, 1574px\" \/><figcaption class=\"wp-element-caption\">Figure 6 : Planification direct et inverse d&rsquo; une rime (source: Anthropic)<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Les chercheurs ont \u00e9galement modifi\u00e9 les concepts en cours d&rsquo; \u00e9laboration de la rime. Le mod\u00e8le pr\u00e9voyait de terminer sa ligne par \u00ab\u00a0<em>rabbit\u00a0\u00bb<\/em> mais si l&rsquo; on annule ce concept en cours de route voire le remplace par un autre, le mod\u00e8le change de rime.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"2560\" height=\"1409\" src=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629g-scaled.png\" alt=\"\" class=\"wp-image-2246\" srcset=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629g-scaled.png 2560w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629g-300x165.png 300w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629g-1024x563.png 1024w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629g-768x423.png 768w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629g-1536x845.png 1536w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629g-2048x1127.png 2048w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250629g-676x372.png 676w\" sizes=\"auto, (max-width: 2560px) 100vw, 2560px\" \/><figcaption class=\"wp-element-caption\">Figure 7 : Modification du concept final en cours de rime (source: Anthropic)<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Ceci montre que les mod\u00e8les pr\u00e9parent leurs r\u00e9ponses plusieurs mots \u00e0 l&rsquo; avance, et sont non seulement capbles de planifier vers l&rsquo; avant mais aussi vers l&rsquo; arri\u00e8re (<em>r\u00e9tro-planning<\/em>) quand c&rsquo; est n\u00e9cessaire. Les mod\u00e8les sont aussi capables de planifications multiples en parall\u00e8le, et il est possible d&rsquo; intervenir directement sur ces plans en cours de route en modifiant les concepts sous-jacents.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Conclusion<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Ces recherches l\u00e8vent un coin du voile sur ce qui se passe r\u00e9ellement au sein des mod\u00e8les de langage. Il me semble clair que ces recherches ne sont qu&rsquo; \u00e0 leurs d\u00e9buts et que beaucoup de choses sont encore \u00e0 d\u00e9couvrir dans le domaine de l&rsquo; interpr\u00e9tabilit\u00e9.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Si vous voulez en savoir plus sur ce sujet, je ne puis que vous sugg\u00e9rer de lire directement l&rsquo; article <em>On the Biology of a Large Language Model<\/em> que je cite ci-dessous en r\u00e9f\u00e9rence. Les chercheurs y pr\u00e9sentent douze traces de raisonnement diff\u00e9rentes apportant chacune son lot d&rsquo; enseignements&#8230;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Pour ma part, ce qui me fascine le plus, ce sont les analogies \u00e9videntes entre la mani\u00e8re dont ces mod\u00e8les \u00ab\u00a0r\u00e9fl\u00e9chissent\u00a0\u00bb et la mani\u00e8re dont nous le faisons&#8230;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Sources et r\u00e9f\u00e9rences<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li><em>Tracing the thoughts of a Large Language Model<\/em>, par Anthropic Interpretability research team, le 27 mars 2025: <a href=\"https:\/\/www.anthropic.com\/research\/tracing-thoughts-language-model\">https:\/\/www.anthropic.com\/research\/tracing-thoughts-language-model<\/a><br><\/li>\n\n\n\n<li><em>Circuit Tracing: Revealing Computational Graphs in Language Models<\/em>, par Anthropic Interpretability research team, le 27 mars 2025 : <a href=\"https:\/\/transformer-circuits.pub\/2025\/attribution-graphs\/methods.html\">https:\/\/transformer-circuits.pub\/2025\/attribution-graphs\/methods.html<\/a><br><\/li>\n\n\n\n<li><em>On the Biology of a Large Language Model<\/em>, , par Anthropic Interpretability research team, le 27 mars 2025: <a href=\"https:\/\/transformer-circuits.pub\/2025\/attribution-graphs\/biology.html\">https:\/\/transformer-circuits.pub\/2025\/attribution-graphs\/biology.html<\/a><br><\/li>\n\n\n\n<li><em>What&rsquo;s going on inside Claude&rsquo;s mind ?<\/em>, par Nikhil Anand pour Medium, le 23 mai 2025 : <a href=\"https:\/\/medium.com\/ai-advances\/whats-going-on-inside-claude-s-mind-bfb8bb9cf6a1\">https:\/\/medium.com\/ai-advances\/whats-going-on-inside-claude-s-mind-bfb8bb9cf6a1<\/a><\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Nous avons vu dans l&rsquo; article pr\u00e9c\u00e9dent comment les chercheurs d&rsquo; Anthropic ont r\u00e9ussi \u00e0 modifier un de leurs mod\u00e8les de langage pour faire appara\u00eetre des concepts interpr\u00e9tables au sein des diff\u00e9rentes couches du mod\u00e8le. Ces recherches, qui remontent \u00e0 2024, constituent une premi\u00e8re \u00e9tape. Mais les chercheurs d&rsquo; Anthropic sont all\u00e9s plus loin et [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[5,12],"tags":[16,17,23,24],"class_list":["post-2227","post","type-post","status-publish","format-standard","hentry","category-conceptuel","category-modeles-de-langage","tag-ai","tag-artificialintelligence","tag-ia","tag-intelligence-artificielle","post-preview"],"_links":{"self":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/posts\/2227","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/comments?post=2227"}],"version-history":[{"count":15,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/posts\/2227\/revisions"}],"predecessor-version":[{"id":2250,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/posts\/2227\/revisions\/2250"}],"wp:attachment":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/media?parent=2227"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/categories?post=2227"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/tags?post=2227"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}