{"id":2203,"date":"2025-06-09T18:15:08","date_gmt":"2025-06-09T16:15:08","guid":{"rendered":"https:\/\/artificiellementintelligent.eu\/?p=2203"},"modified":"2025-06-09T18:15:08","modified_gmt":"2025-06-09T16:15:08","slug":"dans-le-cerveau-des-modeles-de-langage-premiere-partie-les-idees","status":"publish","type":"post","link":"https:\/\/artificiellementintelligent.eu\/index.php\/2025\/06\/09\/dans-le-cerveau-des-modeles-de-langage-premiere-partie-les-idees\/","title":{"rendered":"Dans le cerveau des mod\u00e8les de langage, premi\u00e8re partie : les id\u00e9es"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Un fait surprenant concernant les mod\u00e8les de langage est que personne ne comprend vraiment comment ils fonctionnent en interne. Ne pas \u00eatre en mesure de reconstruire de mani\u00e8re d\u00e9ductive les \u00e9tapes \u00ab\u00a0mentales\u00a0\u00bb \u00e0 travers lesquelles passe le mod\u00e8le pour \u00e9chafauder sa r\u00e9ponse pose des probl\u00e8mes de s\u00e9curit\u00e9 et d&rsquo; \u00e9thique.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">En effet, comment s&rsquo; assurer qu&rsquo; un mod\u00e8le r\u00e9pond de mani\u00e8re transparente et ne nous ment pas ou ne poursuit pas un objectif diff\u00e9rent de celui que nous lui avons assign\u00e9 ? Et si nous lui demandons d&rsquo; expliciter une d\u00e9cision, va-t&rsquo; il expliquer les \u00e9tapes de son raisonnement ou fournir une justification <em>a posteriori<\/em> sans relation avec son processus interne initial ? Un mod\u00e8le pourrait-il nous mentir d\u00e9lib\u00e9r\u00e9ment si nous le mettons dans une position contradictoire en lui demandant d&rsquo; aller \u00e0 l&rsquo; encontre de ses instructions ? Jusqu&rsquo; o\u00f9 peut-on \u00eatre s\u00fbr que certaines prohibitions seront respect\u00e9es ?<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ces questions rev\u00eatent une importance de plus en plus grande au fil des progr\u00e8s des mod\u00e8les : les mod\u00e8les se transforment progressivement en <em>agents<\/em> avec une capacit\u00e9 directe d&rsquo; action dans le monde r\u00e9el : envoi d&rsquo; emails, achat de produits&#8230;cette d\u00e9l\u00e9gation sans cesse croissante cr\u00e9e une certaine urgence autour de ces questions de s\u00e9curit\u00e9 et d&rsquo; \u00e9thique.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">La soci\u00e9t\u00e9 <em>Anthropic<\/em>, qui a d\u00e9velopp\u00e9 les mod\u00e8les de langage <em>Claude<\/em>, m\u00e8ne des recherches tr\u00e8s actives sur le sujet de l&rsquo; interpr\u00e9tabilit\u00e9 des mod\u00e8les de langage. Ils ont publi\u00e9 plusieurs articles sur le sujet que vous trouverez en r\u00e9f\u00e9rence, et leurs analyses mettent en \u00e9vidence des ph\u00e9nom\u00e8nes tr\u00e8s int\u00e9ressants.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Dans ce premier article, je vais me concentrer sur les recherches permettant d&rsquo; isoler l&rsquo; \u00e9mergence de concepts \u00ab\u00a0interpr\u00e9tables par des humains\u00a0\u00bb \u00e0 l&rsquo; int\u00e9rieur des mod\u00e8les de langage. La mani\u00e8re dont ces concepts sont articul\u00e9s et interconnect\u00e9s pour formuler une r\u00e9ponse coh\u00e9rente fera l&rsquo; objet de mon prochain article.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Un petit mot sur l&rsquo; architecture des \u00ab\u00a0transformeurs\u00a0\u00bb<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Les mod\u00e8les de langage utilisent l&rsquo; architecture des \u00ab\u00a0transformeurs\u00a0\u00bb d\u00e9finie par <em>Google<\/em> en 2017 dans le c\u00e9l\u00e8bre article <em>Attention is all you need<\/em>. Je me contenterai ici d&rsquo; une explication sommaire qui devrait suffire pour nos discussions sur l&rsquo; interpr\u00e9tabilit\u00e9, \u00e0 savoir :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>les \u00ab\u00a0transformeurs\u00a0\u00bb sont structur\u00e9s en couches successives;<br><\/li>\n\n\n\n<li>une couche d&rsquo; entr\u00e9e d\u00e9coupe le texte du \u00ab\u00a0prompt\u00a0\u00bb en <em>tokens<\/em> puis transforme ces derniers s\u00e9quence de vecteurs dans un espace de repr\u00e9sentation. Ces vecteurs sont des repr\u00e9sentations num\u00e9riques des mots du texte, et la s\u00e9quence de vecteurs correspond \u00e0 la s\u00e9quence de mots du <em>prompt<\/em>;<br><\/li>\n\n\n\n<li>les autres couches du mod\u00e8le transforment cette s\u00e9quence de vecteurs de mani\u00e8re it\u00e9rative, couche par couche. Les couches sont architecturalement identiques mais contiennent des param\u00e8tres de transformation diff\u00e9rents qui ont \u00e9t\u00e9 d\u00e9finis chacun lors de l&rsquo; apprentissage (ce sont les fameux \u00ab\u00a0milliards\u00a0\u00bb de coefficients);<br><\/li>\n\n\n\n<li>enfin, la couche de sortie est semblable aux autres sauf qu&rsquo; au lieu de transformer la s\u00e9quence de vecteurs, elle va g\u00e9n\u00e9rer une distribution de probabilit\u00e9s sur le prochain <em>token<\/em> \u00e0 ajouter \u00e0 la s\u00e9quence (pr\u00e9diction du prochain mot).<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Voici une illustration de cette logique, avec l&rsquo; architecture du r\u00e9seau \u00e0 gauche et la s\u00e9quence de vecteurs \u00e0 droite :<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1902\" height=\"1102\" src=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609a.png\" alt=\"\" class=\"wp-image-2207\" srcset=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609a.png 1902w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609a-300x174.png 300w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609a-1024x593.png 1024w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609a-768x445.png 768w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609a-1536x890.png 1536w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609a-676x392.png 676w\" sizes=\"auto, (max-width: 1902px) 100vw, 1902px\" \/><figcaption class=\"wp-element-caption\">Figure 1 : Architecture et flux de donn\u00e9es d&rsquo; un transformeur<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Pour \u00eatre complet, chaque couche se comporte de deux sous-couches; la premi\u00e8re, appel\u00e9e couche d&rsquo; <em>attention<\/em> va combiner et enrichir le vecteur avec les informations contenues dans les autres vecteurs de la s\u00e9quence. La seconde, appel\u00e9e <em>MLP (Multilayer Perceptron)<\/em> est un r\u00e9seau neuronal classique qui va transformer chacun des vecteurs de la s\u00e9quence apr\u00e8s avoir \u00e9t\u00e9 enrichis par la couche d&rsquo; attention. La couche MLP applique la m\u00eame transformation \u00e0 chacun des vecteurs de la s\u00e9quence.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ceci est illustr\u00e9 dans la figure 2. Il y a une petite astuce : la couche d&rsquo; attention est commune, tandis que la couche MLP s&rsquo; applique individuellement \u00e0 chacun des vecteurs \u00ab\u00a0enrichis\u00a0\u00bb fournis par la couche d&rsquo; attention.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1974\" height=\"1104\" src=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609b.png\" alt=\"\" class=\"wp-image-2208\" srcset=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609b.png 1974w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609b-300x168.png 300w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609b-1024x573.png 1024w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609b-768x430.png 768w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609b-1536x859.png 1536w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609b-676x378.png 676w\" sizes=\"auto, (max-width: 1974px) 100vw, 1974px\" \/><figcaption class=\"wp-element-caption\">Figure 2 : D\u00e9tail d&rsquo; une couche du transformeur<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Aller dans le d\u00e9tail de cette architecture d\u00e9passe largement le cadre de cet article et si vous voulez en avoir une compr\u00e9hension plus approfondie, je vous conseille soit de lire le <em>paper<\/em> de Google, soit de lire l&rsquo; excellent article de vulgarisation de Jay Alammar \u00ab\u00a0The Illustrated Transformer\u00a0\u00bb accessible <a href=\"https:\/\/jalammar.github.io\/illustrated-transformer\/\">ici<\/a>.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">La question de l&rsquo; espace de repr\u00e9sentation<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Ce que j&rsquo; ai voulu faire ressortir de cette architecture, c&rsquo; est la centralit\u00e9 de l&rsquo; espace de repr\u00e9sentation. En fin de compte, le transformeur ne fait qu&rsquo; enrichir et transformer successivement des vecteurs dans cet espace. Pour vous donner une id\u00e9e, la dimension de cet espace varie d&rsquo; un mod\u00e8le \u00e0 l&rsquo; autre; <em>Anthropic<\/em> ne publie pas cette information mais pour <em>OpenAI<\/em> ChatGPT-4o on sait que l&rsquo; espace de repr\u00e9sentation compte 1.536 dimensions.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">L&rsquo; hypoth\u00e8se que les chercheurs d&rsquo; <em>Anthropic<\/em> ont pu v\u00e9rifier, c&rsquo; est que les concepts intelligibles pour les humains correspondent \u00e0 des directions dans cet espace de repr\u00e9sentation. Ceci avait d\u00e9j\u00e0 \u00e9t\u00e9 \u00e9tabli pour d&rsquo; autres mod\u00e8les d&rsquo; apprentissage linguistique comme les \u00ab\u00a0word embeddings\u00a0\u00bb mais pas encore pour les mod\u00e8les de langage.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Dans un monde id\u00e9al, les diff\u00e9rents axes de cet espace de repr\u00e9sentation correspondraient directement \u00e0 des concepts intelligibles par l&rsquo; homme. Les coefficients des vecteurs indiqueraient alors la pr\u00e9sence ou l&rsquo; absence de ces concepts. Mais est-ce le cas ? Non, ce serait trop simple. En fait, les axes de cet espace sont des concepts abstraits, mais pas intelligibles par l&rsquo; homme, et donc non interpr\u00e9tables.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Pourquoi ? Une explication intuitive est que 1.536 est un nombre bien trop petit pour repr\u00e9senter l&rsquo; ensemble des concepts auxquels le r\u00e9seau a \u00e9t\u00e9 confront\u00e9 pendant l&rsquo; entra\u00eenement. Les concepts vont donc se retrouver \u00ab\u00a0m\u00e9lang\u00e9s\u00a0\u00bb dans cet espace (math\u00e9matiquement, il s&rsquo; agira d&rsquo; un ensemble de vecteurs lin\u00e9airement d\u00e9pendants vu la trop faible dimension de l&rsquo; espace). Cette situation rend impossible l&rsquo; extraction de concepts intelligibles par une op\u00e9ration vectorielle \u00e9l\u00e9mentaire de type projection.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Le <em>Dictionary Learning<\/em> \u00e0 la rescousse<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Mais il y a un moyen de s&rsquo; en sortir, c&rsquo; est de combattre le mal par le mal et de faire appel \u00e0 un autre algorithme d&rsquo; apprentissage machine pour extraire les concepts. Cet algorithme s&rsquo; appelle le \u00ab\u00a0Dictionary Learning\u00a0\u00bb.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">L&rsquo; id\u00e9e en est la suivante : nous allons entra\u00eener un nouveau r\u00e9seau de neurones en trois couches de la mani\u00e8re suivante :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>le r\u00e9seau doit \u00eatre capable de g\u00e9n\u00e9rer en sortie les m\u00eames r\u00e9ponses que celles en entr\u00e9e (transformation identit\u00e9). La premi\u00e8re et la troisi\u00e8me couche ont donc la m\u00eame dimension, celle de l&rsquo; espace de repr\u00e9sentation;<br><\/li>\n\n\n\n<li>nous allons contraindre ce r\u00e9seau \u00e0 avoir une couche interm\u00e9diaire (la seconde) de beaucoup plus grande taille et pour laquelle le nombre de param\u00e8tres actifs \u00e0 tous moment est tr\u00e8s faible (id\u00e9alement 1). C&rsquo;est ce qu&rsquo; on appelle une couche \u00ab\u00a0sparse\u00a0\u00bb (\u00e9parse).<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">La premi\u00e8re contrainte \u00e0 elle seule peut para\u00eetre \u00e9trange, mais elle permet d&rsquo; intercaler le nouveau mod\u00e8le au milieu du mod\u00e8le original sans en perturber le fonctionnement. Et la couche interm\u00e9diaire, une fois entra\u00een\u00e9e, va se comporter comme un \u00ab\u00a0dictionnaire\u00a0\u00bb de concepts, chacun des neurones de cette couche repr\u00e9sentant un concept activ\u00e9 individuellement.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Le nombre de concepts est donc \u00e9gal au nombre de neurones de cette couche. Et cela fonctionne car au fil de l&rsquo; entra\u00eenement, ce mod\u00e8le va chercher \u00e0 identifier les concepts pr\u00e9sents dans l&rsquo; espace de repr\u00e9sentation et les encoder dans un seul neurone de la couche interm\u00e9diaire.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Voici une illustration de cet algorithme:<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1888\" height=\"1116\" src=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609c.png\" alt=\"\" class=\"wp-image-2212\" style=\"width:657px;height:auto\" srcset=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609c.png 1888w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609c-300x177.png 300w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609c-1024x605.png 1024w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609c-768x454.png 768w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609c-1536x908.png 1536w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609c-676x400.png 676w\" sizes=\"auto, (max-width: 1888px) 100vw, 1888px\" \/><figcaption class=\"wp-element-caption\">Figure 3 : Algorithme de Dictionary Learning<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Nous y sommes presque ! Il ne reste plus qu&rsquo;\u00e0 appliquer ce syst\u00e8me de Dictionary Learning s\u00e9par\u00e9ment pour chacune des couches, ce qui ne vas pas perturber le contionnement du mod\u00e8le de langage puisque les couches de <em>Dictionary Learning<\/em> sont transparentes (sortie = entr\u00e9e). Et voici le mod\u00e8le final avec les \u00ab\u00a0sondes\u00a0\u00bb d&rsquo; analyse implant\u00e9es :<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1760\" height=\"1066\" src=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609d.png\" alt=\"\" class=\"wp-image-2213\" srcset=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609d.png 1760w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609d-300x182.png 300w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609d-1024x620.png 1024w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609d-768x465.png 768w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609d-1536x930.png 1536w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609d-676x409.png 676w\" sizes=\"auto, (max-width: 1760px) 100vw, 1760px\" \/><figcaption class=\"wp-element-caption\">Figure 4 : Mod\u00e8le final avec sondes d&rsquo; analyse conceptuelle<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Nous y sommes enfin. C&rsquo; est ce qu&rsquo; ont fait les chercheurs d&rsquo; <em>Anthropic<\/em> avec leur mod\u00e8le Claude 3.0 et ils ont ainsi identifi\u00e9 environ 30 millions de concepts sur l&rsquo; ensemble des couches du mod\u00e8le.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Maintenant que notre appareillage de mesure des concepts est en place, il est possible d&rsquo; analyser les concepts activ\u00e9s par des textes sp\u00e9cifiques. Et l\u00e0, miracle, des concepts intelligibles par l&rsquo; homme apparaissent !<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><strong>Le neurone \u00ab\u00a0Golden Gate\u00a0\u00bb<\/strong><\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Parmi ces concepts, les chercheurs ont identifi\u00e9 une grande diversit\u00e9 de caract\u00e9ristiques abstraites. Il y a des \u00e9l\u00e9ments relatifs aux personnes c\u00e9l\u00e8bres, aux pays et aux villes. Il y a aussi des \u00e9l\u00e9ments relatifs \u00e0 des concepts abstraits comme les erreurs de programmation ou l&rsquo; addition ou encore des notions pratiques comme la pr\u00e9sence de caract\u00e8res cor\u00e9ens dans le texte.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">De nombreuses caract\u00e9ristiques sont multilingues (elles r\u00e9pondent au m\u00eame concept dans plusieurs langues) et multimodales (elles r\u00e9pondent au m\u00eame concept dans du texte et des images), et englobent \u00e0 la fois des instanciations abstraites et concr\u00e8tes de la m\u00eame id\u00e9e (comme du code pr\u00e9sentant des failles de s\u00e9curit\u00e9 et des discussions abstraites sur les failles de s\u00e9curit\u00e9).<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Voici par exemple le neurone \u00ab\u00a0Golden Gate\u00a0\u00bb qui est activ\u00e9 par des textes parlant du Golden Gate. Vous pouvez voir dans la figure ci-dessous l&rsquo; influence relative des diff\u00e9rents <em>tokens<\/em> du texte d&rsquo; entr\u00e9e dans l&rsquo; activation du concept \u00ab\u00a0Golden Gate\u00a0\u00bb :<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1808\" height=\"812\" src=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609e.png\" alt=\"\" class=\"wp-image-2216\" srcset=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609e.png 1808w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609e-300x135.png 300w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609e-1024x460.png 1024w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609e-768x345.png 768w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609e-1536x690.png 1536w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609e-676x304.png 676w\" sizes=\"auto, (max-width: 1808px) 100vw, 1808px\" \/><figcaption class=\"wp-element-caption\">Figure 5 : Le concept \u00ab\u00a0Golden Gate\u00a0\u00bb (source : Anthropic)<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Au total de nombreux concepts intelligibles ont \u00e9t\u00e9 mis \u00e0 jour par les chercheurs et vous en trouverez une liste compl\u00e8te <a href=\"https:\/\/transformer-circuits.pub\/2024\/scaling-monosemanticity\/features\/index.html\">ici<\/a>. Et voici une illustration de quelques autres concepts identifi\u00e9s :<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1484\" height=\"1234\" src=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609f.png\" alt=\"\" class=\"wp-image-2217\" srcset=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609f.png 1484w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609f-300x249.png 300w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609f-1024x851.png 1024w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609f-768x639.png 768w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609f-676x562.png 676w\" sizes=\"auto, (max-width: 1484px) 100vw, 1484px\" \/><figcaption class=\"wp-element-caption\">Figure 6 : Quelques autres concepts identifi\u00e9s (source : Anthropic)<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">On ne peut que rester \u00e9tonn\u00e9 par la richesse et la diversit\u00e9 des concepts identifi\u00e9s. Et ce n&rsquo; est pas tout, il est aussi possible de manipuler les concepts en modifiant les valeurs d&rsquo; activation des neurones \u00e0 la main ce qui donne des effets tr\u00e8s int\u00e9ressants comme la vid\u00e9o qui suit le montre :<\/p>\n\n\n\n<figure class=\"wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio\"><div class=\"wp-block-embed__wrapper\">\n<iframe loading=\"lazy\" title=\"Dictionary learning on Claude 3 Sonnet\" width=\"676\" height=\"380\" src=\"https:\/\/www.youtube.com\/embed\/CJIbCV92d88?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe>\n<\/div><\/figure>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">La manipulation des concepts internes des mod\u00e8les entra\u00eene des modifications des r\u00e9ponses du mod\u00e8le qui vont dans le sens des modifications apport\u00e9s aux concepts.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Les chercheurs d&rsquo; Anthropic ont donc r\u00e9ussi \u00e0 prouver la correspondance entre les concepts internes des mod\u00e8les et les concepts intelligibles que l&rsquo; on peut observer dans les deux directions : a) si le concept est pr\u00e9sent dans le texte d&rsquo; entr\u00e9e, le concept interne est activ\u00e9 et b) si le concept interne est activ\u00e9 manuellement, le concept intelligible est pr\u00e9sent dans le texte de sortie.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ceci valide le fait que ces concepts font partie int\u00e9grante de la repr\u00e9sentation interne du monde que contient le mod\u00e8le, et de la fa\u00e7on dont il utilise ces repr\u00e9sentations dans la construction d&rsquo; une r\u00e9ponse.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Lien avec la s\u00e9curit\u00e9 et l&rsquo; alignement des mod\u00e8les<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Ces recherches visent \u00e0 rendre les mod\u00e8les s\u00fbrs au sens large. Il est donc particuli\u00e8rement int\u00e9ressant de constater que les chercheurs d&rsquo; <em>Anthropic<\/em> ont trouv\u00e9 des caract\u00e9ristiques correspondant \u00e0 des concepts sensibles comme :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>la notion de courriel de \u00ab\u00a0spam\u00a0\u00bb;<br><\/li>\n\n\n\n<li>des capacit\u00e9s au potentiel n\u00e9faste : hacking informatique, d\u00e9veloppement d&rsquo; armes biologiques;<br><\/li>\n\n\n\n<li>diff\u00e9rentes formes de biais et de discrimination;<br><\/li>\n\n\n\n<li>des notions de comportements probl\u00e9matiques par l&rsquo; IA : recherche de puissance, manipulation, dissimulation, hypocrisie.<\/li>\n<\/ul>\n\n\n<div class=\"wp-block-image is-style-default\">\n<figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"2560\" height=\"1957\" src=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609g-scaled.png\" alt=\"\" class=\"wp-image-2219\" srcset=\"https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609g-scaled.png 2560w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609g-300x229.png 300w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609g-1024x783.png 1024w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609g-768x587.png 768w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609g-1536x1174.png 1536w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609g-2048x1565.png 2048w, https:\/\/artificiellementintelligent.eu\/wp-content\/uploads\/2025\/06\/image-20250609g-676x517.png 676w\" sizes=\"auto, (max-width: 2560px) 100vw, 2560px\" \/><figcaption class=\"wp-element-caption\">Figure 7 : Exemples de concepts \u00ab\u00a0sensibles\u00a0\u00bb identifi\u00e9s (source : Anthropic)<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">En manipulant adroitement ces concepts, il devrait donc \u00eatre possible de modifier le comportement du mod\u00e8le dans le sens souhait\u00e9.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Les chercheurs d&rsquo; <em>Anthropic<\/em> esp\u00e8rent que ces d\u00e9couvertes permettront de rendre les mod\u00e8les plus s\u00fbrs. Par exemple, afin de d\u00e9tecter certains comportements dangereux (comme tromper l&rsquo;utilisateur), de les orienter vers des r\u00e9sultats souhaitables (d\u00e9biaisage) ou d&rsquo;\u00e9liminer compl\u00e8tement certains sujets dangereux (armes biologiques, hacking..).<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Pour conclure<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Nous venons de voir comment il est possible d&rsquo; isoler et d&rsquo; interpr\u00e9ter les composants d&rsquo; un mod\u00e8le de langage lorsqu&rsquo; ils sont activ\u00e9s par une question de l&rsquo; utilisateur. Ces recherches ont \u00e9t\u00e9 effectu\u00e9es par <em>Anthropic<\/em> en 2024.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Reste \u00e0 voir comment ces concepts s&rsquo; organisent ensemble pour cr\u00e9er une pens\u00e9e et une r\u00e9ponse coh\u00e9rentes de la part du mod\u00e8le. Anthropic a continu\u00e9 ses recherches et vient de publier le r\u00e9sultat de nouvelles recherches \u00e0 ce sujet.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">C&rsquo; est ce que je vous propose d&rsquo; analyser dans mon prochain article, parce que cet article est d\u00e9j\u00e0 largement assez long comme cela !<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Sources et r\u00e9f\u00e9rences<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li><em>Tracing the thoughts of a Large Language Model<\/em>, par Anthropic Interpretability research team, le 27 mars 2025: <a href=\"https:\/\/www.anthropic.com\/research\/tracing-thoughts-language-model\">https:\/\/www.anthropic.com\/research\/tracing-thoughts-language-model<\/a><br><\/li>\n\n\n\n<li><em>Mapping the mind of a Large Language Model<\/em>, par Anthropic Interpretability research team, le 21 mai 2024 : <a href=\"https:\/\/www.anthropic.com\/research\/mapping-mind-language-model\">https:\/\/www.anthropic.com\/research\/mapping-mind-language-model<\/a><\/li>\n<\/ul>\n\n\n\n<ul class=\"wp-block-list\">\n<li><em>Decomposing Language Models Into Understandable Components<\/em>, par Anthropic Interpretability research team, le 5 octobre 2023: :<a href=\"https:\/\/www.anthropic.com\/research\/decomposing-language-models-into-understandable-components\">https:\/\/www.anthropic.com\/research\/decomposing-language-models-into-understandable-components<\/a><\/li>\n<\/ul>\n\n\n\n<ul class=\"wp-block-list\">\n<li><em>What&rsquo;s going on inside Claude&rsquo;s mind ?<\/em>, par Nikhil Anand pour Medium, le 23 mai 2025 : <a href=\"https:\/\/medium.com\/ai-advances\/whats-going-on-inside-claude-s-mind-bfb8bb9cf6a1\">https:\/\/medium.com\/ai-advances\/whats-going-on-inside-claude-s-mind-bfb8bb9cf6a1<\/a><\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Un fait surprenant concernant les mod\u00e8les de langage est que personne ne comprend vraiment comment ils fonctionnent en interne. Ne pas \u00eatre en mesure de reconstruire de mani\u00e8re d\u00e9ductive les \u00e9tapes \u00ab\u00a0mentales\u00a0\u00bb \u00e0 travers lesquelles passe le mod\u00e8le pour \u00e9chafauder sa r\u00e9ponse pose des probl\u00e8mes de s\u00e9curit\u00e9 et d&rsquo; \u00e9thique. En effet, comment s&rsquo; assurer [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[5,8,12],"tags":[],"class_list":["post-2203","post","type-post","status-publish","format-standard","hentry","category-conceptuel","category-gouvernance","category-modeles-de-langage","post-preview"],"_links":{"self":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/posts\/2203","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/comments?post=2203"}],"version-history":[{"count":15,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/posts\/2203\/revisions"}],"predecessor-version":[{"id":2225,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/posts\/2203\/revisions\/2225"}],"wp:attachment":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/media?parent=2203"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/categories?post=2203"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/tags?post=2203"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}