{"id":1876,"date":"2025-01-27T16:36:02","date_gmt":"2025-01-27T15:36:02","guid":{"rendered":"https:\/\/artificiellementintelligent.wordpress.com\/?p=1876"},"modified":"2025-01-27T16:36:02","modified_gmt":"2025-01-27T15:36:02","slug":"du-rififi-dans-le-monde-des-llm-comment-deepseek-r1-change-la-donne","status":"publish","type":"post","link":"https:\/\/artificiellementintelligent.eu\/index.php\/2025\/01\/27\/du-rififi-dans-le-monde-des-llm-comment-deepseek-r1-change-la-donne\/","title":{"rendered":"Du rififi dans le monde des mod\u00e8les de langage : comment DeepSeek R1 change la donne"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Le monde de l&rsquo; IA g\u00e9n\u00e9rative est en \u00e9bullition suite \u00e0 la publication du mod\u00e8le R1 par la soci\u00e9t\u00e9 chinoise <em>DeepSeek<\/em> la semaine pass\u00e9e.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>DeepSeek-R1<\/em> est un mod\u00e8le de raisonnement open-source innovant: contrairement aux mod\u00e8les de langage traditionnels qui se concentrent sur la g\u00e9n\u00e9ration et la compr\u00e9hension de textes, DeepSeek-R1 se sp\u00e9cialise dans l&rsquo; inf\u00e9rence logique, la r\u00e9solution de probl\u00e8mes math\u00e9matiques et la planification. Il se positionne d\u00e8s lors comme un concurrent direct d&rsquo; <em>OpenAI-o1<\/em> dont j&rsquo;ai parl\u00e9 dans <a href=\"https:\/\/artificiellementintelligent.wordpress.com\/2024\/12\/22\/les-modeles-raisonneurs\/\">mon article pr\u00e9c\u00e9dent<\/a>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>DeepSeek<\/em> est une entreprise d&rsquo;IA chinoise fond\u00e9e en 2023 par <em>Lian Wenfeng<\/em> et bas\u00e9e \u00e0 Hangzhou, pr\u00e8s de Shangha\u00ef. Elle se consacre au d\u00e9veloppement de l&rsquo; Intelligence Artificielle G\u00e9n\u00e9rale. La soci\u00e9t\u00e9 DeepSeek compterait environ 200 personnes et est financ\u00e9e par le fonds d&rsquo;investissement <em>High-Flyer<\/em> \u00e9galement fond\u00e9 par Lian Wenfeng.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Le mod\u00e8le R1 est extr\u00eamement int\u00e9ressant \u00e0 plusieurs titres.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Tout d&rsquo; abord, il s&rsquo; agit d&rsquo; un mod\u00e8le \u00ab\u00a0raisonneur\u00a0\u00bb au m\u00eame titre qu&rsquo; <em>OpenAI-o1<\/em> et ses performances sont comparables. Mais \u00e0 la diff\u00e9rence d&rsquo; o1, ce mod\u00e8le est <em>open-source<\/em> et peut \u00eatre librement t\u00e9l\u00e9charg\u00e9 et ex\u00e9cut\u00e9 localement. Qui plus est, DeepSeek a d\u00e9crit en d\u00e9tail le m\u00e9canisme d&rsquo; apprentissage par renforcement utilis\u00e9 pour passer de leur mod\u00e8le de langage \u00ab\u00a0standard\u00a0\u00bb <em>DeepSeek-V3<\/em> au mod\u00e8le \u00ab\u00a0raisonneur\u00a0\u00bb <em>DeepSeek-R1<\/em> (un lien vers le document technique est fourni en r\u00e9f\u00e9rence).<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ensuite, le mod\u00e8le aurait \u00e9t\u00e9 d\u00e9velopp\u00e9 avec un budget assez limit\u00e9 &#8211; on parle de 6 millions d&rsquo; USD- ce qui est peu compar\u00e9 aux d\u00e9penses de ses concurrents am\u00e9ricains.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Les performances du mod\u00e8le <em>DeepSeek-R1<\/em> \u00e9tant plus qu&rsquo; honorables, cela signifie qu&rsquo; une grande partie de l&rsquo; avantage comp\u00e9titif de soci\u00e9t\u00e9s \u00ab\u00a0ferm\u00e9es\u00a0\u00bb comme OpenAI a disparu et se retrouve accessible \u00e0 tous.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Il s&rsquo; agit donc d&rsquo; un fameux coup de pied dans la fourmili\u00e8re qui va s\u00e9rieusement ouvrir le jeu et permettre de nouvelles innovations.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Acc\u00e9der au mod\u00e8le<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Le mod\u00e8le <em>DeepSeek-R1<\/em> est exploitable de trois mani\u00e8res diff\u00e9rentes :<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Tout d&rsquo; abord, vous pouvez d\u00e8s aujourd&rsquo;hui tester <em>DeepSeek-R1<\/em> via l&rsquo; interface web accessible <a href=\"https:\/\/chat.deepseek.com\/\">ici<\/a> apr\u00e8s inscription. Cet acc\u00e8s est enti\u00e8rement gratuit.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img decoding=\"async\" src=\"https:\/\/artificiellementintelligent.wordpress.com\/wp-content\/uploads\/2025\/01\/image-20250126a.png\" alt=\"\" class=\"wp-image-1883\" \/><figcaption class=\"wp-element-caption\">Figure 1 : L&rsquo;interface utilisateur DeepSeek<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">L&rsquo; interface est tr\u00e8s simple et propre. Vous devez cliquer sur le bouton <em>DeepThink (R1)<\/em> pour utiliser DeepSeek-R1, sinon c&rsquo; est le mod\u00e8le DeepSeek-V3 qui vous r\u00e9pondra.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Seconde possibilit\u00e9, vous pouvez utiliser le mod\u00e8le via l&rsquo; Interface de programmation (API) de DeepSeek qui est compatible avec celle d&rsquo; OpenAI. Les m\u00e9canismes d&rsquo; acc\u00e8s sont d\u00e9crits <a href=\"https:\/\/platform.deepseek.com\/usage\">ici<\/a>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Le point-cl\u00e9 ici est le prix extr\u00eamement bas pratiqu\u00e9 par DeepSeek par rapport \u00e0 OpenAI. Le tableau ci-dessous compare les prix entre OpenAI et DeepSeek :<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img decoding=\"async\" src=\"https:\/\/artificiellementintelligent.wordpress.com\/wp-content\/uploads\/2025\/01\/image-20250126b.png\" alt=\"\" class=\"wp-image-1885\" \/><figcaption class=\"wp-element-caption\">Figure 2 : Comparaison des prix d&rsquo; acc\u00e8s via l&rsquo; API<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Une remarque cependant : DeepSeek se r\u00e9serverait la possibilit\u00e9 de r\u00e9utiliser vos interactions avec le mod\u00e8le pour des entra\u00eenements ult\u00e9rieurs; \u00e9vitez donc de transmettre des donn\u00e9es confidentielles ou personnelles dans vos interactions, que ce soit via l&rsquo; interface Web ou via l&rsquo; API.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Troisi\u00e8me possibilit\u00e9, comme le mod\u00e8le est open-source, vous pouvez t\u00e9l\u00e9charger ses param\u00e8tres et l&rsquo; ex\u00e9cuter localement. Le mod\u00e8le R1 complet contient cependant 670 milliards de param\u00e8tres ce qui le met hors de port\u00e9e de la plupart des ordinateurs&#8230;.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Pour contourner cela, DeepSeek met \u00e0 disposition des \u00ab\u00a0distillations\u00a0\u00bb de son mod\u00e8le qui sont, elles, de taille beaucoup plus accessible : elles vont de 1,5 \u00e0 70 milliards de param\u00e8tres. Des programmes comme <em>Ollama<\/em> ou <em>LMStudio<\/em> proposent d\u00e8s aujourd&rsquo; hui ces mod\u00e8les pour t\u00e9l\u00e9chargement et ex\u00e9cution locales.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img decoding=\"async\" src=\"https:\/\/artificiellementintelligent.wordpress.com\/wp-content\/uploads\/2025\/01\/image-20250126c.png\" alt=\"\" class=\"wp-image-1887\" \/><figcaption class=\"wp-element-caption\">Figure 3 : Liste et performances des versions distill\u00e9es de DeepSeek R1 (source : DeepSeek)<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Le processus de <em>distillation<\/em> consiste \u00e0 partir d&rsquo; un autre mod\u00e8le open-source (Qwen, LLama&#8230;) et \u00e0 l&rsquo; affiner sur des traces de raisonnement g\u00e9n\u00e9r\u00e9es par DeepSeek R1. On obtient en sortie un mod\u00e8le certes moins performant que R1 mais meilleur en raisonnement que le mod\u00e8le de base dont il est d\u00e9riv\u00e9. Le mod\u00e8le qui en r\u00e9sulte est donc une sorte de compromis&#8230;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Performances<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Le mod\u00e8le DeepSeek pr\u00e9sente des performance comparables \u00e0 celles d&rsquo; OpenAI-o1 lorsque les deux mod\u00e8les sont \u00e9valu\u00e9s \u00e0 travers six <em>benchmarks<\/em> couramment utilis\u00e9s pour \u00e9valuer les mod\u00e8les de langage, \u00e0 savoir :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><em>AIME2024<\/em> et <em>MATH-500<\/em> sont deux tests destin\u00e9s \u00e0 \u00e9valuer les capacit\u00e9s de raisonnement math\u00e9matique des LLM;<br><\/li>\n\n\n\n<li><em>CodeForces<\/em> et <em>SWE-Bench Verified<\/em> sont deux tests de la capacit\u00e9 \u00e0 programmer et r\u00e9soudre des probl\u00e8mes informatiques r\u00e9alistes;<br><\/li>\n\n\n\n<li><em>GPQA Diamond<\/em> est une liste de 198 questions tr\u00e8s difficiles en sciences naturelles : biologie, physique et chimie;<br><\/li>\n\n\n\n<li><em>MMLU<\/em> est un test plus large qui couvre non seulement les sciences exactes mais \u00e9galement les sciences humaines et sociales.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Le graphique ci-dessous pr\u00e9sente les r\u00e9sultats d&rsquo; \u00e9valuation :<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img decoding=\"async\" src=\"https:\/\/artificiellementintelligent.wordpress.com\/wp-content\/uploads\/2025\/01\/image-20250126d.png\" alt=\"\" class=\"wp-image-1889\" \/><figcaption class=\"wp-element-caption\">Figure 4 : Performance compar\u00e9e de DeepSeek R1 (source : DeepSeek)<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">On voit en effet que <em>DeepSeek-R1<\/em> tient la drag\u00e9e haute \u00e0 <em>OpenAI-o1<\/em> sur chacun des six tests.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Il est aussi int\u00e9ressant de constater que le mod\u00e8le distill\u00e9 <em>DeepSeek-R1-32B<\/em> (distill\u00e9 \u00e0 partir de <em>Qwen-32B<\/em>) pr\u00e9sente des r\u00e9sultats tout \u00e0 fait honorables et assez proches de ceux d&rsquo; o1-mini; or un tel mod\u00e8le est tout \u00e0 fait ex\u00e9cutable localement sur une machine de performances convenables.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Enfin, on voit bien l&rsquo; impact de l&rsquo; apprentissage par renforcement si l&rsquo; on compare les performances de <em>DeepSeek-R1<\/em> avec celles de <em>DeepSeek-V3<\/em> puisque R1 n&rsquo;est autre que V3 ayant subi un entra\u00eenement compl\u00e9mentaire par renforcement.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Censure ?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">L&rsquo; utilisation des mod\u00e8les de DeepSeek a fait appara\u00eetre un point assez surprenant : le mod\u00e8le refuse de parler de sujets tabous en Chine comme la souveraint\u00e9 de Taiwan, la disparition de l&rsquo; ancien Ministre des Affaires Etrang\u00e8res <a href=\"https:\/\/en.wikipedia.org\/wiki\/Qin_Gang\">Qin Gang<\/a>, la famine caus\u00e9e par le Grand Bond en Avant de Mao Ts\u00e9-Toung ou encore le massacre de la place Tien An Men en 1989.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ce qui est assez \u00e9tonnant, c&rsquo;est que le mod\u00e8le commence par r\u00e9diger tout un texte puis ce dernier dispara\u00eet soudain pour pr\u00e9senter ceci :<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img decoding=\"async\" src=\"https:\/\/artificiellementintelligent.wordpress.com\/wp-content\/uploads\/2025\/01\/image-20250126e.png\" alt=\"\" class=\"wp-image-1891\" \/><figcaption class=\"wp-element-caption\">Figure 5 : Aspects de censure<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Cela donne vraiment l&rsquo; impression qu&rsquo; un robot censeur intervient en fin de g\u00e9n\u00e9ration pour valider ou rejeter le texte. En tous cas c&rsquo; est la premi\u00e8re fois que je vois un mod\u00e8le de langage faire cela&#8230;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Conclusions<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Il est fort probable que l&rsquo; arriv\u00e9e de <em>DeepSeek-R1<\/em> va ouvrir grand les vannes des mod\u00e8les \u00ab\u00a0raisonneurs\u00a0\u00bb. non seulement les algorithmes sont maintenant publi\u00e9s au grand jour mais DeepSeek autorise quiconque \u00e0 utiliser les g\u00e9n\u00e9rations de DeepSeek-R1 pour entra\u00eener -ou plut\u00f4t distiller- d&rsquo; autres mod\u00e8les afin de les am\u00e9liorer.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Malgr\u00e9 les r\u00e9serves relatives \u00e0 la censure et la r\u00e9utilisation des donn\u00e9es, il faut saluer le tour de force r\u00e9alis\u00e9 par l&rsquo; \u00e9quipe de <em>DeepSeek<\/em> qui a r\u00e9ussi \u00e0 d\u00e9velopper un mod\u00e8le <em>open source<\/em> pour environ 5 millions de dollars et dont le co\u00fbt d&rsquo; exploitation est trente fois inf\u00e9rieur par <em>token<\/em> compar\u00e9 \u00e0 OpenAI, qui reste un syst\u00e8me ferm\u00e9.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Cela pourrait remettre en question les milliards de dollars investis par OpenAI pour conserver son avantage technologique, et cela juste au moment o\u00f9 ils annoncent un investissement titanesque (500 milliards) dans le projet <em>Stargate<\/em>&#8230;l&rsquo; ann\u00e9e 2025 commence fort.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Malheureusement, l&rsquo; Europe semble bien absente de cette acc\u00e9l\u00e9ration. Esp\u00e9rons que l&rsquo; annonce du Plan de Comp\u00e9titivit\u00e9 de l&rsquo; Union Europ\u00e9enne la semaine prochaine permette de lib\u00e9rer nos forces cr\u00e9atrices. Il est grand temps.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Sources et r\u00e9f\u00e9rences<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li><em>How a top AI model overcame US sanctions<\/em>, by Caiwei Chen for MIT Technology Review, le 24 janvier 2025 : <a href=\"https:\/\/www.technologyreview.com\/2025\/01\/24\/1110526\/china-deepseek-top-ai-despite-sanctions\/\">https:\/\/www.technologyreview.com\/2025\/01\/24\/1110526\/china-deepseek-top-ai-despite-sanctions\/<\/a><br><\/li>\n\n\n\n<li><em>DeepSeek-R1 : Incentivizing Reasoning Capability in LLMs via Reinforcement Learning<\/em> : par DeepSeek-AI : <a href=\"https:\/\/github.com\/deepseek-ai\/DeepSeek-R1\/blob\/main\/DeepSeek_R1.pdf\">https:\/\/github.com\/deepseek-ai\/DeepSeek-R1\/blob\/main\/DeepSeek_R1.pdf<\/a><br><\/li>\n\n\n\n<li><em>DeepSeek R1 : Full breakdown<\/em>, vid\u00e9o youtube par Sam Witteveen : <a href=\"https:\/\/www.youtube.com\/watch?v=gzZihJ5miZE&amp;t=809s\">https:\/\/www.youtube.com\/watch?v=gzZihJ5miZE&amp;t=809s<\/a><\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Le mod\u00e8le R1 de DeepSeek, une entreprise chinoise, r\u00e9volutionne l&rsquo;IA g\u00e9n\u00e9rative avec sa sp\u00e9cialisation en inf\u00e9rence logique et en r\u00e9solution de probl\u00e8mes, offrant une alternative open-source comp\u00e9titive \u00e0 OpenAI.<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[12],"tags":[16,17,19,23,25,26],"class_list":["post-1876","post","type-post","status-publish","format-standard","hentry","category-modeles-de-langage","tag-ai","tag-artificialintelligence","tag-deepseek","tag-ia","tag-intelligenceartificielle","tag-llm","post-preview"],"_links":{"self":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/posts\/1876","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/comments?post=1876"}],"version-history":[{"count":0,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/posts\/1876\/revisions"}],"wp:attachment":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/media?parent=1876"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/categories?post=1876"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/tags?post=1876"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}