{"id":946,"date":"2023-11-09T21:20:45","date_gmt":"2023-11-09T20:20:45","guid":{"rendered":"https:\/\/artificiellementintelligent.wordpress.com\/?p=946"},"modified":"2023-11-09T21:20:45","modified_gmt":"2023-11-09T20:20:45","slug":"tour-dhorizon-de-l-offre-generative-disponible-en-novembre-2023","status":"publish","type":"post","link":"https:\/\/artificiellementintelligent.eu\/index.php\/2023\/11\/09\/tour-dhorizon-de-l-offre-generative-disponible-en-novembre-2023\/","title":{"rendered":"Tour d&rsquo;horizon de l&rsquo; offre g\u00e9n\u00e9rative disponible en novembre 2023"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">L&rsquo; offre de solutions g\u00e9n\u00e9ratives va bien au-del\u00e0 des mod\u00e8les de langage qui ont d\u00e9fray\u00e9 la chronique en 2023. Diff\u00e9rentes modalit\u00e9s et services sont en effet accessibles \u00e0 l&rsquo; utilisateur, et il est temps d&rsquo; en faire le tour avant l&rsquo; arriv\u00e9e imminente des mod\u00e8les multimodaux qui promettent de bouleverser l&rsquo;offre.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">La liste qui suit n&rsquo; a pas la pr\u00e9tention d&rsquo; \u00eatre exhaustive, de nouvelles soci\u00e9t\u00e9s apparaissant sur une base presque quotidienne. Mon but est plut\u00f4t d&rsquo; illustrer l&rsquo; \u00e9ventail des possibilit\u00e9s disponibles aujourd&rsquo;hui, particuli\u00e8rement dans des domaines moins souvent \u00e9voqu\u00e9s comme la vid\u00e9o ou la 3D.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Les modalit\u00e9s que je couvre dans cet article sont les suivantes :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Conversation textuelle<\/li>\n\n\n\n<li>Assistance \u00e0 la programmation<\/li>\n\n\n\n<li>G\u00e9n\u00e9ration et analyse audio (voix et musique)<\/li>\n\n\n\n<li>G\u00e9n\u00e9ration et analyse d&rsquo;image<\/li>\n\n\n\n<li>G\u00e9n\u00e9ration vid\u00e9o<\/li>\n\n\n\n<li>G\u00e9n\u00e9ration de mod\u00e8les 3D<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Voici la liste compl\u00e8te des services mentionn\u00e9 dans cet article. La fonctionnalit\u00e9 propos\u00e9e par le service est indiqu\u00e9e en vert au-dessus de l&rsquo; ic\u00f4ne repr\u00e9sentant le service. Vous trouverez les liens d&rsquo; acc\u00e8s aux diff\u00e9rents services dans les paragraphes ci-dessous.<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img decoding=\"async\" src=\"https:\/\/artificiellementintelligent.wordpress.com\/wp-content\/uploads\/2023\/11\/image-20231110a.png\" alt=\"\" class=\"wp-image-948\" \/><figcaption class=\"wp-element-caption\">Figure 1 : L&rsquo; offre g\u00e9n\u00e9rative disponible, class\u00e9e par modalit\u00e9<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Analysons maintenant l&rsquo; offre pour chacune des modalit\u00e9s.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">1. Mod\u00e8les conversationnels (texte)<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Il s&rsquo; agit des mod\u00e8les avec lesquels il est possible de dialoguer de mani\u00e8re interactive comme <a href=\"https:\/\/chat.openai.com\/\">chatGPT<\/a>, <a href=\"https:\/\/claude.ai\/chats\">Claude<\/a>, <a href=\"https:\/\/bard.google.com\/chat\">Bard<\/a> etc&#8230; je n&rsquo; en parlerai pas plus en d\u00e9tail ici vu le nombre d&rsquo; article que je leur ai d\u00e9j\u00e0 consacr\u00e9s dans le pass\u00e9.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Juste un petit mot pour indiquer que <a href=\"https:\/\/labs.perplexity.ai\/\">Llama 2<\/a>, <a href=\"https:\/\/mistral.ai\/\">Mistral<\/a> et <a href=\"https:\/\/falconllm.tii.ae\/\">Falcon<\/a> sont des mod\u00e8les open-source et qu&rsquo; il vous est possible de les ex\u00e9cuter localement, sous r\u00e9serve de disposer d&rsquo;une machine suffisamment puissante.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">2. Assistants de programmation<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Les assistants de programmation sont en r\u00e9alit\u00e9 des mod\u00e8les conversationnels qui ont \u00e9t\u00e9 affin\u00e9s sur du code informatique et int\u00e9gr\u00e9s dans un environnement de programmation (IDE).<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ils vous proposent des suggestions de code sur base de votre code existant et\/ou de descriptions textuelles que vous introduisez.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Github Copilot<\/em> et <em>Amazon CodeWhisperer<\/em> sont offerts comme modules additionnels (<em>plug-ins<\/em>) qui s&rsquo;int\u00e8grent dans un environnement de d\u00e9veloppement install\u00e9 localement comme VSCode.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><a href=\"https:\/replit.com\"><em>Replit<\/em><\/a> et <em><a href=\"https:\/\/tabnine.com\">Tabnine<\/a><\/em> fonctionnent de mani\u00e8re similaire mais l&rsquo;ensemble de l&rsquo;environnement, assistant compris, se trouve dans le cloud.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">3. Mod\u00e8les audio<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Les mod\u00e8les audio offrent de nombreuses possibilit\u00e9s. OpenAI TTS et <a href=\"https:\/\/elevenlabs.io\/\">Elevenlabs<\/a> proposent de faire r\u00e9citer un texte par une voix synth\u00e9tique, tandis que Google MusicLM et OpenAI Jukebox g\u00e9n\u00e8rent de la musique synth\u00e9tique (paroles comprises) sur base d&rsquo;une id\u00e9e musicale d\u00e9crite de mani\u00e8re textuelle.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Vous pouvez acc\u00e9der <a href=\"https:\/\/google-research.github.io\/seanet\/musiclm\/examples\/\">ici<\/a> \u00e0 une s\u00e9rie de morceaux de musique g\u00e9n\u00e9r\u00e9s par MusicLM.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Mais il est aussi possible de travailler en sens inverse : c&rsquo;est la reconnaissance vocale; elle g\u00e9n\u00e8re le texte correspondant \u00e0 une voix. OpenAI Whisper offre une fonctionnalit\u00e9 de ce type, et OpenAI a int\u00e9gr\u00e9 \u00e0 la fois TTS et Whisper \u00e0 l&rsquo;application mobile ChatGPT ce qui vous permet de discuter verbalement avec votre mod\u00e8le conversationnel favori lorsque vous \u00eates en d\u00e9placement&#8230;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">De son c\u00f4t\u00e9, <a href=\"https:\/\/www.veed.io\/\">Veed.io<\/a> exploite la reconnaissance vocale pour g\u00e9n\u00e9rer automatiquement des sous-titres dans une vid\u00e9o.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">4. Mod\u00e8les d&rsquo;image<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Comme pour les mod\u00e8les audio, on retrouve deux grandes familles de services : ceux qui g\u00e9n\u00e8rent une image \u00e0 partir d&rsquo;une description textuelle, et ceux qui interpr\u00e8tent le contenu d&rsquo;une image que vous leur fournissez.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Dans la premi\u00e8re cat\u00e9gorie, on retrouve <a href=\"https:\/\/www.bing.com\/create\">Dall-E 3<\/a>, <a href=\"https:\/\/www.midjourney.com\/home\">Midjourney<\/a> et <a href=\"https:\/\/clipdrop.co\/stable-diffusion\">StableDiffusion XL<\/a>, et dans la seconde cat\u00e9gorie OpenAI GPT-4V et Google VisionAI.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ces moteurs sont en g\u00e9n\u00e9ral accessibles de mani\u00e8re transparente via l&rsquo;assistant conversationnel :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>ChatGPT<\/strong> permet de g\u00e9n\u00e9rer des images via DALL-E 3 et de les analyser via GPT4-V;<br><\/li>\n\n\n\n<li><strong>Google Bard<\/strong> peut analyser des images via VisionAI selon un m\u00e9canisme analogue;<br><\/li>\n\n\n\n<li><strong>Bing chat<\/strong> peut g\u00e9n\u00e9rer des images via DALL-E 3.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">L&rsquo; acc\u00e8s \u00e0 <em>Midjourney<\/em> est plus complexe car il faut rejoindre le serveur Midjourney sur Discord et demander la g\u00e9n\u00e9ration d&rsquo; image \u00e0 travers un des canaux de <em>chat<\/em> apr\u00e8s inscription pr\u00e9alable.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Enfin, <a href=\"https:\/\/www.wonder-ai.com\/\">Wonder<\/a> vous permet de cr\u00e9er des avatars \u00e0 partir d&rsquo; une photo et d&rsquo; une description textuelle de vos id\u00e9es.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">5. Mod\u00e8les vid\u00e9o<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Alors l\u00e0, c&rsquo;est carr\u00e9ment bluffant : vous tapez une simple description textuelle et le mod\u00e8le g\u00e9n\u00e8re une vid\u00e9o en retour. <a href=\"https:\/\/app.runwayml.com\/\">RunwayML<\/a>, <a href=\"https:\/\/fliki.ai\/\">Fliki<\/a> et <a href=\"https:\/\/www.genmo.ai\/\">Genmo<\/a> offrent cette fonctionnalit\u00e9.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Voici ce que j&rsquo;ai obtenu avec <em>RunwayML<\/em> en tapant simplement le texte : <em>Make a video showing the colosseum in Rome with a Porsche driving in front<\/em>. La vid\u00e9o accessible <a href=\"https:\/\/app.runwayml.com\/creation\/5956ba26-afed-437b-9f02-9fbfa03e46af\">ici<\/a> ne dure que quatre secondes car c&rsquo;est la limite permise par Runway pour l&rsquo; abonnement gratuit (que je vous conseille d&rsquo;essayer).<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Synthesia est semblable mais se sp\u00e9cialise dans la g\u00e9n\u00e9ration de vid\u00e9os dans lesquelles un speaker r\u00e9cite un texte que vous lui soumettez. Ici encore, voici la preuve par l&rsquo;exemple : une pr\u00e9sentation de mon blog par une interlocutrice virtuelle accessible <a href=\"https:\/\/share.synthesia.io\/fa85afd7-abd1-42ca-a9e8-4326c495d9e9\">ici<\/a>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Enfin, <a href=\"https:\/\/wonderdynamics.com\/\">Wonder Studio<\/a> vous permet d&rsquo; int\u00e9grer et d&rsquo; animer des personnages d&rsquo; animation 3D dans une s\u00e9quence vid\u00e9o existante. L&rsquo;animation peut se faire en rempla\u00e7ant un acteur r\u00e9el par le personnage d&rsquo;animation, et dans ce cas le mod\u00e8le tiendra compte de l&rsquo; \u00e9clairage de la sc\u00e8ne, des mouvements de la cam\u00e9ra et m\u00eame des mimiques faciales de l&rsquo; acteur. Regardez plut\u00f4t <a href=\"https:\/\/youtu.be\/nEHCBPGo-5M?si=HRsS0gnAygIJnDp3\">ceci<\/a> pour une pr\u00e9sentation des capacit\u00e9s de l&rsquo; application&#8230;<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Mais tant que nous y sommes, peut-on aussi cr\u00e9er un personnage d&rsquo; animation gr\u00e2ce \u00e0 l&rsquo; IA g\u00e9n\u00e9rative? La r\u00e9ponse est oui et nous allons maintenant voir comment&#8230;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">6. Mod\u00e8les 3D<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Il est en effet possible de g\u00e9n\u00e9rer un mod\u00e8le 3D \u00e0 partir d&rsquo;une description textuelle. C&rsquo;est ce que permet aujourd&rsquo;hui le mod\u00e8le <a href=\"https:\/\/lumalabs.ai\/genie\">Genie<\/a> de Luma Labs, et bient\u00f4t aussi avec <a href=\"https:\/\/stability.ai\/news\/stability-ai-enhanced-image-apis-for-business-features\">Stable3D<\/a> de StabilityAI et <a href=\"https:\/\/research.nvidia.com\/labs\/dir\/magic3d\/\">Magic3D<\/a> de Nvidia.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Comme Midjourney, Genie est accessible via Discord. Apr\u00e8s inscription, il vous suffit d&rsquo; entrer dans une des sessions de <em>chat<\/em> et de taper <em>\/genie<\/em> suivi d&rsquo;une description de l&rsquo; objet 3D que vous d\u00e9sirez. Par exemple, le texte <em>exotic otherworldly blue flamingo<\/em> a g\u00e9n\u00e9r\u00e9 le mod\u00e8le 3D que vous pouvez voir <a href=\"https:\/\/lumalabs.ai\/genie?one=2b96bfa7-5396-4d87-ab70-beac1b58302a&amp;view=one\">ici<\/a>.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Et voil\u00e0, il ne vous reste plus qu&rsquo; \u00e0 r\u00e9int\u00e9grer vos mod\u00e8les 3D dans Wonder Studio pour d\u00e9buter dans l&rsquo;animation&#8230;.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>L&rsquo;offre g\u00e9n\u00e9rative actuelle offre diverses modalit\u00e9s et services comme la conversation textuelle, l&rsquo;assistance \u00e0 la programmation, la g\u00e9n\u00e9ration et l&rsquo;analyse audio, d&rsquo;images, de vid\u00e9os et de mod\u00e8les 3D, avec des outils tels que ChatGPT, Replit, OpenAI TTS, DALL-E 3, RunwayML, etc.<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[6],"tags":[],"class_list":["post-946","post","type-post","status-publish","format-standard","hentry","category-ecosysteme","post-preview"],"_links":{"self":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/posts\/946","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/comments?post=946"}],"version-history":[{"count":0,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/posts\/946\/revisions"}],"wp:attachment":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/media?parent=946"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/categories?post=946"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/tags?post=946"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}