Page 4 of 7

Les agents intelligents

4 mars 2024 / Arnaud Stévins

Les modèles de langage sont souvent perçus comme d’ excellents générateurs de texte. Cet engouement pour les capacités littéraires des modèles ne doit cependant pas faire oublier que leur vraie promesse se situe dans leurs capacités cognitives plus abstraites comme le raisonnement et la planification.

Ces dernières sont encores imparfaites mais les progrès constants dans le domaine laissent entrevoir un nouveau domaine d’ application aux possibilités presque infinies : les agents.

Les êtres humains sont remarquables dans leur capacité à absorber constamment de nouvelles informations, prendre des décisions, exécuter des actions, puis observer l’ impact de ces actions pour prendre de nouvelles décisions. Notre vie peut se voir -de manière un peu réductrice- comme un cycle sans fin d’ observations, de raisonnements et d’ actions.

L’ idée des agents est précisément de mettre en place des cycles similaires au coeur desquels on trouve un modèle de langage à la place d’ un être humain. Cet agent interagira avec l’environnement soit de manière physique (robotique, véhicule autonome…), soit de manière informatisée (appels de fonction via interface de programmation).

1. Composants d’un agent

Au cœur de l’ agent intelligent se trouve le modèle de langage, un élément crucial qui analyse les situations et suggère des actions. Ce modèle est soutenu par une variété de modules qui facilitent sa communication avec l’extérieur.

Pour tirer pleinement parti de ses capacités, le modèle de langage doit être sollicité de manière précise, une pratique connue sous le nom de prompt engineering. À travers des consignes méticuleusement élaborées, on définit l’ identité, l’ expertise et la conduite du modèle, en y intégrant contexte, paramètres et parfois des indications sur le rôle spécifique à jouer dans des simulations multi-agents, un sujet dont nous reparlerons plus bas.

La capacité de raisonnement du modèle repose sur une connaissance approfondie du monde, structurée autour de trois piliers :

la connaissance générale, acquise lors de l’ entraînement initial sur un vaste corpus textuel, fournit une base solide;
la connaissance spécialisée, qui vient enrichir la base générale avec des notions, des méthodes de raisonnement et un vocabulaire spécifique au domaine d’ application;
la connaissance procédurale, qui équipe le modèle des savoirs nécessaires pour agir sur l’ environnement extérieur, comme connaître et comprendre les paramètres des interfaces de programmation.

Ces connaissances sont transmises au modèle via diverses techniques de mémorisation, telles que le contexte des prompts, la récupération augmentée de génération (RAG) et l’affinage. Pour en savoir plus sur ces méthodes, je vous renvoie à mon article précédent, disponible ici.

Dans la grande majorité des cas, l’ agent comprend également une interface utilisateur, permettant une interaction directe avec l’ humain pour recevoir des missions, rapporter les résultats, poser des questions ou fournir des mises à jour intermédiaires.

Enfin, les interfaces de programmation (API) constituent un élément clé, permettant au modèle d’ interagir avec le monde extérieur. Elles peuvent servir de sources d’ information ou de moyens d’ action, comme l’ accès à des moteurs de recherche en ligne ou à des plateformes de commerce électronique pour effectuer des réservations ou passer des commandes.

2. Exemples d’ application

Après avoir exploré l’architecture de l’agent, intéressons-nous à certains cas d’ application emblématiques :

Prenons d’ abord l’ exemple de l’ agent de programmation, qui illustre parfaitement l’ utilisation des capacités des modèles de langage dans le domaine informatique. Voici comment il opère : un utilisateur soumet une requête de programmation au modèle, qui génère ensuite du code. Ce code est exécuté dans un environnement dédié, et le modèle reçoit en retour le résultat de cette exécution, ou un message d’ erreur si le programme ne fonctionne pas comme prévu. Le modèle peut alors renvoyer le code généré à l’ utilisateur, ou le retravailler et le soumettre à nouveau, jusqu’à obtenir un résultat satisfaisant.

Approfondissons l’ idée pour construire un processus professionnel de développement logiciel, où divers acteurs jouent des rôles spécifiques : directeur, responsable produit, architecte technique, chef de projet, développeur, testeur… Imaginez maintenant que chaque poste est occupé par un modèle de langage spécialisé, interagissant entre eux selon un processus établi jusqu’ à la livraison finale du produit. Il suffirait de fournir une description de haut niveau au « directeur IA » et de laisser le processus se dérouler de manière autonome, aboutissant à la création d’ un produit fini.

Figure 3 : Processus de développement logiciel MetaGPT

Cette vision avant-gardiste est au cœur des systèmes multiagents. MetaGPT, comme décrit précédemment, simule un tel processus de développement logiciel, une approche pouvant être étendue à de nombreux autres scénarios dès lors qu’une structure organisationnelle et un processus existent.

Pour illustration, voici une vidéo de l’utilisation de MetaGPT pour développer automatiquement un jeu de snake :

Passons à une autre idée brillante, cette fois dans le domaine de l’ interaction avec le monde extérieur : la plupart des applications informatiques avec lesquelles nous interagissons utilisent une interface graphique qui répond à des principes relativement uniformes : barre de menus, boutons, utilisation de la souris pour cliquer sur les zones à sélectionner etc…. la technique d’interaction avec ces interfaces peut être apprise à un modèle de langage capable d’ interpréter les images (comme GPT4 ou Gemini Pro).

Le modèle pourra alors interagir de manière « généraliste » avec de nombreuses applications utilisateur moyennant quelques informations complémentaires comme le mode d’ emploi des applications. La puissance de cette approche ne doit pas être sous-estimée : des milliers d’ applications interactives deviennent ainsi directement accessibles au modèle, multipliant d’ autant sa capacité d’action.

Cette idée a donné naissance au Rabbit r1, la grande révélation du CES à Las Vegas qui s’ est tenu en janvier. Ce petit appareil révolutionnaire contient simplement un micro et un haut-parleur permettant à l’ utilisateur de donner des instructions vocales à un modèle de langage qui va directement interagir avec de nombreuses applications mobiles….

Pour plus d’informations, voici un lien vers la présentation officielle du Rabbit r1 :

3. Risques

Pouvoir agir directement dans le monde réel offre bien sûr un grand potentiel mais présente aussi des risques significatifs. Détenir une telle capacité d’action peut provoquer des dommages involontaires. Un scénario trivial verrait un agent placer une réservation ou une commande erronée par internet…

Plus préoccupant, il est possible d’ imaginer des agents volontairement construits à des fins nuisibles. Le hacking autonome illustre bien ce risque : un agent disposant d’ une large bibliothèque d’ outils de hacking pourra sonder sa cible informatique, choisir les outils les plus appropriés voire les adapter pour en maximiser l’ impact, puis engager un scénario d’ attaque complexe afin d’ atteindre les buts spécifiés par le hacker : prise de contrôle de la machine, destruction ou vol de données, déni de service etc….

Ce risque n’ est pas que théorique : des chercheurs ont montré qu’ une telle approche fonctionne et est capable de hacker efficacement des sites web.

4. Conclusion

Comme vous pouvez le voir, les agents IA présentent d’ énormes potentialités, et il y a gros à parier que 2024 verra de nouveaux développements dans ce domaine…

Mais c’ est surtout en conjonction avec les nouveaux progrès attendus comme la multimodalité que les agents pourront montrer toute leur puissance. Imaginez ce que pourrait faire un agent capable d’ interpréter à la fois le son, les images et le texte de manière consolidée…

Il ne reste qu’ à placer le modèle dans un robot et lui donner la capacité d’ agir sur les actuateurs (bras, mains, jambes) et vous possédez un robot avec des capacités tout à fait inédites. Ce n’ est pas pour rien que plusieurs géants de la tech (dont Tesla) se sont récemment lancés dans la réalisation de robots humanoïdes…

Le grand bémol à toutes ces promesses reste la tendance des modèles à halluciner. Ne pas pouvoir faire totalement confiance aux informations issues du modèle est un souci gérable dans un scénario conversationnel, un utilisateur averti en valant deux. Mais un agent IA agissant directement sur le monde extérieur sans validation humaine présente un risque bien plus grand. Cette contrainte pourrait bien voir le déploiement d’agents limités à des scénarios d’ utilisation subalternes et inoffensifs.

Comme souvent, difficile de faire des prédictions. Le tableau des agents IA est contrasté. Les promesses sont importantes mais les risques aussi.

Notes et références

What is LLM Agent? Ultimate Guide to LLM Agent [With Technical Breakdown] par Moumita Roy et Pranav Patel pour Ionio.ai : https://www.ionio.ai/blog/what-is-llm-agent-ultimate-guide-to-llm-agent-with-technical-breakdown
LLM Agents can Autonomously Hack Websites, par Daniel Kang le 13 février 2024 pour Medium : https://medium.com/@danieldkang/llm-agents-can-autonomously-hack-websites-ab33fadb3062
LLM-based Autonomous Agents – LLM Apps that perform Human-like Tasks, tweet de Bindu Reddy : https://twitter.com/bindureddy/status/1697386242936385909?s=20
Understanding AI Agents in the age of LLMs!, tweet de Akshay Pachaar : https://twitter.com/akshay_pachaar/status/1697950190756585700?s=20
LLM Powered Autonomous Agents sur le blog de Lilian Weng, le 23 juin 2023 : https://lilianweng.github.io/posts/2023-06-23-agent/

Techniques d’ exploitation des modèles de langage

20 février 2024 / Arnaud Stévins

Un des points faibles des modèles actuellement disponibles sur le marché est qu’ ils ont été entraînés sur un ensemble de données publiquement accessibles qui ne va pas nécessairement suffire pour répondre à certains besoins spécifiques.

Prenons l’ exemple d’une entreprise qui possède un volume important de données propriétaires, qui utilise un vocabulaire hautement spécialisé ou encore qui utilise des formats de données spécifiques. Ces connaissances ne seront a priori pas intégrées dans un modèle généraliste car les données ne sont pas accessibles publiquement. Comment y remédier ? C’est ce que je voudrais exposer aujourd’ hui.

Il existe plusieurs techniques pour « enrichir » les connaissances du modèle. On trouve, par ordre de complexité croissante :

le prompt engineering;
la génération augmentée de récupération (RAG en Anglais);
l’ affinage du modèle (complet ou optimisé).

Ces techniques se retrouvent au milieu de la figure ci-dessous, entre les deux extrêmes du simple dialogue et de l’ entraînement complet :

Figure 1 : Techniques d’ exploitation des modèles de langage

C’est un sujet intéressant à couvrir maintenant car il complète bien mon précédent article sur les modèles locaux. En effet, certaines techniques comme l’ affinage s’ adressent principalement aux modèles open-source dont les paramètres sont librement disponibles.

Passons maintenant les différentes techniques en revue.

1. Le Prompt Engineering

Le Prompt engineering est un sujet que j’ai déjà traité dans un précédent article accessible ici.

Il comprend deux techniques élémentaires sous-jacentes : la première consiste à fournir suffisamment d’ informations contextuelles dans l’invite. Le modèle combinera alors l’ ensemble des informations en sa possession (ceux de l’ entraînement et ceux fournis dans l’invite) pour répondre à la question posée.

La seconde technique revient à inciter le modèle à suivre un raisonnement logique structuré. Les modèles de langage ayant été entraînés pour se conformer aux instructions de l’utilisateur, il est possible de leur demander de suivre un raisonnement pas à pas ou de fournir une série d’ exemples résolus pour mettre le modèle sur la bonne voie. Sans être une panacée, ces techniques ont déjà démontré leur efficacité.

Figure 2 : Le principe du Prompt Engineering

Une méthode amusante consiste à promettre une récompense financière au modèle s’ il répond correctement. Ajoutez simplement « Si tu réponds correctement, je te donnerai dix euros » à la fin de l’invite. Croyez-le ou non, cela semble fonctionner !

Le prompt engineering peut fournir une précision suffisante dans un certain nombre d’ applications. Son principal avantage est sa simplicité de mise en oeuvre, qui ne demande pas non plus de ressources de calcul supplémentaires.

Mais cette technique se heurte à la taille limitée des fenêtres de contexte des modèles de langage. Elle ne pourra donc pas s’appliquer lorque le volume d’ informations à transmettre est trop grand ou trop complexe à décrire dans le prompt. On risque alors de voir le modèle inventer les informations manquantes pour aboutir à des réponses incorrectes voire insensées (hallucinations).

2. La Génération Augmentée de Récupération (RAG)

L’ idée vous aura peut-être effleuré l’ esprit en lisant le point précédent : pourquoi ne pas combiner la technique du prompt engineering avec un engin de recherche indexant les données complémentaires ? On obtiendrait alors une invite « enrichie » par les éléments supplémentaires les plus significatifs, de manière automatisée et transparente pour l’utilisateur…

C’est ce que promet la Génération Augmentée de Récupération (Retrieval Augmented Generation ou RAG en Anglais). Voici la manière dont cette technique fonctionne :

Les informations supplémentaires sont découpées en blocs et chacun de ces blocs est indexé en fonction de son contenu. Ces index sont en général des vecteurs dont la position dans l’ espace dépend du contenu du bloc (indexation sémantique). Vous trouverez ici une introduction sur ce sujet;
L’ ensemble des index est placé dans une base de données vectorielle qui contient également la référence des blocs de texte indexés;
Lorsqu’ un utilisateur pose une question, le texte de la question est lui aussi indexé selon le même algorithme. Une recherche dans la base de données vectorielle permettra d’ identifier les blocs sémantiquement proches de l’ invite sur base de la proximité entre les vecteurs;
Ces blocs d’ informations sémantiquement proches sont concaténés à l’ invite d’origine en tant que contexte additionnel;
L’ invite enrichie du contexte additionnel est envoyée au modèle de langage pour réponse.

Figure 3 : Le principe de la Récupération Augmentée de Génération (RAG)

Cette technique présente un certain nombre d’ avantages. Imaginez un ensemble typique d’ informations propriétaires générées par une entreprise : bases de données, documents pdf, fichiers excel, flux d’ actualités, minutes de réunion….. L’ ensemble de ces données pourra être découpé, indexé sémantiquement et introduit dans la base de données vectorielle. Et il est assez aisé de continuer à enrichir régulièrement la base de données vectorielles pour s’ assurer que les informations restent à jour.

Le second grand avantage est qu’ il n’ est pas nécessaire de modifier le modèle de langage en tant que tel. Tout dépend bien sûr de l’ efficacité du mécanisme d’ indexation sémantique, mais après 25 ans d’existence d’ engins de recherche sur Internet, ces techniques sont matures.

Qui plus est, une librairie de programmation comme Langchain contient l’ ensemble des fonctionnalités nécessaires pour orchestrer l’ interaction avec la base de données vectorielle et le modèle de langage. Cette librairie supporte notamment une centaine de formats de fichier pour nourrir la base de connaissances.

Le prix à payer est une plus grande complexité de l’ architecture informatique. Il faut intégrer et combiner plusieurs éléments d’ infrastructure. Et si une base de données vectorielle dans le cloud comme Pinecone est utilisée, il faut aussi prendre en compte les risques de confidentialité qui vont avec.

Enfin, l’ enrichichissement du contexte se faisant de manière ponctuelle et ciblée, cette technique n’est pas appropriée si vous visez à spécialiser un modèle de langage dans un domaine complexe comme la médecine ou la finance.

Dans ce cas, il vaut mieux affiner le modèle. C’est ce que nous allons voir maintenant.

3. L’ affinage des modèles

L’ affinage d’un modèle est un processus au cours duquel un modèle déjà préentraîné subit un entraînement supplémentaire sur un ensemble de données spécifique. Il permet de capitaliser sur la connaissance déjà intégrée lors de l’ entraînement initial, en renforçant la compétence du modèle dans un domaine spécifique en contrepartie d’ un investissement raisonnable en ressources informatiques.

Cette technique est importante car l’ entraînement initial d’un modèle requiert des ressources énormes, ce qui le rend hors de portée de la pluart des organisations.

Il est possible de réduire encore plus le besoin en puissance en recourant à des techniques avancées d’ affinage comme LoRA (Low-Rank Adaptation). Cette méthode introduite début 2023 réduit considérablement le nombre de paramètres à entraîner au prix d’une faible dégradation en qualité.

Figure 4 : Le principe de l’ affinage complet et optimisé

Vous devrez disposer d’un jeu de données suffisant pour l’ entraînement complémentaire. Si vous cherchez à approfondir l’ expertise du modèle dans un domaine spécifique vous pouvez commencer par utiliser tous les documents de référence sur le sujet dont vous disposez.

De plus, vous pouvez améliorer le type de réponse du modèle en ajoutant au données d’ entraînement un ensemble d’ invites (prompts) et de leurs réponses. Ce jeu de données peut avoir été généré manuellement ou via un modèle de langage « haut de gamme » comme GPT4.

Quoi qu’ il en soit, l’ affinage reste une technique plus complexe, qui requiert une expertise suffisante en IA pour constituer le jeu de données, mettre en place l’ algorithme d’ entraînement du modèle et ensuite évaluer les performances du modèle modifié. Cette approche nécessite aussi l’ accès à une puissance de calcul significative.

Un point faible de cette approche par rapport à la Génération Augmentée de Récupération est qu’ il est nettement plus difficile d’ introduire de nouvelles informations dans le modèle : il faut repasser par une phase d’ entraînement avec tous les efforts qu’ elle implique.

Une autre contrainte de cette approche est que pour pouvoir modifier un modèle, il faut disposer de ses paramètres. Et donc en pratique, seuls les modèles open-source comme Llama2 ou Mistral se prêtent à ce genre d’ exercice.

Enfin, il faut noter que des versions déjà affinées de modèles de langage open-source comme Llama sont disponibles sur Internet, pour certains domaines particuliers comme la programmation. Utiliser un tel modèle peut aussi être une solution…

4. Réflexions

L’ exploitation avancée de modèles de langage décrite ci-dessus est en progression rapide. Tant les techniques d’affinage « optimisées » que les algorithmes de recherche sémantiques et les bases de données vectorielles de la RAG font des progrès constants.

Des techniques comme le RAG ou l’ affinage sont trop lourdes pour une utilisation privée, mais constituent une solution intéressante pour des entreprises. La disponibilité de modèles open-source combinée à ces techniques offre une grande souplesse de déploiement aux organisations désireuses d’ exploiter les modèles de langage au mieux de leurs capacités.

Et la possibilité de faire fonctionner l’ ensemble « en interne » offre une réponse élégante aux soucis de confidentialité qui freinent de nombreuses organisations.

5. Notes et références

Full Fine-Tuning, PEFT, Prompt Engineering and RAG : Which One is Right for You ?, par Najeeb Nawani pour Deci.ai, le 20 septembre 2023 : https://deci.ai/blog/fine-tuning-peft-prompt-engineering-and-rag-which-one-is-right-for-you/
Qu’est-ce que la génération augmentée de récupération (RAG, retrieval-augmented generation) ?, par alan Zichik pour Oracle, le 19 septembre 2023 : https://www.oracle.com/fr/artificial-intelligence/generative-ai/retrieval-augmented-generation-rag/
LLM Explained : The LLM Training Landscape, par Crystal Liu sur Medium, le 7 août 2023 : https://liu-gendary.medium.com/llm-explained-the-llm-training-landscape-82c803495caa
Making LLMs Work For Your Use-Case – Fine-Tuning vs. RAG vs. Long Context Length vs. Prompting, tweet de Bindu Reddy : https://twitter.com/bindureddy/status/1712257709918318898
The Art of Fine-Tuning Large Language Models, tweet de Bindu Reddy : https://twitter.com/bindureddy/status/1699275289493430699
Vector Embeddings for Developers: The Basics, par Roie Schwaber-Cohen sur le site de Pinecone.io, le 30 juin 2023 : https://www.pinecone.io/learn/vector-embeddings-for-developers/

Les modèles génératifs locaux

5 février 2024 / Arnaud Stévins

Introduction

Si 2023 a été dominée par les modèles mis à disposition dans le cloud comme chatGPT ou Claude, cette approche pourrait fort bien évoluer cette année. Ceci est dû aux progrès rapides des modèles open-source, qui réduisent progressivement l’ écart avec les modèles propriétaires. Ces modèles open-source rendent possible l’ exécution locale de modèles, ce qui offre de nouvelles perspectives que je vais exposer dans cet article.

J’ ai déjà publié une analyse générale des avantages et inconvénients des modèles open-source ici, ainsi qu’une présentation de la start-up française Mistral (ici). Cet article présente les choses d’ un point de vue plus pratique : quels sont les élements à prendre en compte lors du choix et de l’ installation d’ un modèle local, et comment l’ exploiter ensuite.

1. Identifier et choisir un modèle local

La première question est de déterminer les cas d’ utilisation de modèles génératifs qui sont pertinents pour vous. Vous pourrez alors vous orienter vers un modèle répondant à vos besoins. Pour cela, vous pourrez vous baser sur différents indicateurs de performance qui sont publiés régulièrement pour tous les modèles disponibles.

Vous trouverez ici un tableau de bord reprenant une série représentative d’indicateurs de performance. Ce tableau de bord est remis à jour très régulièrement. Etudions-le un peu plus en détail.

Figure 1 : Le LMSYS Chatbot Arena sur Huggingface

Voyons tout d’ abord comment interpréter les différents indicateurs de performance mentionnés:

Arena Elo : Il s’ agit d’ un système de classement comparable aux points Elo utilisé par les joueurs d’ échecs. Un être humain pose une question et la réponse de deux modèles choisis au hasard lui est présentée en retour. L’ humain choisit la meilleure réponse (le gagnant), et les points Elo des deux modèles sont mis à jour en conséquence. Le système compte à ce jour plus de 200.000 affrontements entre modèles…
MT-bench : Ce test est basé sur une série de 80 dialogues standardisés couvrant huit domaines (10 questions par domaine) : rédaction, incarnation de rôle, extraction d’ information, raisonnement, mathématiques, programmation, sciences naturelles et sciences humaines. Chaque dialogue consiste en plusieurs questions successives sur le même sujet. Une fois le dialogue terminé, GPT4 évalue la qualité de la réponse et lui attribue un score.
MMLU : Cet indicateur utilise un grand nombre de questions à choix multiples choisies parmi 57 catégories couvrant l’ essentiel du savoir humain. L’ avantage d’ un QCM est que l’ évaluation de la réponse est immédiate et sans ambiguité.

Et si la programmation est votre cas d’ utilisation principal, il existe un indicateur spécialisé HumanEval qui évalue l’ aptitude à la programmation à travers 164 tests. Vous pouvez accéder à un tableau de bord pour HumanEval ici :

Figure 2 : Un tableau de bord HumanEval (credit : KLU.ai)

En règle générale, au plus le modèle compte de paramètres, au plus les réponses du modèle seront riches et précises, mais au plus de ressources son exploitation nécessitera. Beaucoup de modèles étant disponibles en plusieurs tailles, c’est un paramètre sur lequel vous pouvez jouer dans une seconde étape si vous vous rendez compte que le modèle est trop imprécis ou trop gourmand en ressources. Il faudra tenir compte de certaines contraintes: la mémoire de votre machine limitera la taille des modèles qui pourront fonctionner dessus, alors que la performance dépendra surtout du ou des processeurs disponibles (CPU ou GPU).

Autre point : certains modèles ont été affinés pour exceller dans un domaine particulier (la création artistique, la programmation, le domaine médical…). Si vous pouvez mettre la main sur un modèle affiné dans le domaine qui vous intéresse, utilisez-le en priorité car il a toutes les changes de présenter une meilleure efficacité relative qu’ un modèle généraliste de même taille. Par exemple, si c’ est la programmation qui vous intéresse, orientez-vers WizardCoder, Magicoder ou CodeLlama…

Vous pouvez aussi affiner vous-même un modèle open-source généraliste pour le faire approcher au plus près de votre cas d’ utilisation. C’est une approche plus complexe, dont je parlerai dans un article futur.

Enfin, pensez toujours à vérifier les conditions de licence pour voir si cette dernière est compatible avec l’ utilisation que vous envisagez. Les modèles de langage sont souvent publiés sous des licences open-source modifiées contenant certaines restrictions d’ utilisation…

2. Installer un programme d’ exploitation et télécharger le modèle

L’ heure est maintenant venue d’ installer un moteur d’ exploitation sur votre ordinateur. En voici trois, tous gratuits :

Vous trouverez quelques bonnes vidéos explicatives des mécanismes d’ installation et d’ utilisation de ces programmes dans la partie « Références » ci-dessous. Ces programmes contiennent une fonctionnalité intégrée de recherche et d’ installation des modèles. Le téléchargement manuel du modèle depuis un site comme HuggingFace n’ est donc en général pas nécessaire.

Prenons l’ exemple de Ollama qui est extrêmement facile à utiliser. Une fois l’ application installée sur votre machine, vous pouvez aller voir la liste des modèles disponibles ici :

Figure 3 : Liste des modèles Ollama disponibles)

Il suffit ensuite de demander le lancement d’ un modèle via la commande ollama run *model*. Ollama téléchargera d’ abord le modèle si ce dernier n’ est pas déjà présent localement, puis ouvrira une session de dialogue interactif. Tapez /bye pour arrêter la session interactive.

Quelques autres commandes :

Ollama list : fournit la liste des modèles disponibles localement.
Ollama pull *model* : installe un modèle sans lancer l’ exécution.
Ollama rm *model* : supprime le modèle local.

Difficile de faire plus simple…

3. Exploiter un modèle local

Premier cas d’ utilisation, le plus évident : la conversation avec le modèle. Les applications décrites au point précédent offrent cette fonctionnalité sans besoin d’ installations supplémentaires.

Le second cas d’ utilisation que je voudrais présenter est l’ assistant de programmation intégré dans un environnement de développement (IDE). Je vais prendre comme example un des environnements les plus répandus: Microsoft VSCode.

Il existe des extensions pour VSCode comme Continue et Cody qui fournissent une fonction d’ assistance en interagissant avec un modèle de langage. Pour interagir avec un modèle cloud, il faudra configurer le modèle désiré et la clé d’accès. Pour un modèle local, il suffit de spécifier l’ application (Ollama ou autre) et le modèle à utiliser. C’est tout.

Par exemple, voici Continue utilisant le modèle Mistral7B via Ollama sur mon iMac :

Figure 4 : Intégration de VSCode et Mistral7B via l’ extension Continue

Enfin, troisième cas d’utilisation, l’ accès direct aux modèles locaux via un programme informatique. Ici aussi, c’ est facile : la présence d’ interfaces de programmation sur les applications les rend facilement intégrables dans des processus informatisés internes. Par exemple, Ollama offre un point d’entrée REST accessible sur le port 11434 dont la documentation est accessible ici. Et depuis peu, une librairie ollama-python est disponible ce qui simplifie encore plus les choses.

4. Réflexions

Avec les applications actuelles, l’ utilisation de modèles locaux est devenue très aisée. Les progrès rapides des modèles open-source en font une option très intéressante qui résout un certain nombre de désavantages des modèles propriétaires dans le cloud. Ces modèles n’ atteignent pas encore les performances des meilleurs modèles propriétaires comme GPT-4, mais la disponibilité prochaine de Llama 3 et les progrès rapides de Mistral permettent d’ être optimistes.

Si les modèles locaux sont opérationnels dès aujourd’hui, 2024 devrait voir l’ émergence de modèles fonctionnant sur smartphone. Internet bruisse de rumeurs selon lesquelles Apple se préparerait à lancer une nouvelle version de Siri basée sur un modèle génératif pouvant piloter certaines applications du téléphone. Samsung, de son côté a développé un modèle de langage appelé Gauss destiné à être intégré sur ses téléphones dans un avenir proche…

5. Notes et références

What are quantized LLMs ?, par Miguel Carrera Neves le 16 décembre 2023 sur TensorOps : https://www.tensorops.ai/post/what-are-quantized-llms
Tutoriel Youtube Ollama : https://youtu.be/MGr1V4LyGFA?si=LE9wmBeVcO0euk3N
Tutoriel Youtube LMStudio Youtube par Matthew Berman : https://youtu.be/yBI1nPep72Q?si=x85RpRA9m3ckc8GY
Tutoriel Youtube text-generate-webui par Matthew Berman : https://youtu.be/VPW6mVTTtTc?si=TgkUXx8hX1629fab
Utilisation de Continue comme assistant VSCode par World Of AI: https://youtu.be/dtfuFeXJ_p8?si=sZftOKiH82s7WZ2G
Samsung announces ChatGPT rival coming soon to its devices, par Cecily Mauran sur MAshable le 8 novembre 2023 : https://mashable.com/article/samsung-announcement-chatgpt-rival-coming-soon-devices
Apple unveils Ferret : an open-source Generative AI model that bridges Vision and Language, par Aayush Mittal le 29 décembre 2023 pour Techopedia : https://www.techopedia.com/apple-unveils-ferret-an-open-source-genai-for-vision-language-tasks

IA générative et droits d’auteur : litiges en cours et perpectives

24 janvier 2024 / Arnaud Stévins

Dans mon article précédent, j’ ai exposé de manière générale les zones de friction entre l’ IA générative et les droits d’ auteur. Je voudrais maintenant compléter la discussion en présentant les deux principaux litiges en cours et discuter de perspectives plausibles d’évolution.

Ces deux litiges sont l’ action intentée par Getty Images contre Stability AI et celle intentée par le New York Times contre OpenAI et Microsoft. Le premier concerne les images et le second le texte.

Passons-les succinctement en revenue sans trop entrer dans le détail juridique (pour lequel je vous réfère aux threads en référence rédigés par des juristes spécialisés dans le domaine).

1. Le litige opposant Getty Images à Stability AI

Il s’ agit d’ un litige en cours depuis février 2023 à la fois aux Etats-Unis et au Royaume-Uni. Il oppose la bibliothèque d’ images en ligne Getty Images à Stability AI, développeur du générateur d’ images Stable Diffusion accessible ici. La justice britannique a décidé début décembre que la plainte de Getty Images était recevable et que le procès pouvait débuter.

Getty Image allège que Stability AI a copié sans permission plus de 12 millions d’ images lui appartenant pour l’ entraînement de ses modèles, dans le but de construire une offre concurrente, réclame 150.000 dollars d’ indemnité par image contrefaite générée….et que, cerise sur le gâteau, les images de Stability reprennent parfois en tout ou partie les filigranes de Getty Images comme dans l’ image de synthèse ci-dessous :

Figure 1 : Image de synthèse de Stability AI reprenant un filigrane de Getty Images (crédit : The Verge)

La position de Stability à ces allégations n’ est pas connue publiquement. Il est donc difficile de fournir une analyse équilibrée présentant les deux points de vue.

Un élément important du litige est le territoire sur lequel s’ est déroulé l’ entraînement et le développement du modèle, qui va déterminer la juridiction compétente (Royaume-Uni ou Etats-Unis). Mais sur quelle base se fera cette détermination ? le lieu de travail des spécialistes AI en charge de ces activités ? la localisation physique du serveur hébergeant les données ? Celui du calculateur réalisant l’ entraînement ? Ce n’est pas simple.

Comme pour enfoncer le clou, Getty Images a lancé en septembre son propre service d’ IA générative appelé « Generative AI by Getty Images », entraîné exclusivement sur sa propre bibliothèque d’images…

2. Le litige opposant le New York Times à OpenAI et Microsoft

Le journal américain The New York Times a intenté fin décembre un procès aux USA contre OpenAI et Microsoft. Il estime en effet qu’ il est floué par ces deux entreprises, qui ont abondamment utilisé ses textes pour entraîner les modèles à la base de chatGPT.

Si OpenAI a entraîné le modèle, Microsoft est présenté comme le complice qui a mis à disposition son infrastructure pour rendre l’ entraînement possible, et fournit de surcroît une version de GPT4 sous sa propre enseigne (Bing Chat) qui présenterait les mêmes infractions.

La citation inclut une centaine de textes d’ articles qui ont pu être restitués dans leur quasi-intégralité après un prompt qui reprend les premiers mots de l’article, comme dans l’ exemple ci-dessous (le texte en rouge est identique).

Figure 2 : Exemple de restitution « par coeur » d’un article du New York Times

La plainte fait aussi état de la forte représentation de textes issues du New York Times dans la base de données *Common Crawl*, qui a été utilisée pour entraîner GPT4 : le site du New York Times se retrouve en effet en quatrième position…

Figure 3 : Répartition des principales sources de données du Common Crawl

Selon le journal, la qualité de son contenu se retourne également contre lui car il pousse les développeurs de modèles génératifs à pondérer fortement le texte dont il est la source dans les données d’ entraînement.

Le journal insiste sur le coût financier et humain d’ un journalisme de qualité qui couvre les cinq continents et demande parfois de travailler dans des conditions difficiles, voire dangereuses. La citation du NY Times contraste le rôle sociétal essentiel du journalisme avec la motivation lucrative d’ OpenAI et de Microsoft, la valorisation boursière de cette dernière société ayant augmenté d’ un trillion (!) de dollars au cours de la seule année 2023.

Le journal déclare avoir cherché un accord financier amiable avec OpenAI pour leur permettre d’ exploiter leurs articles mais ces négociations ont échoué. En conséquence de quoi, le New York Times réclame -en plus des dommages- ni plus ni moins que la destruction de tous les modèles de langage qui ont été entraînés sur ses données sans autorisation (à commencer par les GPT d’OpenAI) !

La position d’OpenAI, que vous pourrez lire dans leur communiqué de presse en référence est la suivante :

L’entraînement de modèles génératifs peut exploiter des données soumises au droit d’auteur car cela relève du *fair use* (voir mon article précédent qui présente cette notion). De plus, OpenAI propose un mécanisme permettant aux auteurs qui ne désirent pas voir leur contenu utilisé pour l’entraînement de signaler leur refus (approche de type OPT-OUT);
La « régurgitation » (c’est leur terme) de contenus existants mot pour mot est un problème rare qu’ils essaient d’ éliminer. En effet, les programmes d’IA générative ne mémorisent en principe pas l’information mais la transforment de la même manière qu’ un être humain qui se forme à travers la lecture de textes pour générer ensuite des créations originales;
En outre, ces « régurgitations » proviennent principalement d’ articles anciens qui se sont trouvés recopiés sur de multiples sites au fil du temps ce qui a pu déséquilibrer l’ algorithme en leur faveur, la répétition leur accordant une pondération trop importante pouvant mener à la mémorisation « verbatim » et à la régurgitation;
Les négociations avec le NY Times pour l’ obtention d’ un accord de license avançaient de manière constructive jusqu’ au moment du lancement de l’ action en justice qui les a profondément surpris. L’ implication étant ici que le New York Times cherche par cette action judiciaire à faire pression sur OpenAI pour obtenir un accord plus favorable.

Voilà ce qu’ il en est. La plupart des commentateurs avisés pensent que ceci se terminera par une transaction amiable, ce qui est compatible avec les positions maximalistes des deux parties exprimées en public (interdiction d’un côté, « fair use » de l’autre), qui cherchent surtout à faire pression sur l’ adversaire.

Si vous voulez vous plonger dans une analyse juridique de ce litige, je vous suggère de lire les threads X de Jason Kint et Cecilia Ziniti, des spécialistes du domaine, repris en référence.

3. Quelques réflexions

Pour terminer, je voudrais mentionner deux scénarios possibles d’évolution à moyen terme sur ce sujet :

Un scénario « progressiste » verrait les auteurs publiant en ligne -mais désireux de protéger leurs droits- contraints d’ ajouter une référence d’ identification dans un format facilement lisible par une machine (métadonnées). Ceci serait contrebalancé par une double contrainte pour les développeurs de modèles génératifs IA :

devoir publier la liste de tous les auteurs et leurs textes/images repris dans les données d’entraînement;
permettre aux auteurs qui le désirent d’obtenir la suppression de leurs textes/images des données d’entraînement du modèle.

Cette approche est pragmatique : elle respecter les intérêts de chacun moyennant des efforts raisonnables de part et d’autre.

A l’ inverse, un scénario « conservateur » verrait un repli des détenteurs de droits sur leurs données propres et le développement de modèles génératifs fermés comme l’ a fait Getty Images. Seules les documents tombés dans le domaine public (et potentiellement ceux générés de manière synthétique) resteraient disponibles pour l’ entraînement sans contrainte…

4. Sources et références

Photo giant Getty took a leading AI image-maker to court. Now it’s also embracing the technology, par Matt O’ Brien, Associated Press le 25 septembre 2023 : https://apnews.com/article/getty-images-artificial-intelligence-ai-image-generator-stable-diffusion-a98eeaaeb2bf13c5e8874ceb6a8ce196
Thread X de Jason Kint sur le procès NYT/OpenAI : https://x.com/jason_kint/status/1740141400443035785?s=20
Thread X Cecilia Ziniti sur le procès NYT/OpenAI : https://x.com/CeciliaZin/status/1740109462319644905?s=20
Thread X de Kevin A. Bryan sur le procès NYT/OpenAI : https://x.com/Afinetheorem/status/1740094257900532201?s=20
Thread X de Matthew Berman sur le procès NYT/OpenAI: https://x.com/MatthewBerman/status/1740166943309722078?s=20
The desperate race to save generative AI, article de Gary Marcus, le 8 janvier 2024 : https://garymarcus.substack.com/p/the-desperate-race-to-save-generative
Communiqué de presse OpenAI concernant le litige avec le NYTimes : https://openai.com/blog/openai-and-journalism
UK re-considers proposed exception for text and data mining, article de Robert Dickens (Allen & Overy) du 2 mars 2023. https://www.allenovery.com/en-gb/global/blogs/data-hub/uk-re-considers-proposed-exception-for-text-and-data-mining

Droits d’auteur et IA générative

16 janvier 2024 / Arnaud Stévins

Pour commencer l’année 2024, je voudrais vous parler de la situation actuelle des droits d’auteurs pour les modèles génératifs.

C’ est un sujet d’une actualité brûlante puisque deux litiges à ce sujet sont actuellement devant les tribunaux anglo-saxons : un premier litige oppose en Grande-Bretagne la bibliothèque d’ images Getty Images à Stability AI, une société qui fournit un modèle générateur d’ images. La seconde action en justice est intentée aux Etats-Unis par le New York Times contre OpenAI et Microsoft.

Dans cet article, je vais exposer la situation de manière générale. Je couvrirai plus précisément le litige entre le New York Times et OpenAI / Microsoft dans le prochain article, et je tenterai aussi de mentionner quelques pistes d’ évolution possibles.

Comme nous allons le voir, l’ impact potentiel pour le secteur de l’ IA générative et de ses utilisateurs est grand. Je voudrais vous encourager à parcourir le texte qui suit. Il peut sembler aride et pointilleux au premier abord mais l’ enjeu en vaut la chandelle.

Disclaimer : je ne suis pas juriste et donc ce qui suit n’a pas valeur d’avis juridique.

Cette réserve étant émise, allons-y…

1. Quelques notions de droits d’auteur

Le droit d’auteur confère à l’auteur d’une activité créatrice un monopole sur les revenus résultant de l’exploitation économique de l’oeuvre. En pratique, ces revenus découlent de la réalisation de reproductions de l’oeuvre et de sa communication au public, qui ne peuvent pas être réalisées sans l’ autorisation préalable de l’auteur (en général contre rétribution). Le droit d’auteur confère aussi à l’auteur des droits moraux sur l’oeuvre, comme sa paternité, mais ceci sort du cadre de cette discussion.

Ce droit d’ exploitation est limité dans le temps, à savoir 70 ans après la mort de l’ auteur pour la Belgique; l’ oeuvre passe ensuite dans le domaine public, ce qui signifie qu’ elle peut alors être exploitée économiquement sans contrainte.

Le terme d’ activité créatrice est assez large et reprend non seulement les créations artistiques littéraires, photographiques, musicales, sonores, audiovisuelles, mais aussi les logiciels informatiques et les créations d’ art appliqué (vêtements, meubles, plans d’architecte, objets, graphismes, bijoux…).

Par contre, un texte législatif ou administratif, une image satellite ou une peinture réalisée par un singe ne sont pas considérés comme des créations de l’ esprit humain. Une invention technique n’ est pas non plus protégable par le droit d’ auteur mais peut être protégée par brevet.

Enfin, certaines dérogations au droit d’auteur sont acceptées parce qu’ elles ne portent pas atteinte à l’ exploitation normale de l’oeuvre tout en servant l’ intérêt général. Par exemple, la présentation d’ extraits d’ oeuvres à des fins éducatives dans l’ enseignement ou d’ information par les médias sont autorisés, tout comme les utilisations à des fins de recherche académique.

Regroupées sons le vocable anglo-saxon de fair use ces exceptions sont importantes car elles interviendront dans la discussion relative à l’IA. Entraîner un modèle génératif sur des données soumises au droit d’auteur relève-til du fair use ? C’est une question complexe, au coeur du litige entre OpenAI et le New York Times.

Ceci étant dit, voyons maintenant les points de frictions entre modèles génératifs et droits d’ auteur. Il y a deux problèmes principaux, le problème de l’ entraînement (amont) et celui de la génération (aval), ainsi qu’un troisième problème connexe, celui de la création artificielle. Passons-les successivement en revue.

2. Le problème amont : l’ entraînement des modèles

Le problème de l’ entraînement est simple à comprendre : les modèles génératifs ont besoin d’ un volume de données digitales prodigieux pour leur entraînement. Ces données sont issues de copies de l’ ensemble d’ Internet réalisées au fil du temps par des programmes qui ont siphonné toutes les données publiquement accessibles qu’ ils pouvaient trouver : réseaux sociaux, engins de recherche, librairies digitales, journaux, banques de données statistiques, blogs, encyclopédies etc….

Ces données sont consolidées dans d’ immenses agrégats dont le plus connu est le Common Crawl, accessible ici.

Cependant, « publiquement accessible » sur Internet ne signifie aucunement que l’ auteur confère un quelconque droit à l’ utilisateur au-delà de la simple consultation en ligne. Et donc pas d’ autorisation implicite d’ entraîner un modèle IA…

Pour aggraver les choses, ce problème est quasi-universel. A l’ exception d’ une petite minorité de textes relevant du domaine public et des quelques textes générés par IA dont le statut est actuellement flou, pratiquement tout le reste tombe automatiquement sous le régime des droits d’ auteur.

Si le problème est simple à comprendre, force est de constater que sa résolution est dantesque : l’ ensemble d’ Internet cela veut dire des millions, voire des dizaines de millions d’ auteurs concernés, des textes dont la paternité est souvent difficile à attribuer, pour lesquels il faudrait obtenir l’ accord préalable du détenteur des droits…

C’ est pourquoi les grands acteurs du secteur (OpenAI et autres) ont cherché à court-circuiter le problème en déclarant que l’ entraînement des modèles relève du fair use et ne nécessite donc pas l’ accord préalable des détenteurs de droits.

L’ argument principal des géants de l’ IA est que les algorithmes de génération ingurgitent tellement de données d’ auteurs différents et les transforment à tel point que les droit individuels des auteurs ne sont pas impactés. Ils invoquent aussi le fait qu’ au plus l’ accès aux données est large, aux meilleurs les modèles seront, et que leur interdire cet accès correspond à un arrêt de mort pour une industrie symbolique du progrès et qui pourra apporter énormément à la société dans le futur.

Les auteurs rétorquent que les algorithmes exploitent abusivement leurs créations dans un but lucratif et susceptible de porter atteinte à leurs droits d’ exploitation. Ils mettent en avant des exemples de réalisations IA très proches voire identiques de leurs propres oeuvres…

Mon intuition de profane est que les arguments techniques du secteur IA sont valides (caractère transformatif et volume des données d’entraînement), mais l’argument de l’utilité publique est spécieux et sert de paravent aux buts lucratifs des acteurs de l’ IA générative…

La question des droits sur les données d’entraînement est cruciale pour l’ ensemble de l’ industrie de l’ IA, largement basée sur des algorithmes d’apprentissage machine gourmands en données de tout type, même si l’ IA générative (principalement images et texte) cristallise le problème vu la concurrence potentielle avec les auteurs.

Cependant, même si les développeurs obtiennent d’ une manière ou d’ une autre la permission d’ utiliser les données couvertes par droit d’ auteur pour l’ entraînement des modèles, cela ne signifie pas nécessairement que les utilisateurs sont libres de produire et diffuser leurs générations comme ils l’ entendent….ce qui nous amène au problème aval.

3. Le problème aval : la génération

Le problème de la génération est le suivant : si un utilisateur utilise un programme IA pour produire une image (ou un texte) qui est substantiellement similaire à une oeuvre protégée, qui est le responsable de la contrefaçon (plagiat) potentielle ?

Est-ce la société qui a produit l’ outil IA ? L’ utilisateur qui a guidé l’ outil dans la génération ? Celui qui a diffusé l’ image ? La plateforme qui a servi à la diffusion de l’ image ?

Il est utile de savoir que les sociétés qui mettent les modèles à disposition ont tendance à repousser cette responsabilité sur l’ utilisateur dans leurs condition d’ utilisation: leur position est que l’utilisateur pilote l’ outil via le prompt et est responsable de ce qu’ il génère et de l’ utilisation qu’ il en fait ensuite.

Et le risque est réel. Il arrive aux modèles d’image et de langage de reproduire des images ou des textes similaires à ce qui se trouvait dans leur données d’ entraînement.

Complication majeure, ceci est possible non seulement si l’ utilisateur le demande mais également sans que l’utilisateur en ait fait la demande explicite .Il est par exemple possible de recréer des images de personnages ou véhicules de Star Wars sans que ces termes apparaissent dans le prompt. Il en va de même pour les textes générés par le New York Times dans le litige qui l’ oppose à OpenAI : le journal a réussi à reproduire des copies presque exactes de certains de ses articles sans que le nom du journal apparaisse dans le prompt.

En tout état de cause, cela affaiblit la position de Ponce Pilate des développeurs de modèles : difficile de rejeter la responsabilité sur l’ utilisateur du modèle si le modèle crée des contrefaçons à l’ insu de ce dernier…la question des responsabilités respectives ne sera pas facile à trancher.

Si vous désirez comprendre cette question plus en détail, je vous réfère à l’excellent article de Gary Marcus et Reid Soutern publié il y a quelques jours dans IEEE Spectrum, et accessible ici.

Quoi qu’il en soit, le problème de la génération est tributaire de la résolution du problème de l’ entraînement. La meilleure issue serait que les développeurs de modèle trouvent un accord (pécunier) avec les auteurs qui permettrait à la fois l’entraînement ET la génération sans contrainte, faisant d’une pierre deux coups.

Par contre, si la résolution de la question de l’ entraînement se fait au détriment des auteurs – par exemple, si la justice tranche en faveur du fair use -, le risque est grand que ces derniers se retournent contre les images générées par les utilisateurs pour faire valoir leurs droits, déplaçant le coeur du litige de l’entraînement vers la génération.

4. La création artificielle

Comme on l’a vu plus haut, le droit d’auteur actuel implique la création par un être humain. Mais pour la première fois, une activité créative non humaine devient possible. La génération par l’ IA introduit donc une autre question juridique : oublions un instant les droits des auteurs existants et imaginons une création artificielle tout à fait originale. Cette oeuvre mérite-t’ elle à son tour une protection relevant d’une forme de droit d’ auteur ?

Et si une future législation devait attribuer un droit d’auteur, à qui reviendrait-il ? le propriétaire du modèle ou l’utilisateur, voire peut-être un jour à l’ IA elle-même ?

Enfin, il faudra peut-être distinguer la création artificielle entièrement autonome de celle où l’ humain continue à jouer un rôle de pilote, par exemple via un prompt, assisté par une IA réduite à un rôle d’ outil génératif…

La question de la création artificielle est importante sur le principe, mais sa résolution est moins urgente que les deux autres. Il est donc probable que cette question reste ouverte pendant quelque temps.

5. Réflexions

Le droit d’auteur est très ancien. Au cours de son histoire, il s’est régulièrement retrouvé en conflit avec le progrès technologique. Imaginez la réaction des peintres du XIX siècle confrontés aux premières photographies ou celle des auteurs de romans face aux premières photocopieuses dans les années 1970, sans parler des cassettes audio et des magnétoscopes VHS dans les années 1980…le droit d’auteur a évolué au fil du temps sans toutefois cesser de jouer son rôle protecteur pour les créateurs. L’avènement des modèles génératifs n’est que la dernière péripétie de cette co-évolution.

Un dénouement radical -quoique improbable- serait l’interdiction pure et simple des modèles génératifs. Un scénario analogue a eu lieu en 2001 avec l’interdiction de Napster suite à une procédure initiée par le groupe Metallica. Napster permettait aux utilisateurs de télécharger des morceaux de musique gratuitement indépendamment des droits d’auteur applicables, une transgression certes plus directe que celle reprochée aux modèles génératifs! Néanmoins, elle rappelle que la technologie n’ a pas toujours gain de cause dans sa remise en cause des droits d’auteur.

Il est aussi intéressant de noter que l’ European AI Act ne traite des droits d’auteurs que de manière indirecte, en demandant aux développeurs de modèles génératifs de spécifier quelle oeuvres soumises aux droits d’ auteur ont été utilisées pour l’ entraînement du modèle. Ce n’ est pas illogique car les droits d’ auteur sont soumis à un ensemble de directives européennes séparées et les clarifications essentielles apparaîtront probablement lors d’ une future itération de ces dernières.

Il est d’ ailleurs fort possible que différentes juridictions adoptent des approches différentes. Rien ne permet d’affirmer que que les Etats-Unis et l’ Europe suivront la même logique, d’autant que le risque de capture réglementaire n’est pas exclu au vu des moyens financiers des acteurs privés en présence. Le Japon a déjà pris une initiative dans le domaine, autorisant l’ entraînement de modèles génératifs sur des données sujettes aux droits d’ auteur (moyennant certaines limitations).

Et enfin, une ultime complication : quid des modèles génératifs open-source ? Est-il possible d’ organiser une éventuelle rétribution des auteurs en l’absence de flux financiers des utilisateurs vers les développeurs de modèle ? Ces modèles devront-ils se contenter de données du domaine public, voire synthétiques pour leur entraînement ? Ou bien vont-ils disparaître ? Comme vous le voyez, il y a matière à réfléchir, et les questions sont à la fois d’ ordre technique, juridique et financier.

6. Sources et références

Generative AI and Intellectual Property, Benedict Evans le 27 août 2023 : https://www.ben-evans.com/benedictevans/2023/8/27/generative-ai-ad-intellectual-property
A battle royal is brewing over copyright and AI, The Economist le 15 mars 2023: https://www.economist.com/business/2023/03/15/a-battle-royal-is-brewing-over-copyright-and-ai
Droit d’auteur et intelligence artificielle, blog de Me Frédéric Lejeune, 9 juin 2023 : https://www.fredericlejeune.be/droit-dauteur-et-intelligence-artificielle/
Training Data Free-for-all : Japan’s AI data laws, explained; The Batch, 14 juin 2023 : https://www.deeplearning.ai/the-batch/japan-ai-data-laws-explained/
Generative AI has a Visual Plagiarism Problem, Gary Marcus & Reed Soutern, le 6 janvier 2024 dans IEEE Spectrum : https://spectrum.ieee.org/midjourney-copyright
Tweet de Yann Le Cun sur les aspects juridiques de la génération d’ image, le 28 décembre 2023 : https://x.com/ylecun/status/1740493020565279006?s=20
Generative AI Copyright concerns & 3 Best Practices in 2024, par Cem Dilmegani le 2 janvier 2024 : https://research.aimultiple.com/generative-ai-copyright/
Generative AI and US copyright law are on a collision course, par Jon Gold le 22 septembre 2023 : https://www.computerworld.com/article/3707348/generative-ai-and-us-copyright-law-are-on-a-collision-course.html

Mistral : la start-up française qui fait du bruit

25 décembre 2023 / Arnaud Stévins

Voici quelques semaines que la start-up française Mistral fait beaucoup parler d’ elle dans le monde de l’ IA générative.

Fondée en mai 2023 par trois ingénieurs venant de Google Deepmind, Mistral a déjà levé 385 millions d’ euros de capitaux en six mois et est actuellement valorisée à environ 2 milliards d’ euros!

Cette croissace effrénée positionne d’ ores et déjà Mistral comme un des acteurs majeurs du secteur et un concurrent sérieux d’ OpenAI.

Mistral continue à développer ses modèles et capacités, et pourrait bien jouer un rôle-clé dans le futur développement de l’ IA européenne. L’ approche open-source de l’ entreprise et son engagement éthique s’ alignent avec les préférences de nombreuses entreprises européennes.

Le succès de Mistral est supporté par l’ existence d’ un écosystème IA français qui ne cesse de se renforcer. La French Tech bénéficie en effet d’un climat favorable : Xavier Niel a annoncé en septembre des investissements stratégiques dans l’ IA estimés à environ 200 millions d’euros. Ces investissements sont pour partie destinés à acheter des coprocesseurs graphiques (GPU) chez Nvidia afin de doter la société de services cloud Scaleway de la puissance de calcul nécessaire à l’ IA et la mettre à la disposition des start-ups européennes.

Mais l’ argent et la puissance de calcul ne sont pas tout, il faut également une concentration de talents. En novembre, la création de Kyutai a été annoncée, un nouveau laboratoire de recherche IA basé à Paris et bénéficiant de 300 millions d’ euros d’ investissement, à la tête duquel se trouvent des pointures de l’ IA venant de Google et Meta. De fait, les laboratoires de recherche de Google Deepmind et de Meta, présents dans la région, constituent un réservoir de talents qui va pouvoir irriguer les nouvelles entreprises.

De son côté, Station F, un des plus grands incubateurs de start-ups technologiques au monde, se trouve également à Paris, accompagne les premiers pas des jeunes pousses et joue un rôle fédérateur, à travers notamment des événements comme AI-Pulse.

Tout ceci signifie que la France commence à sérieusement concurrencer la Grande-Bretagne, jusqu’ ici acteur dominant de l’ IA européenne.

Il faut mentionner ce développement positif : on entend souvent parler de start-ups européennes qui partent se développer aux USA lorsque leurs besoins en capitaux augmentent, mais l’ inverse commence aussi à se produire : la société américaine Poolside AI a décidé de déménager à Paris, attirée notamment par des coûts salariaux moins exorbitants qu’ aux Etats-Unis…

Modèles Mistral disponibles

Voyons maintenant un peu plus en détail les modèles publiés par Mistral. Il y en a trois, appelés Mistral-7B, Mixtral-8x7B et Mistral-Medium, par ordre de puissance croissante.

Mistral-7B ne converse qu’ en Anglais et comporte 7 milliards de paramètres, ce qui le rend exécutable localement sur la plupart des ordinateurs actuels. Ce modèle est disponible librement en open-source.
Mixtral-8x7B comprend l’Anglais, le Français, l’Allemand, l’Italien et l’Espagnol. Son architecture est appelée « mixture d’ experts ». Ce modèle est aussi disponible en open-source. mais vu sa taille, seules des machines spécialisées peuvent le faire fonctionner.
Mistral-medium : il s’agit d’une version améliorée de Mixtral-8x7B avec la même architecture de base. Mistral déclare que ses performances sont proches de GPT-4 et qu’il excelle dans les tâches de programmation. Ce modèle n’est pas disponible en open-source, il faut demander accès (payant) via l’interface de programmation Mistral.

L’ architecture de type Mixture of Experts utilisée par Mixtral-8x7B comprend 8 groupes distincts de paramètres, plus un bloc de supervision qui n’ active que les deux groupes les plus pertinents lors du passage à travers chaque couche du modèle, puis les recombine ensuite. Cette approche innovante permet au modèle, qui compte 46,7 milliards de paramètres, de n’ exiger « que » la puissance de calcul d’ un modèle de 13 milliards de paramètres. La génération est donc accélérée d’ un facteur 3,5 environ. On soupçonne d’ ailleurs que GPT-4 -dont l’architecture n’ a pas été publiée- utilise lui aussi un modèle de ce type, les rumeurs faisant état de 8 experts de 220 milliards de paramètres chacun (soit 1,7 trillions de paramètres au total).

Une grande partie de l’ engouement pour Mistral provient de la performance de ces modèles par rapport à leur taille. Vous pouvez voir que Mixtral-8x7B est très bien positionné dans le classement réalisé par HuggingFace :

Figure 1 : Classement des LLM selon HuggingFace Chatbot Arena Leaderboard

J’expliquerai dans un prochain article comment faire fonctionner des modèles localement, mais en attendant, vous pouvez essayer les trois modèles de Mistral sur l’ interface web de Perplexity.ai accessible ici.

Il vous suffit de choisir le modèle désiré via le menu déroulant dans le coin inférieur droit (qui permet aussi de choisir d’ autres modèles, les noms débutant par pplx correspondent à ceux développés par Perplexity.ai).

Une intelligence artificielle pour structurer vos argumentations selon le principe pyramidal !

18 décembre 2023 / Arnaud Stévins

Je viens de publier mon premier agent IA conversationnel utilisant l’infrastructure GPTx d’OpenAI. Cet agent restructure vos arguments selon le principe pyramidal McKinsey.

L’agent est accessible ici, pour les personnes qui possèdent l’abonnement chatGPT+ : https://chat.openai.com/g/g-fauQ9MuEQ-pyramidal

L’ utilisation du modèle est simple: vous lui soumettez un texte contenant une argumentation et le modèle vous renvoie une version remaniée du texte respectant le principe pyramidal. Le modèle est multilingue; il vous répondra dans la même langue que celle de votre texte original.

Quelques mots sur le principe pyramidal

Le principe pyramidal, initialement développé par le Dr Barbara Minto de McKinsey, est une technique rédactionnelle avancée applicable à de nombreux formats de texte : présentations, documents, lettres et emails…La méthode est aujourd’hui utilisée par les plus grands cabinets de conseil en management à travers le monde pour rédiger des rapports d’audit et concevoir des présentations.

Figure 1 : structure logique du principe pyramidal

La méthode fait appel aux arbres logiques ou arbres d’argumentation pour organiser par écrit un raisonnement. À la base, le principe de la pyramide préconise une approche descendante, dans laquelle le message ou l’idée principale est présentée en premier, suivi des arguments à l’appui, puis des détails.

Ce principe est une des rares techniques qui s’attache davantage à la structure de l’argumentation, c’est-à-dire au fond et au déroulement d’un discours, plutôt qu’à sa forme.

Pour construire la pyramide, les arguments sont regroupés et hiérarchisés par niveaux d’abstraction.

Le principe pyramidal obéit à trois règles fondamentales :

Le document ou la présentation doit être introduit en suivant un schéma narratif précis : Situation, Complication, Question et Réponse;
les idées à un niveau N représentent le développement (l’argumentation) de l’idée de synthèse au niveau N+1, et inversement, une idée à un niveau N est la synthèse (l’abstraction) des idées développées au niveau N-1.;
Un argument peut être présenté de deux manières, soit en opérant une déduction (raisonnement), soit par induction (analogie).

Il me semble évident que ce genre d’application de reformatage textuel intelligent utilise de manière optimale les modèles de langage : il exploite au mieux leurs indéniables compétences stylistiques tout en mitigeant les risques liés à la génération de contenu incorrect (hallucinations), la quasi-totalité du contenu se trouvant déjà présente dans le texte à reformater.

J’ ai entendu parler la première fois du principe pyramidal il y a presque 25 ans lorsque je préparais une interview pour rejoindre le cabinet de consultance Roland Berger et j’ai été tellement séduit par l’approche que je l’ai utilisé tout au long de ma vie professionnelle; cela m’a souvent aidé à faire la différence et à mieux convaincre mes interlocuteurs.

Je suis intimement convaincu que les agents IA représenteront un des événements majeurs de 2024. OpenAI prévoit d’ouvrir son « Agent store » début 2024 et ceci représente ma première tentative d’exploitation pratique de ce nouveau mécanisme.

Je vous en souhaite une bonne utilisation.

A bientôt !

Arnaud

Un point sur la réglementation européenne des modèles génératifs

11 décembre 2023 / Arnaud Stévins

Vous l’ aurez probablement lu ou entendu dans les médias ces derniers jours : les Institutions Européennes ont trouvé un accord sur la future réglementation de l’ Intelligence Artificielle ce vendredi 8 décembre. C’ est le fameux European Artificial Intelligence Act dont j’ avais déjà esquissé les grandes lignes dans un article précédent.

A l’ époque, je n’ avais pas parlé de la réglementation des modèles généralistes car ce point restait en discussion. Il est maintenant temps de pallier à cette omission.

Ce qui suit se base sur les informations disponibles 48 heures après l’ accord. Le texte détaillé de l’ accord n’est pas encore connu; il devrait être publié avant le 22 janvier, date du premier comité parlementaire à son sujet. Mon but n’ est cependant pas d’ aller dans le détail mais juste de vous donner un aperçu de l’ approche retenue.

1. Pourquoi l’ IA généraliste complique la réglementation

Les modèles IA généralistes sont apparus il y a quelques années. On les définit en fonction de la modalité qu’ ils traitent (texte, image, vidéo, 3D...) et de leur nature discriminative ou générative.

Ces modèles se caractérisent par un large spectre d’ applications, et leur grand avantage est de pouvoir être affinés pour réaliser avec précision un tâche spécialisée. Cet affinage peut être réalisé par une autre entreprise disposant de moyens bien inférieurs à ceux nécessaires à l’ entraînement du modèle de base. Un modèle textuel génératif comme GPT3 peut donc être adapté pour réaliser différentes tâches dans différents secteurs (par exemple des chatbots pour du service à la clientèle).

Figure 1 : l’ IA généraliste, aspects discriminatifs et génératifs

Dès lors, la chaîne de valeur de l’ IA généraliste peut mettre en jeu plusieurs acteurs : un acteur en amont qui développe un modèle généraliste puissant et le met à disposition d’ acteurs en aval qui vont affiner et exploiter le modèle pour le mettre à leur tour sur le marché à destination des utilisateurs finaux.

Cette multiplication des acteurs ne s’ intègre pas bien dans la logique de l’ EU AI Act qui se base sur le risque pour l’ utilisateur final. Cette logique est appropriée pour une application IA développée par une organisation dans un but spécifique, mais si l’ on applique cette logique à l’ IA généraliste seuls les acteurs en aval seront directement sujets à la réglementation. La réglementation de l’ acteur en amont ne se fera qu’ indirectement par « percolation » des exigences posées sur les acteurs en aval. Pas très équilibré si vous êtes une petite start-up qui exploite un modèle développé par Google ou OpenAI… et vu le rôle techniquement central de l’ acteur amont, les risques ne sont pas réglementés à leur source.

Figure 2 : Les acteurs de l’IA généraliste

Il a donc fallu définir une réglementation différente pour l’ IA généraliste. Celle-ci va s’ appliquer spécifiquement à l’ acteur amont. Ceci ne dédouane pas entièrement l’ acteur aval qui reste soumis aux contraintes réglementaires basées sur le risque utilisateur, mais ce dernier peut au moins se reposer sur la conformité du modèle généraliste sur lequel il se base.

2. Réglementation de l’ IA généraliste

Cette réglementation fait la distinction entre deux catégories de modèles sur base de leur puissance : les modèles les plus capables sont appelés « systémiques » par opposition aux autres.

Tous les modèles généralistes sont soumis à des exigences de transparence : ils doivent documenter en détail l’architecture du modèle ainsi que le jeu de données qui a servi à son entraînement, et confirmer le respect des droits d’auteur. Le contenu généré par un modèle génératif devra être reconnaissable comme tel.

De plus, les modèles considérés « systémiques » vont êtres soumis à des exigences supplémentaires : leurs créateurs devront mener à bien des évaluations du modèle, démontrer comment ils gèrent et mitigent les risques, notifier les autorités en cas d’ incident et démontrer leur résilience face aux cyberattaques.

Les modèles généralistes open-source bénéficieront d’ une réglementation allégée (au moins pour les non-systémiques), mais la nature de cet allègement n’ est pas encore claire.

Toutes ces exigences seront détaillées et précisées à travers des standards européens harmonisés qui seront établis par des organismes comme le comité IA du CEN/CENELEC, une fois l’ Acte voté.

3. Notes et références

Communiqué de presse du Conseil de l’ Union Européenne du 9 décembre 2023 : https://www.consilium.europa.eu/en/press/press-releases/2023/12/09/artificial-intelligence-act-council-and-parliament-strike-a-deal-on-the-first-worldwide-rules-for-ai/
Communiqué de presse du Parlement Européen du 9 décembre 2023 : https://www.europarl.europa.eu/news/en/press-room/20231206IPR15699/artificial-intelligence-act-deal-on-comprehensive-rules-for-trustworthy-ai
Vidéo officielle de la conférence de presse du 8 décembre 2023 : https://video.consilium.europa.eu/event/en/27283
European Union squares the circle on the wold’s first AI rulebook, par Luca Bertuzzi (Euractiv) le 9 décembre 2023 : https://www.euractiv.com/section/artificial-intelligence/news/european-union-squares-the-circle-on-the-worlds-first-ai-rulebook/
AI Act : EU policymakers nail down rules on AI models, butt heads on law enforcement, par Luca Bertuzzi ( Euractiv), le 7 décembre 2023 : https://www.euractiv.com/section/artificial-intelligence/news/ai-act-eu-policymakers-nail-down-rules-on-ai-models-butt-heads-on-law-enforcement/

Les modèles de langage open-source

3 décembre 2023 / Arnaud Stévins

Les modèles de langage sont des systèmes d’ intelligence artificielle qui utilisent des volumes massifs de données textuelles collectés sur internet pour générer du texte, faire des traductions, interagir avec l’ utilisateur ou encore générer toutes sortes de contenus originaux.

Ces modèles peuvent être classés en deux grandes catégories, les modèles propriétaires et les modèles open-source. Cette distinction va avoir d’ importantes conséquences sur les possibiités d’ utilisation du modèle.

Les modèles dont j’ ai principalement parlé jusqu’ici –ChatGPT, Bard, Bing, Claude…- sont des modèles propriétaires : ils sont la propriété d’ une firme et peuvent uniquement être exploités selon les conditions décrites dans la licence d’exploitation. Cette license peut ou non être payante. Et à ce jour aucun des modèles propriétaires n’ est exploitable localement : vous devez utiliser une interface (web ou logicielle) pour interroger le modèle à distance.

L’ approche open-source est différente. Elle met à disposition du public l’ ensemble du modèle. L’ utilisateur peut donc l’ exploiter, le modifier et l’ améliorer à sa guise. Comme le concept de l’ open-source est très répandu dans le mode de l’ informatique et bien antérieur aux modèles de langage, j’ ai pensé qu’ il serait intéressant de commencer par en dire un peu plus à ce sujet.

1. Qu’est-ce que l’ open-source ?

Les débuts du mouvement open-source sont intimement liés au système d’ exploitation UNIX. Les développeurs originaux du système UNIX dans les années 1970 avaient pour habitude de partager les codes source. Lorsque certaines firmes ont décidé de commercialiser le code sous forme propriétaire pendant les années 1980, un mouvement de dissidence est né pour créer une version « ouverte » du système d’ exploitation. Une fois l’ approche formalisée, le mouvement open-source s’ est progressivement étendu et a prospéré jusqu’ à aujourd’ hui. On lui doit notamment le système d’ exploitation Linux et bien d’ autres logiciels et outils bien connus comme le langage Python.

Le mouvement open-source a donc été initié par des programmeurs qui rejetaient le modèle fermé et centralisé du développement de logiciels propriétaires. Dans ces derniers, seul le code exécutable est publié, alors que le code source est tenu secret afin d’ éviter la concurrence.

Le mouvement open-source rejette cette pratique : la totalité du code source est publié sous une licence qui permet la libre distribution, l’exploitation (commerciale ou non) et la modification du code. En contrepartie, l’ utilisateur s’ engage essentiellement sur deux points : ne pas tenter de s’ approprier le code mis à disposition et accepter ce dernier « en l’état » sans garantie ou recours en cas de dysfonctionnement. Certaines licenses open-source sont plus restrictives et obligent également l’utilisateur à publier tout programme dérivé également sous license open-source; on parle alors de licence réciproque ou copyleft.

Revenons maintenant aux modèles de langage…

2. Situation des modèles de langage open-source

Les premiers modèles de langage open-source étaient considérés comme nettement inférieurs aux modèles propriétaires. La situation a changé cette année, notamment suite aux activités de Meta qui a successivement publié les modèles LlaMA et LlaMA 2.

Les circonstances de la publication de LlaMA en février 2023 sont assez cocasses. Meta a initialement publié le code du modèle en open-source, mais pas les paramètres du modèle -sans lesquels ce dernier est inutilisable-. Les paramètres étaient uniquement fournis à des fins de recherche au cas par cas, sans possibilité d’ exploitation commerciale. Il n’ a pas fallu plus d’ une semaine pour que ces paramètres fuitent et se retrouvent disponibles au public par téléchargement…

Cette fuite a donné un coup d’accélérateur au développement de modèles de langage open-source : des modèles dérivés de LlaMA par affinage comme Vicuna et Alpaca ont été publiés quelques semaines plus tard, ainsi que la librairie GPT4ALL qui permet de faire facilement fonctionner ces modèles sur un ordinateur personnel. Cependant la légalité de ces modèles dérivés, reposant sur une fuite, était floue et ne permettait en pratique que la recherche à l’ exclusion de toute exploitation commerciale.

Meta n’ a pas voulu réitérer l’ expérience : le modèle suivant LlaMA 2 , publié en juillet 2023, est disponible sous une licence open-source et permet donc l’ exploitation commerciale par des tiers.

Et entretemps, d’ autres modèles open-source exploitables commercialement ont été développés comme MPT de MosaicML, Falcon ou encore Mistral, et de nouveaux modèles sont régulièrement publiés. La figure 1 montre une tentative de taxonomie des différents modèles. Les modèles open-source sont repris sur fond grisé.

Figure 1 : Taxonomie des modèles de langage (Auteur : Jinfeng Yang & al)

Un bémol cependant : certains modèles comme LlaMA 2 ou Falcon ne sont pas totalement open-source et leur exploitation commerciale n’ est possible que moyennant certaines limitations. Ces limitations -peu contraignantes en pratique- sont généralement de nature à empêcher la concurrence avec le développeur ou visent à interdire les utilisations illégales ou dangereuses. Par exemple, LlaMA 2 ne peut pas être exploité par les entreprises comptant plus de 700 millions d’utilisateurs (!) ni pour améliorer un autre modèle de langage. Comme toujours, vérifiez les termes précis de la licence avec un juriste avant, pour ne pas avoir d’ ennuis après.

Les modèles open-source sont maintenant très performants et les meilleurs d’entre eux se classent juste en-dessous des meilleurs modèles propriétaires, comme vous pouvez le voir sur Chatbot arena.

Il est fort possible que les modèles open-source comblent l’ écart avec les modèles propriétaires au cours des 12 à 18 prochains mois: Meta travaille sur Llama 3 qui devrait être multimodal et a déclaré qu’ il sera publié en open-source, tandis que l’affinage permet de créer des modèles spécialisés qui peuvent rivaliser avec un modèle propriétaire généraliste dans un domaine particulier tout en étant moins gourmands en puissance de calcul.

3. Avantages

Les avantages des modèles open-source pour l’utilisateur sont de trois ordres :

Coût d’exploitation : l’ utilisation d’ un modèle open-source est en général beaucoup moins onéreuse que celle d’ un modèle propriétaire vu l’ absence de frais de licence. En contrepartie, des frais d’ infrastructure -serveur local ou dans le cloud- et un investissement initial de mise en place seront nécessaire. L’ économie se réalisera donc plutôt à moyen terme.
Flexibilité : les modèles open-source peuvent être affinés pour mieux répondre aux besoins de l’ utilisateur. Concrètement, affiner correspond à étendre l’ entraînement du modèle sur un ensemble de données textuelles que vous fournissez et qui correspond à vos cas d’ utilisation.
Confidentialité : le modèle se trouvant dans l’ infrastructure de l’exploitant, les risques liés à l’échange de données avec une autre organisation souvent située outre-Atlantique disparaissent.

Un chose à souligner est que l’ affinage, si vous y recourez, est beaucoup moins exigeant en puissance de calcul que l’ entraînement intial du modèle (et donc en termes de coûts). L’ entreprise qui met le modèle à disposition a déjà supporté la toute grande majorité des coûts d’ entraînement.

En contrepartie, il y aura une activité technique initiale pour installer le modèle, le faire fonctionner et l’intégrer dans votre infrastructure (plus l’ affinage du modèle si vous choisissez de le faire).

4. Références

Harnessing the Power of LLMs in Practice : A Survey on ChatGPT and Beyond : Jinfeng Yang,Hongye Jin, Ruixiang Tang, Xiaotian Han et Qizhang Feng, 2023. Arxiv 2304.13712 : https://arxiv.org/abs/2304.13712
The History of Open-Source LLMs: Early Days (Part One), par Cameron R. Wolfe, 24 juillet 2023 : https://cameronrwolfe.substack.com/p/the-history-of-open-source-llms-early
The History of Open-Source LLMs: Better Base Models (Part Two), par Cameron R. Wolfe, 31 juillet 2023 : https://cameronrwolfe.substack.com/p/the-history-of-open-source-llms-better
The History of Open-Source LLMs: Imitation and Alignment (Part Three), par Cameron R. Wolfe, 7 août 2023 : https://cameronrwolfe.substack.com/p/the-history-of-open-source-llms-imitation
LLaMA-2 from the Ground Up*; par Cameron R. Wolfe, 7 août 2023 : https://cameronrwolfe.substack.com/p/llama-2-from-the-ground-up

Une vidéo particulièrement intéressante sur les modèles de langage

26 novembre 2023 / Arnaud Stévins

Je vous invite de tout coeur à visionner la vidéo suivante publiée cette semaine par Andrej Karpathy sur Youtube. Andrej Karpathy est un des chercheurs les plus en pointe en IA. Il est un des cofondateurs d’ OpenAI et combine l’ excellence technique avec un remarquable talent pédagogique.

La vidéo fait le tour du fonctionnement et des perspectives des modèles de langage. Le niveau est plus technique que celui de mes articles habituels tout en restant très accessible.

Dans la vidéo, Andrej Karpathy explique successivement :

comment les modèles de langage génèrent le texte;
l’ entraînement des modèles de langage;
le principe de fonctionnement des modèles de langage;
le passage d’ un modèle généraliste à un modèle conversationnel;
les agents : utilisation d’ outils par les modèles de langage;
le futur des modèles de langage : multimodalité, raisonnement, auto-amélioration;
le modèle de langage comme futur système d’ exploitation;
risques et failles de sécurité spécifiques aux modèles de langage.

Vous pouvez visionner la vidéo ici :

J’ en profite aussi pour vous rappeler la liste des chercheurs en IA à suivre sur X/twitter (dont Andrej Karpathy fait évidemment partie), que j’ avais publié dans un article précédent que vous pourrez consulter ici.

1. Composants d’un agent

2. Exemples d’ application

3. Risques

4. Conclusion

Notes et références

1. Le Prompt Engineering

2. La Génération Augmentée de Récupération (RAG)

3. L’ affinage des modèles

4. Réflexions

5. Notes et références

Introduction

1. Identifier et choisir un modèle local

2. Installer un programme d’ exploitation et télécharger le modèle

3. Exploiter un modèle local

4. Réflexions

5. Notes et références

1. Le litige opposant Getty Images à Stability AI

2. Le litige opposant le New York Times à OpenAI et Microsoft

3. Quelques réflexions

4. Sources et références

1. Quelques notions de droits d’auteur

2. Le problème amont : l’ entraînement des modèles

3. Le problème aval : la génération

4. La création artificielle

5. Réflexions

6. Sources et références

Modèles Mistral disponibles

Quelques mots sur le principe pyramidal

1. Pourquoi l’ IA généraliste complique la réglementation

2. Réglementation de l’ IA généraliste

3. Notes et références

1. Qu’est-ce que l’ open-source ?

2. Situation des modèles de langage open-source

3. Avantages

4. Références

Articles récents

Commentaires récents

Archives

Catégories