Artificiellement Intelligent

Rendre l' IA accessible à tous

Page 4 of 7

Techniques d’ exploitation des modèles de langage

Un des points faibles des modèles actuellement disponibles sur le marché est qu’ ils ont été entraînés sur un ensemble de données publiquement accessibles qui ne va pas nécessairement suffire pour répondre à certains besoins spécifiques.

Prenons l’ exemple d’une entreprise qui possède un volume important de données propriétaires, qui utilise un vocabulaire hautement spécialisé ou encore qui utilise des formats de données spécifiques. Ces connaissances ne seront a priori pas intégrées dans un modèle généraliste car les données ne sont pas accessibles publiquement. Comment y remédier ? C’est ce que je voudrais exposer aujourd’ hui.

Il existe plusieurs techniques pour « enrichir » les connaissances du modèle. On trouve, par ordre de complexité croissante :

  • le prompt engineering;
  • la génération augmentée de récupération (RAG en Anglais);
  • l’ affinage du modèle (complet ou optimisé).

Ces techniques se retrouvent au milieu de la figure ci-dessous, entre les deux extrêmes du simple dialogue et de l’ entraînement complet :

Figure 1 : Techniques d’ exploitation des modèles de langage

C’est un sujet intéressant à couvrir maintenant car il complète bien mon précédent article sur les modèles locaux. En effet, certaines techniques comme l’ affinage s’ adressent principalement aux modèles open-source dont les paramètres sont librement disponibles.

Passons maintenant les différentes techniques en revue.

1. Le Prompt Engineering

Le Prompt engineering est un sujet que j’ai déjà traité dans un précédent article accessible ici.

Il comprend deux techniques élémentaires sous-jacentes : la première consiste à fournir suffisamment d’ informations contextuelles dans l’invite. Le modèle combinera alors l’ ensemble des informations en sa possession (ceux de l’ entraînement et ceux fournis dans l’invite) pour répondre à la question posée.

La seconde technique revient à inciter le modèle à suivre un raisonnement logique structuré. Les modèles de langage ayant été entraînés pour se conformer aux instructions de l’utilisateur, il est possible de leur demander de suivre un raisonnement pas à pas ou de fournir une série d’ exemples résolus pour mettre le modèle sur la bonne voie. Sans être une panacée, ces techniques ont déjà démontré leur efficacité.

Figure 2 : Le principe du Prompt Engineering

Une méthode amusante consiste à promettre une récompense financière au modèle s’ il répond correctement. Ajoutez simplement « Si tu réponds correctement, je te donnerai dix euros » à la fin de l’invite. Croyez-le ou non, cela semble fonctionner !

Le prompt engineering peut fournir une précision suffisante dans un certain nombre d’ applications. Son principal avantage est sa simplicité de mise en oeuvre, qui ne demande pas non plus de ressources de calcul supplémentaires.

Mais cette technique se heurte à la taille limitée des fenêtres de contexte des modèles de langage. Elle ne pourra donc pas s’appliquer lorque le volume d’ informations à transmettre est trop grand ou trop complexe à décrire dans le prompt. On risque alors de voir le modèle inventer les informations manquantes pour aboutir à des réponses incorrectes voire insensées (hallucinations).

2. La Génération Augmentée de Récupération (RAG)

L’ idée vous aura peut-être effleuré l’ esprit en lisant le point précédent : pourquoi ne pas combiner la technique du prompt engineering avec un engin de recherche indexant les données complémentaires ? On obtiendrait alors une invite « enrichie » par les éléments supplémentaires les plus significatifs, de manière automatisée et transparente pour l’utilisateur…

C’est ce que promet la Génération Augmentée de Récupération (Retrieval Augmented Generation ou RAG en Anglais). Voici la manière dont cette technique fonctionne :

  • Les informations supplémentaires sont découpées en blocs et chacun de ces blocs est indexé en fonction de son contenu. Ces index sont en général des vecteurs dont la position dans l’ espace dépend du contenu du bloc (indexation sémantique). Vous trouverez ici une introduction sur ce sujet;
  • L’ ensemble des index est placé dans une base de données vectorielle qui contient également la référence des blocs de texte indexés;
  • Lorsqu’ un utilisateur pose une question, le texte de la question est lui aussi indexé selon le même algorithme. Une recherche dans la base de données vectorielle permettra d’ identifier les blocs sémantiquement proches de l’ invite sur base de la proximité entre les vecteurs;
  • Ces blocs d’ informations sémantiquement proches sont concaténés à l’ invite d’origine en tant que contexte additionnel;
  • L’ invite enrichie du contexte additionnel est envoyée au modèle de langage pour réponse.
Figure 3 : Le principe de la Récupération Augmentée de Génération (RAG)

Cette technique présente un certain nombre d’ avantages. Imaginez un ensemble typique d’ informations propriétaires générées par une entreprise : bases de données, documents pdf, fichiers excel, flux d’ actualités, minutes de réunion….. L’ ensemble de ces données pourra être découpé, indexé sémantiquement et introduit dans la base de données vectorielle. Et il est assez aisé de continuer à enrichir régulièrement la base de données vectorielles pour s’ assurer que les informations restent à jour.

Le second grand avantage est qu’ il n’ est pas nécessaire de modifier le modèle de langage en tant que tel. Tout dépend bien sûr de l’ efficacité du mécanisme d’ indexation sémantique, mais après 25 ans d’existence d’ engins de recherche sur Internet, ces techniques sont matures.

Qui plus est, une librairie de programmation comme Langchain contient l’ ensemble des fonctionnalités nécessaires pour orchestrer l’ interaction avec la base de données vectorielle et le modèle de langage. Cette librairie supporte notamment une centaine de formats de fichier pour nourrir la base de connaissances.

Le prix à payer est une plus grande complexité de l’ architecture informatique. Il faut intégrer et combiner plusieurs éléments d’ infrastructure. Et si une base de données vectorielle dans le cloud comme Pinecone est utilisée, il faut aussi prendre en compte les risques de confidentialité qui vont avec.

Enfin, l’ enrichichissement du contexte se faisant de manière ponctuelle et ciblée, cette technique n’est pas appropriée si vous visez à spécialiser un modèle de langage dans un domaine complexe comme la médecine ou la finance.

Dans ce cas, il vaut mieux affiner le modèle. C’est ce que nous allons voir maintenant.

3. L’ affinage des modèles

L’ affinage d’un modèle est un processus au cours duquel un modèle déjà préentraîné subit un entraînement supplémentaire sur un ensemble de données spécifique. Il permet de capitaliser sur la connaissance déjà intégrée lors de l’ entraînement initial, en renforçant la compétence du modèle dans un domaine spécifique en contrepartie d’ un investissement raisonnable en ressources informatiques.

Cette technique est importante car l’ entraînement initial d’un modèle requiert des ressources énormes, ce qui le rend hors de portée de la pluart des organisations.

Il est possible de réduire encore plus le besoin en puissance en recourant à des techniques avancées d’ affinage comme LoRA (Low-Rank Adaptation). Cette méthode introduite début 2023 réduit considérablement le nombre de paramètres à entraîner au prix d’une faible dégradation en qualité.

Figure 4 : Le principe de l’ affinage complet et optimisé

Vous devrez disposer d’un jeu de données suffisant pour l’ entraînement complémentaire. Si vous cherchez à approfondir l’ expertise du modèle dans un domaine spécifique vous pouvez commencer par utiliser tous les documents de référence sur le sujet dont vous disposez.

De plus, vous pouvez améliorer le type de réponse du modèle en ajoutant au données d’ entraînement un ensemble d’ invites (prompts) et de leurs réponses. Ce jeu de données peut avoir été généré manuellement ou via un modèle de langage « haut de gamme » comme GPT4.

Quoi qu’ il en soit, l’ affinage reste une technique plus complexe, qui requiert une expertise suffisante en IA pour constituer le jeu de données, mettre en place l’ algorithme d’ entraînement du modèle et ensuite évaluer les performances du modèle modifié. Cette approche nécessite aussi l’ accès à une puissance de calcul significative.

Un point faible de cette approche par rapport à la Génération Augmentée de Récupération est qu’ il est nettement plus difficile d’ introduire de nouvelles informations dans le modèle : il faut repasser par une phase d’ entraînement avec tous les efforts qu’ elle implique.

Une autre contrainte de cette approche est que pour pouvoir modifier un modèle, il faut disposer de ses paramètres. Et donc en pratique, seuls les modèles open-source comme Llama2 ou Mistral se prêtent à ce genre d’ exercice.

Enfin, il faut noter que des versions déjà affinées de modèles de langage open-source comme Llama sont disponibles sur Internet, pour certains domaines particuliers comme la programmation. Utiliser un tel modèle peut aussi être une solution…

4. Réflexions

L’ exploitation avancée de modèles de langage décrite ci-dessus est en progression rapide. Tant les techniques d’affinage « optimisées » que les algorithmes de recherche sémantiques et les bases de données vectorielles de la RAG font des progrès constants.

Des techniques comme le RAG ou l’ affinage sont trop lourdes pour une utilisation privée, mais constituent une solution intéressante pour des entreprises. La disponibilité de modèles open-source combinée à ces techniques offre une grande souplesse de déploiement aux organisations désireuses d’ exploiter les modèles de langage au mieux de leurs capacités.

Et la possibilité de faire fonctionner l’ ensemble « en interne » offre une réponse élégante aux soucis de confidentialité qui freinent de nombreuses organisations.

5. Notes et références

Les modèles génératifs locaux

Introduction

Si 2023 a été dominée par les modèles mis à disposition dans le cloud comme chatGPT ou Claude, cette approche pourrait fort bien évoluer cette année. Ceci est dû aux progrès rapides des modèles open-source, qui réduisent progressivement l’ écart avec les modèles propriétaires. Ces modèles open-source rendent possible l’ exécution locale de modèles, ce qui offre de nouvelles perspectives que je vais exposer dans cet article.

J’ ai déjà publié une analyse générale des avantages et inconvénients des modèles open-source ici, ainsi qu’une présentation de la start-up française Mistral (ici). Cet article présente les choses d’ un point de vue plus pratique : quels sont les élements à prendre en compte lors du choix et de l’ installation d’ un modèle local, et comment l’ exploiter ensuite.

1. Identifier et choisir un modèle local

La première question est de déterminer les cas d’ utilisation de modèles génératifs qui sont pertinents pour vous. Vous pourrez alors vous orienter vers un modèle répondant à vos besoins. Pour cela, vous pourrez vous baser sur différents indicateurs de performance qui sont publiés régulièrement pour tous les modèles disponibles.

Vous trouverez ici un tableau de bord reprenant une série représentative d’indicateurs de performance. Ce tableau de bord est remis à jour très régulièrement. Etudions-le un peu plus en détail.

Figure 1 : Le LMSYS Chatbot Arena sur Huggingface

Voyons tout d’ abord comment interpréter les différents indicateurs de performance mentionnés:

  • Arena Elo : Il s’ agit d’ un système de classement comparable aux points Elo utilisé par les joueurs d’ échecs. Un être humain pose une question et la réponse de deux modèles choisis au hasard lui est présentée en retour. L’ humain choisit la meilleure réponse (le gagnant), et les points Elo des deux modèles sont mis à jour en conséquence. Le système compte à ce jour plus de 200.000 affrontements entre modèles…
  • MT-bench : Ce test est basé sur une série de 80 dialogues standardisés couvrant huit domaines (10 questions par domaine) : rédaction, incarnation de rôle, extraction d’ information, raisonnement, mathématiques, programmation, sciences naturelles et sciences humaines. Chaque dialogue consiste en plusieurs questions successives sur le même sujet. Une fois le dialogue terminé, GPT4 évalue la qualité de la réponse et lui attribue un score.
  • MMLU : Cet indicateur utilise un grand nombre de questions à choix multiples choisies parmi 57 catégories couvrant l’ essentiel du savoir humain. L’ avantage d’ un QCM est que l’ évaluation de la réponse est immédiate et sans ambiguité.

Et si la programmation est votre cas d’ utilisation principal, il existe un indicateur spécialisé HumanEval qui évalue l’ aptitude à la programmation à travers 164 tests. Vous pouvez accéder à un tableau de bord pour HumanEval ici :

Figure 2 : Un tableau de bord HumanEval (credit : KLU.ai)

En règle générale, au plus le modèle compte de paramètres, au plus les réponses du modèle seront riches et précises, mais au plus de ressources son exploitation nécessitera. Beaucoup de modèles étant disponibles en plusieurs tailles, c’est un paramètre sur lequel vous pouvez jouer dans une seconde étape si vous vous rendez compte que le modèle est trop imprécis ou trop gourmand en ressources. Il faudra tenir compte de certaines contraintes: la mémoire de votre machine limitera la taille des modèles qui pourront fonctionner dessus, alors que la performance dépendra surtout du ou des processeurs disponibles (CPU ou GPU).

Autre point : certains modèles ont été affinés pour exceller dans un domaine particulier (la création artistique, la programmation, le domaine médical…). Si vous pouvez mettre la main sur un modèle affiné dans le domaine qui vous intéresse, utilisez-le en priorité car il a toutes les changes de présenter une meilleure efficacité relative qu’ un modèle généraliste de même taille. Par exemple, si c’ est la programmation qui vous intéresse, orientez-vers WizardCoder, Magicoder ou CodeLlama

Vous pouvez aussi affiner vous-même un modèle open-source généraliste pour le faire approcher au plus près de votre cas d’ utilisation. C’est une approche plus complexe, dont je parlerai dans un article futur.

Enfin, pensez toujours à vérifier les conditions de licence pour voir si cette dernière est compatible avec l’ utilisation que vous envisagez. Les modèles de langage sont souvent publiés sous des licences open-source modifiées contenant certaines restrictions d’ utilisation…

2. Installer un programme d’ exploitation et télécharger le modèle

L’ heure est maintenant venue d’ installer un moteur d’ exploitation sur votre ordinateur. En voici trois, tous gratuits :

Vous trouverez quelques bonnes vidéos explicatives des mécanismes d’ installation et d’ utilisation de ces programmes dans la partie « Références » ci-dessous. Ces programmes contiennent une fonctionnalité intégrée de recherche et d’ installation des modèles. Le téléchargement manuel du modèle depuis un site comme HuggingFace n’ est donc en général pas nécessaire.

Prenons l’ exemple de Ollama qui est extrêmement facile à utiliser. Une fois l’ application installée sur votre machine, vous pouvez aller voir la liste des modèles disponibles ici :

Figure 3 : Liste des modèles Ollama disponibles)

Il suffit ensuite de demander le lancement d’ un modèle via la commande ollama run *model*. Ollama téléchargera d’ abord le modèle si ce dernier n’ est pas déjà présent localement, puis ouvrira une session de dialogue interactif. Tapez /bye pour arrêter la session interactive.

Quelques autres commandes :

  • Ollama list : fournit la liste des modèles disponibles localement.
  • Ollama pull *model* : installe un modèle sans lancer l’ exécution.
  • Ollama rm *model* : supprime le modèle local.

Difficile de faire plus simple…

3. Exploiter un modèle local

Premier cas d’ utilisation, le plus évident : la conversation avec le modèle. Les applications décrites au point précédent offrent cette fonctionnalité sans besoin d’ installations supplémentaires.

Le second cas d’ utilisation que je voudrais présenter est l’ assistant de programmation intégré dans un environnement de développement (IDE). Je vais prendre comme example un des environnements les plus répandus: Microsoft VSCode.

Il existe des extensions pour VSCode comme Continue et Cody qui fournissent une fonction d’ assistance en interagissant avec un modèle de langage. Pour interagir avec un modèle cloud, il faudra configurer le modèle désiré et la clé d’accès. Pour un modèle local, il suffit de spécifier l’ application (Ollama ou autre) et le modèle à utiliser. C’est tout.

Par exemple, voici Continue utilisant le modèle Mistral7B via Ollama sur mon iMac :

Figure 4 : Intégration de VSCode et Mistral7B via l’ extension Continue

Enfin, troisième cas d’utilisation, l’ accès direct aux modèles locaux via un programme informatique. Ici aussi, c’ est facile : la présence d’ interfaces de programmation sur les applications les rend facilement intégrables dans des processus informatisés internes. Par exemple, Ollama offre un point d’entrée REST accessible sur le port 11434 dont la documentation est accessible ici. Et depuis peu, une librairie ollama-python est disponible ce qui simplifie encore plus les choses.

4. Réflexions

Avec les applications actuelles, l’ utilisation de modèles locaux est devenue très aisée. Les progrès rapides des modèles open-source en font une option très intéressante qui résout un certain nombre de désavantages des modèles propriétaires dans le cloud. Ces modèles n’ atteignent pas encore les performances des meilleurs modèles propriétaires comme GPT-4, mais la disponibilité prochaine de Llama 3 et les progrès rapides de Mistral permettent d’ être optimistes.

Si les modèles locaux sont opérationnels dès aujourd’hui, 2024 devrait voir l’ émergence de modèles fonctionnant sur smartphone. Internet bruisse de rumeurs selon lesquelles Apple se préparerait à lancer une nouvelle version de Siri basée sur un modèle génératif pouvant piloter certaines applications du téléphone. Samsung, de son côté a développé un modèle de langage appelé Gauss destiné à être intégré sur ses téléphones dans un avenir proche…

5. Notes et références

IA générative et droits d’auteur : litiges en cours et perpectives

Dans mon article précédent, j’ ai exposé de manière générale les zones de friction entre l’ IA générative et les droits d’ auteur. Je voudrais maintenant compléter la discussion en présentant les deux principaux litiges en cours et discuter de perspectives plausibles d’évolution.

Ces deux litiges sont l’ action intentée par Getty Images contre Stability AI et celle intentée par le New York Times contre OpenAI et Microsoft. Le premier concerne les images et le second le texte.

Passons-les succinctement en revenue sans trop entrer dans le détail juridique (pour lequel je vous réfère aux threads en référence rédigés par des juristes spécialisés dans le domaine).

1. Le litige opposant Getty Images à Stability AI

Il s’ agit d’ un litige en cours depuis février 2023 à la fois aux Etats-Unis et au Royaume-Uni. Il oppose la bibliothèque d’ images en ligne Getty Images à Stability AI, développeur du générateur d’ images Stable Diffusion accessible ici. La justice britannique a décidé début décembre que la plainte de Getty Images était recevable et que le procès pouvait débuter.

Getty Image allège que Stability AI a copié sans permission plus de 12 millions d’ images lui appartenant pour l’ entraînement de ses modèles, dans le but de construire une offre concurrente, réclame 150.000 dollars d’ indemnité par image contrefaite générée….et que, cerise sur le gâteau, les images de Stability reprennent parfois en tout ou partie les filigranes de Getty Images comme dans l’ image de synthèse ci-dessous :

Figure 1 : Image de synthèse de Stability AI reprenant un filigrane de Getty Images (crédit : The Verge)

La position de Stability à ces allégations n’ est pas connue publiquement. Il est donc difficile de fournir une analyse équilibrée présentant les deux points de vue.

Un élément important du litige est le territoire sur lequel s’ est déroulé l’ entraînement et le développement du modèle, qui va déterminer la juridiction compétente (Royaume-Uni ou Etats-Unis). Mais sur quelle base se fera cette détermination ? le lieu de travail des spécialistes AI en charge de ces activités ? la localisation physique du serveur hébergeant les données ? Celui du calculateur réalisant l’ entraînement ? Ce n’est pas simple.

Comme pour enfoncer le clou, Getty Images a lancé en septembre son propre service d’ IA générative appelé « Generative AI by Getty Images », entraîné exclusivement sur sa propre bibliothèque d’images…

2. Le litige opposant le New York Times à OpenAI et Microsoft

Le journal américain The New York Times a intenté fin décembre un procès aux USA contre OpenAI et Microsoft. Il estime en effet qu’ il est floué par ces deux entreprises, qui ont abondamment utilisé ses textes pour entraîner les modèles à la base de chatGPT.

Si OpenAI a entraîné le modèle, Microsoft est présenté comme le complice qui a mis à disposition son infrastructure pour rendre l’ entraînement possible, et fournit de surcroît une version de GPT4 sous sa propre enseigne (Bing Chat) qui présenterait les mêmes infractions.

La citation inclut une centaine de textes d’ articles qui ont pu être restitués dans leur quasi-intégralité après un prompt qui reprend les premiers mots de l’article, comme dans l’ exemple ci-dessous (le texte en rouge est identique).

Figure 2 : Exemple de restitution « par coeur » d’un article du New York Times

La plainte fait aussi état de la forte représentation de textes issues du New York Times dans la base de données *Common Crawl*, qui a été utilisée pour entraîner GPT4 : le site du New York Times se retrouve en effet en quatrième position…

Figure 3 : Répartition des principales sources de données du Common Crawl

Selon le journal, la qualité de son contenu se retourne également contre lui car il pousse les développeurs de modèles génératifs à pondérer fortement le texte dont il est la source dans les données d’ entraînement.

Le journal insiste sur le coût financier et humain d’ un journalisme de qualité qui couvre les cinq continents et demande parfois de travailler dans des conditions difficiles, voire dangereuses. La citation du NY Times contraste le rôle sociétal essentiel du journalisme avec la motivation lucrative d’ OpenAI et de Microsoft, la valorisation boursière de cette dernière société ayant augmenté d’ un trillion (!) de dollars au cours de la seule année 2023.

Le journal déclare avoir cherché un accord financier amiable avec OpenAI pour leur permettre d’ exploiter leurs articles mais ces négociations ont échoué. En conséquence de quoi, le New York Times réclame -en plus des dommages- ni plus ni moins que la destruction de tous les modèles de langage qui ont été entraînés sur ses données sans autorisation (à commencer par les GPT d’OpenAI) !

La position d’OpenAI, que vous pourrez lire dans leur communiqué de presse en référence est la suivante :

  • L’entraînement de modèles génératifs peut exploiter des données soumises au droit d’auteur car cela relève du *fair use* (voir mon article précédent qui présente cette notion). De plus, OpenAI propose un mécanisme permettant aux auteurs qui ne désirent pas voir leur contenu utilisé pour l’entraînement de signaler leur refus (approche de type OPT-OUT);
  • La « régurgitation » (c’est leur terme) de contenus existants mot pour mot est un problème rare qu’ils essaient d’ éliminer. En effet, les programmes d’IA générative ne mémorisent en principe pas l’information mais la transforment de la même manière qu’ un être humain qui se forme à travers la lecture de textes pour générer ensuite des créations originales;
  • En outre, ces « régurgitations » proviennent principalement d’ articles anciens qui se sont trouvés recopiés sur de multiples sites au fil du temps ce qui a pu déséquilibrer l’ algorithme en leur faveur, la répétition leur accordant une pondération trop importante pouvant mener à la mémorisation « verbatim » et à la régurgitation;
  • Les négociations avec le NY Times pour l’ obtention d’ un accord de license avançaient de manière constructive jusqu’ au moment du lancement de l’ action en justice qui les a profondément surpris. L’ implication étant ici que le New York Times cherche par cette action judiciaire à faire pression sur OpenAI pour obtenir un accord plus favorable.

Voilà ce qu’ il en est. La plupart des commentateurs avisés pensent que ceci se terminera par une transaction amiable, ce qui est compatible avec les positions maximalistes des deux parties exprimées en public (interdiction d’un côté, « fair use » de l’autre), qui cherchent surtout à faire pression sur l’ adversaire.

Si vous voulez vous plonger dans une analyse juridique de ce litige, je vous suggère de lire les threads X de Jason Kint et Cecilia Ziniti, des spécialistes du domaine, repris en référence.

3. Quelques réflexions

Pour terminer, je voudrais mentionner deux scénarios possibles d’évolution à moyen terme sur ce sujet :

Un scénario « progressiste » verrait les auteurs publiant en ligne -mais désireux de protéger leurs droits- contraints d’ ajouter une référence d’ identification dans un format facilement lisible par une machine (métadonnées). Ceci serait contrebalancé par une double contrainte pour les développeurs de modèles génératifs IA :

  • devoir publier la liste de tous les auteurs et leurs textes/images repris dans les données d’entraînement;
  • permettre aux auteurs qui le désirent d’obtenir la suppression de leurs textes/images des données d’entraînement du modèle.

Cette approche est pragmatique : elle respecter les intérêts de chacun moyennant des efforts raisonnables de part et d’autre.

A l’ inverse, un scénario « conservateur » verrait un repli des détenteurs de droits sur leurs données propres et le développement de modèles génératifs fermés comme l’ a fait Getty Images. Seules les documents tombés dans le domaine public (et potentiellement ceux générés de manière synthétique) resteraient disponibles pour l’ entraînement sans contrainte…

4. Sources et références

Droits d’auteur et IA générative

Pour commencer l’année 2024, je voudrais vous parler de la situation actuelle des droits d’auteurs pour les modèles génératifs.

C’ est un sujet d’une actualité brûlante puisque deux litiges à ce sujet sont actuellement devant les tribunaux anglo-saxons : un premier litige oppose en Grande-Bretagne la bibliothèque d’ images Getty Images à Stability AI, une société qui fournit un modèle générateur d’ images. La seconde action en justice est intentée aux Etats-Unis par le New York Times contre OpenAI et Microsoft.

Dans cet article, je vais exposer la situation de manière générale. Je couvrirai plus précisément le litige entre le New York Times et OpenAI / Microsoft dans le prochain article, et je tenterai aussi de mentionner quelques pistes d’ évolution possibles.

Comme nous allons le voir, l’ impact potentiel pour le secteur de l’ IA générative et de ses utilisateurs est grand. Je voudrais vous encourager à parcourir le texte qui suit. Il peut sembler aride et pointilleux au premier abord mais l’ enjeu en vaut la chandelle.

Disclaimer : je ne suis pas juriste et donc ce qui suit n’a pas valeur d’avis juridique.

Cette réserve étant émise, allons-y…

1. Quelques notions de droits d’auteur

Le droit d’auteur confère à l’auteur d’une activité créatrice un monopole sur les revenus résultant de l’exploitation économique de l’oeuvre. En pratique, ces revenus découlent de la réalisation de reproductions de l’oeuvre et de sa communication au public, qui ne peuvent pas être réalisées sans l’ autorisation préalable de l’auteur (en général contre rétribution). Le droit d’auteur confère aussi à l’auteur des droits moraux sur l’oeuvre, comme sa paternité, mais ceci sort du cadre de cette discussion.

Ce droit d’ exploitation est limité dans le temps, à savoir 70 ans après la mort de l’ auteur pour la Belgique; l’ oeuvre passe ensuite dans le domaine public, ce qui signifie qu’ elle peut alors être exploitée économiquement sans contrainte.

Le terme d’ activité créatrice est assez large et reprend non seulement les créations artistiques littéraires, photographiques, musicales, sonores, audiovisuelles, mais aussi les logiciels informatiques et les créations d’ art appliqué (vêtements, meubles, plans d’architecte, objets, graphismes, bijoux…).

Par contre, un texte législatif ou administratif, une image satellite ou une peinture réalisée par un singe ne sont pas considérés comme des créations de l’ esprit humain. Une invention technique n’ est pas non plus protégable par le droit d’ auteur mais peut être protégée par brevet.

Enfin, certaines dérogations au droit d’auteur sont acceptées parce qu’ elles ne portent pas atteinte à l’ exploitation normale de l’oeuvre tout en servant l’ intérêt général. Par exemple, la présentation d’ extraits d’ oeuvres à des fins éducatives dans l’ enseignement ou d’ information par les médias sont autorisés, tout comme les utilisations à des fins de recherche académique.

Regroupées sons le vocable anglo-saxon de fair use ces exceptions sont importantes car elles interviendront dans la discussion relative à l’IA. Entraîner un modèle génératif sur des données soumises au droit d’auteur relève-til du fair use ? C’est une question complexe, au coeur du litige entre OpenAI et le New York Times.

Ceci étant dit, voyons maintenant les points de frictions entre modèles génératifs et droits d’ auteur. Il y a deux problèmes principaux, le problème de l’ entraînement (amont) et celui de la génération (aval), ainsi qu’un troisième problème connexe, celui de la création artificielle. Passons-les successivement en revue.

2. Le problème amont : l’ entraînement des modèles

Le problème de l’ entraînement est simple à comprendre : les modèles génératifs ont besoin d’ un volume de données digitales prodigieux pour leur entraînement. Ces données sont issues de copies de l’ ensemble d’ Internet réalisées au fil du temps par des programmes qui ont siphonné toutes les données publiquement accessibles qu’ ils pouvaient trouver : réseaux sociaux, engins de recherche, librairies digitales, journaux, banques de données statistiques, blogs, encyclopédies etc….

Ces données sont consolidées dans d’ immenses agrégats dont le plus connu est le Common Crawl, accessible ici.

Cependant, « publiquement accessible » sur Internet ne signifie aucunement que l’ auteur confère un quelconque droit à l’ utilisateur au-delà de la simple consultation en ligne. Et donc pas d’ autorisation implicite d’ entraîner un modèle IA…

Pour aggraver les choses, ce problème est quasi-universel. A l’ exception d’ une petite minorité de textes relevant du domaine public et des quelques textes générés par IA dont le statut est actuellement flou, pratiquement tout le reste tombe automatiquement sous le régime des droits d’ auteur.

Si le problème est simple à comprendre, force est de constater que sa résolution est dantesque : l’ ensemble d’ Internet cela veut dire des millions, voire des dizaines de millions d’ auteurs concernés, des textes dont la paternité est souvent difficile à attribuer, pour lesquels il faudrait obtenir l’ accord préalable du détenteur des droits…

C’ est pourquoi les grands acteurs du secteur (OpenAI et autres) ont cherché à court-circuiter le problème en déclarant que l’ entraînement des modèles relève du fair use et ne nécessite donc pas l’ accord préalable des détenteurs de droits.

L’ argument principal des géants de l’ IA est que les algorithmes de génération ingurgitent tellement de données d’ auteurs différents et les transforment à tel point que les droit individuels des auteurs ne sont pas impactés. Ils invoquent aussi le fait qu’ au plus l’ accès aux données est large, aux meilleurs les modèles seront, et que leur interdire cet accès correspond à un arrêt de mort pour une industrie symbolique du progrès et qui pourra apporter énormément à la société dans le futur.

Les auteurs rétorquent que les algorithmes exploitent abusivement leurs créations dans un but lucratif et susceptible de porter atteinte à leurs droits d’ exploitation. Ils mettent en avant des exemples de réalisations IA très proches voire identiques de leurs propres oeuvres…

Mon intuition de profane est que les arguments techniques du secteur IA sont valides (caractère transformatif et volume des données d’entraînement), mais l’argument de l’utilité publique est spécieux et sert de paravent aux buts lucratifs des acteurs de l’ IA générative…

La question des droits sur les données d’entraînement est cruciale pour l’ ensemble de l’ industrie de l’ IA, largement basée sur des algorithmes d’apprentissage machine gourmands en données de tout type, même si l’ IA générative (principalement images et texte) cristallise le problème vu la concurrence potentielle avec les auteurs.

Cependant, même si les développeurs obtiennent d’ une manière ou d’ une autre la permission d’ utiliser les données couvertes par droit d’ auteur pour l’ entraînement des modèles, cela ne signifie pas nécessairement que les utilisateurs sont libres de produire et diffuser leurs générations comme ils l’ entendent….ce qui nous amène au problème aval.

3. Le problème aval : la génération

Le problème de la génération est le suivant : si un utilisateur utilise un programme IA pour produire une image (ou un texte) qui est substantiellement similaire à une oeuvre protégée, qui est le responsable de la contrefaçon (plagiat) potentielle ?

Est-ce la société qui a produit l’ outil IA ? L’ utilisateur qui a guidé l’ outil dans la génération ? Celui qui a diffusé l’ image ? La plateforme qui a servi à la diffusion de l’ image ?

Il est utile de savoir que les sociétés qui mettent les modèles à disposition ont tendance à repousser cette responsabilité sur l’ utilisateur dans leurs condition d’ utilisation: leur position est que l’utilisateur pilote l’ outil via le prompt et est responsable de ce qu’ il génère et de l’ utilisation qu’ il en fait ensuite.

Et le risque est réel. Il arrive aux modèles d’image et de langage de reproduire des images ou des textes similaires à ce qui se trouvait dans leur données d’ entraînement.

Complication majeure, ceci est possible non seulement si l’ utilisateur le demande mais également sans que l’utilisateur en ait fait la demande explicite .Il est par exemple possible de recréer des images de personnages ou véhicules de Star Wars sans que ces termes apparaissent dans le prompt. Il en va de même pour les textes générés par le New York Times dans le litige qui l’ oppose à OpenAI : le journal a réussi à reproduire des copies presque exactes de certains de ses articles sans que le nom du journal apparaisse dans le prompt.

En tout état de cause, cela affaiblit la position de Ponce Pilate des développeurs de modèles : difficile de rejeter la responsabilité sur l’ utilisateur du modèle si le modèle crée des contrefaçons à l’ insu de ce dernier…la question des responsabilités respectives ne sera pas facile à trancher.

Si vous désirez comprendre cette question plus en détail, je vous réfère à l’excellent article de Gary Marcus et Reid Soutern publié il y a quelques jours dans IEEE Spectrum, et accessible ici.

Quoi qu’il en soit, le problème de la génération est tributaire de la résolution du problème de l’ entraînement. La meilleure issue serait que les développeurs de modèle trouvent un accord (pécunier) avec les auteurs qui permettrait à la fois l’entraînement ET la génération sans contrainte, faisant d’une pierre deux coups.

Par contre, si la résolution de la question de l’ entraînement se fait au détriment des auteurs – par exemple, si la justice tranche en faveur du fair use -, le risque est grand que ces derniers se retournent contre les images générées par les utilisateurs pour faire valoir leurs droits, déplaçant le coeur du litige de l’entraînement vers la génération.

4. La création artificielle

Comme on l’a vu plus haut, le droit d’auteur actuel implique la création par un être humain. Mais pour la première fois, une activité créative non humaine devient possible. La génération par l’ IA introduit donc une autre question juridique : oublions un instant les droits des auteurs existants et imaginons une création artificielle tout à fait originale. Cette oeuvre mérite-t’ elle à son tour une protection relevant d’une forme de droit d’ auteur ?

Et si une future législation devait attribuer un droit d’auteur, à qui reviendrait-il ? le propriétaire du modèle ou l’utilisateur, voire peut-être un jour à l’ IA elle-même ?

Enfin, il faudra peut-être distinguer la création artificielle entièrement autonome de celle où l’ humain continue à jouer un rôle de pilote, par exemple via un prompt, assisté par une IA réduite à un rôle d’ outil génératif…

La question de la création artificielle est importante sur le principe, mais sa résolution est moins urgente que les deux autres. Il est donc probable que cette question reste ouverte pendant quelque temps.

5. Réflexions

Le droit d’auteur est très ancien. Au cours de son histoire, il s’est régulièrement retrouvé en conflit avec le progrès technologique. Imaginez la réaction des peintres du XIX siècle confrontés aux premières photographies ou celle des auteurs de romans face aux premières photocopieuses dans les années 1970, sans parler des cassettes audio et des magnétoscopes VHS dans les années 1980…le droit d’auteur a évolué au fil du temps sans toutefois cesser de jouer son rôle protecteur pour les créateurs. L’avènement des modèles génératifs n’est que la dernière péripétie de cette co-évolution.

Un dénouement radical -quoique improbable- serait l’interdiction pure et simple des modèles génératifs. Un scénario analogue a eu lieu en 2001 avec l’interdiction de Napster suite à une procédure initiée par le groupe Metallica. Napster permettait aux utilisateurs de télécharger des morceaux de musique gratuitement indépendamment des droits d’auteur applicables, une transgression certes plus directe que celle reprochée aux modèles génératifs! Néanmoins, elle rappelle que la technologie n’ a pas toujours gain de cause dans sa remise en cause des droits d’auteur.

Il est aussi intéressant de noter que l’ European AI Act ne traite des droits d’auteurs que de manière indirecte, en demandant aux développeurs de modèles génératifs de spécifier quelle oeuvres soumises aux droits d’ auteur ont été utilisées pour l’ entraînement du modèle. Ce n’ est pas illogique car les droits d’ auteur sont soumis à un ensemble de directives européennes séparées et les clarifications essentielles apparaîtront probablement lors d’ une future itération de ces dernières.

Il est d’ ailleurs fort possible que différentes juridictions adoptent des approches différentes. Rien ne permet d’affirmer que que les Etats-Unis et l’ Europe suivront la même logique, d’autant que le risque de capture réglementaire n’est pas exclu au vu des moyens financiers des acteurs privés en présence. Le Japon a déjà pris une initiative dans le domaine, autorisant l’ entraînement de modèles génératifs sur des données sujettes aux droits d’ auteur (moyennant certaines limitations).

Et enfin, une ultime complication : quid des modèles génératifs open-source ? Est-il possible d’ organiser une éventuelle rétribution des auteurs en l’absence de flux financiers des utilisateurs vers les développeurs de modèle ? Ces modèles devront-ils se contenter de données du domaine public, voire synthétiques pour leur entraînement ? Ou bien vont-ils disparaître ? Comme vous le voyez, il y a matière à réfléchir, et les questions sont à la fois d’ ordre technique, juridique et financier.

6. Sources et références

Mistral : la start-up française qui fait du bruit

Voici quelques semaines que la start-up française Mistral fait beaucoup parler d’ elle dans le monde de l’ IA générative.

Fondée en mai 2023 par trois ingénieurs venant de Google Deepmind, Mistral a déjà levé 385 millions d’ euros de capitaux en six mois et est actuellement valorisée à environ 2 milliards d’ euros!

Cette croissace effrénée positionne d’ ores et déjà Mistral comme un des acteurs majeurs du secteur et un concurrent sérieux d’ OpenAI.

Mistral continue à développer ses modèles et capacités, et pourrait bien jouer un rôle-clé dans le futur développement de l’ IA européenne. L’ approche open-source de l’ entreprise et son engagement éthique s’ alignent avec les préférences de nombreuses entreprises européennes.

Le succès de Mistral est supporté par l’ existence d’ un écosystème IA français qui ne cesse de se renforcer. La French Tech bénéficie en effet d’un climat favorable : Xavier Niel a annoncé en septembre des investissements stratégiques dans l’ IA estimés à environ 200 millions d’euros. Ces investissements sont pour partie destinés à acheter des coprocesseurs graphiques (GPU) chez Nvidia afin de doter la société de services cloud Scaleway de la puissance de calcul nécessaire à l’ IA et la mettre à la disposition des start-ups européennes.

Mais l’ argent et la puissance de calcul ne sont pas tout, il faut également une concentration de talents. En novembre, la création de Kyutai a été annoncée, un nouveau laboratoire de recherche IA basé à Paris et bénéficiant de 300 millions d’ euros d’ investissement, à la tête duquel se trouvent des pointures de l’ IA venant de Google et Meta. De fait, les laboratoires de recherche de Google Deepmind et de Meta, présents dans la région, constituent un réservoir de talents qui va pouvoir irriguer les nouvelles entreprises.

De son côté, Station F, un des plus grands incubateurs de start-ups technologiques au monde, se trouve également à Paris, accompagne les premiers pas des jeunes pousses et joue un rôle fédérateur, à travers notamment des événements comme AI-Pulse.

Tout ceci signifie que la France commence à sérieusement concurrencer la Grande-Bretagne, jusqu’ ici acteur dominant de l’ IA européenne.

Il faut mentionner ce développement positif : on entend souvent parler de start-ups européennes qui partent se développer aux USA lorsque leurs besoins en capitaux augmentent, mais l’ inverse commence aussi à se produire : la société américaine Poolside AI a décidé de déménager à Paris, attirée notamment par des coûts salariaux moins exorbitants qu’ aux Etats-Unis…

Modèles Mistral disponibles

Voyons maintenant un peu plus en détail les modèles publiés par Mistral. Il y en a trois, appelés Mistral-7B, Mixtral-8x7B et Mistral-Medium, par ordre de puissance croissante.

  • Mistral-7B ne converse qu’ en Anglais et comporte 7 milliards de paramètres, ce qui le rend exécutable localement sur la plupart des ordinateurs actuels. Ce modèle est disponible librement en open-source.
  • Mixtral-8x7B comprend l’Anglais, le Français, l’Allemand, l’Italien et l’Espagnol. Son architecture est appelée « mixture d’ experts ». Ce modèle est aussi disponible en open-source. mais vu sa taille, seules des machines spécialisées peuvent le faire fonctionner.
  • Mistral-medium : il s’agit d’une version améliorée de Mixtral-8x7B avec la même architecture de base. Mistral déclare que ses performances sont proches de GPT-4 et qu’il excelle dans les tâches de programmation. Ce modèle n’est pas disponible en open-source, il faut demander accès (payant) via l’interface de programmation Mistral.

L’ architecture de type Mixture of Experts utilisée par Mixtral-8x7B comprend 8 groupes distincts de paramètres, plus un bloc de supervision qui n’ active que les deux groupes les plus pertinents lors du passage à travers chaque couche du modèle, puis les recombine ensuite. Cette approche innovante permet au modèle, qui compte 46,7 milliards de paramètres, de n’ exiger « que » la puissance de calcul d’ un modèle de 13 milliards de paramètres. La génération est donc accélérée d’ un facteur 3,5 environ. On soupçonne d’ ailleurs que GPT-4 -dont l’architecture n’ a pas été publiée- utilise lui aussi un modèle de ce type, les rumeurs faisant état de 8 experts de 220 milliards de paramètres chacun (soit 1,7 trillions de paramètres au total).

Une grande partie de l’ engouement pour Mistral provient de la performance de ces modèles par rapport à leur taille. Vous pouvez voir que Mixtral-8x7B est très bien positionné dans le classement réalisé par HuggingFace :

Figure 1 : Classement des LLM selon HuggingFace Chatbot Arena Leaderboard

J’expliquerai dans un prochain article comment faire fonctionner des modèles localement, mais en attendant, vous pouvez essayer les trois modèles de Mistral sur l’ interface web de Perplexity.ai accessible ici.

Il vous suffit de choisir le modèle désiré via le menu déroulant dans le coin inférieur droit (qui permet aussi de choisir d’ autres modèles, les noms débutant par pplx correspondent à ceux développés par Perplexity.ai).

Une intelligence artificielle pour structurer vos argumentations selon le principe pyramidal !

Je viens de publier mon premier agent IA conversationnel utilisant l’infrastructure GPTx d’OpenAI. Cet agent restructure vos arguments selon le principe pyramidal McKinsey.

L’agent est accessible ici, pour les personnes qui possèdent l’abonnement chatGPT+ : https://chat.openai.com/g/g-fauQ9MuEQ-pyramidal

L’ utilisation du modèle est simple: vous lui soumettez un texte contenant une argumentation et le modèle vous renvoie une version remaniée du texte respectant le principe pyramidal. Le modèle est multilingue; il vous répondra dans la même langue que celle de votre texte original.

Quelques mots sur le principe pyramidal

Le principe pyramidal, initialement développé par le Dr Barbara Minto de McKinsey, est une technique rédactionnelle avancée applicable à de nombreux formats de texte : présentations, documents, lettres et emails…La méthode est aujourd’hui utilisée par les plus grands cabinets de conseil en management à travers le monde pour rédiger des rapports d’audit et concevoir des présentations.

Figure 1 : structure logique du principe pyramidal

La méthode fait appel aux arbres logiques ou arbres d’argumentation pour organiser par écrit un raisonnement. À la base, le principe de la pyramide préconise une approche descendante, dans laquelle le message ou l’idée principale est présentée en premier, suivi des arguments à l’appui, puis des détails.

Ce principe est une des rares techniques qui s’attache davantage à la structure de l’argumentation, c’est-à-dire au fond et au déroulement d’un discours, plutôt qu’à sa forme.

Pour construire la pyramide, les arguments sont regroupés et hiérarchisés par niveaux d’abstraction.

Le principe pyramidal obéit à trois règles fondamentales :

  1. Le document ou la présentation doit être introduit en suivant un schéma narratif précis : Situation, Complication, Question et Réponse;
  2. les idées à un niveau N représentent le développement (l’argumentation) de l’idée de synthèse au niveau N+1, et inversement, une idée à un niveau N est la synthèse (l’abstraction) des idées développées au niveau N-1.;
  3. Un argument peut être présenté de deux manières, soit en opérant une déduction (raisonnement), soit par induction (analogie).

Il me semble évident que ce genre d’application de reformatage textuel intelligent utilise de manière optimale les modèles de langage : il exploite au mieux leurs indéniables compétences stylistiques tout en mitigeant les risques liés à la génération de contenu incorrect (hallucinations), la quasi-totalité du contenu se trouvant déjà présente dans le texte à reformater.

J’ ai entendu parler la première fois du principe pyramidal il y a presque 25 ans lorsque je préparais une interview pour rejoindre le cabinet de consultance Roland Berger et j’ai été tellement séduit par l’approche que je l’ai utilisé tout au long de ma vie professionnelle; cela m’a souvent aidé à faire la différence et à mieux convaincre mes interlocuteurs.

Je suis intimement convaincu que les agents IA représenteront un des événements majeurs de 2024. OpenAI prévoit d’ouvrir son « Agent store » début 2024 et ceci représente ma première tentative d’exploitation pratique de ce nouveau mécanisme.

Je vous en souhaite une bonne utilisation.

A bientôt !

Arnaud

Un point sur la réglementation européenne des modèles génératifs

Vous l’ aurez probablement lu ou entendu dans les médias ces derniers jours : les Institutions Européennes ont trouvé un accord sur la future réglementation de l’ Intelligence Artificielle ce vendredi 8 décembre. C’ est le fameux European Artificial Intelligence Act dont j’ avais déjà esquissé les grandes lignes dans un article précédent.

A l’ époque, je n’ avais pas parlé de la réglementation des modèles généralistes car ce point restait en discussion. Il est maintenant temps de pallier à cette omission.

Ce qui suit se base sur les informations disponibles 48 heures après l’ accord. Le texte détaillé de l’ accord n’est pas encore connu; il devrait être publié avant le 22 janvier, date du premier comité parlementaire à son sujet. Mon but n’ est cependant pas d’ aller dans le détail mais juste de vous donner un aperçu de l’ approche retenue.

1. Pourquoi l’ IA généraliste complique la réglementation

Les modèles IA généralistes sont apparus il y a quelques années. On les définit en fonction de la modalité qu’ ils traitent (texte, image, vidéo, 3D...) et de leur nature discriminative ou générative.

Ces modèles se caractérisent par un large spectre d’ applications, et leur grand avantage est de pouvoir être affinés pour réaliser avec précision un tâche spécialisée. Cet affinage peut être réalisé par une autre entreprise disposant de moyens bien inférieurs à ceux nécessaires à l’ entraînement du modèle de base. Un modèle textuel génératif comme GPT3 peut donc être adapté pour réaliser différentes tâches dans différents secteurs (par exemple des chatbots pour du service à la clientèle).

Figure 1 : l’ IA généraliste, aspects discriminatifs et génératifs

Dès lors, la chaîne de valeur de l’ IA généraliste peut mettre en jeu plusieurs acteurs : un acteur en amont qui développe un modèle généraliste puissant et le met à disposition d’ acteurs en aval qui vont affiner et exploiter le modèle pour le mettre à leur tour sur le marché à destination des utilisateurs finaux.

Cette multiplication des acteurs ne s’ intègre pas bien dans la logique de l’ EU AI Act qui se base sur le risque pour l’ utilisateur final. Cette logique est appropriée pour une application IA développée par une organisation dans un but spécifique, mais si l’ on applique cette logique à l’ IA généraliste seuls les acteurs en aval seront directement sujets à la réglementation. La réglementation de l’ acteur en amont ne se fera qu’ indirectement par « percolation » des exigences posées sur les acteurs en aval. Pas très équilibré si vous êtes une petite start-up qui exploite un modèle développé par Google ou OpenAI… et vu le rôle techniquement central de l’ acteur amont, les risques ne sont pas réglementés à leur source.

Figure 2 : Les acteurs de l’IA généraliste

Il a donc fallu définir une réglementation différente pour l’ IA généraliste. Celle-ci va s’ appliquer spécifiquement à l’ acteur amont. Ceci ne dédouane pas entièrement l’ acteur aval qui reste soumis aux contraintes réglementaires basées sur le risque utilisateur, mais ce dernier peut au moins se reposer sur la conformité du modèle généraliste sur lequel il se base.

2. Réglementation de l’ IA généraliste

Cette réglementation fait la distinction entre deux catégories de modèles sur base de leur puissance : les modèles les plus capables sont appelés « systémiques » par opposition aux autres.

Tous les modèles généralistes sont soumis à des exigences de transparence : ils doivent documenter en détail l’architecture du modèle ainsi que le jeu de données qui a servi à son entraînement, et confirmer le respect des droits d’auteur. Le contenu généré par un modèle génératif devra être reconnaissable comme tel.

De plus, les modèles considérés « systémiques » vont êtres soumis à des exigences supplémentaires : leurs créateurs devront mener à bien des évaluations du modèle, démontrer comment ils gèrent et mitigent les risques, notifier les autorités en cas d’ incident et démontrer leur résilience face aux cyberattaques.

Les modèles généralistes open-source bénéficieront d’ une réglementation allégée (au moins pour les non-systémiques), mais la nature de cet allègement n’ est pas encore claire.

Toutes ces exigences seront détaillées et précisées à travers des standards européens harmonisés qui seront établis par des organismes comme le comité IA du CEN/CENELEC, une fois l’ Acte voté.

3. Notes et références

Les modèles de langage open-source

Les modèles de langage sont des systèmes d’ intelligence artificielle qui utilisent des volumes massifs de données textuelles collectés sur internet pour générer du texte, faire des traductions, interagir avec l’ utilisateur ou encore générer toutes sortes de contenus originaux.

Ces modèles peuvent être classés en deux grandes catégories, les modèles propriétaires et les modèles open-source. Cette distinction va avoir d’ importantes conséquences sur les possibiités d’ utilisation du modèle.

Les modèles dont j’ ai principalement parlé jusqu’ici –ChatGPT, Bard, Bing, Claude…- sont des modèles propriétaires : ils sont la propriété d’ une firme et peuvent uniquement être exploités selon les conditions décrites dans la licence d’exploitation. Cette license peut ou non être payante. Et à ce jour aucun des modèles propriétaires n’ est exploitable localement : vous devez utiliser une interface (web ou logicielle) pour interroger le modèle à distance.

L’ approche open-source est différente. Elle met à disposition du public l’ ensemble du modèle. L’ utilisateur peut donc l’ exploiter, le modifier et l’ améliorer à sa guise. Comme le concept de l’ open-source est très répandu dans le mode de l’ informatique et bien antérieur aux modèles de langage, j’ ai pensé qu’ il serait intéressant de commencer par en dire un peu plus à ce sujet.

1. Qu’est-ce que l’ open-source ?

Les débuts du mouvement open-source sont intimement liés au système d’ exploitation UNIX. Les développeurs originaux du système UNIX dans les années 1970 avaient pour habitude de partager les codes source. Lorsque certaines firmes ont décidé de commercialiser le code sous forme propriétaire pendant les années 1980, un mouvement de dissidence est né pour créer une version « ouverte » du système d’ exploitation. Une fois l’ approche formalisée, le mouvement open-source s’ est progressivement étendu et a prospéré jusqu’ à aujourd’ hui. On lui doit notamment le système d’ exploitation Linux et bien d’ autres logiciels et outils bien connus comme le langage Python.

Le mouvement open-source a donc été initié par des programmeurs qui rejetaient le modèle fermé et centralisé du développement de logiciels propriétaires. Dans ces derniers, seul le code exécutable est publié, alors que le code source est tenu secret afin d’ éviter la concurrence.

Le mouvement open-source rejette cette pratique : la totalité du code source est publié sous une licence qui permet la libre distribution, l’exploitation (commerciale ou non) et la modification du code. En contrepartie, l’ utilisateur s’ engage essentiellement sur deux points : ne pas tenter de s’ approprier le code mis à disposition et accepter ce dernier « en l’état » sans garantie ou recours en cas de dysfonctionnement. Certaines licenses open-source sont plus restrictives et obligent également l’utilisateur à publier tout programme dérivé également sous license open-source; on parle alors de licence réciproque ou copyleft.

Revenons maintenant aux modèles de langage…

2. Situation des modèles de langage open-source

Les premiers modèles de langage open-source étaient considérés comme nettement inférieurs aux modèles propriétaires. La situation a changé cette année, notamment suite aux activités de Meta qui a successivement publié les modèles LlaMA et LlaMA 2.

Les circonstances de la publication de LlaMA en février 2023 sont assez cocasses. Meta a initialement publié le code du modèle en open-source, mais pas les paramètres du modèle -sans lesquels ce dernier est inutilisable-. Les paramètres étaient uniquement fournis à des fins de recherche au cas par cas, sans possibilité d’ exploitation commerciale. Il n’ a pas fallu plus d’ une semaine pour que ces paramètres fuitent et se retrouvent disponibles au public par téléchargement…

Cette fuite a donné un coup d’accélérateur au développement de modèles de langage open-source : des modèles dérivés de LlaMA par affinage comme Vicuna et Alpaca ont été publiés quelques semaines plus tard, ainsi que la librairie GPT4ALL qui permet de faire facilement fonctionner ces modèles sur un ordinateur personnel. Cependant la légalité de ces modèles dérivés, reposant sur une fuite, était floue et ne permettait en pratique que la recherche à l’ exclusion de toute exploitation commerciale.

Meta n’ a pas voulu réitérer l’ expérience : le modèle suivant LlaMA 2 , publié en juillet 2023, est disponible sous une licence open-source et permet donc l’ exploitation commerciale par des tiers.

Et entretemps, d’ autres modèles open-source exploitables commercialement ont été développés comme MPT de MosaicML, Falcon ou encore Mistral, et de nouveaux modèles sont régulièrement publiés. La figure 1 montre une tentative de taxonomie des différents modèles. Les modèles open-source sont repris sur fond grisé.

Figure 1 : Taxonomie des modèles de langage (Auteur : Jinfeng Yang & al)

Un bémol cependant : certains modèles comme LlaMA 2 ou Falcon ne sont pas totalement open-source et leur exploitation commerciale n’ est possible que moyennant certaines limitations. Ces limitations -peu contraignantes en pratique- sont généralement de nature à empêcher la concurrence avec le développeur ou visent à interdire les utilisations illégales ou dangereuses. Par exemple, LlaMA 2 ne peut pas être exploité par les entreprises comptant plus de 700 millions d’utilisateurs (!) ni pour améliorer un autre modèle de langage. Comme toujours, vérifiez les termes précis de la licence avec un juriste avant, pour ne pas avoir d’ ennuis après.

Les modèles open-source sont maintenant très performants et les meilleurs d’entre eux se classent juste en-dessous des meilleurs modèles propriétaires, comme vous pouvez le voir sur Chatbot arena.

Il est fort possible que les modèles open-source comblent l’ écart avec les modèles propriétaires au cours des 12 à 18 prochains mois: Meta travaille sur Llama 3 qui devrait être multimodal et a déclaré qu’ il sera publié en open-source, tandis que l’affinage permet de créer des modèles spécialisés qui peuvent rivaliser avec un modèle propriétaire généraliste dans un domaine particulier tout en étant moins gourmands en puissance de calcul.

3. Avantages

Les avantages des modèles open-source pour l’utilisateur sont de trois ordres :

  • Coût d’exploitation : l’ utilisation d’ un modèle open-source est en général beaucoup moins onéreuse que celle d’ un modèle propriétaire vu l’ absence de frais de licence. En contrepartie, des frais d’ infrastructure -serveur local ou dans le cloud- et un investissement initial de mise en place seront nécessaire. L’ économie se réalisera donc plutôt à moyen terme.
  • Flexibilité : les modèles open-source peuvent être affinés pour mieux répondre aux besoins de l’ utilisateur. Concrètement, affiner correspond à étendre l’ entraînement du modèle sur un ensemble de données textuelles que vous fournissez et qui correspond à vos cas d’ utilisation.
  • Confidentialité : le modèle se trouvant dans l’ infrastructure de l’exploitant, les risques liés à l’échange de données avec une autre organisation souvent située outre-Atlantique disparaissent.

Un chose à souligner est que l’ affinage, si vous y recourez, est beaucoup moins exigeant en puissance de calcul que l’ entraînement intial du modèle (et donc en termes de coûts). L’ entreprise qui met le modèle à disposition a déjà supporté la toute grande majorité des coûts d’ entraînement.

En contrepartie, il y aura une activité technique initiale pour installer le modèle, le faire fonctionner et l’intégrer dans votre infrastructure (plus l’ affinage du modèle si vous choisissez de le faire).

4. Références

Une vidéo particulièrement intéressante sur les modèles de langage

Je vous invite de tout coeur à visionner la vidéo suivante publiée cette semaine par Andrej Karpathy sur Youtube. Andrej Karpathy est un des chercheurs les plus en pointe en IA. Il est un des cofondateurs d’ OpenAI et combine l’ excellence technique avec un remarquable talent pédagogique.

La vidéo fait le tour du fonctionnement et des perspectives des modèles de langage. Le niveau est plus technique que celui de mes articles habituels tout en restant très accessible.

Dans la vidéo, Andrej Karpathy explique successivement :

  • comment les modèles de langage génèrent le texte;
  • l’ entraînement des modèles de langage;
  • le principe de fonctionnement des modèles de langage;
  • le passage d’ un modèle généraliste à un modèle conversationnel;
  • les agents : utilisation d’ outils par les modèles de langage;
  • le futur des modèles de langage : multimodalité, raisonnement, auto-amélioration;
  • le modèle de langage comme futur système d’ exploitation;
  • risques et failles de sécurité spécifiques aux modèles de langage.

Vous pouvez visionner la vidéo ici :

J’ en profite aussi pour vous rappeler la liste des chercheurs en IA à suivre sur X/twitter (dont Andrej Karpathy fait évidemment partie), que j’ avais publié dans un article précédent que vous pourrez consulter ici.

Quelques mots au sujet de la réglementation européenne sur l’ Intelligence Artificielle

L’ idée de cet article est de vous fournir un aperçu et quelques pistes de réflexion sur l’ état de la législation européenne sur l’ Intelligence Artificielle.

En effet, l’ European Union Artificial Intelligence Act, pour l’appeler par son nom, est actuellement en discussion avancée auprès des Institutions Européennes. L’ objectif est de finaliser le texte pour la fin de l’ année 2023 afin de le faire voter par le Parlement Européen avant les prochaines élections européennes de juin 2024. Il faudra ensuite encore au moins 18 mois pour mettre en place les structures et procédures d’ exécution. La loi deviendrait donc opérationnelle à partir de début 2026 au plus tôt.

La récente montée en puissance de l’ IA « généraliste » -qui englobe l’ IA générative- complique les choses car elle ne s’ intègre pas facilement dans le cadre réglementaire que je vais décrire ci-dessous; sa prise en compte dans l’ AI Act fait actuellement l’ objet d’ intenses tractations.

Afin de ne pas allonger trop cet article, je vais ici me concentrer sur le traitement de l’ IA « traditionnelle », et je couvrirai la problématique de l’IA généraliste dans le prochain article.

Je ne suis pas juriste et donc le texte qui suit ne saurait se substituer à l’avis éclairé d’un homme de l’ art; mais si je peux vous permettre de comprendre la situation d’ensemble et de poser les bonnes questions aux spécialistes en la matière j’ estimerai avoir atteint mon but.

1. Contexte

Le but de l’ EU AI Act est de réglementer de manière uniforme la vente et l’ utilisation de produits et services basés sur l’ IA dans l’ Union Européenne. Cette législation est potentiellement très importante car elle est la première au monde qui adresse explicitement les risques causés par l’ Intelligence Artificielle.

Elle vient complémenter les autres législations européennes qui réglementent l’ économie digitale : le RGPD, le Digital Services Act et le Digital Markets Act. Le RGPD couvre la protection des données personnelles des citoyens de l’ UE, le DMA empêche les grandes plateformes systémiques (Google, Apple, Meta, Microsoft… ) d’ abuser de leur position dominante, et le DSA réglemente les différents aspects de l’ offre de services en ligne comme par exemple la lutte contre les contenus illégaux.

Comme le RGPD, l’ EU AI Act aura très probablement un impact global car son champ d’action couvre non seulement tous les systèmes IA mis sur le marché dans l’ UE mais aussi tous les services en ligne mis à disposition des citoyens de l’ UE, indépendamment de la localisation des fournisseurs de services….

Trois domaines sont exclus du champ de la législation : les applications militaires, les systèmes IA développés dans un but de recherche scientifique et les modèles gratuits et/ou open-source.

2. Approche basée sur le risque

L’idée fondamentale de la législation est d’ évaluer chaque système IA en fonction du niveau de risque qu’ il fait courir aux utilisateurs; ceci donne lieu à un classement de l’ application parmi quatre catégories. Ces catégories vont déterminer le niveau de réglementation qui sera d’ application.

Ces catégories sont : risque inacceptable, risque élevé, risque limité et risque minimal. Assez logiquement, ce sont surtout les deux premières catégories qui font l’ objet des attentions de l’ AI Act.

Figure 1 : la pyramide des risques de l ‘AI Act

Cette approche est logique vu le but de protection des citoyens recherché. La loi est neutre au niveau technologique et réduit les contraintes sur les applications peu risquées afin de limiter autant que possible la charge administrative sur les développeurs.

Voyons maintenant chacune des catégories plus en détail.

3. Risque inacceptable

Ces applications sont considérées comme faisant courir un risque inacceptable aux utilisateurs et sont donc interdites par l’ AI Act.

La liste actuelle de ces applications comprend trois catégories de systèmes :

  • les systèmes qui manipulent les utilisateurs à travers des messages subliminaux ou en exploitant les vulnérabilités de certains groupes d’utilisateurs (comme les enfants);
  • les systèmes de crédit social, qui attribuent un score de fiabilité aux citoyens en fonction de leur comportement social;
  • les systèmes d’identification biométrique en temps réel dans les espaces publics (notamment la reconnaissance faciale).

Certaines dérogations sont en discussion, comme l’ identification biométrique en cas de suspicion de crime grave ou de recherche de mineurs disparus.

La mention des systèmes de crédit social me semble curieuse car elle ne nécessite pas en soi de l’ IA pour être mise en place. Il me semble qu’ il s’ agit surtout d’une réaction au projet chinois en ce sens et de s’ assurer qu’ aucun pays européen n’ a la mauvaise idée de les imiter.

4. Risque élevé

C’ est la catégorie-clé de l’ EU AI Act.

Les applications IA sont considérées comme présentant un risque élevé si une des deux conditions suivantes est réunie :

  • l’ IA est intégrée dans un produit qui est lui-même soumis à une réglementation existante en matière de sécurité. C’ est par exemple le cas des automobiles, des avions, des jouets, des équipements médicaux ou encore des ascenseurs.
  • l’IA est exploitée pour remplir une tâche sensible dans un des huit domaines ci-dessous :
    • les systèmes d’identification biométrique qui ne constituent pas un risque inacceptable;
    • la gestion des infrastructures critiques : route, chemin de fer, eau, gaz, électricité…;
    • l’ éducation et l’apprentissage professionnel;
    • l’ emploi et la gestion des travailleurs;
    • l’ accès aux services publics essentiels : logement, aide sociale, soins de santé…;
    • la police;
    • le contrôle aux frontières, la migration et l’ asile;
    • la justice et les processus démocratiques (élections etc…).

La définition précise de ce qui constitue une tâche sensible est toujours en discussion, mais l’ idée est de se concentrer sur les tâches qui jouent un rôle dans la prise de décision.

Ces systèmes à haut risque seront soumis à un processus d’ évaluation au cours duquel ils devront démontrer que toutes les mesures possibles ont été prises pour assurer leur fiabilité et leur sécurité. Après la mise sur le marché, les exploitants devront mettre en place un mécanisme de supervision et de suivi des incidents sérieux qui devront être notifiés aux autorités.

Vous remarquerez que les soins de santé ne sont pas repris dans la liste, ce qui peut surprendre. La raison est que ce secteur est déjà largement couvert par des législations spécifiques de sécurité, c’est donc la première condition mentionnée ci-dessus qui va s’appliquer.

5. Risque limité

Les applications à risque limité sont typiquement celles dans lesquelles l’ utilisateur interagit directement avec une IA mais sans tomber dans le champ des risques élevés (ou inacceptables) définis ci-dessus.

Dans ce cas, l’exploitant est uniquement soumis à une obligation de transparence : il doit informer l’ utilisateur qu’ il interagit avec une IA afin d’ éviter toute manipulation et lui permettre de choisir de continuer ou non l’interaction.

Cette catégorie inclut les systèmes de chatbot, les générateurs d’images, d’audio et/ou de vidéo de synthèse, ainsi que les générateurs de deepfakes.

6. Risque minimal

Ces applications utilisent l’ IA dans une fonction qui ne pose aucun risque pratique pour l’utilisateur, comme des jeux vidéo ou des filtres anti-spam.

Elles ne sont soumise à aucune contrainte spécifique par l’ AI Act.

La grande majorité des systèmes IA actuels entre dans cette dernière catégorie.

7. Conclusions

La législation n’est pas encore votée donc des évolutions auront encore lieu, et il sera très intéressant de voir quels compromis seront adoptés dans la version finale. Mais la pierre d’ achoppement principale est sans conteste la réglementation de l’ IA généraliste, dont je reparlerai.

Une autre partie importante des discussions en cours porte sur les mécanismes de mise en oeuvre, et ces derniers sont absolument cruciaux. Il ne suffit pas de faire voter un beau texte pour changer le cours des choses; il faut aussi que les provisions de la loi soient implémentables et exécutables, faute de quoi l’ AI Act restera lettre morte dans la pratique.

Sources et références

« Older posts Newer posts »