Rendre l' IA accessible à tous

Mois : janvier 2024

IA générative et droits d’auteur : litiges en cours et perpectives

Dans mon article précédent, j’ ai exposé de manière générale les zones de friction entre l’ IA générative et les droits d’ auteur. Je voudrais maintenant compléter la discussion en présentant les deux principaux litiges en cours et discuter de perspectives plausibles d’évolution.

Ces deux litiges sont l’ action intentée par Getty Images contre Stability AI et celle intentée par le New York Times contre OpenAI et Microsoft. Le premier concerne les images et le second le texte.

Passons-les succinctement en revenue sans trop entrer dans le détail juridique (pour lequel je vous réfère aux threads en référence rédigés par des juristes spécialisés dans le domaine).

1. Le litige opposant Getty Images à Stability AI

Il s’ agit d’ un litige en cours depuis février 2023 à la fois aux Etats-Unis et au Royaume-Uni. Il oppose la bibliothèque d’ images en ligne Getty Images à Stability AI, développeur du générateur d’ images Stable Diffusion accessible ici. La justice britannique a décidé début décembre que la plainte de Getty Images était recevable et que le procès pouvait débuter.

Getty Image allège que Stability AI a copié sans permission plus de 12 millions d’ images lui appartenant pour l’ entraînement de ses modèles, dans le but de construire une offre concurrente, réclame 150.000 dollars d’ indemnité par image contrefaite générée….et que, cerise sur le gâteau, les images de Stability reprennent parfois en tout ou partie les filigranes de Getty Images comme dans l’ image de synthèse ci-dessous :

Figure 1 : Image de synthèse de Stability AI reprenant un filigrane de Getty Images (crédit : The Verge)

La position de Stability à ces allégations n’ est pas connue publiquement. Il est donc difficile de fournir une analyse équilibrée présentant les deux points de vue.

Un élément important du litige est le territoire sur lequel s’ est déroulé l’ entraînement et le développement du modèle, qui va déterminer la juridiction compétente (Royaume-Uni ou Etats-Unis). Mais sur quelle base se fera cette détermination ? le lieu de travail des spécialistes AI en charge de ces activités ? la localisation physique du serveur hébergeant les données ? Celui du calculateur réalisant l’ entraînement ? Ce n’est pas simple.

Comme pour enfoncer le clou, Getty Images a lancé en septembre son propre service d’ IA générative appelé « Generative AI by Getty Images », entraîné exclusivement sur sa propre bibliothèque d’images…

2. Le litige opposant le New York Times à OpenAI et Microsoft

Le journal américain The New York Times a intenté fin décembre un procès aux USA contre OpenAI et Microsoft. Il estime en effet qu’ il est floué par ces deux entreprises, qui ont abondamment utilisé ses textes pour entraîner les modèles à la base de chatGPT.

Si OpenAI a entraîné le modèle, Microsoft est présenté comme le complice qui a mis à disposition son infrastructure pour rendre l’ entraînement possible, et fournit de surcroît une version de GPT4 sous sa propre enseigne (Bing Chat) qui présenterait les mêmes infractions.

La citation inclut une centaine de textes d’ articles qui ont pu être restitués dans leur quasi-intégralité après un prompt qui reprend les premiers mots de l’article, comme dans l’ exemple ci-dessous (le texte en rouge est identique).

Figure 2 : Exemple de restitution « par coeur » d’un article du New York Times

La plainte fait aussi état de la forte représentation de textes issues du New York Times dans la base de données *Common Crawl*, qui a été utilisée pour entraîner GPT4 : le site du New York Times se retrouve en effet en quatrième position…

Figure 3 : Répartition des principales sources de données du Common Crawl

Selon le journal, la qualité de son contenu se retourne également contre lui car il pousse les développeurs de modèles génératifs à pondérer fortement le texte dont il est la source dans les données d’ entraînement.

Le journal insiste sur le coût financier et humain d’ un journalisme de qualité qui couvre les cinq continents et demande parfois de travailler dans des conditions difficiles, voire dangereuses. La citation du NY Times contraste le rôle sociétal essentiel du journalisme avec la motivation lucrative d’ OpenAI et de Microsoft, la valorisation boursière de cette dernière société ayant augmenté d’ un trillion (!) de dollars au cours de la seule année 2023.

Le journal déclare avoir cherché un accord financier amiable avec OpenAI pour leur permettre d’ exploiter leurs articles mais ces négociations ont échoué. En conséquence de quoi, le New York Times réclame -en plus des dommages- ni plus ni moins que la destruction de tous les modèles de langage qui ont été entraînés sur ses données sans autorisation (à commencer par les GPT d’OpenAI) !

La position d’OpenAI, que vous pourrez lire dans leur communiqué de presse en référence est la suivante :

  • L’entraînement de modèles génératifs peut exploiter des données soumises au droit d’auteur car cela relève du *fair use* (voir mon article précédent qui présente cette notion). De plus, OpenAI propose un mécanisme permettant aux auteurs qui ne désirent pas voir leur contenu utilisé pour l’entraînement de signaler leur refus (approche de type OPT-OUT);
  • La « régurgitation » (c’est leur terme) de contenus existants mot pour mot est un problème rare qu’ils essaient d’ éliminer. En effet, les programmes d’IA générative ne mémorisent en principe pas l’information mais la transforment de la même manière qu’ un être humain qui se forme à travers la lecture de textes pour générer ensuite des créations originales;
  • En outre, ces « régurgitations » proviennent principalement d’ articles anciens qui se sont trouvés recopiés sur de multiples sites au fil du temps ce qui a pu déséquilibrer l’ algorithme en leur faveur, la répétition leur accordant une pondération trop importante pouvant mener à la mémorisation « verbatim » et à la régurgitation;
  • Les négociations avec le NY Times pour l’ obtention d’ un accord de license avançaient de manière constructive jusqu’ au moment du lancement de l’ action en justice qui les a profondément surpris. L’ implication étant ici que le New York Times cherche par cette action judiciaire à faire pression sur OpenAI pour obtenir un accord plus favorable.

Voilà ce qu’ il en est. La plupart des commentateurs avisés pensent que ceci se terminera par une transaction amiable, ce qui est compatible avec les positions maximalistes des deux parties exprimées en public (interdiction d’un côté, « fair use » de l’autre), qui cherchent surtout à faire pression sur l’ adversaire.

Si vous voulez vous plonger dans une analyse juridique de ce litige, je vous suggère de lire les threads X de Jason Kint et Cecilia Ziniti, des spécialistes du domaine, repris en référence.

3. Quelques réflexions

Pour terminer, je voudrais mentionner deux scénarios possibles d’évolution à moyen terme sur ce sujet :

Un scénario « progressiste » verrait les auteurs publiant en ligne -mais désireux de protéger leurs droits- contraints d’ ajouter une référence d’ identification dans un format facilement lisible par une machine (métadonnées). Ceci serait contrebalancé par une double contrainte pour les développeurs de modèles génératifs IA :

  • devoir publier la liste de tous les auteurs et leurs textes/images repris dans les données d’entraînement;
  • permettre aux auteurs qui le désirent d’obtenir la suppression de leurs textes/images des données d’entraînement du modèle.

Cette approche est pragmatique : elle respecter les intérêts de chacun moyennant des efforts raisonnables de part et d’autre.

A l’ inverse, un scénario « conservateur » verrait un repli des détenteurs de droits sur leurs données propres et le développement de modèles génératifs fermés comme l’ a fait Getty Images. Seules les documents tombés dans le domaine public (et potentiellement ceux générés de manière synthétique) resteraient disponibles pour l’ entraînement sans contrainte…

4. Sources et références

Droits d’auteur et IA générative

Pour commencer l’année 2024, je voudrais vous parler de la situation actuelle des droits d’auteurs pour les modèles génératifs.

C’ est un sujet d’une actualité brûlante puisque deux litiges à ce sujet sont actuellement devant les tribunaux anglo-saxons : un premier litige oppose en Grande-Bretagne la bibliothèque d’ images Getty Images à Stability AI, une société qui fournit un modèle générateur d’ images. La seconde action en justice est intentée aux Etats-Unis par le New York Times contre OpenAI et Microsoft.

Dans cet article, je vais exposer la situation de manière générale. Je couvrirai plus précisément le litige entre le New York Times et OpenAI / Microsoft dans le prochain article, et je tenterai aussi de mentionner quelques pistes d’ évolution possibles.

Comme nous allons le voir, l’ impact potentiel pour le secteur de l’ IA générative et de ses utilisateurs est grand. Je voudrais vous encourager à parcourir le texte qui suit. Il peut sembler aride et pointilleux au premier abord mais l’ enjeu en vaut la chandelle.

Disclaimer : je ne suis pas juriste et donc ce qui suit n’a pas valeur d’avis juridique.

Cette réserve étant émise, allons-y…

1. Quelques notions de droits d’auteur

Le droit d’auteur confère à l’auteur d’une activité créatrice un monopole sur les revenus résultant de l’exploitation économique de l’oeuvre. En pratique, ces revenus découlent de la réalisation de reproductions de l’oeuvre et de sa communication au public, qui ne peuvent pas être réalisées sans l’ autorisation préalable de l’auteur (en général contre rétribution). Le droit d’auteur confère aussi à l’auteur des droits moraux sur l’oeuvre, comme sa paternité, mais ceci sort du cadre de cette discussion.

Ce droit d’ exploitation est limité dans le temps, à savoir 70 ans après la mort de l’ auteur pour la Belgique; l’ oeuvre passe ensuite dans le domaine public, ce qui signifie qu’ elle peut alors être exploitée économiquement sans contrainte.

Le terme d’ activité créatrice est assez large et reprend non seulement les créations artistiques littéraires, photographiques, musicales, sonores, audiovisuelles, mais aussi les logiciels informatiques et les créations d’ art appliqué (vêtements, meubles, plans d’architecte, objets, graphismes, bijoux…).

Par contre, un texte législatif ou administratif, une image satellite ou une peinture réalisée par un singe ne sont pas considérés comme des créations de l’ esprit humain. Une invention technique n’ est pas non plus protégable par le droit d’ auteur mais peut être protégée par brevet.

Enfin, certaines dérogations au droit d’auteur sont acceptées parce qu’ elles ne portent pas atteinte à l’ exploitation normale de l’oeuvre tout en servant l’ intérêt général. Par exemple, la présentation d’ extraits d’ oeuvres à des fins éducatives dans l’ enseignement ou d’ information par les médias sont autorisés, tout comme les utilisations à des fins de recherche académique.

Regroupées sons le vocable anglo-saxon de fair use ces exceptions sont importantes car elles interviendront dans la discussion relative à l’IA. Entraîner un modèle génératif sur des données soumises au droit d’auteur relève-til du fair use ? C’est une question complexe, au coeur du litige entre OpenAI et le New York Times.

Ceci étant dit, voyons maintenant les points de frictions entre modèles génératifs et droits d’ auteur. Il y a deux problèmes principaux, le problème de l’ entraînement (amont) et celui de la génération (aval), ainsi qu’un troisième problème connexe, celui de la création artificielle. Passons-les successivement en revue.

2. Le problème amont : l’ entraînement des modèles

Le problème de l’ entraînement est simple à comprendre : les modèles génératifs ont besoin d’ un volume de données digitales prodigieux pour leur entraînement. Ces données sont issues de copies de l’ ensemble d’ Internet réalisées au fil du temps par des programmes qui ont siphonné toutes les données publiquement accessibles qu’ ils pouvaient trouver : réseaux sociaux, engins de recherche, librairies digitales, journaux, banques de données statistiques, blogs, encyclopédies etc….

Ces données sont consolidées dans d’ immenses agrégats dont le plus connu est le Common Crawl, accessible ici.

Cependant, « publiquement accessible » sur Internet ne signifie aucunement que l’ auteur confère un quelconque droit à l’ utilisateur au-delà de la simple consultation en ligne. Et donc pas d’ autorisation implicite d’ entraîner un modèle IA…

Pour aggraver les choses, ce problème est quasi-universel. A l’ exception d’ une petite minorité de textes relevant du domaine public et des quelques textes générés par IA dont le statut est actuellement flou, pratiquement tout le reste tombe automatiquement sous le régime des droits d’ auteur.

Si le problème est simple à comprendre, force est de constater que sa résolution est dantesque : l’ ensemble d’ Internet cela veut dire des millions, voire des dizaines de millions d’ auteurs concernés, des textes dont la paternité est souvent difficile à attribuer, pour lesquels il faudrait obtenir l’ accord préalable du détenteur des droits…

C’ est pourquoi les grands acteurs du secteur (OpenAI et autres) ont cherché à court-circuiter le problème en déclarant que l’ entraînement des modèles relève du fair use et ne nécessite donc pas l’ accord préalable des détenteurs de droits.

L’ argument principal des géants de l’ IA est que les algorithmes de génération ingurgitent tellement de données d’ auteurs différents et les transforment à tel point que les droit individuels des auteurs ne sont pas impactés. Ils invoquent aussi le fait qu’ au plus l’ accès aux données est large, aux meilleurs les modèles seront, et que leur interdire cet accès correspond à un arrêt de mort pour une industrie symbolique du progrès et qui pourra apporter énormément à la société dans le futur.

Les auteurs rétorquent que les algorithmes exploitent abusivement leurs créations dans un but lucratif et susceptible de porter atteinte à leurs droits d’ exploitation. Ils mettent en avant des exemples de réalisations IA très proches voire identiques de leurs propres oeuvres…

Mon intuition de profane est que les arguments techniques du secteur IA sont valides (caractère transformatif et volume des données d’entraînement), mais l’argument de l’utilité publique est spécieux et sert de paravent aux buts lucratifs des acteurs de l’ IA générative…

La question des droits sur les données d’entraînement est cruciale pour l’ ensemble de l’ industrie de l’ IA, largement basée sur des algorithmes d’apprentissage machine gourmands en données de tout type, même si l’ IA générative (principalement images et texte) cristallise le problème vu la concurrence potentielle avec les auteurs.

Cependant, même si les développeurs obtiennent d’ une manière ou d’ une autre la permission d’ utiliser les données couvertes par droit d’ auteur pour l’ entraînement des modèles, cela ne signifie pas nécessairement que les utilisateurs sont libres de produire et diffuser leurs générations comme ils l’ entendent….ce qui nous amène au problème aval.

3. Le problème aval : la génération

Le problème de la génération est le suivant : si un utilisateur utilise un programme IA pour produire une image (ou un texte) qui est substantiellement similaire à une oeuvre protégée, qui est le responsable de la contrefaçon (plagiat) potentielle ?

Est-ce la société qui a produit l’ outil IA ? L’ utilisateur qui a guidé l’ outil dans la génération ? Celui qui a diffusé l’ image ? La plateforme qui a servi à la diffusion de l’ image ?

Il est utile de savoir que les sociétés qui mettent les modèles à disposition ont tendance à repousser cette responsabilité sur l’ utilisateur dans leurs condition d’ utilisation: leur position est que l’utilisateur pilote l’ outil via le prompt et est responsable de ce qu’ il génère et de l’ utilisation qu’ il en fait ensuite.

Et le risque est réel. Il arrive aux modèles d’image et de langage de reproduire des images ou des textes similaires à ce qui se trouvait dans leur données d’ entraînement.

Complication majeure, ceci est possible non seulement si l’ utilisateur le demande mais également sans que l’utilisateur en ait fait la demande explicite .Il est par exemple possible de recréer des images de personnages ou véhicules de Star Wars sans que ces termes apparaissent dans le prompt. Il en va de même pour les textes générés par le New York Times dans le litige qui l’ oppose à OpenAI : le journal a réussi à reproduire des copies presque exactes de certains de ses articles sans que le nom du journal apparaisse dans le prompt.

En tout état de cause, cela affaiblit la position de Ponce Pilate des développeurs de modèles : difficile de rejeter la responsabilité sur l’ utilisateur du modèle si le modèle crée des contrefaçons à l’ insu de ce dernier…la question des responsabilités respectives ne sera pas facile à trancher.

Si vous désirez comprendre cette question plus en détail, je vous réfère à l’excellent article de Gary Marcus et Reid Soutern publié il y a quelques jours dans IEEE Spectrum, et accessible ici.

Quoi qu’il en soit, le problème de la génération est tributaire de la résolution du problème de l’ entraînement. La meilleure issue serait que les développeurs de modèle trouvent un accord (pécunier) avec les auteurs qui permettrait à la fois l’entraînement ET la génération sans contrainte, faisant d’une pierre deux coups.

Par contre, si la résolution de la question de l’ entraînement se fait au détriment des auteurs – par exemple, si la justice tranche en faveur du fair use -, le risque est grand que ces derniers se retournent contre les images générées par les utilisateurs pour faire valoir leurs droits, déplaçant le coeur du litige de l’entraînement vers la génération.

4. La création artificielle

Comme on l’a vu plus haut, le droit d’auteur actuel implique la création par un être humain. Mais pour la première fois, une activité créative non humaine devient possible. La génération par l’ IA introduit donc une autre question juridique : oublions un instant les droits des auteurs existants et imaginons une création artificielle tout à fait originale. Cette oeuvre mérite-t’ elle à son tour une protection relevant d’une forme de droit d’ auteur ?

Et si une future législation devait attribuer un droit d’auteur, à qui reviendrait-il ? le propriétaire du modèle ou l’utilisateur, voire peut-être un jour à l’ IA elle-même ?

Enfin, il faudra peut-être distinguer la création artificielle entièrement autonome de celle où l’ humain continue à jouer un rôle de pilote, par exemple via un prompt, assisté par une IA réduite à un rôle d’ outil génératif…

La question de la création artificielle est importante sur le principe, mais sa résolution est moins urgente que les deux autres. Il est donc probable que cette question reste ouverte pendant quelque temps.

5. Réflexions

Le droit d’auteur est très ancien. Au cours de son histoire, il s’est régulièrement retrouvé en conflit avec le progrès technologique. Imaginez la réaction des peintres du XIX siècle confrontés aux premières photographies ou celle des auteurs de romans face aux premières photocopieuses dans les années 1970, sans parler des cassettes audio et des magnétoscopes VHS dans les années 1980…le droit d’auteur a évolué au fil du temps sans toutefois cesser de jouer son rôle protecteur pour les créateurs. L’avènement des modèles génératifs n’est que la dernière péripétie de cette co-évolution.

Un dénouement radical -quoique improbable- serait l’interdiction pure et simple des modèles génératifs. Un scénario analogue a eu lieu en 2001 avec l’interdiction de Napster suite à une procédure initiée par le groupe Metallica. Napster permettait aux utilisateurs de télécharger des morceaux de musique gratuitement indépendamment des droits d’auteur applicables, une transgression certes plus directe que celle reprochée aux modèles génératifs! Néanmoins, elle rappelle que la technologie n’ a pas toujours gain de cause dans sa remise en cause des droits d’auteur.

Il est aussi intéressant de noter que l’ European AI Act ne traite des droits d’auteurs que de manière indirecte, en demandant aux développeurs de modèles génératifs de spécifier quelle oeuvres soumises aux droits d’ auteur ont été utilisées pour l’ entraînement du modèle. Ce n’ est pas illogique car les droits d’ auteur sont soumis à un ensemble de directives européennes séparées et les clarifications essentielles apparaîtront probablement lors d’ une future itération de ces dernières.

Il est d’ ailleurs fort possible que différentes juridictions adoptent des approches différentes. Rien ne permet d’affirmer que que les Etats-Unis et l’ Europe suivront la même logique, d’autant que le risque de capture réglementaire n’est pas exclu au vu des moyens financiers des acteurs privés en présence. Le Japon a déjà pris une initiative dans le domaine, autorisant l’ entraînement de modèles génératifs sur des données sujettes aux droits d’ auteur (moyennant certaines limitations).

Et enfin, une ultime complication : quid des modèles génératifs open-source ? Est-il possible d’ organiser une éventuelle rétribution des auteurs en l’absence de flux financiers des utilisateurs vers les développeurs de modèle ? Ces modèles devront-ils se contenter de données du domaine public, voire synthétiques pour leur entraînement ? Ou bien vont-ils disparaître ? Comme vous le voyez, il y a matière à réfléchir, et les questions sont à la fois d’ ordre technique, juridique et financier.

6. Sources et références