{"id":1069,"date":"2024-01-24T09:57:43","date_gmt":"2024-01-24T08:57:43","guid":{"rendered":"https:\/\/artificiellementintelligent.wordpress.com\/?p=1069"},"modified":"2024-01-24T09:57:43","modified_gmt":"2024-01-24T08:57:43","slug":"ia-generative-et-droits-dauteur-litiges-en-cours-et-perpectives","status":"publish","type":"post","link":"https:\/\/artificiellementintelligent.eu\/index.php\/2024\/01\/24\/ia-generative-et-droits-dauteur-litiges-en-cours-et-perpectives\/","title":{"rendered":"IA g\u00e9n\u00e9rative et droits d&rsquo;auteur : litiges en cours et perpectives"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Dans mon article pr\u00e9c\u00e9dent, j&rsquo; ai expos\u00e9 de mani\u00e8re g\u00e9n\u00e9rale les zones de friction entre l&rsquo; IA g\u00e9n\u00e9rative et les droits d&rsquo; auteur. Je voudrais maintenant compl\u00e9ter la discussion en pr\u00e9sentant les deux principaux litiges en cours et discuter de perspectives plausibles d&rsquo;\u00e9volution.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Ces deux litiges sont l&rsquo; action intent\u00e9e par <em>Getty Images<\/em> contre <em>Stability AI<\/em> et celle intent\u00e9e par le <em>New York Times<\/em> contre <em>OpenAI<\/em> et <em>Microsoft<\/em>. Le premier concerne les images et le second le texte.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Passons-les succinctement en revenue sans trop entrer dans le d\u00e9tail juridique (pour lequel je vous r\u00e9f\u00e8re aux threads en r\u00e9f\u00e9rence r\u00e9dig\u00e9s par des juristes sp\u00e9cialis\u00e9s dans le domaine).<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">1. Le litige opposant Getty Images \u00e0 Stability AI<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Il s&rsquo; agit d&rsquo; un litige en cours depuis f\u00e9vrier 2023 \u00e0 la fois aux Etats-Unis et au Royaume-Uni. Il oppose la biblioth\u00e8que d&rsquo; images en ligne <a href=\"https:\/\/www.gettyimages.be\/\">Getty Images<\/a> \u00e0 <em>Stability AI<\/em>, d\u00e9veloppeur du g\u00e9n\u00e9rateur d&rsquo; images <em>Stable Diffusion<\/em> accessible <a href=\"https:\/\/stablediffusionweb.com\/\">ici<\/a>. La justice britannique a d\u00e9cid\u00e9 d\u00e9but d\u00e9cembre que la plainte de Getty Images \u00e9tait recevable et que le proc\u00e8s pouvait d\u00e9buter.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Getty Image all\u00e8ge que Stability AI a copi\u00e9 sans permission plus de 12 millions d&rsquo; images lui appartenant pour l&rsquo; entra\u00eenement de ses mod\u00e8les, dans le but de construire une offre concurrente, r\u00e9clame 150.000 dollars d&rsquo; indemnit\u00e9 par image contrefaite g\u00e9n\u00e9r\u00e9e&#8230;.et que, cerise sur le g\u00e2teau, les images de Stability reprennent parfois en tout ou partie les filigranes de Getty Images comme dans l&rsquo; image de synth\u00e8se ci-dessous :<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img decoding=\"async\" src=\"https:\/\/artificiellementintelligent.wordpress.com\/wp-content\/uploads\/2024\/01\/image-20240124a.webp\" alt=\"\" class=\"wp-image-1074\" \/><figcaption class=\"wp-element-caption\">Figure 1 : Image de synth\u00e8se de Stability AI reprenant un filigrane de Getty Images (cr\u00e9dit : The Verge)<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">La position de Stability \u00e0 ces all\u00e9gations n&rsquo; est pas connue publiquement. Il est donc difficile de fournir une analyse \u00e9quilibr\u00e9e pr\u00e9sentant les deux points de vue.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Un \u00e9l\u00e9ment important du litige est le territoire sur lequel s&rsquo; est d\u00e9roul\u00e9 l&rsquo; entra\u00eenement et le d\u00e9veloppement du mod\u00e8le, qui va d\u00e9terminer la juridiction comp\u00e9tente (Royaume-Uni ou Etats-Unis). Mais sur quelle base se fera cette d\u00e9termination ? le lieu de travail des sp\u00e9cialistes AI en charge de ces activit\u00e9s ? la localisation physique du serveur h\u00e9bergeant les donn\u00e9es ? Celui du calculateur r\u00e9alisant l&rsquo; entra\u00eenement ? Ce n&rsquo;est pas simple.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Comme pour enfoncer le clou, Getty Images a lanc\u00e9 en septembre son propre service d&rsquo; IA g\u00e9n\u00e9rative appel\u00e9 \u00ab\u00a0Generative AI by Getty Images\u00a0\u00bb, entra\u00een\u00e9 exclusivement sur sa propre biblioth\u00e8que d&rsquo;images&#8230;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">2. Le litige opposant le New York Times \u00e0 OpenAI et Microsoft<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Le journal am\u00e9ricain<em> The New York Times<\/em> a intent\u00e9 fin d\u00e9cembre un proc\u00e8s aux USA contre <em>OpenAI <\/em>et <em>Microsoft<\/em>. Il estime en effet qu&rsquo; il est flou\u00e9 par ces deux entreprises, qui ont abondamment utilis\u00e9 ses textes pour entra\u00eener les mod\u00e8les \u00e0 la base de chatGPT.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Si OpenAI a entra\u00een\u00e9 le mod\u00e8le, Microsoft est pr\u00e9sent\u00e9 comme le complice qui a mis \u00e0 disposition son infrastructure pour rendre l&rsquo; entra\u00eenement possible, et fournit de surcro\u00eet une version de GPT4 sous sa propre enseigne (Bing Chat) qui pr\u00e9senterait les m\u00eames infractions.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">La citation inclut une centaine de textes d&rsquo; articles qui ont pu \u00eatre restitu\u00e9s dans leur quasi-int\u00e9gralit\u00e9 apr\u00e8s un <em>prompt<\/em> qui reprend les premiers mots de l&rsquo;article, comme dans l&rsquo; exemple ci-dessous (le texte en rouge est identique).<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img decoding=\"async\" src=\"https:\/\/artificiellementintelligent.wordpress.com\/wp-content\/uploads\/2024\/01\/image-20240124b.jpeg\" alt=\"\" class=\"wp-image-1077\" \/><figcaption class=\"wp-element-caption\">Figure 2 : Exemple de restitution \u00ab\u00a0par coeur\u00a0\u00bb d&rsquo;un article du New York Times<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">La plainte fait aussi \u00e9tat de la forte repr\u00e9sentation de textes issues du New York Times dans la base de donn\u00e9es <em>*<\/em><em>Common Crawl<\/em><em>*<\/em>, qui a \u00e9t\u00e9 utilis\u00e9e pour entra\u00eener GPT4 : le site du New York Times se retrouve en effet en quatri\u00e8me position&#8230;<\/p>\n\n\n<div class=\"wp-block-image\">\n<figure class=\"aligncenter size-full\"><img decoding=\"async\" src=\"https:\/\/artificiellementintelligent.wordpress.com\/wp-content\/uploads\/2024\/01\/image-20240124c.jpeg\" alt=\"\" class=\"wp-image-1079\" \/><figcaption class=\"wp-element-caption\">Figure 3 : R\u00e9partition des principales sources de donn\u00e9es du Common Crawl<\/figcaption><\/figure>\n<\/div>\n\n\n<p class=\"wp-block-paragraph\">Selon le journal, la qualit\u00e9 de son contenu se retourne \u00e9galement contre lui car il pousse les d\u00e9veloppeurs de mod\u00e8les g\u00e9n\u00e9ratifs \u00e0 pond\u00e9rer fortement le texte dont il est la source dans les donn\u00e9es d&rsquo; entra\u00eenement.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Le journal insiste sur le co\u00fbt financier et humain d&rsquo; un journalisme de qualit\u00e9 qui couvre les cinq continents et demande parfois de travailler dans des conditions difficiles, voire dangereuses. La citation du NY Times contraste le r\u00f4le soci\u00e9tal essentiel du journalisme avec la motivation lucrative d&rsquo; OpenAI et de Microsoft, la valorisation boursi\u00e8re de cette derni\u00e8re soci\u00e9t\u00e9 ayant augment\u00e9 d&rsquo; un trillion (!) de dollars au cours de la seule ann\u00e9e 2023.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Le journal d\u00e9clare avoir cherch\u00e9 un accord financier amiable avec OpenAI pour leur permettre d&rsquo; exploiter leurs articles mais ces n\u00e9gociations ont \u00e9chou\u00e9. En cons\u00e9quence de quoi, le New York Times r\u00e9clame -en plus des dommages- ni plus ni moins que la destruction de tous les mod\u00e8les de langage qui ont \u00e9t\u00e9 entra\u00een\u00e9s sur ses donn\u00e9es sans autorisation (\u00e0 commencer par les GPT d&rsquo;OpenAI) !<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">La position d&rsquo;OpenAI, que vous pourrez lire dans leur communiqu\u00e9 de presse en r\u00e9f\u00e9rence est la suivante :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>L&rsquo;entra\u00eenement de mod\u00e8les g\u00e9n\u00e9ratifs peut exploiter des donn\u00e9es soumises au droit d&rsquo;auteur car cela rel\u00e8ve du <em>*fair use*<\/em> (voir mon article pr\u00e9c\u00e9dent qui pr\u00e9sente cette notion). De plus, OpenAI propose un m\u00e9canisme permettant aux auteurs qui ne d\u00e9sirent pas voir leur contenu utilis\u00e9 pour l&rsquo;entra\u00eenement de signaler leur refus (approche de type <em>OPT-OUT<\/em>);<br><\/li>\n\n\n\n<li>La \u00ab\u00a0r\u00e9gurgitation\u00a0\u00bb (c&rsquo;est leur terme) de contenus existants mot pour mot est un probl\u00e8me rare qu&rsquo;ils essaient d&rsquo; \u00e9liminer. En effet, les programmes d&rsquo;IA g\u00e9n\u00e9rative ne m\u00e9morisent en principe pas l&rsquo;information mais la transforment de la m\u00eame mani\u00e8re qu&rsquo; un \u00eatre humain qui se forme \u00e0 travers la lecture de textes pour g\u00e9n\u00e9rer ensuite des cr\u00e9ations originales;<br><\/li>\n\n\n\n<li>En outre, ces \u00ab\u00a0r\u00e9gurgitations\u00a0\u00bb proviennent principalement d&rsquo; articles anciens qui se sont trouv\u00e9s recopi\u00e9s sur de multiples sites au fil du temps ce qui a pu d\u00e9s\u00e9quilibrer l&rsquo; algorithme en leur faveur, la r\u00e9p\u00e9tition leur accordant une pond\u00e9ration trop importante pouvant mener \u00e0 la m\u00e9morisation \u00ab\u00a0verbatim\u00a0\u00bb et \u00e0 la r\u00e9gurgitation;<br><\/li>\n\n\n\n<li>Les n\u00e9gociations avec le NY Times pour l&rsquo; obtention d&rsquo; un accord de license avan\u00e7aient de mani\u00e8re constructive jusqu&rsquo; au moment du lancement de l&rsquo; action en justice qui les a profond\u00e9ment surpris. L&rsquo; implication \u00e9tant ici que le New York Times cherche par cette action judiciaire \u00e0 faire pression sur OpenAI pour obtenir un accord plus favorable.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Voil\u00e0 ce qu&rsquo; il en est. La plupart des commentateurs avis\u00e9s pensent que ceci se terminera par une transaction amiable, ce qui est compatible avec les positions maximalistes des deux parties exprim\u00e9es en public (interdiction d&rsquo;un c\u00f4t\u00e9, \u00ab\u00a0fair use\u00a0\u00bb de l&rsquo;autre), qui cherchent surtout \u00e0 faire pression sur l&rsquo; adversaire.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Si vous voulez vous plonger dans une analyse juridique de ce litige, je vous sugg\u00e8re de lire les <em>threads X<\/em> de Jason Kint et Cecilia Ziniti, des sp\u00e9cialistes du domaine, repris en r\u00e9f\u00e9rence.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">3. Quelques r\u00e9flexions<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">Pour terminer, je voudrais mentionner deux sc\u00e9narios possibles d&rsquo;\u00e9volution \u00e0 moyen terme sur ce sujet :<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Un sc\u00e9nario \u00ab\u00a0progressiste\u00a0\u00bb verrait les auteurs publiant en ligne -mais d\u00e9sireux de prot\u00e9ger leurs droits- contraints d&rsquo; ajouter une r\u00e9f\u00e9rence d&rsquo; identification dans un format facilement lisible par une machine (m\u00e9tadonn\u00e9es). Ceci serait contrebalanc\u00e9 par une double contrainte pour les d\u00e9veloppeurs de mod\u00e8les g\u00e9n\u00e9ratifs IA :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>devoir publier la liste de tous les auteurs et leurs textes\/images repris dans les donn\u00e9es d&rsquo;entra\u00eenement;<br><\/li>\n\n\n\n<li>permettre aux auteurs qui le d\u00e9sirent d&rsquo;obtenir la suppression de leurs textes\/images des donn\u00e9es d&rsquo;entra\u00eenement du mod\u00e8le.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Cette approche est pragmatique : elle respecter les int\u00e9r\u00eats de chacun moyennant des efforts raisonnables de part et d&rsquo;autre.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">A l&rsquo; inverse, un sc\u00e9nario \u00ab\u00a0conservateur\u00a0\u00bb verrait un repli des d\u00e9tenteurs de droits sur leurs donn\u00e9es propres et le d\u00e9veloppement de mod\u00e8les g\u00e9n\u00e9ratifs ferm\u00e9s comme l&rsquo; a fait Getty Images. Seules les documents tomb\u00e9s dans le domaine public (et potentiellement ceux g\u00e9n\u00e9r\u00e9s de mani\u00e8re synth\u00e9tique) resteraient disponibles pour l&rsquo; entra\u00eenement sans contrainte&#8230;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">4. Sources et r\u00e9f\u00e9rences<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li><em>Photo giant Getty took a leading AI image-maker to court. Now it&rsquo;s also embracing the technology<\/em>, par Matt O&rsquo; Brien, Associated Press le 25 septembre 2023 : <a href=\"https:\/\/apnews.com\/article\/getty-images-artificial-intelligence-ai-image-generator-stable-diffusion-a98eeaaeb2bf13c5e8874ceb6a8ce196\">https:\/\/apnews.com\/article\/getty-images-artificial-intelligence-ai-image-generator-stable-diffusion-a98eeaaeb2bf13c5e8874ceb6a8ce196<\/a><br><\/li>\n\n\n\n<li><em>Thread X de Jason Kint sur le proc\u00e8s NYT\/OpenAI <\/em>: <a href=\"https:\/\/x.com\/jason_kint\/status\/1740141400443035785?s=20\">https:\/\/x.com\/jason_kint\/status\/1740141400443035785?s=20<\/a><br><\/li>\n\n\n\n<li><em>Thread X Cecilia Ziniti sur le proc\u00e8s NYT\/OpenAI <\/em>: <a href=\"https:\/\/x.com\/CeciliaZin\/status\/1740109462319644905?s=20\">https:\/\/x.com\/CeciliaZin\/status\/1740109462319644905?s=20<\/a><br><\/li>\n\n\n\n<li><em>Thread X de Kevin A. Bryan sur le proc\u00e8s NYT\/OpenAI <\/em>: <a href=\"https:\/\/x.com\/Afinetheorem\/status\/1740094257900532201?s=20\">https:\/\/x.com\/Afinetheorem\/status\/1740094257900532201?s=20<\/a><br><\/li>\n\n\n\n<li><em>Thread X de Matthew Berman sur le proc\u00e8s NYT\/OpenAI<\/em>: <a href=\"https:\/\/x.com\/MatthewBerman\/status\/1740166943309722078?s=20\">https:\/\/x.com\/MatthewBerman\/status\/1740166943309722078?s=20<\/a><br><\/li>\n\n\n\n<li><em>The desperate race to save generative AI,<\/em> article de Gary Marcus, le 8 janvier 2024 : <a href=\"https:\/\/garymarcus.substack.com\/p\/the-desperate-race-to-save-generative\">https:\/\/garymarcus.substack.com\/p\/the-desperate-race-to-save-generative<\/a><br><\/li>\n\n\n\n<li><em>Communiqu\u00e9 de presse OpenAI concernant le litige avec le NYTimes<\/em> : <a href=\"https:\/\/openai.com\/blog\/openai-and-journalism\">https:\/\/openai.com\/blog\/openai-and-journalism<\/a><br><\/li>\n\n\n\n<li><em>UK re-considers proposed exception for text and data mining<\/em>, article de Robert Dickens (Allen &amp; Overy) du 2 mars 2023. <a href=\"https:\/\/www.allenovery.com\/en-gb\/global\/blogs\/data-hub\/uk-re-considers-proposed-exception-for-text-and-data-mining\">https:\/\/www.allenovery.com\/en-gb\/global\/blogs\/data-hub\/uk-re-considers-proposed-exception-for-text-and-data-mining<\/a><\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Dans mon article pr\u00e9c\u00e9dent, j&rsquo;ai trait\u00e9 des frictions entre l&rsquo;IA g\u00e9n\u00e9rative et les droits d&rsquo;auteur. Je vais maintenant mentionner deux litiges en cours. Getty Images poursuit Stability AI, et le New York Times poursuit OpenAI et Microsoft. Les deux litiges portent sur l&rsquo;utilisation non autoris\u00e9e d&rsquo;images et de textes pour l&rsquo;entra\u00eenement de mod\u00e8les IA. Les deux parties font valoir des perspectives oppos\u00e9es sur la question du droit d&rsquo;auteur, et il est probable que les litiges se r\u00e9solvent par une transaction amiable. Enfin, deux sc\u00e9narios d&rsquo;\u00e9volution \u00e0 moyen terme sont envisag\u00e9s : un sc\u00e9nario \u00ab\u00a0progressiste\u00a0\u00bb qui implique plus de transparence et de coop\u00e9ration entre les auteurs et les d\u00e9veloppeurs de mod\u00e8les, et un sc\u00e9nario \u00ab\u00a0conservateur\u00a0\u00bb qui verrait un repli des d\u00e9tenteurs de droits sur leurs donn\u00e9es propres.<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[7,11,12],"tags":[],"class_list":["post-1069","post","type-post","status-publish","format-standard","hentry","category-generalites","category-modeles-dimage","category-modeles-de-langage","post-preview"],"_links":{"self":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/posts\/1069","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/comments?post=1069"}],"version-history":[{"count":0,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/posts\/1069\/revisions"}],"wp:attachment":[{"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/media?parent=1069"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/categories?post=1069"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/artificiellementintelligent.eu\/index.php\/wp-json\/wp\/v2\/tags?post=1069"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}