Rendre l' IA accessible à tous

Catégorie : Généralités (Page 2 of 3)

Informations sur le fonctionnement du blog, messages non directement liés à l’IA

Les Machines Gracieuses : résumé d’ un essai de Dario Amodei, PDG d’ Anthropic

Dario Amodei est le PDG d’ Anthropic, un des principaux acteurs de l’ IA générative qui a produit le modèle Claude. Il a récemment publié un texte très intéressant sur les conséquences possibles de l’ IA sur la société dans les prochaines années. Intitulé Machines of Loving Grace, ce texte, assez long et détaillé, est accessible ici.

Illustration : les Machines Gracieuses

Je trouve cet exercice très intéressant et je vais tenter d’ en résumer les principaux enseignements dans l’ article qui suit.

Le texte s’ inscrit dans une série de déclarations ambitieuses de la part des principaux acteurs du secteur, à savoir Sam Altman d’ OpenAI dans son texte The Intelligence Age ainsi que l’ interview de Demis Hassabis, PDG de Google Deepmind au Time Tech Summit 2024. Vous trouverez les liens ci-dessous en référence et si vous en avez le temps et l’ intérêt, je ne puis que vous encourager à les consulter.

Ces discussions tournent autour de la création d’ une intelligence artificielle « généraliste » (AGI en Anglais) dans un avenir relativement proche. La définition de cette AGI reste floue mais cette dernière serait globalement aussi capable et versatile qu’ un expert humain et ce dans tous les domaines, disposerait d’une capacité à agir de manière autonome dans le domaine digital voire dans le monde physique (robotique); par ailleurs, cette AGI serait en mesure de planifier et exécuter des tâches complexes pouvant demander des heures, des jours ou des semaines pour être menées à bien.

Il est frappant que l’ article de Dario Amodei suggère qu’ une telle AGI (qu’ il préfère appeler Powerful AI) pourrait apparaître à partir de 2026 dans scénario le plus optimiste. Étant donné que nous sommes à la fin de l’année 2024 et que le cycle de la recherche à la production d’une IA est d’environ 18 mois, cela implique que plusieurs directions de recherche actuelles pourraient effectivement porter leurs fruits, et il est bien placé pour savoir ce qui se passe dans ses laboratoires…

L’ article décrit avec beaucoup de clarvoyance et d’ équilibre les impacts potentiels de l’ appartition d’ une telle intelligence artificielle généraliste sur la société et sa transformation endéans les 5 à 10 ans après l’ apparition de l’ AGI. Loin des rêveries transhumanistes et de la singularité exponentielle quasi-instantanée chère à Ray Kurzweil, l’ analyse de Dario Amodei prend sobrement en compte les goulets d’ étranglement du monde physiques et les délais de transformation inhérents à chacun de ces secteurs.

De même, il écarte le scénario de l’immobilisme, selon lequel l’intelligence est paralysée par la réglementation et rien ne se passe. Au lieu de cela, il choisit une voie médiane : une intelligence d’abord limitée par toutes sortes de murs, qu’ elle s’ efforce d’ escalader et de surmonter.

Que pouvons-nous donc attendre dans les 5 à 10 ans après l’ an zéro de l’ AGI, que ce dernier soit en 2026 ou quelques années plus tard ?

1. Biologie, neurosciences et santé

L’ un des principaux obstacles à l’ accélération des découvertes biologiques est le temps nécessaire pour les expérimentations sur des cellules, des animaux ou des humains, qui peuvent durer des années. De plus, même lorsque des données sont disponibles, elles sont souvent incomplètes ou entâchées d’ incertitude, compliquant l’ identification précise d’ effets biologiques spécifiques. Ces défis sont aggravés par la complexité des systèmes biologiques, où il est difficile d’ isoler et d’ intervenir de manière prédictive.

L’ auteur souligne qu’ il veut utiliser l’ IA non pas comme un outil d’analyse de données, mais comme un chercheur à part entière qui améliore tous les aspects du travail d’ un biologiste, de la définition à l’ exécution d’ expériences dans le monde réel. Il souligne que la plupart des progrès en biologie proviennent d’ un petit nombre de percées majeures telles que CRISPR pour les manipulations génétiques ou les vaccins à ARN messager, et qu’il y a en moyenne une de ces découvertes majeures par an.

L’ IA pourrait multiplier par dix le rythme de ces découvertes, permettant de réaliser en 5 à 10 ans les progrès que les humains auraient faits en 50 à 100 ans. Des percées comme AlphaFold, qui a révolutionné la compréhension des structures protéiques, montrent d ores et déjà le potentiel de l’ intelligence artificielle pour transformer la biologie.

Cela pourrait conduire à l’ élimination des maladies infectieuses, la prévention de la plupart des cancers, la guérison des maladies génétiques et même la prévention d’ Alzheimer. Il ne considère pas les essais cliniques comme un obstacle. Les essais cliniques sont longs parce que nos médicaments sont mauvais et qu’ ils ne donnent généralement pas d’ indications claires sur leur efficacité. Cela changera si l’ IA ne produit que les médicaments les plus efficaces, avec des techniques de mesure améliorées et des critères d’ évaluation plus précis.

Dario Amodei voit un potentiel analogue dans le domaine des neurosciences, avec l’ élimination de la plupart des maladies mentales comme la schizophrénie, le stress post-traumatique ou l’ addiction à travers une combinaison de développements de nouveaux médicaments et de thérapies comportementales. La possibilité de traiter des maladies mentales ayant des causes neuro-anatomiques comme la psychopathie semble possible mais moins probable.

De tels développements -entraînant une augmentation significative de la durée de vie en bonne santé- auraient un impact positif majeur sur la sécurité sociale et son financement. Il est cependant probable que d’ autres défis apparaîtraient alors comme celui de modifier en profondeur nos infrastructures sociales, y compris les mécanismes de départ à la retraite, ainsi que d’ offrir l’ accès le plus large possible à ces technologies.

2. Aspects socio-économiques et politiques

L’ accès aux nouvelles technologies, notamment en matière de santé, ne va pas de soi. La disparité des conditions de vie entre les pays développés et les pays en développement, où le PIB par habitant en Afrique subsaharienne est d’environ 2 000$, contre 75 000$ aux États-Unis, est alarmante. Si l’ IA améliore uniquement la qualité de vie dans les pays riches, cela constituerait un échec moral majeur. L’ idéal serait que l’ IA aide également le monde en développement à rattraper les pays riches.

Cependant, Dario Amodei est moins confiant dans la capacité de l’ IA à résoudre les problèmes d’ inégalité économique, car l’économie dépend largement de facteurs humains et de la complexité intrinsèque des systèmes économiques. La corruption, omniprésente dans certains pays en développement, complique encore la tâche, mais il reste optimiste quant au potentiel de l’ IA pour surmonter ces défis.

L’ IA pourrait aussi contribuer à la sécurité alimentaire et à la lutte contre le changement climatique, des enjeux particulièrement pressants pour les pays en développement. Les technologies agricoles et les innovations pour atténuer les effets du changement climatique, comme l’ énergie propre ou l’ élimination du carbone atmosphérique, devraient aussi bénéficier des avancées en IA.

Sur le plan politique, Dario Amodei examine la question de savoir si l’ IA favorisera la démocratie et la paix, ou si elle pourrait au contraire renforcer l’ autoritarisme. Même si l’ IA réduit la maladie, la pauvreté et les inégalités, il reste la menace des conflits humains et de l’ autoritarisme. L’ auteur souligne que l’ IA pourrait tout aussi bien servir les « bons » que les « mauvais » acteurs, en particulier en matière de propagande et de surveillance, deux outils majeurs des régimes autoritaires.

Au niveau interne, l’ auteur pense que si les démocraties dominent l’ IA sur la scène mondiale, cela pourrait favoriser l’ exercice démocratique. L’ IA pourrait contrer la propagande autoritaire en offrant un accès libre à l’ information et des outils pour affaiblir les régimes répressifs, tout en améliorant la qualité de vie des citoyens, ce qui, historiquement, a tendance à encourager la démocratie. En outre, l’ IA pourrait aider à renforcer les institutions démocratiques en rendant les systèmes judiciaires plus impartiaux et en réduisant les biais humains dans les décisions juridiques. Elle pourrait également améliorer l’ accès aux services publics, renforcer la capacité des États à répondre aux besoins de leurs citoyens et réduire le cynisme à l’ égard du gouvernement. L’ idée est que l’ IA pourrait jouer un rôle central pour améliorer la transparence, l’ impartialité et l’ efficacité des systèmes démocratiques.

3. Travail et valeurs

Dans un monde où l’ IA se révèle capable de faire tant de choses, quelle valeur encore accorder à l’ éducation, à l’ effort, au travail et à la rémunération de ce dernier ?

Dario Amodei fait deux constats : le premier est que notre société est organisée de manière à traiter les déséquilibres macroéconomiques de manière progressive et décentralisée. C’est un point que j’ avais également fait dans mon article sur les risques structurels de l’ IA accessible ici. Cela ne constitue pas une garantie absolue de succès mais nous disposons à tout le moins d’ institutions représentatives et en principle capables de traiter ce genre de questions si les bouleversements ne sont pas trop rapides.

Le second est que ce n’ est pas parce qu’ une IA peut faire votre travail mieux que vous que votre travail perd sa valeur ou sa signification. Ce n’ est pas parce que vous ne courrez jamais aussi vote qu’ Usain Bolt que vous abandonnez le jogging. L’ immense majorité des gens ne sont exceptionnels en aucun domaine et cela ne semble pas les gêner outre mesure ni les empêcher de vivre ni de gagner leur vie. Par ailleurs, beaucoup de gens passent une partie importante de leur vie à effectuer des activités non-productives comme jouer à des jeux vidéos…Ce que les gens recherchent avant tout, c’est un sens de l’ accomplissement.

Et il suffit que certaines tâches restent comparativement plus difficiles pour des IA pour que les humains conservent une vraie valeur ajoutée. L’ interaction avec le monde physique restera probablement un de ces domaines, au moins dans un premier temps.

Sur le plus long terme, si des IA devaient devenir supérieures aux humains en tous points, il faudrait alors engager une discussion plus large sur notre modèle socio-économique, mais les structures sont en place pour ce faire, d’ autant plus que ces transitions devraient être progressives. La forme définitive que prendrait notre société est difficile à estimer aujourd’ hui. Mais une chose à la fois…

4. Conclusion

Ma réserve principale quant à ce texte remarquable est qu’ il ne aborde pas deux autres domaines où l’ IA peut jouer un rôle transformationnel : l’ éducation et la recherche scientifique non liée aux sciences du vivant. Quoi qu’ il en soi, l’ ajout de ces deux élements supplémentaire ne ferait que renforcer l’ impression d’ensemble qui se dégage du texte…

Je ne peux qu’ en appeler à tout le monde : prenez cela au sérieux ! Si les scénarios décrits ci-dessus ne sont pas certains, ils sont plausibles et ce qu’écrit Dario Amodei n’ est pas insignifiant, ni sans intérêt.

Nous devons en parler maintenant et réfléchir à ce à quoi notre monde pourrait ressembler dans cinq ou dix ans. Car l’ intelligence artificielle pourrait bien bouleverser nos vies bien plus vite que prévu, et nous nous trouvons ici en face d’ une transformation potentiellement plus profonde que celle que nous avons connue avec les ordinateurs ou Internet.

5. Notes et références

Intelligence artificielle et désinformation

Le problème de la désinformation est très ancien. Discerner le vrai du faux est souvent une tâche ardue, surtout quand la manipulation est volontaire et réalisée par des spécialistes décidés à influencer l’ environnement informationnel pour leur propres fins. La démocratie reposant sur l’ avis de ses citoyens et cet avis dépendant des informations dont ils disposent, il y a un avantage politique évident à tirer de l’ instrumentalisation de l’ information.

Il n’ est donc pas étonnant que ce type d’ exploitation remonte à la nuit des temps. Dès la Grèce antique, Thucydide se plaignait du peu d’ effort que le peuple fait dans la recherche de la vérité, préférant prendre pour argent comptant la première histoire qu’ il entend. A la même époque, les sophistes enseignent aux politiciens comment convaincre les électeurs de prendre leur parti, indépendamment de la pertinence de leurs idées. Et quiconque a dû traduire dans sa jeunesse des passages de La Guerre des Gaules se rend vite compte que cet ouvrage relève plus de la propagande politique que de la narration objective.

Aujourd’ hui, la situation est plus complexe et -en toute logique- pire que dans le passé, et ce pour trois raisons.

Tout d’ abord, les technologies digitales permettent la diffusion de l’ information à grande échelle et à moindre coût. Ensuite, les médias sociaux créent une nouvelle dynamique informationnelle dans laquelle il est à la fois possible d’ atteindre une audience massive sans filtrage préalable, mais également de diffuser ces informations sous le couvert de l’ anonymat. Troisièmement, le déluge de données générées par ces technologies rend possible le recours à l’ Intelligence Artificielle à ces fins de génération de contenu et de ciblage comme nous le verrons plus bas.

Par ailleurs, si la politique et les relations internationales constituent le terrain d’ affrontement informationnel le plus visible, certains acteurs économiques agissent de la même manière. Le point de contention étant ici souvent la toxicité ou la dangerosité de certains produits, le lieu de l’ affrontement se déplace vers le monde scientifique : études orientées, chercheurs décrédibilisés, instillation de doutes sur certains résultats défavorables, crédibilisation à travers des alliances avec des acteurs académiques ou professionnels… La saga du lien entre tabagisme et cancer, ou de celui entre énergies fossiles et réchauffement climatique sont révélatrices de ce genre de pratiques. Il faut cependant éviter ici une grille d’ analyse trop catastrophiste ou unilatérale : la grande majorité des entreprises s’ abstiennent de recourir à ce genre de pratiques; par ailleurs les associations de consommateurs et les ONG qui leur font face ne sont pas nécessairement au-dessus de tout soupçon elles non plus.

1. Architecture d’une opération moderne de désinformation

Voyons maintenant l’ architecture d’ une opération de désinformation organisée, sans encore recourir à l’ IA.

Celle-ci va débuter par la mise en place d’ une équipe chargée de la création de contenus subversifs. Pour cela, différentes techniques sont possibles. La première est de se baser sur des articles existants puis de les réécrire de manière orientée. L’ avantage est que les médias existants fournissent une source inépuisable de contenus qui peuvent en outre être filtrés en fonction de la thématique poursuivie. La seconde approche consiste à inventer une histoire de toutes pièces et la rédiger en conséquence.

Figure 1 : Eléments d’ une opération de désinformation organisée

Une fois le contenu créé et quelle qu’en soit sa forme (texte, image, vidéo…) il faudra s’ assurer de la publication de ce dernier sur Internet. Et c’ est ici que les acteurs et les activités se multiplient… Blogs, sites d’ information et organisations fantoches serviront de relais aux informations produites. Idéalement, les sites d’ informations et blogs mélangeront l’ information fabriquée de toutes pièces à de l’ information réelle pour ne pas trop dévoiler leur jeu. Une autre stratégie judicieuse constitue à démarrer une activité et constituer un lectorat fidèle en ne publiant que des informations réelles dans un premier temps, pour n’ introduire que plus tard des contenus fallacieux. Enfin, les organisations fantoches se présentent sous la vitrine d’ une activité publique honorable mais servent en réalité une information « frelatée ». Pour finir, l’ ensemble de ces acteurs référeront mutuellement leurs publications afin de renforcer leur crédibilité mutuelle. Un article publié sur un site d’ information sera repris par un blog (éventuellement avec des commentaires positifs) et vice-versa…les désinformeurs les plus ambitieux vont même jusqu’à créer de toutes pièces des sites d’ information imitant les médias légitimes pour servir leur contenu.

Une fois cet écosystème auto-référençant en place, reste à « pousser » l’ information vers les utilisateurs finaux. En effet, même si certains viendront d’ eux-mêmes chercher l’ information sur ces sites, afin de maximiser l’ impact il vaut mieux contacter proactivement les personnes visées soit via les réseaux sociaux, soit par le biais d’ influenceurs.

Le recours aux réseaux sociaux se fait par l’ intermédiaire de profils anonymes ou usurpés. Un profil sera construit au fil du temps et chechera à atteindre une catégorie donnée d’ utilisateurs en présentant un contenu attractif pour ces derniers, en les contactant proactivement etc… les opérations de désinformation les plus élaborées établissent différents types de messages destinés à différentes catégories d’ utiliateurs et qui « résonnent » mieux avec les préoccupations de ces derniers.

Les influenceurs jouent un rôle analogue. Il s’ agira ici souvent de personnes connues créant des contenus vidéo sur Youtube et/ou Tiktok et qui vont mentionner les contenus manipulés au cours de leurs vidéos. Il est plus difficile de créer un influenceur qu’ un simple utilisateur de réseaux sociaux mais son impact sera plus grand.

Bien sûr, ce que je décris ci-dessus constitue une opération à grande échelle et il est possible de constituer une opération plus modeste, par exemple en se réappropriant des contenus générés par des tiers.

Le but d’ une opération de désinformation n’ est pas nécessairement de pousser le public à supporter une conviction ou une idée contre une autre. L’ objectif recherché est parfois de polluer simplement la sphère informationnelle afin de semer le doute sur la crédibilité des médias et des pouvoirs publics, voire de monter les gens les uns contre les autres à des fins de déstabilisation.

2. L’ Intelligence Artificielle comme arme de désinformation

Voyons maintenant comment l’IA peut renforcer l’ opération décrite ci-dessus. Cela se fera principalement en automatisant certaines étapes du processus.

Tout d’ abord, l’ étape de création du contenu peut être fortement accélérée via l’ IA générative. Rien de plus simple que de prendre un article existant et demander à un modèle de langage de le réécrire de manière orientée. Idem pour la création à partir de rien. Quelques lignes de texte et une explication claire de l’ objectif recherché suffiront à générer un contenu suffisamment convaincant pour la plupart des internautes. Générer des images ou des vidéos manipulées est également possible via la technique des deepfakes. L’ IA générative permet littéralement de créer des « pipelines » de désinformation largement automatisés…

Figure 2 : Opération de désinformation exploitant l’ IA

Ensuite l’ IA générative va permettre de créer des profils autonomes appelés bots sur les réseaux sociaux. Ils se voient attribuer des règles de comportement pour incarner une personne virtuelle et agiront et réagiront comme tels, encore une fois avec peu ou pas d’ intervention humaine. Twitter/X est notoirement sujet à ce phénomène et on y voit régulièment des bots démasqués par un utilisateur judicieux parvenant à détourner ses instructions, une technique appelée prompt injection en sécurité informatique…

Enfin, l’IA -non générative cette fois- va permettre de regrouper et d’ identifier les personnes ciblées par groupe démographique et géographique, préférences politiques et de consommation en fonction de leur comportement en ligne. Un tel profilage qui est pratique courante dans le secteur de la publicité peut également être utilisé dans le domaine des préférences politiques ou religueuses. Il ne restera alors qu’à choisir le bon message pour convaincre le citoyen ou l’ électeur indécis.

C’ est d’ ailleurs ce type de pratique qui est à la base du scandale de Cambridge Analytica qui avait détourné des informations de comportement des utilisateurs de Facebook à des fins de microciblage politique. Vous trouverez plus d’ informations ici sur cette affaire.

3. Illustration : l’ opération Doppleganger

L’ Opération Doppleganger est une opération de désinformation politique mise en place en mai 2022 par la Russie dans le but principal d’ affaibilir le soutien occidental à l’ Ukraine. Cette opération -toujours active- a pour but de répandre quatre narratifs dans la population occidentale :

  • les sanctions contre la Russie sont inefficaces;
  • les Occidentaux sont Russophobes;
  • l’armée ukrainienne est barbare et remplie de néo-nazis;
  • les réfugiés ukrainiens contituent un fardeau pour les pays qui les accueillent.

Doppleganger recourt à de faux sites d’ information qui imitent l’ apparence de médias reconnus comme Der Spiegel, Le Figaro , Le Monde et The Washington Post.

Les articles publiés par Doppleganger sont notoirement critiques du Président ukrainien Volodymyr Zelensky et ont dans le passé fait état de ses prétendues villas sur la Riviera ainsi que des goûts de luxe de son épouse, afin de les ternir à travers des insinuations de corruption… Un autre faux article faisait état d’une taxe de 1,5% sur toutes les transactions monétaires afin de financer la guerre en Ukraine. Pour ce dernier article, les faussaires n’ ont pas hésité à créer un faux site du Ministère des Affaires Etrangères français afin de rendre l’ information plus crédible.

La campagne a été démasquée par l’ EU Disinfo Lab en Septembre 2022. Vous trouverez plus d’ informations à son sujet ici.

Si l’ opération visait initialement l’ Europe, elle s’ est élargie aux Etats-Unis en 2023, et a récemment publié des images de stars américaines comme Beyoncé ou Taylor Swift soutenant un narratif prorusse ou anti-Ukrainien. Elle progage actuellement aussi de la désinformation relative au conflit entre Israel et le Hamas.

4. Réflexions

La désinformation délibérée et organisée dont je parle dans cet article n’ est qu’ une facette de la pollution informationnelle à laquelle nous sommes confrontés quotidiennement. Celle-ci comprend également les informations inutiles ou non demandées comme le spam, les informations destinées à exacerber les émotions telles que la peur ou la colère, certaines formes intrusives de publicité ou encore la mésinformation (personnes colportant de bonne foi une information incorrecte). La multiplicité de ces informations de faible valeur contribue à une surchage informationnelle pouvant amener au rejet et au doute généralisé, y compris envers les médias traditionnels.

Or l’ accès à une information de qualité est plus que jamais crucial. C’est pourquoi je suis convaincu que les médias traditionnels ont une carte importante à jouer en se repositionnant comme gardiens de l’ information correcte et objective. Si les pratiques et l’ éthique journalistique garantissent en général l’ exactitude factuelle de l’ information, il en va autrement pour le second critère : la plupart des médias suivent une ligne éditoriale particulière qui va analyser l’ information objective à travers un prisme subjectif. Prenez la même information et lisez-la dans le Figaro et dans l’ Humanité, vous n’en tirerez pas les mêmes conclusions. Mais il me semble que ceci nuit à la crédibilité des médias en les rendant acteurs du monde informationnel polarisé au-dessus duquel ils devraient s’ élever.

J’imagine donc dans l’ avenir des médias qui se réorienteraient vers un rôle de « fact-checkers » et de pourvoyeurs d’ information où les analyses seraient plus neutres et plus objectives. Il y a certainement une opportunité à saisir mais cela ne pourra fonctionner que si les médias sont perçus comme tels par le public. Il faudra que les médias communiquent sur eux-mêmes…

5. Sources et références

Applications de l’ Intelligence Artificielle dans la Défense

Les progrès rapides de l’ Intelligence Artificielle dans le civil se reflètent dans le domaine militaire. Ces derniers temps, trois facteurs additionnels accélèrent encore l’ adoption de l’ IA par les forces armées.

Le premier est la guerre russo-ukrainienne. Ce conflit de grande ampleur entre deux puissances technologiques pousse les belligérants à innover sans cesse. L’ Ukraine notamment cherche à compenser son infériorité numérique relative par une innovation tous azimuths, qui s’ appuie en grande partie sur l’ utilisation à grande échelle de drones qui constituent des plateformes idéales pour l’ intelligence artificielle.

Le second, ce sont les progrès fulgurants de ces dernières années dans l’ IA « civile » à travers les modèles de langage et multimodaux qui peuplent l’ essentiel de mes articles, et qui trouvent des débouchés naturels dans les applications de défense….

Enfin, la rivalité géopolitique entre USA et Chine, qui se joue également dans le domaine technologique, constitue le troisième facteur, chacune des deux puissances considérant la maîtrise de l’ IA comme un avantage militaire majeur. Les manoeuvres américaines pour restreindre l’ accès par la Chine aux circuits intégrés de dernière génération, ainsi que les tentatives de cette dernière de substituer ces importations par une production indigène, sont au coeur de cette confrontation…

Plus généralement, la technologie est un acteur clé de l’ art militaire, pas seulement sur le champ de bataille mais bien dans toute la chaîne militaire.

Figure 1 : Axes de développement de l’ IA militaire

La figure 1 montre les quatre axes principaux de développment de l’ IA militaire, que nous allons maintenant analyser plus en détail.

1. Les drones et les armes offensives

Le conflit russo-ukrainien a révélé l’ importance des drones qui sont utilisés pour la première fois massivement dans un conflit. L’ Ukraine déclare pouvoir produire 150.000 drones par mois et 2 millions d’ ici la fin d’ année, avec 165 différents modèles déployés ou en développement. Ces drones, qui sont parfois munis d’ une charge explosive, causent beaucoup de dégâts par leur précision et leur maniabilité. Et vu leur vitesse (certains atteignent 150km/h) il est très difficile de leur échapper.

Ce sont pour l’ immense majorité des drones commerciaux ou leurs dérivés qui ne font pas appel à l’ intelligence articielle. Leur pilotage se fait par radiocommande ce qui les rend vulnérables au brouillage, et leurs opérateurs à la détection par radiogoniométrie. Par ailleurs, les deux camps ont mis en place des techniques de guerre électronique pour brouiller les fréquences utilisées par les adversaires, voire prendre le contrôle des drones ennemis ou encore depuis peu les abattre en combat aérien avec des drones anti-drone…

En outre, les cibles se trouvant en général au sol et à plusieurs kilomètres de distance des opérateurs, la trajectoire terminale vers la cible se fait à l’ aveugle à cause de la courbure de la terre (ils sont « sous l’ horizon » et il en résulte que la transmission VHF qui se fait en point-à-point est coupée).

Ces drones font donc l’ objet d’ importantes limitations et des solutions originales ont vu le jour comme un drone déroulant une longue bobine de fibre optique derrière lui pour remplacer la liaison radio. Mais ce type de solution introduit de nouveaux inconvénients et restera probablement anecdotique.

La solution qui semble la plus prometteuse à court terme est d’ introduire un système IA de reconnaissance d’ objet sur le drone afin d’ assurer au moins le guidage terminal. De telles solutions existent à un coût modique et un poids raisonnable. Un Raspberry Pi 5 muni d’une carte IA et d’une caméra coûtera environ 200 euros. Une étape suivante, sur laquelle travaille Eric Schmidt, l’ ancien PDG de Google, est de créer de tels drones utilisant un ciblage IA de manière industrielle. Ce projet, appelé White Stork, a été révélé au début de l’ année 2024.

En parallèle, les principales armées développent et testent des drones IA volant en essaim. Le vol en essaim signifie qu’ une escadrille de drones coordonne de manière autonome ses actions, déléguant des actions spécifiques à certains drones, comme la reconnaissance d’ une zone ou l’ attaque d’une cible. Au moins onze pays ont annoncé de tels programmes sur lesquels vous trouverez plus d’ informations ici.

Les développements IA au niveau des armes offensives vont bien sûr au-delà des drones, mais j’ ai choisi ces derniers car ils sont représentatifs du potentiel de l’IA pour des armes offensives, avec en prime le faible coût qui les rend déployables en nombre ainsi que l’ expérience collectée sur le champ de bataille qui en fera vraisemblablement des acteurs incontournables des conflits futurs.

2. Renseignements, Surveillance et Reconnaissance (ISR)

Mais si les drones et les armes offensives capturent l’ imagination, ce n’ est pas nécessairement là que l’ apport de l’IA est le plus important : la planification et la conduite des opérations militaires nécessitent la prise en compte d’ une multiplicité de facteurs à commencer par la connaissance du terrain et des dispositions de l’ adversaire. Les états-majors ont besoin d’ être nourris en permanence en informations de toutes sortes provenant du terrain pour pouvoir agir.

Ces activités sont reprises sous le terme d’ ISR ( en français : Renseignements, Surveillance et Reconnaissance). Le champ de bataille actuel est effectivement saturé de capteurs de toutes sortes : drones et avions de reconnaissance, imagerie satellite, informations provenant de sources humaines (espions et unités de reconnaissance), interception et décryptage des communications ennemies, analyse du spectre électromagnétique pour identifier et localiser les émetteurs et les radars, suivi du sentiment de la population civile sur les réseaux sociaux, localisation des téléphones mobiles…. le volume d’ informations à traiter est énorme et il n’ est pas envisagable de transmettre ces données brutes telles quelles aux états-majors qui seraient noyés sous la masse.

C’ est ici qu’ intervient l’ IA pour prétraiter ces informations, à travers des techniques comme la détection d’ objets ou la retranscription textuelle de données audio. Par exemple, les USA ont lancé le projet MAVEN en 2017 pour analyser le déluge d’ images provenant des drones de surveillance. Seuls les objets d’ intérêt (véhicules, armes…) sont alors pris en compte. Mais le système a ses limites et il n’ est pas toujours aisé de discriminer un combattant d’ un civil…

Un autre exemple intéressant est le système déployé par les Ukrainiens pour détecter et localiser les drones Shahid lancés par les Russes sur les villes ukrainiennes. Ce système s’ appuie sur 8000 téléphones mobiles disposés sur des mâts à travers l’ Ukraine et qui sont connectés en permanence vers un système central qui écoute les sons capturés par les micros. La signature audio de ces drones est alors isolée ce qui permet la localisation par triangulation entre les niveaux de bruit reçus par les mobiles les plus proches. Reste alors à la DCA à faire son oeuvre. Je trouve cela d’ une ingéniosité remarquable…

Pour l’ interception des communications vocales, l’ IA peut intervenir à plusieurs niveaux, tout d’ abord pour tenter de reconnaître la voix parmi une base de données de locuteurs, et ensuite pour retranscrire l’ audio en texte et enfin pour essayer de déterminer si le texte contient des informations pertinentes pour l’ analyste, un rôle taillé sur mesure pour les modèles de langage qui vont exceller dans cette tâche. L’ analyse des réseaux sociaux relève de la même logique.

Mais une fois que les points d’ intérêt ont été extraits dans chaque flux de données brutes, un nouveau défi apparaît : identifier les correspondances entre les différentes sources d’ information afin de réaliser une validation croisée : si l’ imagerie vous montre un radar à un endroit, est-ce confirmé par l’ analyse du spectre électromagnétique qui montre un émetteur à la bonne longeur d’onde au même endroit ? Si vous avez détecté des signaux provenant de téléphones mobiles depuis un bosquet, l’infrarouge thermique confirme-t’ il la présence de combattants ennemis ? Il faut être prudent car l’ ennemi cherche évidemment à brouiller les cartes en recourrant à la fois au camouflage et à des leurres (il y a même de faux F-16 gonflables grandeur nature, voyez ici ! ).

C’ est le rôle des Systèmes d’ Aide à la Décision (acronyme anglais : DSS) qui vont prendre le relais et fusionner les données provenant de différentes sources pour offrir une vue unifiée qui va ensuite servir de base à la partie décisionnelle du processus.

3. Les systèmes de commandement et de contrôle (C2)

Une fois l’ information collectée et validée, celle-ci sert à la définition des actions à entreprendre pour traiter au mieux la situation sur le terrain. C’ est le rôle des systèmes de commande et contrôle (C2, encore un acronyme, le monde de la défense en est très friand).

Traiter la situation sur le terrain est un euphémisme qui signifie souvent détruire les menaces ennemies identifiées. Et ici, la rapidité est un facteur essentiel. Or justement, l’ IA permet d’ accélérer les choses, soit en combinant plusieurs étapes en une (par exemple support à la décision et commandement), soit en organisant l’ opération d’ attaque en aval de la décision de l’ opérateur, qui devient parfois le maillon le plus lent de la chaîne, surtout si il doit demander confirmation à un supérieur.

Une bonne illustration de cette contrainte de temps est le tir d’ artillerie de contre-batterie dans lequel une batterie va tirer sur une batterie ennemie; la trajectoire des obus détectés par radar révèle inévitablement la position du tireur. Pour se protéger, les canons se déplacent et tirent continuellement sans jamais rester à la même place car chaque tir révèle leur position et les expose à une riposte. Et quand on sait qu’un obus de 155mm met environ 60 secondes pour atteindre sa cible à 20km de distance, on comprend qu’il s’agit d’ une course de vitesse de part et d’ autre….cette vidéo se passe de commentaires.

C’est ici qu’ intervient la notion sensible d’ autonomie léthale. En effet, l’ aboutissement de l’ impératif de rapidité suggérerait de laisser une IA planifier l’ action de destruction de bout en bout sans intervention humaine.

C’ est un sujet délicat, tout d’ abord parce que les différents pays n’ ont pas la même position sur ce sujet qui fait l’ objet d’ intenses débats aux Nations Unies, ensuite parce que des armes autonomes existent depuis très longtemps sans qu’ il n’ y ait besoin d’ une quelconque intelligence embarquée : une mine antipersonnel (voire marine) est en effet une arme autonome rudimentaire. Idem pour les munitions rôdeuses qui survolent le champ de bataille à la recherche de cibles d’ opportunité comme le Harop israélien.

Sujet complexe aussi parce que la notion d’ autonomie cause moins de controverses dans des situations défensives comme la défence aérienne, une domaine où le temps de réaction est extrêmement court. Un missile ballistique tactique possède une vitesse terminale supérieure à Mach 5 (Mach 7.5 pour un missile russe de type Iskander). Le temps de vol total de ce genre de missile de 500km de portée est de 5 minutes, et ils ne sont souvent détectables que pendant la seconde moitié du vol parabolique soit une à deux minutes avant l’ impact; ce délai est trop court pour donner l’ alerte et évacuer la zone visée. Et la fenêtre de temps pour lancer un missile antiaérien type Patriot est encore raccourcie par le temps nécessaire à l’ intercepteur pour rejoindre sa cible…

Si ce type d’ action « réactive » est à la portée technique des systèmes actuels, il est possible de voir plus loin et d’ imaginer un algorithme proposant des plans entiers d’ opérations à grande échelle pour décision par les états-majors. Dans un conflit à haute intensité où l’ environnement change très rapidement, il n’ y aura peut-être pas d’ autre solution, surtout face à un adversaire agissant de même manière.

La génération autonome de plans entiers de bataille est aujourd’ hui un domaine de recherche active. le DARPA est occupé à effectuer des développements en ce sens en particulier à travers le projet SCEPTER, sur lequel vous pourrez trouver plus d’ informations ici.

4. Logistique et fonctions de support

Je parlais plus haut de la difficulté de générer des plans de bataille complets. En voici un bel exemple : à tout moment d’ une opération, l’ ensemble des unités doit rester ravitaillé. Et c’ est loin d’ être simple : une armée moderne déployée nécessite une chaîne logistique énorme.

En effet, les unités sur le front consomment sans cesse munitions, carburant, nourriture et eau, pièces de rechange et matériel médical sans parler de tout le reste; de plus ce flux est bidirectionnel : prisonniers, blessés et morts, véhicules endommagés doivent être renvoyés du front vers l’ arrière.

Les quantités dont nous parlons sont énormes. Si un fantassin a besoin d’environ 20kg de provisions de tous types par jour, les besoins explosent pour une grande unité mécanisée. Une division blindée américaine (300 chars et 200 véhicules de combat d’infanterie) nécessite environ 7.500 tonnes de ravitaillement de tous types par jour soit 300 containers ! Je ne veux pas trop m’ éloigner de mon sujet donc si ce domaine vous intéresse, je vous conseille absolument le livre de Mike Martin How to Fight a War et en particulier le chapitre 2. Logistics. Vous y découvrirez le rôle vital des routes, des containers, des palettes et des camions-citernes dans la logistique militaire.

Comment l’ Intelligence Artificielle peut-elle supporter la logistique ?

De plusieurs manières. Tout d’ abord, il y a bien sûr la gestion intelligente des différents stocks. Cela n’ est pas vraiment une nouveauté.

Ensuite, la maintenance prédictive : à force de tirer, les canons s’ usent et doivent être remplacés. Et à force de voler, les avions ont besoin de nouvelles pièces de rechange. L’ approche traditionnelle s’ appelle maintenance préventive. Elle consiste à remplacer automatiquement la pièce après un certain nombre de tirs ou d’ heures de vol indépendamment de l’ état de la pièce. La maintenance prédictive va prendre en compte l’ état réel de la pièce sur base des informations de fonctionnement de cette dernière pour suggérer un remplacement au meilleur moment.

Enfin et bien sûr la conduite autonome et le déploiement de véhicules de toutes taille sans pilote pour acheminer le ravitaillement et évacuer les blessés. Ces véhicules peuvent être terrestres ou aériens pour les faibles charges (drones).

Il y a déjà pas mal d’ expérientations en ce sens, notamment dans le conflit russo-ukrainien. L’ Ukraine teste un véhicule autonome pour l’évacuation des blessés.

5. Conclusions

Si le tableau exposé semble inquiétant, il faut se rappeler qu’ il en a toujours été ainsi. Plusieurs développements asymétriques ont eu lieu depuis la Seconde Guerre Mondiale, à commencer par les armes nucléaires, puis les munitions de précision. Les USA appellent d’ ailleurs l’intelligence artificielle militaire le ‘troisième décalage’ (third offset) en référence aux deux précédents.

Je voudrais terminer par trois réflexions :

Tout d’ abord un éventuel avantage asymétrique conféré par l’ IA risque de ne pas être de longue durée vu que la plupart des technologies son connues et qu’ une grande part de la recherche et des découvertes se fait dans le secteur privé; Ceci me pousse à croire qu’ on va simplment se déplacer vers un nouvel équilibre.

Ensuite il faut garder la tête froide. Une arme autonome fiable utilisée sur le champ de bataille, malgré son côté terrifiant, sera probablement moins dangereuse pour les civils qu’un outil d’aide à la décision mal exploité par un opérateur validant trop facilement les propositions de bombardement d’ une ville suggérée par une IA.

Et en fin de compte, ce seront des humains qui décideront dans quels contexte et avec quelles règles d’ engagement ces systèmes seront utilisés. Et malheureusement, l’ humain ne vaut pas nécessairement mieux que la machine. Il suffit de se retourner vers notre passé, même très récent, pour en avoir la preuve.

Sources et références

Une expérience de génération d’ images IA : le site Artificiellement Créatif

J’ ai voulu profiter de ces vacances d’ été pour tenter quelque chose de nouveau: la génération créative d’ images IA. L’ idée me trottait dans la tête depuis mes premières tentatives en fin d’ année passée dont j’ avais parlé dans cet article.

J’ai finalement décidé de franchir le pas et de mettre en place un site de vente d’ images générées par l’ IA appelé Artificiellement Créatif auquel vous pourrez accéder ici.

Le thème initial, ce sont les Estampes Japonaises, un domaine artistique que je trouve fascinant tant par le caractère très original des graphismes et le lien de parenté avec le monde actuel des mangas. Tout le monde connaît l’Estampe Japonaise la plus connue, la Grande Vague de Kanagawa d’Hokusai; il s’ agit d’ un genre artistique à part entière qui vaut le détour.

Les estampes japonaises sont des gravures sur bois (xylogravures) qui dont utilisées comme matrices pour l’ impression des différentes couleurs sur un support en papier. Si la gravure initiale des matrices de bois est fastidieuse, elle permet ensuite de réaliser des impressions en série. Ceci explique qu’ il est possible aujourd’ hui de trouver des estampes japonaises anciennes à des prix tout à fait raisonnables. Cette efficacité les a rendues extrêmement populaires au Japon des XVIII et XIXème siècles sous le nom d’ Ukiyo-e. Aujourd’hui encore, des artistes japonais utilisent ces techniques pour réaliser des Ukiyo-e modernes…

Mais si j’ aime beaucoup ce type d’ imagerie, mon talent artistique n’ est pas au rendez-vous. Je ne sais pas si cela vient du fait que je suis une personne très débutante dans l’ art ou bien du fait que j’ aime beaucoup ce genre d’ imagerie. Mais force est de constater que les arts graphiques sont hors de mon atteinte…je me sens plus à l’ aise dans l’ écriture.

Et je ne suis pas le seul, loin de là. Une étude citée par Ethan Mollick dans son livre Co-intelligence estime que seuls 31% des personnes estiment être en mesure de réaliser leur potentiel créatif. Beaucoup de gens aimeraient -comme moi- réaliser leur potentiel créatif mais en sont incapables par suite de manque de connaissance technique et/ou de talent. Il y a beaucoup d’ énergie créative frustrée dans le monde…

J’ ai donc décidé de franchir le pas et de me faire aider par l’ IA pour me permettre d’ entrer dans un domaine qui me serait normalement inaccessible. Je ne prétends pas que ces générations d’ images de type Ukiyo-e constituent de l’ art ni que je suis un artiste mais au moins j’ ai le sentiment d’ avoir élargi le champ de mes possibles…

Voilà. Je vous invite à jeter de temps en temps un oeil à mes réalisations. Le site est accessible via le menu du blog, section Art virtuel.

Taxonomie de l’ apprentissage machine

L’ Intelligence Artificielle a pour objectif de construire des systèmes qui simulent un comportement intelligent. Ceci reprend un grand nombre de techniques dont l’ apprentissage machine constitue une partie importante. C’est l’apprentissage machine, et plus particulièrement sa déclinaison moderne faisant appel aux réseaux de neurones artificiels, appelée apprentissage profond qui a vu une croissance explosive ces dernières années et se retrouve au coeur de tous les progrès récents (conduite autonome, modèles de langage, générateurs d’image…).

Il me semble donc intéressant de décrire un peu plus en détail les grandes techniques de l’ apprentissage machine, qui se caractérisent par la quantité et le type de supervision qu’ ils reçoivent pendant l’ entraînement.

On distingue de ce fait trois grandes catégories d’ algorithmes :

  • l’ apprentissage supervisé;
  • l’ apprentissage non supervisé;
  • l’ apprentissage par renforcement
Figure 1 : Les familles d’ algorithmes de l’ apprentissage machine

Le nombre de techniques et d’ algorithmes utilisés en apprentissage machine est assez important, comme vous le verrez sur la figure ci-dessous. Mon but n’ étant pas ici de faire un exposé exhaustif, je me limiterai à présenter les techniques les plus connues.

Figure 2 : Une vue détaillée des techniques d’ apprentissage machine

L’ apprentissage machine recourt à une démarche inductive qui va chercher à construire un modèle sur base d’ exemples fournis pendant l’ entraînement. Une fois l’ entraînement terminé, le modèle sera utilisé sur d’ autres données. Un modèle bien entraîné va donc tenter de généraliser les corrélations apprises pendant l’ entraînement sur de nouvelles données. Ceci est à contraster avec l’ approche algorithmique de l’ IA classique qui est de nature déductive: un algorithme fixe est appliqué systématiquement à des données et fournit ses conclusions.

Figure 3 : Apprentissage machine et IA traditionnelle

1. L’ apprentissage supervisé

C’ est le cas le plus simple à comprendre. Ces algorithmes définissent une correspondance entre des données d’ entrée et des données de sortie. Un modèle supervisé est donc une sorte de boîte noire qui va apprendre à ingérer des données en entrée pour restituer les données en sortie correspondantes. La boîte noire est en réalité une fonction mathématique contenant de (nombreux) paramètres réglables.

Le lien entre données d’ entrée et de sortie est établi lors de l’ apprentissage: on évalue l’ écart entre la réponse désirée et la réponse du modèle. Les paramètres du modèle sont ensuite modifiés de manière à réduire progressivement cette erreur au fil des itérations par des techniques mathématiques qui vont tenter de « dévaler la montagne » de l’ erreur en suivant la direction de la plus forte pente…

Figure 4 : Illustration de la décroissance de l’ erreur au fil de l’ entraînement

Tout cela n’est possible que si les données à la fois d’entrée et de sortie dont de nature numérique, ce qui ne pose en général pas de problème : tout ce qui est stocké sur un ordinateur l’ est sous forme numérique : texte, image, audio…

Une fois l’ entraînement terminé, on introduira des données en entrée et le modèle de produira la sortie correspondante. Bien sûr, cela ne présenterait aucun intérêt si le modèle était seulement capable de répondre aux données d’entrée de l’entraînement : ce que l’ on veut réellement, c’ est que le modèle soit capable de généraliser en répondant de manière plausible à de nouvelles données d’entrée qui ne lui ont jamais été présentées.

Les deux grands exemples classiques d’ apprentissage supervisé en apprentissage machine sont la régression et la classification. La régression est utilisée pour prédire des valeurs numériques telles que le prix, le salaire, l’ âge, etc… Elle aide à prédire les tendances du marché, les prix de l’ immobilier, la consommation électrique etc…

La classification est un processus qui consiste à diviser l’ ensemble des données en différentes classes. Les algorithmes de classification sont utilisés pour classer dans une catégorie/classe telles que Homme ou Femme, Vrai ou Faux, Spam ou Non Spam, etc. Le nombre de de classes peut être supérieur à deux, on pourrait vouloir classer des voitures en fonction de la marque par exemple (on parle de classification binaire ou multiclasse).

Figure 5 : Régression et classification

L’ apprentissage profond permet d’ étendre ces techniques à des données d’ entrée perceptuelles comme des images ou des sons. Le « détecteur de chat » dans les images qui faisait fureur il y a une dizaine d’ années l’ illustre bien : il s’agit d’ un système de classification d’ image (chat ou pas chat).

Un problème de l’ apprentissage supervisé est qu’ il faut fournir au modèle un ensemble de solutions (les sorties) pour l’ entraînement, ce qui n’ est pas toujours facile et requiert parfois de fastidieux efforts surtout pour les problèmes perceptuels qui demandent un grand volume de données d’ entraînement. Des entreprises entières ont vu le jour, qui mettent à disposition des ressources humaines en grand nombre pour labelliser des images ou autres données d’ entraînement.

2. L’ apprentissage non supervisé

Ce type d’ algorithme se fait sans que l’ entraînement n’ utilise de données de sortie (il est donc « sans supervision »). Le but cette fois n’est pas d’ apprendre une correspondance entre entrée et sortie, mais bien d’ identifier et d’ exploiter la structure sous-jacente dans les données elles-mêmes : un assemblage de mots aléatoire ne constitue pas un texte, et un ensemble de points chosis au hasard ne constituera pas une image interprétable… il y a donc quelque chose de plus dans les données qui nous intéressent. L’ apprentissage non supervisé cherche à identifer ce « quelque chose ».

Les techniques génératives relèvent de l’ apprentissage non supervisé. On y retrouve donc les modèles de langage et des générateurs d’ image.

Dans le cas des modèles de langage, le générateur va chercher à prolonger la séquence de mots qui lui est fournie dans l’ invite (le prompt). Une phrase peut se voir comme une séquence de mots. Le générateur va se baser sur l’ immense volume de textes ingurgités pendant l’ entraînement pour définir le prochain mot qui prolonge la séquence de la manière la plus plausible. Ce mot est ensuite ajouté à la séquence d’ entrée et l’ algorithme est exécuté à nouveau, et ainsi répétitivement jusqu’à génération de la réponse complète.

Figure 6 : Principe du modèle de langage : prolonger la séquence

Les modèles générateurs d’ image vont fonctionner de manière un peu plus étonnante. Cette fois, le modèle va apprendre une représentation compacte des images. La technique utilisée pour apprendre cette représentation est assez indirecte puisqu’on va demander à l’ algorithme de retirer des parasites des images (les « débruiter »), ce qui amène le modèle à extraire les caractéristiques essentielles des images, et donc leur représentation compacte…

Figure 7 : Principe du générateur d’images

La représentation compacte est alors mise en correspondance avec le texte décrivant l’ image (texte qui fait aussi partie des données d’ entraînement). Le modèle va donc apprendre à « débruiter » une image en tenant compte de la description textuelle de cette dernière.

Une fois l’ entraînement terminé, il suffira d’ introduire un texte arbitraire, ainsi qu’une image ne contenant que des parasites. Le modèle va chercher à « débruiter » les parasites en tenant compte du texte que vous avez introduit ce qui, si tout va bien, convergera vers une image originale basée sur votre texte. Je suis bien conscient que ça paraît un peu fou mais c’ est le principe de l’ algorithme Stable Diffusion qui est utilisé par la quasi-totalité des générateurs d’ image actuels…

3. L’ apprentissage par renforcement

Le troisième grand domaine de l’ apprentissage machine est l’ apprentissage par renforcement. Cet apprentissage introduit la notion d’ un agent autonome qui agit dans un environnement et peut effectuer des actions et d’ en constater ensuite les conséquences. Les actions peuvent modifier l’ environnement et également donner lieu à des récompenses (ou des pénalités).

L’ apprentissage par renforcement consiste à apprendre ce qu’ il faut faire – comment associer des situations à des actions – de manière à maximiser le signal de récompense numérique. On ne dit pas au modèle quelles actions il doit entreprendre, mais il doit découvrir les actions qui rapportent le plus en les essayant.

Figure 8 : L’ apprentissage par renforcement

La difficulté de l’ apprentissage par renforcement est que la récompense peut se trouver plusieurs étapes dans le futur, et donc établir quelle action mènera à la plus grande récompense future n’ est pas évident. Pensez à un jeu d’ échecs : la récompense (positive ou négative) n’ arrive que lorsque le jeu se termine par échec et mat. Si vous êtes en début ou en milieu de partie, il faudra probablement de nombreux coups avant que la récompense ne soit obtenue…ce problème est appelé le problème de l’ assignation temporelle du crédit. Lorsque l’ agent apprend à naviguer dans l’ environnement pour obtenir la récompense, il doit aussi équilibrer les stratégies d’ exploration et celles d’ exploitation : après avoir trouvé une approche qui mène à la récompense, faut-il se borner à répéter cette approche (exploitation) ou bien prendre le risque de tenter une nouvelle approche qui pourrait mener à une récompense supérieure (exploration)…

L’ apprentissage par renforcement est un domaine fascinant qui concerne non seulement les machines devant agir dans un environnement (robotique, conduite autonome…), mais nous interpelle aussi sur certains mécanismes de fonctionnement de notre propre cerveau. L’ excellent livre de Max Benett en référence décrit l’ hypothèse selon laquelle certaines structures cérébrales apparues chez les premiers vertébrés il y a environ 500 millions d’ années (et toujours présentes chez nous) exploitent un mécanisme d’ apprentissage par renforcement, qui a ainsi conféré à ces animaux un avantage évolutif, en leur permettant de mettre en place de meilleures stratégies de survie…

Sources et références

  • A Brief History of Intelligence: Evolution, AI, and the Five Breakthroughs That Made Our Brains, livre de Max Bennett publié par Mariner Books, ISBN 978-0063286344
  • Understanding Deep Learning, par Simon J. D. Prince, https://udlbook.github.io/udlbook/
  • Reinforcement Learning, an introduction, par Richard S. Sutton and Andrew G. Barto, publié par MIT Press, ISBN 978-0-262-04864-4.

L’ Intelligence Artificielle dans la recherche

Je suis très heureux de pouvoir écrire cet article, et ce pour deux raisons.

La première raison est que la recherche scientifique est un des domaines où l’ Intelligence Artificielle peut révolutionner notre société, en stimulant la productivité scientifique, en augmentant les capacités cognitives humaines et en accélérant le rythme des découvertes. L’ IA appliquée à la science et à la recherche s’ est développée à un rythme important ces dernières années: si les tendances actuelles se maintiennent, la probabilité que les découvertes scientifiques futures soient principalement dues aux applications et aux outils de l’ IA va augmenter de manière significative.

La seconde raison est plus personnelle: depuis que j’ ai commencé la rédaction de ce blog à la mi-2023, j’ ai quasi-exclusivement parlé de l’ IA générative vu l’ engouement général à son sujet; je constate maintenant que de nombreuses personnes semblent résumer l’ IA à l’ IA générative et à ChatGPT. La fascination de ces dernières techniques est, je pense, lié en grande partie à leur facilité d’ utilisation et à la tentation de l’ anthropomorphisme. Mais elle ne doit pas éclipser les autres techniques dont le potentiel est tout aussi impressionnant.

Rappelons que les techniques génératives sont asssez récentes et l’ Intelligence Artificielle contient de nombreuses autres techniques, dont une grande partie dont orientées vers la prédiction et la discrimination de données. Ce sont principalement ces techniques qui seront à l’ honneur dans cet article.

Dans le texte qui suit, je décrirai les trois principales manières dont l’ IA impacte dès aujourd’hui le processus de recherche. Si les deux approches sont de nature prédictive et concernent la recherche scientifique, la troisième est générative et s’ applique également aux sciences humaines.

Ce bref aperçu n’ a pas vocation à être exhaustif : l’ IA aide aussi les chercheurs dans d’ autres domaines comme l’ analyse des données et dans l’ automatisation de certaines tâches répétitives de laboratoire par exemple…

1. Problèmes de prédiction complexes

L’ utilisation la plus courante de l’ IA dans le domaine scientifique consiste à résoudre des problèmes complexes de prédiction, c’ est-à-dire à mettre en correspondance des données d’ entrée connues avec des données de sortie à prédire. L’ IA intervient typiquement pour la résolution de problèmes physiques pour lesquels la modélisation directe des équations régissant les phénomènes est trop complexe.

Deux magnifiques examples de cette approche nous sont données par la société Google Deepmind à travers la prédiction de la structure tridimensionnelle des protéines à partir de la séquence d’ ARN codante (AlphaFold 3), et la prédiction de nouvelles structures cristallines (GnoME). Les applications possibles de ces deux applications sont énormes, et je vais les décrire succinctement.

Le modèle IA appelé Graph Networks for Materials Exploration (GNoME) est conçu pour prédire les structures cristallines inorganiques, qui sont des arrangements répétitifs d’ atomes conférant aux matériaux des propriétés particulières – par exemple, la symétrie hexgonale d’ un flocon de neige est le résultat de la structure cristalline de la glace.

Illustration 1 : Prédiction de nouvelles structures cristallines

Jusqu’ à présent, nous ne connaissions qu’ environ 48 000 cristaux inorganiques possibles. GNoME a fait passer ce chiffre à plus de 2 millions, et bien que certaines de ces nouvelles structures puissent se décomposer en formes plus stables ou être impossibles à créer, plus de 700 de ces prédictions ont déjà été réalisées indépendamment en laboratoire. Il s’ agit notamment d’ un cristal de lithium et de magnésium semblable à un diamant, qui pourrait être utilisé dans des lasers de grande puissance, et d’ un supraconducteur de molybdène à basse température.

Les chercheurs de Deepmind ont maintenant mis à la disposition de la communauté académique l’ ensemble des données relatives aux structures cristallines prédites. Cela va accélérer la découverte de nouveaux matériaux et c’ est là tout l’ intérêt : par rapport à ce que contenaient les bases de données auparavant, il est possible d’augmenter la taille des données d’ un ordre de grandeur.

Ces nouvelles structures cristallines pourraient contribuer à révolutionner la science des matériaux, en offrant de nouveaux moyens de fabriquer de meilleures batteries, de meilleurs panneaux solaires, de meilleures puces électroniques et bien d’ autres technologies vitales. « Chaque fois que quelqu’ un veut améliorer sa technologie, cela passe inévitablement par l’ amélioration des matériaux », explique Ekin Dogus Cubuk de DeepMind. « Nous voulions simplement qu’ ils aient plus d’ options. »

Alphafold 3, également fruit des recherches de Google Deepmind, est une prouesse comparable dans le domaine des structures organiques : il s’ agit cette fois de prédire la forme tridimensionnelle des protéines en fonction de leur structure codante encodée sur un gène de l’ ADN qui est transformé en message envoyé au ribosome (via un ARN messager). Le ribosome, qui fait partie de la machinerie cellulaire, construit ensuite la protéine en enfilant une série d’ acides aminés sur une longue chaîne, et c’ est l’ ARN messager qui décrit la séquence des acides aminés dans la chaîne. Le problème est que la protéine se replie ensuite en trois dimensions et c’ est cette forme qui détermine son rôle biologique. Or, le mécanisme de repliement fait intervenir des interactions trop complexes pour être modélisées directement. La résolution de ce problème de repliement des protéines faisait l’ objet de recherches acharnées depuis plus d’ un demi-siècle.

Illustration 2 : Prédiction de la structure tridimensionnelle des protéines

C’ est précisément ce que fait Alphafold 3, qui peut non seulement prédire la structure d’ une protéine à partir de la séquence codante d’ ARN messager, mais également l’ interaction de cette dernière avec d’ autres molécules, ce qui constitue un outil incroyablement précieux pour la recherche de nouveaux médicaments ou vaccins… et, ici encore, les chercheurs de Deepmind on choisi de publier une base de données de 200 millions de structures tridimensionnelles de protéines prédites par Alphafold 3.

Alphafold 3 est tellement fascinant que je pense bien y consacrer un prochain article…

2. la paramétrisation des systèmes complexes

Une seconde application est le paramétrage optimal de systèmes complexes. Dans ce cas, des techniques telles que l’ apprentissage par renforcement peuvent être utilisées pour rechercher l’ ensemble optimal de paramètres qui maximisent ou minimisent une fonction objective spécifique ou produisent un résultat souhaité.

Quelle est la différence avec le point précédent ? Eh bien dans le cas précédent on partait d’ une cause (un ARN messager) pour en prédire la conséquence (la structure d’ une protéine). Ici, nous faisons le contraire : nous partons d’ un résultat désiré pour essayer d’ identifier une configuration de paramètres d’ entrée qui pourrait mener à ce résultat. Comme les algorithmes d’ IA prédictive travaillent sur base de corrélation et non de causation, ils peuvent travailler indifféremment dans les deux sens, contrairement aux lois de la Physique qui sont de nature causale et donc unidirectionnelle. Le prix à payer pour un lien corrélatif est l’ absence d’ explication, mais dans certains cas c’ est le résultat qui importe et non sa justification.

Un exemple récent concerne les tokamaks, ces réacteurs prototypes pour la fusion nucléaire. L’ IA a permis aux scientifiques de modéliser et de maintenir un plasma à haute température à l’ intérieur de la cuve du tokamak, un problème qui s’ était avéré très difficile à résoudre jusqu’ à présent: le plasma est contrôlé à travers une série de bobines générant des champs magnétiques qui doivent être réglés avec grande précision à tout instant si l’ on veut maintenir la stabilité du plasma. Le problème est si complexe à résoudre que les physiciens comparent cela à maintenir la forme d’une boule de « slime » (le plasma) avec des élastiques (les champs magnétiques)…

Illustration 3 : Contrôle du plasma de fusion dans un tokamak

Lors d’expériences menées au DIII-D National Fusion Facility de San Diego, des chercheurs américains ont récemment démontré que leur modèle, formé uniquement à partir de données expérimentales antérieures, pouvait prévoir jusqu’ à 300 millisecondes à l’ avance les instabilités potentielles du plasma. Ce délai s’ avère suffisant pour modifier certains paramètres de fonctionnement afin d’ éviter une déchirure dans les lignes de champ magnétique du plasma, perturbant son équilibre et ouvrant la porte à une fuite qui mettrait fin à la réaction.

Cette recherche ouvre la voie à un contrôle plus dynamique de la réaction de fusion que les approches actuelles et jette les bases de l’ utilisation de l’ intelligence artificielle pour résoudre un large éventail d’ instabilités du plasma, qui constituent depuis longtemps des obstacles à l’ obtention d’une réaction de fusion durable. L’ IA pourrait donc aider à lever un obstacle majeur dans le développement de la fusion nucléaire en tant que source d’ énergie non polluante et virtuellement illimitée…

3. L’ IA pour la recherche et la découverte bibliographiques

Une autre application essentielle de l’ IA est l’ automatisation du processus d’ examen de la littérature académique, qui peut être facilitée par des moteurs de recherche puissants basés sur les modèles de langage. Des plateformes telles qu’ Elicit et Perplexity fonctionnent grâce à une interface de type chatbot, permettant aux chercheurs d’ interagir dynamiquement avec la machine.

Le chercheur peut entamer une conversation pour rechercher des informations sur des recherches antérieures dans un certain domaine et recevoir un résumé des informations-clés sur ce domaine. Les outils les plus récents peuvent même se souvenir du contexte de la conversation, ce qui améliore la qualité de l’ échange entre l’ utilisateur et la machine.

Toujours dans le contexte de l’ analyse de la littérature universitaire, une application intéressante est la découverte basée sur la littérature, où l’ IA peut découvrir des associations implicites et cachées à partir d’ études existantes, ce qui donne lieu à des hypothèses intéressantes, surprenantes et non triviales qui valent la peine d’ être étudiées plus avant par les chercheurs.

Rappelons que les modèles de langage fonctionnent sur une base de création de la séquence linguistique la plus plausible. Ce mécanisme peut être source de créativité en combinant des concepts développés séparément dans la littérature, en identifiant des lacunes dans la littérature ou encore en proposant des variations originales dans les expériences existantes.

Afin d’illustrer ce propos, je voudrais reprendre une citation du Prof. Terence Tao, Professeur de Mathématiques à l’ UCLA et un des plus brillants mathématiciens vivant à ce jour :

L’ IA de niveau 2023 peut déjà donner des indications suggestives et des pistes prometteuses à un mathématicien en activité et participer activement au processus de prise de décision. Lorsqu’ elle sera intégrée à des outils tels que les vérificateurs de preuves formelles, la recherche sur Internet et les progiciels de mathématiques symboliques, je m’attends à ce que l’IA de niveau 2026, si elle est utilisée correctement, soit un co-auteur digne de confiance dans la recherche mathématique, et dans de nombreux autres domaines également.

Terence Tao, Professeur de Mathématiques à UCLA

Conclusion

Voilà. Je sais qu’ on entend souvent parler de l’ Intelligence Artificielle avec une connotation négative : pertes d’ emploi, risque de perte de contrôle, désinformation… mais cette perception pessimiste ne doit pas faire oublier l’ immense potentiel transformateur de cette technologie. Mon article précédent parlait d’ éducation, et cet article a parlé de recherche scientifique. Ces deux domaines sont notre plus grande promesse pour des lendemains meilleurs.

Il est parfois bon de rappeler que le verre à moitié vide est aussi à moitié plein.

Sources et références

Une nouvelle offre intéressante chez OpenAI

Dans la rédaction de ce blog, j’ essaie de ne pas devenir le relais des annonces marketing de certaines entreprises; j’ évite donc de réagir à chaud sur les tous derniers développements et déclarations tonitruantes dont le secteur est régulièrement inondé.

Je vais cette fois faire une exception car les produits annoncés par OpenAI lundi dernier sont déjà en partie disponibles et représentent un progrès important, non seulement pour les utilisateurs payants, mais aussi et surtout pour l’ immense majorité des utilisateurs non payants.

Allons-y !

1. ChatGPT-4o disponible pour tout les utilisateurs

OpenAI met progressivement à disposition des utilisateurs un nouveau modèle appelé ChatGPT-4o. ChatGPT-4o est très performant puisqu’ il vient de se hisser à la première place du classement des modèles de langage établi par la société LMSYS :

Figure 1 : LMSYS chatbot arena leaderboard publié sur HuggingFace dd. 16 mai 2024

Mais surtout, tous les utilisateurs inscrits chez OpenAI auront désormais accès au nouveau modèle ChatGPT4o qui est comparable à ChatGPT-4 en termes de performances. Et c’ est un progrès majeur pour les utilisateurs « gratuits » qui avaient jusqu’ à présent uniquement accès au modèle ChatGPT-3.5 aux performances nettement plus modestes.

Rien de plus simple que d’ accéder à ce modèle : connectez-vous sur https://chat.openai.com et sélectionnez GPT-4o. Ce modèle étant déployé de manière phasée vers les différentes catégories d’ utilisateurs, il est fort possible que ce modèle ne soit pas encore disponible pour vous. Dans ce cas, encore un peu de patience…

Figure 2 : Interface utilisateur GPT-4o

Mais alors quel avantage reste-t’ il pour les abonnés ayant souscrit à l’ abonnement ChatGPT+ qui coûte 20$/mois ? Le modèle sera soumis à des limites de nombre de questions dans le temps et cette limite (pas encore communiquée) sera cinq fois supérieure pour les utilisateurs ChatGPT+.

2. Multimodalité : audio et images

Le « o » dans le modèle GPT4o est une abréviation de « omni » et fait allusion aux compétences multimodales du nouveau modèle qui est capable de traiter nativement de l’ audio et des images en entrée et en sortie (pas la vidéo).

La capacité de traiter nativement la voix est intéressante et nous fait avancer sur la voix de l’ assistant personnel : pouvoir engager une conversation naturelle avec un assistant et recevoir une réponse sans délai, l’ interrompre en cours de conversation, lui demander de chanter ou le voir changer le ton de sa voix rendra l’ interaction beaucoup plus naturelle et représente un pas de plus vers des machines avec lesquelles nous interagissons comme avec les humains : en leur parlant.

Pour vous donner une idée de ce qui sera possible, voici une démonstration amusante des fonctionnalités audio avancées de GPT4o :

Démonstration des capacités verbales de ChatGPT-4o

Ces fonctionnalités multimodales ne sont cependant pas encore disponibles; OpenAI indique qu’ elles devront d’ abord faire l’ objet de vérifications de sécurité extensives. La voix est une manière essentielle de reconnaître un interlocuteur (pensez au téléphone) et il n’est pas difficile d’ imaginer les utilisations malfaisantes d’ un modèle de langage capable d’ imiter des voix à la perfection…..

Une remarque : Ne vous laissez pas abuser par le petit écouteur qui apparaît à droite de l’ app ChatGPT sur smartphone! S’ il permet de communiquer dès aujourd’ hui avec l’ application par la voix, le mécanisme actuel repose sur un chaîne de trois modèles utilisés séquentiellement :

  • un modèle audio-vers-texte (OpenAI Whisper);
  • le modèle ChatGPT en tant que tel (texte-vers-texte);
  • un modèle texte-vers-voix (OpenAI Text-To-Speech TTS).

Cela fonctionne, mais c’ est nettement plus lent et plus limité en termes de fonctionnalités, une grande partie de l’ information se perdant dans les transcodages successifs…Patience donc.

3. Agents GPTs

Autre nouveauté : les abonnés gratuits vont maintenant pouvoir utiliser les agents GPTs disponibles sur le GPT store, qui est accessible ici. Par contre, seuls les abonnés payants ChatGPT+ pourront créer de nouveaux agents GPTs et les publier sur le GPT store.

Figure 3 : page d’accueil du GPT Store

Les agents GPTs ne sont rien d’ autre que des versions de ChatGPT spécialisées à travers un prompt système et/ou puisant de l’ information dans des documents accessibles via la Récupération Augmentée de Génération (RAG). Les agents GPTs sont également capables d’ appeler des applications tierces via une interface de programmation.

Par exemple, j’ ai développé un agent GPT qui restructure l’ argumentation d’ un texte selon le Principe Pyramidal de Barbara Minto, un classique de la consultance en gestion. Vous pouvez l’ utiliser ici : Agent GPT Pyramidal.

J’ ai également développé trois agents GPTs à caractère éducatif que je présenterai dans un prochain article qui sera dédié à l’ impact de l’ IA générative dans l’ éducation.

Quoi qu’ il en soit, n’ hésitez pas à parcourir le GPT Store et à expérimenter.

4. Application desktop pour MacOS

Si vous possédez un ordinateur Apple récent (càd avec un processeur Apple M1 ou plus), OpenAI met maintenant à disposition une application qui permet d’ accéder à ChatGPT par une simple combinaison de touches. Une version Windows est en développement et sera disponible avant la fin de l’ année.

Voici une image provenant d’ OpenAI montrant l’ interface utilisateur de l’application :

Figure 4 : Interface utilisateur de l’ application native MacOS

L’ idée est intéressante car c’ est un premier pas vers un ordinateur pilotable par la voix. Avoir une interface conversationnelle immédiatement à disposition pourrait aussi marginaliser les engins de recherche en reléguant ces derniers à l’arrière-plan comme le fait Perplexity, un outil que je vous conseille vivement d’ essayer. Greffez ensuite la future interface vocale de GPT4o et vous avez tous les ingrédients d’ un excellent assistant personnel.

Quelques réflexions

Si le meilleur modèle est disponible pour tous, une grande partie de la valeur ajoutée de l’abonnement payant ChatGPT+ aura disparu. Et comme OpenAI veut certainement éviter une avalanche de résiliations des abonnements payants, je suis convaincu qu’ une autre annonce d’ OpenAI est proche et introduira un nouveau modèle plus puissant à la destination exclusive des abonnés payants. Cela semble logique : GPT-4o devient le nouveau GPT-3.5 « grand public » et le nouveau modèle, qu’il s’appelle GPT-4.5, GPT-5 ou autre chose devient le nouveau modèle « premium »…

OpenAI devra également tenir compte de la nouvelle législation européenne sur l’ IA parce que le modèle GPT4o pourrait potentiellement être utilisé pour la détection des émotions des personnes, une pratique interdite dans les lieux éducatifs et professionnels au termes de l’ European Union Artificial Intelligence Act.

Et pour remercier ceux qui ont lu jusqu’au bout, une petite vidéo à ne pas rater sur le sujet :

Sources et références

Deux livres pour comprendre l’IA et explorer son potentiel

Je voulais attirer votre attention sur deux ouvrages récents que je considère très utiles pour une compréhension plus profonde de l’ Intelligence Artificiele et de ses enjeux. Understanding Deep Learning de Simon Prince et Co-Intelligence de Ethan Mollick offrent des perspectives complémentaires et profondément éclairantes sur ces thèmes. Ces livres permettent non seulement de démystifier les aspects techniques de l’ apprentissage profond, mais aussi de réfléchir à notre relation interactive avec l’ IA.

Figure 1 : couverture des deux livres

1. Understanding Deep Learning

Le livre Understanding Deep Learning de Simon Prince offre une introduction exhaustive et détaillée aux concepts fondamentaux de l’ apprentissage profond. Le texte est structuré de manière à couvrir les divers aspects de cette discipline en pleine expansion, allant de l’ apprentissage supervisé, non supervisé et par renforcement, jusqu’à l’ examen des implications éthiques de l’ IA.

Le traitement des réseaux neuronaux profonds est particulièrement détaillé. Prince examine comment les couches se composent pour former des architectures complexes et comment ces structures peuvent être optimisées pour diverses applications, en soulignant la différence entre les réseaux peu profonds et profonds. Les chapitres sur les fonctions de perte et les algorithmes d’ optimisation fournissent des bases essentielles pour comprendre comment les modèles sont entraînés.

Un autre point fort du livre est l’ exploration des réseaux convolutifs, essentiels pour les applications de traitement d’ images et de séquences temporelles. Les réseaux de type transformers, qui ont révolutionné le traitement du langage naturel, sont également détaillés, mettant en lumière des architectures comme BERT et GPT-3.

Le livre ne néglige pas les aspects théoriques plus avancés, tels que les flux de normalisation et les autoencodeurs variationnels, qui sont cruciaux pour comprendre les modèles génératifs contemporains. Prince aborde des applications pratiques tout en fournissant les bases mathématiques nécessaires à une compréhension profonde des mécanismes sous-jacents.

La partie finale du livre s’ interroge sur les raisons de l’ efficacité de l’ apprentissage profond et examine les débats en cours sur le nombre et la profondeur des paramètres requis par les réseaux neuronaux. En conclusion, il réaffirme l’ importance de l’ éthique dans la pratique de l’ IA, un sujet qu’il avait introduit au début de l’ ouvrage.

Ce livre se distingue par sa clarté et sa profondeur, rendant le domaine de l’ apprentissage profond accessible tout en offrant une richesse d’ informations techniques pour les praticiens et chercheurs expérimentés. Destiné à un public maîtrisant les sciences exactes et les mathématiques, ce livre constitue une ressource indispensable pour quiconque s’ intéresse ou travaille dans le domaine de l’ Intelligence Artificielle.

2. Co-Intelligence : living and working with AI

Le livre « Co-Intelligence: Living and Working with AI » d’ Ethan Mollick explore l’ intégration progressive de l’intelligence artificielle dans nos vies quotidiennes et professionnelles, et comment nous pouvons apprendre à cohabiter de manière efficace et éthique avec ces nouvelles formes d’ intelligence. Réparti en deux parties principales et un épilogue, le livre aborde les défis et les opportunités que cette coexistence engendre. Contrairement au premier livre, ce livre est accessible à tous les publics et ne nécessite aucune compétence technique particulière.

La première partie du livre s’ attarde sur la création et l’ alignement de cette forme d’ intelligence nouvelle et étrange que représente l’ IA. Mollick commence par discuter de la complexité inhérente à la création de ces intelligences non humaines, soulignant leur nature fondamentalement différente. Il propose ensuite des stratégies pour aligner les objectifs de l’ IA avec les valeurs humaines, un défi crucial pour éviter des conséquences imprévues. Il introduit également quatre règles pour une co-intelligence réussie : toujours inclure l’ IA dans les discussions, conserver l’ élément humain dans la boucle de décision, traiter l’ IA comme une personne à part entière, et partir du principe que l’ IA utilisée aujourd’ hui est la pire version à laquelle nous serons confrontés, impliquant une amélioration continue.

Dans la deuxième partie, Mollick examine les divers rôles que l’ IA peut jouer dans la société. Il souligne tout d’ abord les réactions étonnament humaines des modèles de langages, susceptibles de nous pousser à une certain anthropomorphisme. L’ IA en tant que créatif ouvre de nouvelles avenues dans les arts et la conception mais pose d’ épineuses questions jurdiques. L’ IA utilisée sur le lieu de travail soulève des enjeux autour de la collaboration et de l’ automatisation. L’ auteur explore ensuite l’ impact de l’ IA en tant que tuteur et coach, où elle peut personnaliser l’ apprentissage et offrir un soutien adapté aux besoins individuels.

À travers ce texte, Mollick offre une analyse approfondie et accessible des implications de vivre avec l’ IA. Il ne se contente pas de décrire les technologies actuelles, mais projette les lecteurs dans un futur proche où l’ IA est omniprésente et influente. En posant des principes de base pour une interaction saine et productive, Co-Intelligence: Living and working with AI sert de guide essentiel pour naviguer dans cette nouvelle ère technologique, soulignant la nécessité d’une approche réfléchie et éthique à l’ égard des technologies qui façonnent déjà notre monde.

Conclusion

Bien que Understanding Deep Learning et Co-Intelligence abordent l’IA sous des angles différents, ils sont fortement complémentaires. Alors que Prince nous fournit les outils pour comprendre le « quoi » et le « comment » des technologies, Mollick nous montre « avec qui » et « pour quoi » nous pourrions travailler main dans la main avec ces technologies. Ensemble, ces livres dessinent un tableau plus complet de l’ avenir de l’ intelligence artificielle, un avenir où la compréhension technique et la collaboration humaine se renforcent mutuellement.

Je vous en souhaite bonne lecture.

Référence des ouvrages

IA générative et droits d’auteur : litiges en cours et perpectives

Dans mon article précédent, j’ ai exposé de manière générale les zones de friction entre l’ IA générative et les droits d’ auteur. Je voudrais maintenant compléter la discussion en présentant les deux principaux litiges en cours et discuter de perspectives plausibles d’évolution.

Ces deux litiges sont l’ action intentée par Getty Images contre Stability AI et celle intentée par le New York Times contre OpenAI et Microsoft. Le premier concerne les images et le second le texte.

Passons-les succinctement en revenue sans trop entrer dans le détail juridique (pour lequel je vous réfère aux threads en référence rédigés par des juristes spécialisés dans le domaine).

1. Le litige opposant Getty Images à Stability AI

Il s’ agit d’ un litige en cours depuis février 2023 à la fois aux Etats-Unis et au Royaume-Uni. Il oppose la bibliothèque d’ images en ligne Getty Images à Stability AI, développeur du générateur d’ images Stable Diffusion accessible ici. La justice britannique a décidé début décembre que la plainte de Getty Images était recevable et que le procès pouvait débuter.

Getty Image allège que Stability AI a copié sans permission plus de 12 millions d’ images lui appartenant pour l’ entraînement de ses modèles, dans le but de construire une offre concurrente, réclame 150.000 dollars d’ indemnité par image contrefaite générée….et que, cerise sur le gâteau, les images de Stability reprennent parfois en tout ou partie les filigranes de Getty Images comme dans l’ image de synthèse ci-dessous :

Figure 1 : Image de synthèse de Stability AI reprenant un filigrane de Getty Images (crédit : The Verge)

La position de Stability à ces allégations n’ est pas connue publiquement. Il est donc difficile de fournir une analyse équilibrée présentant les deux points de vue.

Un élément important du litige est le territoire sur lequel s’ est déroulé l’ entraînement et le développement du modèle, qui va déterminer la juridiction compétente (Royaume-Uni ou Etats-Unis). Mais sur quelle base se fera cette détermination ? le lieu de travail des spécialistes AI en charge de ces activités ? la localisation physique du serveur hébergeant les données ? Celui du calculateur réalisant l’ entraînement ? Ce n’est pas simple.

Comme pour enfoncer le clou, Getty Images a lancé en septembre son propre service d’ IA générative appelé « Generative AI by Getty Images », entraîné exclusivement sur sa propre bibliothèque d’images…

2. Le litige opposant le New York Times à OpenAI et Microsoft

Le journal américain The New York Times a intenté fin décembre un procès aux USA contre OpenAI et Microsoft. Il estime en effet qu’ il est floué par ces deux entreprises, qui ont abondamment utilisé ses textes pour entraîner les modèles à la base de chatGPT.

Si OpenAI a entraîné le modèle, Microsoft est présenté comme le complice qui a mis à disposition son infrastructure pour rendre l’ entraînement possible, et fournit de surcroît une version de GPT4 sous sa propre enseigne (Bing Chat) qui présenterait les mêmes infractions.

La citation inclut une centaine de textes d’ articles qui ont pu être restitués dans leur quasi-intégralité après un prompt qui reprend les premiers mots de l’article, comme dans l’ exemple ci-dessous (le texte en rouge est identique).

Figure 2 : Exemple de restitution « par coeur » d’un article du New York Times

La plainte fait aussi état de la forte représentation de textes issues du New York Times dans la base de données *Common Crawl*, qui a été utilisée pour entraîner GPT4 : le site du New York Times se retrouve en effet en quatrième position…

Figure 3 : Répartition des principales sources de données du Common Crawl

Selon le journal, la qualité de son contenu se retourne également contre lui car il pousse les développeurs de modèles génératifs à pondérer fortement le texte dont il est la source dans les données d’ entraînement.

Le journal insiste sur le coût financier et humain d’ un journalisme de qualité qui couvre les cinq continents et demande parfois de travailler dans des conditions difficiles, voire dangereuses. La citation du NY Times contraste le rôle sociétal essentiel du journalisme avec la motivation lucrative d’ OpenAI et de Microsoft, la valorisation boursière de cette dernière société ayant augmenté d’ un trillion (!) de dollars au cours de la seule année 2023.

Le journal déclare avoir cherché un accord financier amiable avec OpenAI pour leur permettre d’ exploiter leurs articles mais ces négociations ont échoué. En conséquence de quoi, le New York Times réclame -en plus des dommages- ni plus ni moins que la destruction de tous les modèles de langage qui ont été entraînés sur ses données sans autorisation (à commencer par les GPT d’OpenAI) !

La position d’OpenAI, que vous pourrez lire dans leur communiqué de presse en référence est la suivante :

  • L’entraînement de modèles génératifs peut exploiter des données soumises au droit d’auteur car cela relève du *fair use* (voir mon article précédent qui présente cette notion). De plus, OpenAI propose un mécanisme permettant aux auteurs qui ne désirent pas voir leur contenu utilisé pour l’entraînement de signaler leur refus (approche de type OPT-OUT);
  • La « régurgitation » (c’est leur terme) de contenus existants mot pour mot est un problème rare qu’ils essaient d’ éliminer. En effet, les programmes d’IA générative ne mémorisent en principe pas l’information mais la transforment de la même manière qu’ un être humain qui se forme à travers la lecture de textes pour générer ensuite des créations originales;
  • En outre, ces « régurgitations » proviennent principalement d’ articles anciens qui se sont trouvés recopiés sur de multiples sites au fil du temps ce qui a pu déséquilibrer l’ algorithme en leur faveur, la répétition leur accordant une pondération trop importante pouvant mener à la mémorisation « verbatim » et à la régurgitation;
  • Les négociations avec le NY Times pour l’ obtention d’ un accord de license avançaient de manière constructive jusqu’ au moment du lancement de l’ action en justice qui les a profondément surpris. L’ implication étant ici que le New York Times cherche par cette action judiciaire à faire pression sur OpenAI pour obtenir un accord plus favorable.

Voilà ce qu’ il en est. La plupart des commentateurs avisés pensent que ceci se terminera par une transaction amiable, ce qui est compatible avec les positions maximalistes des deux parties exprimées en public (interdiction d’un côté, « fair use » de l’autre), qui cherchent surtout à faire pression sur l’ adversaire.

Si vous voulez vous plonger dans une analyse juridique de ce litige, je vous suggère de lire les threads X de Jason Kint et Cecilia Ziniti, des spécialistes du domaine, repris en référence.

3. Quelques réflexions

Pour terminer, je voudrais mentionner deux scénarios possibles d’évolution à moyen terme sur ce sujet :

Un scénario « progressiste » verrait les auteurs publiant en ligne -mais désireux de protéger leurs droits- contraints d’ ajouter une référence d’ identification dans un format facilement lisible par une machine (métadonnées). Ceci serait contrebalancé par une double contrainte pour les développeurs de modèles génératifs IA :

  • devoir publier la liste de tous les auteurs et leurs textes/images repris dans les données d’entraînement;
  • permettre aux auteurs qui le désirent d’obtenir la suppression de leurs textes/images des données d’entraînement du modèle.

Cette approche est pragmatique : elle respecter les intérêts de chacun moyennant des efforts raisonnables de part et d’autre.

A l’ inverse, un scénario « conservateur » verrait un repli des détenteurs de droits sur leurs données propres et le développement de modèles génératifs fermés comme l’ a fait Getty Images. Seules les documents tombés dans le domaine public (et potentiellement ceux générés de manière synthétique) resteraient disponibles pour l’ entraînement sans contrainte…

4. Sources et références

Droits d’auteur et IA générative

Pour commencer l’année 2024, je voudrais vous parler de la situation actuelle des droits d’auteurs pour les modèles génératifs.

C’ est un sujet d’une actualité brûlante puisque deux litiges à ce sujet sont actuellement devant les tribunaux anglo-saxons : un premier litige oppose en Grande-Bretagne la bibliothèque d’ images Getty Images à Stability AI, une société qui fournit un modèle générateur d’ images. La seconde action en justice est intentée aux Etats-Unis par le New York Times contre OpenAI et Microsoft.

Dans cet article, je vais exposer la situation de manière générale. Je couvrirai plus précisément le litige entre le New York Times et OpenAI / Microsoft dans le prochain article, et je tenterai aussi de mentionner quelques pistes d’ évolution possibles.

Comme nous allons le voir, l’ impact potentiel pour le secteur de l’ IA générative et de ses utilisateurs est grand. Je voudrais vous encourager à parcourir le texte qui suit. Il peut sembler aride et pointilleux au premier abord mais l’ enjeu en vaut la chandelle.

Disclaimer : je ne suis pas juriste et donc ce qui suit n’a pas valeur d’avis juridique.

Cette réserve étant émise, allons-y…

1. Quelques notions de droits d’auteur

Le droit d’auteur confère à l’auteur d’une activité créatrice un monopole sur les revenus résultant de l’exploitation économique de l’oeuvre. En pratique, ces revenus découlent de la réalisation de reproductions de l’oeuvre et de sa communication au public, qui ne peuvent pas être réalisées sans l’ autorisation préalable de l’auteur (en général contre rétribution). Le droit d’auteur confère aussi à l’auteur des droits moraux sur l’oeuvre, comme sa paternité, mais ceci sort du cadre de cette discussion.

Ce droit d’ exploitation est limité dans le temps, à savoir 70 ans après la mort de l’ auteur pour la Belgique; l’ oeuvre passe ensuite dans le domaine public, ce qui signifie qu’ elle peut alors être exploitée économiquement sans contrainte.

Le terme d’ activité créatrice est assez large et reprend non seulement les créations artistiques littéraires, photographiques, musicales, sonores, audiovisuelles, mais aussi les logiciels informatiques et les créations d’ art appliqué (vêtements, meubles, plans d’architecte, objets, graphismes, bijoux…).

Par contre, un texte législatif ou administratif, une image satellite ou une peinture réalisée par un singe ne sont pas considérés comme des créations de l’ esprit humain. Une invention technique n’ est pas non plus protégable par le droit d’ auteur mais peut être protégée par brevet.

Enfin, certaines dérogations au droit d’auteur sont acceptées parce qu’ elles ne portent pas atteinte à l’ exploitation normale de l’oeuvre tout en servant l’ intérêt général. Par exemple, la présentation d’ extraits d’ oeuvres à des fins éducatives dans l’ enseignement ou d’ information par les médias sont autorisés, tout comme les utilisations à des fins de recherche académique.

Regroupées sons le vocable anglo-saxon de fair use ces exceptions sont importantes car elles interviendront dans la discussion relative à l’IA. Entraîner un modèle génératif sur des données soumises au droit d’auteur relève-til du fair use ? C’est une question complexe, au coeur du litige entre OpenAI et le New York Times.

Ceci étant dit, voyons maintenant les points de frictions entre modèles génératifs et droits d’ auteur. Il y a deux problèmes principaux, le problème de l’ entraînement (amont) et celui de la génération (aval), ainsi qu’un troisième problème connexe, celui de la création artificielle. Passons-les successivement en revue.

2. Le problème amont : l’ entraînement des modèles

Le problème de l’ entraînement est simple à comprendre : les modèles génératifs ont besoin d’ un volume de données digitales prodigieux pour leur entraînement. Ces données sont issues de copies de l’ ensemble d’ Internet réalisées au fil du temps par des programmes qui ont siphonné toutes les données publiquement accessibles qu’ ils pouvaient trouver : réseaux sociaux, engins de recherche, librairies digitales, journaux, banques de données statistiques, blogs, encyclopédies etc….

Ces données sont consolidées dans d’ immenses agrégats dont le plus connu est le Common Crawl, accessible ici.

Cependant, « publiquement accessible » sur Internet ne signifie aucunement que l’ auteur confère un quelconque droit à l’ utilisateur au-delà de la simple consultation en ligne. Et donc pas d’ autorisation implicite d’ entraîner un modèle IA…

Pour aggraver les choses, ce problème est quasi-universel. A l’ exception d’ une petite minorité de textes relevant du domaine public et des quelques textes générés par IA dont le statut est actuellement flou, pratiquement tout le reste tombe automatiquement sous le régime des droits d’ auteur.

Si le problème est simple à comprendre, force est de constater que sa résolution est dantesque : l’ ensemble d’ Internet cela veut dire des millions, voire des dizaines de millions d’ auteurs concernés, des textes dont la paternité est souvent difficile à attribuer, pour lesquels il faudrait obtenir l’ accord préalable du détenteur des droits…

C’ est pourquoi les grands acteurs du secteur (OpenAI et autres) ont cherché à court-circuiter le problème en déclarant que l’ entraînement des modèles relève du fair use et ne nécessite donc pas l’ accord préalable des détenteurs de droits.

L’ argument principal des géants de l’ IA est que les algorithmes de génération ingurgitent tellement de données d’ auteurs différents et les transforment à tel point que les droit individuels des auteurs ne sont pas impactés. Ils invoquent aussi le fait qu’ au plus l’ accès aux données est large, aux meilleurs les modèles seront, et que leur interdire cet accès correspond à un arrêt de mort pour une industrie symbolique du progrès et qui pourra apporter énormément à la société dans le futur.

Les auteurs rétorquent que les algorithmes exploitent abusivement leurs créations dans un but lucratif et susceptible de porter atteinte à leurs droits d’ exploitation. Ils mettent en avant des exemples de réalisations IA très proches voire identiques de leurs propres oeuvres…

Mon intuition de profane est que les arguments techniques du secteur IA sont valides (caractère transformatif et volume des données d’entraînement), mais l’argument de l’utilité publique est spécieux et sert de paravent aux buts lucratifs des acteurs de l’ IA générative…

La question des droits sur les données d’entraînement est cruciale pour l’ ensemble de l’ industrie de l’ IA, largement basée sur des algorithmes d’apprentissage machine gourmands en données de tout type, même si l’ IA générative (principalement images et texte) cristallise le problème vu la concurrence potentielle avec les auteurs.

Cependant, même si les développeurs obtiennent d’ une manière ou d’ une autre la permission d’ utiliser les données couvertes par droit d’ auteur pour l’ entraînement des modèles, cela ne signifie pas nécessairement que les utilisateurs sont libres de produire et diffuser leurs générations comme ils l’ entendent….ce qui nous amène au problème aval.

3. Le problème aval : la génération

Le problème de la génération est le suivant : si un utilisateur utilise un programme IA pour produire une image (ou un texte) qui est substantiellement similaire à une oeuvre protégée, qui est le responsable de la contrefaçon (plagiat) potentielle ?

Est-ce la société qui a produit l’ outil IA ? L’ utilisateur qui a guidé l’ outil dans la génération ? Celui qui a diffusé l’ image ? La plateforme qui a servi à la diffusion de l’ image ?

Il est utile de savoir que les sociétés qui mettent les modèles à disposition ont tendance à repousser cette responsabilité sur l’ utilisateur dans leurs condition d’ utilisation: leur position est que l’utilisateur pilote l’ outil via le prompt et est responsable de ce qu’ il génère et de l’ utilisation qu’ il en fait ensuite.

Et le risque est réel. Il arrive aux modèles d’image et de langage de reproduire des images ou des textes similaires à ce qui se trouvait dans leur données d’ entraînement.

Complication majeure, ceci est possible non seulement si l’ utilisateur le demande mais également sans que l’utilisateur en ait fait la demande explicite .Il est par exemple possible de recréer des images de personnages ou véhicules de Star Wars sans que ces termes apparaissent dans le prompt. Il en va de même pour les textes générés par le New York Times dans le litige qui l’ oppose à OpenAI : le journal a réussi à reproduire des copies presque exactes de certains de ses articles sans que le nom du journal apparaisse dans le prompt.

En tout état de cause, cela affaiblit la position de Ponce Pilate des développeurs de modèles : difficile de rejeter la responsabilité sur l’ utilisateur du modèle si le modèle crée des contrefaçons à l’ insu de ce dernier…la question des responsabilités respectives ne sera pas facile à trancher.

Si vous désirez comprendre cette question plus en détail, je vous réfère à l’excellent article de Gary Marcus et Reid Soutern publié il y a quelques jours dans IEEE Spectrum, et accessible ici.

Quoi qu’il en soit, le problème de la génération est tributaire de la résolution du problème de l’ entraînement. La meilleure issue serait que les développeurs de modèle trouvent un accord (pécunier) avec les auteurs qui permettrait à la fois l’entraînement ET la génération sans contrainte, faisant d’une pierre deux coups.

Par contre, si la résolution de la question de l’ entraînement se fait au détriment des auteurs – par exemple, si la justice tranche en faveur du fair use -, le risque est grand que ces derniers se retournent contre les images générées par les utilisateurs pour faire valoir leurs droits, déplaçant le coeur du litige de l’entraînement vers la génération.

4. La création artificielle

Comme on l’a vu plus haut, le droit d’auteur actuel implique la création par un être humain. Mais pour la première fois, une activité créative non humaine devient possible. La génération par l’ IA introduit donc une autre question juridique : oublions un instant les droits des auteurs existants et imaginons une création artificielle tout à fait originale. Cette oeuvre mérite-t’ elle à son tour une protection relevant d’une forme de droit d’ auteur ?

Et si une future législation devait attribuer un droit d’auteur, à qui reviendrait-il ? le propriétaire du modèle ou l’utilisateur, voire peut-être un jour à l’ IA elle-même ?

Enfin, il faudra peut-être distinguer la création artificielle entièrement autonome de celle où l’ humain continue à jouer un rôle de pilote, par exemple via un prompt, assisté par une IA réduite à un rôle d’ outil génératif…

La question de la création artificielle est importante sur le principe, mais sa résolution est moins urgente que les deux autres. Il est donc probable que cette question reste ouverte pendant quelque temps.

5. Réflexions

Le droit d’auteur est très ancien. Au cours de son histoire, il s’est régulièrement retrouvé en conflit avec le progrès technologique. Imaginez la réaction des peintres du XIX siècle confrontés aux premières photographies ou celle des auteurs de romans face aux premières photocopieuses dans les années 1970, sans parler des cassettes audio et des magnétoscopes VHS dans les années 1980…le droit d’auteur a évolué au fil du temps sans toutefois cesser de jouer son rôle protecteur pour les créateurs. L’avènement des modèles génératifs n’est que la dernière péripétie de cette co-évolution.

Un dénouement radical -quoique improbable- serait l’interdiction pure et simple des modèles génératifs. Un scénario analogue a eu lieu en 2001 avec l’interdiction de Napster suite à une procédure initiée par le groupe Metallica. Napster permettait aux utilisateurs de télécharger des morceaux de musique gratuitement indépendamment des droits d’auteur applicables, une transgression certes plus directe que celle reprochée aux modèles génératifs! Néanmoins, elle rappelle que la technologie n’ a pas toujours gain de cause dans sa remise en cause des droits d’auteur.

Il est aussi intéressant de noter que l’ European AI Act ne traite des droits d’auteurs que de manière indirecte, en demandant aux développeurs de modèles génératifs de spécifier quelle oeuvres soumises aux droits d’ auteur ont été utilisées pour l’ entraînement du modèle. Ce n’ est pas illogique car les droits d’ auteur sont soumis à un ensemble de directives européennes séparées et les clarifications essentielles apparaîtront probablement lors d’ une future itération de ces dernières.

Il est d’ ailleurs fort possible que différentes juridictions adoptent des approches différentes. Rien ne permet d’affirmer que que les Etats-Unis et l’ Europe suivront la même logique, d’autant que le risque de capture réglementaire n’est pas exclu au vu des moyens financiers des acteurs privés en présence. Le Japon a déjà pris une initiative dans le domaine, autorisant l’ entraînement de modèles génératifs sur des données sujettes aux droits d’ auteur (moyennant certaines limitations).

Et enfin, une ultime complication : quid des modèles génératifs open-source ? Est-il possible d’ organiser une éventuelle rétribution des auteurs en l’absence de flux financiers des utilisateurs vers les développeurs de modèle ? Ces modèles devront-ils se contenter de données du domaine public, voire synthétiques pour leur entraînement ? Ou bien vont-ils disparaître ? Comme vous le voyez, il y a matière à réfléchir, et les questions sont à la fois d’ ordre technique, juridique et financier.

6. Sources et références

« Older posts Newer posts »