Rendre l' IA accessible à tous

Catégorie : Généralités (Page 3 of 3)

Informations sur le fonctionnement du blog, messages non directement liés à l’IA

Une vidéo particulièrement intéressante sur les modèles de langage

Je vous invite de tout coeur à visionner la vidéo suivante publiée cette semaine par Andrej Karpathy sur Youtube. Andrej Karpathy est un des chercheurs les plus en pointe en IA. Il est un des cofondateurs d’ OpenAI et combine l’ excellence technique avec un remarquable talent pédagogique.

La vidéo fait le tour du fonctionnement et des perspectives des modèles de langage. Le niveau est plus technique que celui de mes articles habituels tout en restant très accessible.

Dans la vidéo, Andrej Karpathy explique successivement :

  • comment les modèles de langage génèrent le texte;
  • l’ entraînement des modèles de langage;
  • le principe de fonctionnement des modèles de langage;
  • le passage d’ un modèle généraliste à un modèle conversationnel;
  • les agents : utilisation d’ outils par les modèles de langage;
  • le futur des modèles de langage : multimodalité, raisonnement, auto-amélioration;
  • le modèle de langage comme futur système d’ exploitation;
  • risques et failles de sécurité spécifiques aux modèles de langage.

Vous pouvez visionner la vidéo ici :

J’ en profite aussi pour vous rappeler la liste des chercheurs en IA à suivre sur X/twitter (dont Andrej Karpathy fait évidemment partie), que j’ avais publié dans un article précédent que vous pourrez consulter ici.

Etat des lieux de l’IA générative en septembre 2023

Près de dix mois après la mise sur le marché de la première version de ChatGPT, le marché a bien évolué et semble s’orienter vers une offre structurée autour des géants de la tech américaine. En effet, chacun des GAFAM a établi sa propre stratégie et sa propre offre d’IA générative.

Le moment est donc propice pour faire un tour d’horizon de la situation actuelle et de ce que nous pouvons raisonnablement attendre dans un futur proche.

1. Les grands acteurs

A tout seigneur, tout honneur. Parlons d’abord d’ OpenAI. OpenAI est actuellement le leader du marché avec ses modèles conversationnels chatGPT 3.5 et chatGPT 4, qui comptent environ 100 millions d’utilisateurs enregistrés. Ce leadership est aussi technologique, ChatGPT4 étant le modèle actuellement le plus performant. Mais la taille du modèle le rend coûteux à exploiter, qui s’ajoute au coût de l’entraînement de ce dernier. C’est pourquoi OpenAI a déclaré concentrer ses efforts sur une version « 4.5 » de ChatGPT aux performances comparables à chatGPT4 mais coûtant moins cher à l’ exploitation. Le développement de GPT5 se fera ultérieurement.

En parallèle, OpenAI renforce la multimodalité de ChatGPT4 qui deviendra très prochainement non seulement capable d’ interpréter les images soumises par les utilisateurs mais sera aussi couplé au nouveau modèle de génération d’ image DALL-E-3 (également développé par OpenAI). ChatGPT sera bientôt aussi capable d’interagir de manière verbale dans les deux sens (écoute et parole), ce qui ouvre un champ de nouvelles applications interactives.

L’ avance d’ OpenAI est significative mais pas insurmontable, surtout face à des concurrents aussi puissants que Google. Pour utiliser le terme à la mode dans le secteur, la « douve » autour du château n’est pas profonde. OpenAI cherche donc à maintenir son leadership en s’ alliant avec des investisseurs aux poches profondes comme Microsoft, qui a basé son offre d’ IA générative sur les produits OpenAI. Ce qui nous amène tout naturellement à Microsoft.

Microsoft dispose d’ un écosystème de produits matures et utilisés quotidiennement par plus d’ un milliard d’ utilisateurs, à commencer par Windows et Office365. La stratégie de Microsoft est de complémenter chacun de ces produits par un « copilote » qui va assister l’ utilisateur lors de la rédaction d’ un texte (MS Word), d’ un tableur (Excel) ou d’ une présentation (Powerpoint). Et un autre « copilote » assistera l’ utilisateur dans ses interactions avec le système d’ exploitation Windows, à travers une interface conviviale et interactive pour modifier la configuration système ou gérer les fichiers par exemple. Encore un autre copilote dans Teams va proposer de rédiger les minutes d’ une réunion ou de résumer les points d’ action. Idem avec Outlook, où vous pourrez demander de résumer une chaîne d’ emails et de proposer une réponse. Et comme déjà mentionné, tout ceci est basé sur les produits d’ OpenAI.

La stratégie de Microsoft est donc d’ intégrer « naturellement » l’ IA dans le travail cognitif via les applications bureautiques et partant, de rendre les produits Microsoft plus productifs et attractifs que la concurrence.

L’approche de Google ressemble un peu à celle de Microsoft, Google essayant lui aussi d’intégrer des assistants AI dans sa suite bureautique Google Suite. Mais contrairement à Microsoft, le moteur IA génératif utilisé a été développé en interne (Bard).

Google développe aussi un modèle génératif haut de gamme destiné à concurrencer OpenAI : Gemini. Gemini sera un modèle intrinsèquement multimodal capable de déchiffrer et générer simultanément texte, images, audio, vidéo, modèles 3D et graphes. Pour mettre au point ce modèle, Google se base sur l’ excellence de ses équipes de pointe IA européennes (Google Deepmind) et américaines (Google Brain), ainsi que de l’ immense volume de données à sa disposition pour l’ entraînement, notamment auprès de sa filiale Youtube…

Vu la puissance de Google dans le domaine IA, il est presque surprenant qu’ il se soit fait damer le pion par OpenAI. C’est d’ ailleurs cette quasi toute-puissance de Google en IA qui avait poussé certains (dont Elon Musk) à la création d’ OpenAI fin 2015….

Il ne reste qu’ une inconnue : la date de lancement de Gemini. Elle est réputée proche. Nous verrons dans quelle mesure les cartes seront alors redistribuées.

Apple reste très discret sur ses projets d’ IA générative mais met les bouchées doubles pour développer un modèle qui serait appelé Ajax. On en ignore les détails mais Apple travaille sur la multimodalité. Une intégration avec Siri semble logique mais nous sommes à ce stade réduits à la spéculation.

Facebook/Meta a choisi une autre voie, et a, après quelques hésitations, a décidé de publier ses modèles génératifs Llama (suivi de Llama 2) en open-source. Concrètement, cela signifie que n’ importe qui est en mesure de télécharger le modèle et de le faire fonctionner localement.

Le modèle est disponible en plusieurs tailles (7, 13 et 70 milliards de paramètres); au plus la taille est grande au plus le modèle est efficace, mais au plus il est exigeant en mémoire et en puissance de calcul. Le plus petit modèle fonctionne localement sur un ordinateur de bureau disposant d’au moins 16GB de mémoire.

Vous pouvez dialoguer avec les versions 7B, 13B et 70B de Llama2 en cliquant ici, après avoir sélectionné le modèle en bas à droite de l’écran.

Le choix de l’ open source par Meta lui permet de bénéficier de toutes les innovations de la commuauté des chercheurs et des programmeurs open-source, mais le fait de diffuser ces modèles dans la nature augmente les risques d’utilisation malveillante.

Finalement, Amazon a choisi de s’ allier avec Anthropic qui possède le modèle Claude. Il s’ agit d’ un partenariat qui ressemble à celui entre OpenAI et Microsoft : accès privilégié au modèle contre investissement. Amazon étant le principal acteur dans le domaine du cloud (Amazon Web Services), il y a gros à parier que des interfaces de programmation vers Claude seront très prochainement disponibles pour les applications tournant sur AWS.

Les grands acteurs sont clairement engagés dans une course à la multimodalité. La génération de texte est aujourd’hui relativement bien maîtrisée, le défi principal est maintenant de traiter différents flux d’ information en parallèle qui se complémentent et s’ enrichissent mutuellement.

2. Et en Europe….

La scène de l’ IA générative en Europe ne contient pas de géants mais environ 150 start-ups y sont actives, dont environ un tiers est basé au Royaume-Uni, suivi par l’ Allemagne puis la France.

Faisons un bref tour d’ horizon des start-up les plus en vue dans ces trois pays :

Le Royaume-Uni abrite Stability AI, qui est un des leaders dans le domaine de l’ IA générative d’images, qui vous pouvez essayer ici, ainsi que Synthesia qui est spécialisée dans la génération automatisée de vidéos dans lesquelles un acteur de synthèse lit un texte avec une voix artificielle. Enfin, même si ce n’est plus une start-up, il faut quand même mentionner un des leaders mondiaux de la recherche en IA, Google Deepmind qui se trouve lui aussi à Londres.

L’ Allemagne héberge Aleph Alpha qui a un mis au point un modèle génératif de texte appelé Luminous et met l’accent sur le caractère souverain de sa technologie, ainsi que DeepL, le spécialiste de la traduction automatisée.

Et la France compte quant à elle dans ses rangs Mistral et Poolside AI.

Mistral a été fondée par des anciens de Google Deepmind et de Meta, et vient de publier son premier modèle génératif en open-source, que vous pouvez essayer ici, après avoir sélectionné le modèle en bas à droite de l’écran.

Mistral a bénéficié d’une infusion de capital de 113 millions de dollars en juin 2023. Le but de Mistral est de rendre l’ IA générative utile pour les entreprises, et ne s’adresse pas au grand public. Poolside AI est une société américaine à l’ origine qui a déménagé à Paris suite à une augmentation de capital organisée par le milliardaire de la tech Xavier Niel. Poolside AI se spécialise dans les modèles génératifs de code informatique.

Toujours au sujet de la France, il faut noter la proactivité des autorités françaises qui ont annoncé un plan public de 500 millions d’euros à destinations des start-ups dans l’ IA, ainsi que l’ initiative de Xavier Niel qui a annoncé une série d’ investissements stratégiques dans l’ IA pour environ 200 millions d’euros, afin de faire émerger un champion européen de l’ IA. Une partie de cet investissement sera destiné à acheter un supercalculateur auprès de Nvidia qui sera accessible dans le cloud.

En effet, un point faible de l’ Europe reste le manque relatif de puissance de calcul disponible dans le cloud européen. Et rattraper ce retard n’ est pas chose aisée car les grands acteurs américains aux poches profondes mentionnés ci-dessus phagocytent la quasi-totalité de la production de coprocesseurs graphiques Nvidia, dont les modèles A100 et H100 sont essentiels pour l’ entraînement et l’ exploitation des grands modèles de langage dans le cloud.

L’ Europe dispose d’excellentes compétences académiques et scientifiques dans l’ IA, les ressources humaines sont disponibles. Mais notre autre grand point faible reste le volume relativement modeste des capitaux disponibles pour investir dans des jeunes pousses IA. Les start-ups que j’ai mentionnées ci-dessus ont bénéficié d’ augmentations de capital de l’ordre de 100 millions d’euros chacune ce qui reste une goutte d’ eau face à la puissance financière des géants américains de la tech et les augmentations de capital possibles dans la Silicon Valley.

Le risque est donc toujours présent de voir une start-up européenne percer, grandir pour se faire finalement racheter par un géant aux poches profondes, comme c’ est arrivé pour Deepmind, Skype et Arm…

3. Le reste du monde

La Chine est très active dans le domaine des modèles de langage et aurait déjà dévelopé environ 70 « grands » modèles selon le PDG de Baidu. Ces modèles nous sont relativement peu accessibles car ils mettent l’ accent sur le Mandarin. Un point intéressant est que la Chine cherche à développer un standard national pour les modèles de langage, afin de favoriser la productivité industrielle et la croissance post-pandémie. Reste à voir dans quel mesure cette standardisation ne sera pas contre-productive, par exemple en exigeant d’ intégrer des narratifs idéologiques ou politiques dans les modèles.

Et enfin, je ne puis clôturer sans mentionner Falcon, un modèle mis au point par un institut de recherche d’ Abu Dhabi. Il s’agit ni plus ni moins que du plus grand modèle open-source actuellement disponible, avec 180 milliards de paramètres! Les chercheurs du Technology Innovation Institute (TII) ambitionnent aussi de publier d’ autres modèles plus spécifiques, par exemples orientés vers la médecine ou le droit, et visent, eux aussi, la multimodalité. L’ objectif est de concurrencer OpenAI et de donner un rôle au Proche-Orient dans une course actuellement dominée par les Etats-Unis et la Chine.

Quels acteurs l’ emporteront ? L’ avenir nous le dira…

4. Notes et références

Voici quelques références plus approfondies si vous désirez aller plus loin :

  • Could OpenAI be the next tech giant ?, The Economist : https://www.economist.com/business/2023/09/18/could-openai-be-the-next-tech-giant
  • How Microsoft could supplant Apple as the world’s most valuable firm, The Economist : https://www.economist.com/briefing/2023/09/27/how-microsoft-could-supplant-apple-as-the-worlds-most-valuable-firm
  • Abu Dhabi throws a surprise challenger into the AI Race, The Economist : https://www.economist.com/business/2023/09/21/abu-dhabi-throws-a-surprise-challenger-into-the-ai-race
  • Xavier Niel annonce des investissements stratégiques dans l’IA, Le Monde : https://www.lemonde.fr/economie/article/2023/09/26/xavier-niel-annonce-des-investissements-strategiques-dans-l-ia_6191008_3234.html
  • Europe’s generative AI startups, mapped. Sifted : https://sifted.eu/articles/europe-generative-ai-startups
  • Apple is reportedly spending « millions of dollars a day » to train AI, The Verge : https://www.theverge.com/2023/9/6/23861763/apple-ai-language-models-ajax-gpt-training-spending

Les risques liés à l’Intelligence Artificielle

Comme le dieu Janus, l’ Intelligence Artificielle possède deux visages. Elle peut à la fois servir au progrès de la société mais également lui nuire. Tout dépend de l’application qui en est faite par les personnes et les organisations qui l’exploitent.

Les modèles généralistes (de langage ou autres) exemplifient parfaitement cette dualité. Leur capacité à interagir naturellement avec notre perception en utilisant nos codes linguistiques et visuels facilite leur intégration dans nos interactions quotidiennes. Ces modèles interpellent donc à juste titre. Comme toute nouvelle technologie, ils présentent des opportunités et des risques, mais les déclarations sensationnalistes ou catastrophistes que l’on entend souvent sur le sujet tendent à exacerber le débat sans permettre une analyse raisonnable des vrais enjeux.

Un mot tout d’abord sur le risque existentiel dont il a beaucoup été question ces derniers mois.

Le scénario souvent présenté est celui d’une IA autonome qui commençerait à s’auto-améliorer jusqu’à atteindre un niveau d’intelligence telle que nous serions incapables de la maîtriser; cette dernière se retournerait alors contre nous, pour finalement nous asservir voire nous exterminer.

Ces déclarations apocalyptiques sont souvent réalisées par différents types de personnalités, y compris des acteurs-clé du secteur. Certaines personnes sont légitimement convaincues que l’IA représente un risque existentiel et qu’il est nécessaire de légiférer d’urgence pour éviter un désastre. Le problème est que d’autres personnes exploitent ensuite ces messages pour des raisons opportunistes, et il est difficile de savoir dans quel camp se trouve réellement chaque acteur.

Et si vous vous demandez pourquoi des acteurs du secteur auraient intérêt à mettre en avant les risques de ce dernier, pensez que certaines sociétés déjà établies ont tout intérêt à pérenniser leur situation établie en profitant de la mise en place de barrières réglementaires compliquant l’arrivée de nouveaux acteurs. En parallèle, certains médias tirent avantage du sensationnalisme ambiant puisque la peur fait vendre.

De plus, ces idées de risque existentiel technologique s’intègrent bien dans certains courants philosophiques en vogue au sein de la Silicon Valley, comme le Transhumanisme et le Long-termisme. Ces mouvements sont basés sur le narratif d’un futur radicalement transformé par la technologie en général et l’IA en particulier, et dans lequel l’humanité se retrouve confrontée à des choix prométhéens. Lorsqu’on plante un tel décor, il devient facile de se positionner comme prophète autoproclamé ou comme sauveur potentiel de l’humanité…

La réalité est beaucoup plus nuancée. Nous sommes encore loin d’une intelligence artificielle généraliste comparable au niveau humain. La plupart des obstacles (comme les hallucinations) existent depuis longtemps et seront probablement très difficiles à éliminer. La performance impressionnante des modèles de langage découle plus de leur habileté à restituer adroitement les volumes immenses de données sur lesquels ils ont été entraînés que d’une capacité à raisonner sur des modèles abstraits. Enfin, il faut garder en mémoire que contrairement aux humains, les systèmes artificiels n’ont pas d’objectif intrinsèque. Ils cherchent à atteindre les objectifs que nous leur fixons, parfois de manière incorrecte.

Bien sûr, il faut rester vigilant car les modèles continuent de progresser. Les grands acteurs du secteurs planchent sur la multimodalité (traitement intégré des textes, images, vidéos, audio…) et l’amélioration des mécanismes de raisonnement. Pendant ce temps des modèles open-source de plus en plus performants deviennent disponibles et rendent possible un champ d’expérimentation très large.

Quoi qu’il en soit, le risque paraît encore assez lointain et il faut se rappeler que la quasi-totalité des progrès technologiqes dans le domaine sont réalisés par des acteurs légitimes, commerciaux ou académiques. La mise en place de structures de régulation et de supervision de ces progrès devrait donc permettre d’encadrer et de gérer ce risque dans le futur.

Mais il n’y a pas besoin d’être super-intelligent pour faire de super-dégâts…

Dans le reste de cet article, je vais présenter les différentes risques existant aujourd’hui et tenter une analyse de chacun d’entre eux. On peut les regrouper en quatre grandes catégories :

Figure 1 : Types de risques liés à l’Intelligence Artificielle

1. Risques de désalignement

Le désalignement se produit lorsque nous donnons un objectif légitime à l’IA, mais cette dernière cherche à l’atteindre de manière inadéquate, soit en trichant, soit en ne respectant pas certaines contraintes essentielles, par exemples légales ou éthiques.

Ce genre de risque est particulièrement présent lorsque l’IA sera consultée pour prendre des décisions administratives impactant directement les gens, comme une décision d’octroi d’une subvention ou d’une assistance, ou encore d’allouer un crédit. Les décisions à caractère sécuritaire ou judiciaire sont également fortement concernées, ainsi que celles liées à l’éducation et l’emploi.

L’IA se base en général sur un ensemble restreint de paramètres pour prendre une décision, et les données d’entraînement utilisées peuvent contenir des déséquilibres reflétant des biais historiques ou autres. Ceci exclut aussi la prise en compte de facteurs humains subjectifs difficiles à quantifier et qui expliquant pourquoi de ces décisions requièrement souvent aujourd’hui un rendez-vous en personne.

Ce problème peut être approché de deux manières. Tout d’abord, la prévention : il est important de s’assurer que les algorithmes employés ne présentent pas de biais et sont capables de fournir une explication de leur décision. L’utilisation de l’IA doit aussi se faire de manière transparente et les personnes concernées doivent en être informées au préalable. C’est un travail de législation et de réglementation.

L’ explication fournie par l’algorithme doit aussi être « actionnable » pour permettre à la personne impactée de contester la décision prise. La possibilité de recours est ici essentielle, de préférence sans passer par la voie judiciaire.

Ces problèmes d’alignement se sont déjà produit lors d’automatisations dans le passé et se produiront encore. La bonne nouvelle est que l’éthique de l’IA constitue un domaine de recherche et d’analyse à part entière et que les incidents de désalignement sont connus et répertoriés. L’attention apportée par les académiques et les spécialistes dans l’industrie et les administrations sur ces sujets devrait permettre de limiter leur impact et leur récurrence dans le futur.

2. Risques d’exploitation malveillante

Par exploitation malveillante, on envisage les cas où un être humain exploite volontairement les capacités d’un modèle IA à des fins préjudiciables. Ceci est bien sûr possible, toute technologie n’étant en fin de compte qu’un outil soumis à la volonté de son possesseur. Nous sommes ici dans un cas différent du *désalignement* cité plus haut. Ici, les buts de la machine et de l’humain sont alignés. C’est l’humain qui est mal intentionné.

Un problème est qu’il y a peu de freins à l’acquisition et l’exploitation de l’IA par quiconque. Les algorithmes et modèles sont connus, la puissance informatique aisément disponible. Des modèles de langage *open-source* puissants sont actuellement disponibles et peuvent être adaptés à des fins néfaste sans contrôle. Des acteurs malveillants ont déjà créé FraudGPT, un modèle de langage spécialisé dans l’aide à la création de cyberattaques….

Ceci est préoccupant car les modèles de langage augmentent les risques de fraude informatique par usurpation d’identité et ingéniérie sociale, de génération de virus et logiciels malveillants; ils facilitent la création de désinformation ainsi que la fraude éducative et académique (recours à des textes auto-générés).

La principale défense à ce genre de risque est qu’il est également possible d’utiliser l’IA de manière défensive pour les contrecarrer. Les capacités qui rendent ces modèles attractifs aux personnes mal intentionnées sont en général les mêmes que celles qui vont permettre aux personnes bien intentionnées de les empêcher de nuire. Si l’IA peut aider à mener des cyberattaques, son potentiel en cyberdéfense est tout aussi grand.

C’est pourquoi la meilleure parade ici est d’encourager sans délai le développement de ces activités défensives.

Mais le discours qui consiste à dire que cela résultera en un simple réalignement des équilibres entre capacités antagonistes n’est que moyennement rassurant. En effet, l’IA a le potentiel de modifier ces équilibres dans différents domaines et on ne peut exclure qu’un de ces rééquilibrages ne se fasse dramatiquement à l’avantage des acteurs malveillants dans un domaine. Rien ne dit que ces rééquilibrages seront toujours symétriques ou à tout le moins suffisamment équilibrés pour empêcher des tragédies. Le risque de développement de nouveaux agents pathogènes assisté par l’IA est souvent pris en exemple de ce genre de danger.

Et force est de constater que le bond qualitatif pour atteindre un de ces compétences semble nettement plus faible que celui nécessaire pour l’émergence d’un risque existentiel. Nous sommes ici dans quelque chose de plus concret, de plus plausible à moyen terme. Selon moi, c’est ici que se situe le risque le plus important.

3. Risques structurels

Les risques structurels sont d’une autre nature. Cette fois l’exploitation du modèle est légitime et ce dernier s’acquitte correctement de sa mission. Mais cette nouvelle capacité apportée par l’IA déséquilibre indirectement la société.

Ce risque est inhérent à toute nouvelle technologie mais quand une technologie comme l’IA a un potentiel généraliste et une portée horizontale, la multiplicité des domaines d’application augmente ce genre de risques.

Il est dificile d’évaluer correctement les risques structurels car ils dépendent plus de la société que de l’IA en tant que telle. Parmi eux on peut citer le risque que l’IA se substitue à une partie de l’emploi ou que l’IA crée une société très inégale.

Ces risques doivent être mis en balance avec les impacts structurels positifs qui ne manqueront pas d’apparaître aussi.

Il est difficile de faire des prédictions ici, si ce n’est pour dire que les évolutions structurelles sont en général lentes et ne sont souvent pas à sens unique. De plus, ces évolutions ne peuvent être aisément distinguées des autres évolutions qui parcourent la société en tous sens.

Cela fait plusieurs siècles que l’automatisation est soupçonnée de détruire des emplois mais après 250 ans de révolution industrielle il n’y a jamais eu autant d’emplois malgré d’innombrables déclarations alarmistes…et si la productivité augmente, c’est plutôt une bonne nouvelle pour la société.

Je crois qu’il faut rester circonspect ici; si bouleversement il devait y avoir, les états et autres acteurs structurels ont en principe le temps et les moyens d’y faire face. Après tout, notre société est en transformation permanente…

4. Risque accidentel

Il s’agit du cas le plus simple à comprendre. L’IA est incompétente et n’arrive pas à s’acquitter de la tâche qui lui a été confiée, comme une voiture autonome qui commettrait un accident.

Ces cas aussi sont plus faciles à adresser car les dangers potentiels créés par un produit mis sur le marché ne sont pas une notion nouvelle : une voiture (classique) est un engin dangereux et se voit donc soumise à des exigences de conformité et de contrôle technique pour être autorisé à rouler. En cas d’accident imputable à un défaut technique, la responsabilité du constructeur peut être engagée. Le niveau d’exigences placé sur le produit dépend du niveau de tort qu’il peut causer en cas de défaillance, le but étant de prévenir autant que possible les accidents.

L’arrivée de l’IA dans les produits va s’inscrire dans cette logique de prévention et de remédiation, potentiellement avec des certifications et tests séparés lorsque l’utilisation de l’IA comporte des risques.

C’est d’ailleurs le chemin suivi par la directive Européenne sur l’IA qui se base sur l’utilisation du produit contenant de l’IA pour établir le niveau de risque et partant, les exigences à satisfaire au préalable avant mise sur le marché.

Conclusion

Il faut reconnaître que le tableau est contrasté, la relativisation du discours alarmiste sur les risques existentiels ne peut masquer le potentiel d’utilisation malveillante de l’IA susceptible de causer une catastrophe de grande ampleur à terme.

Plus précisément, des listes de compétences dangereuses ont été établies par des chercheurs. Si des modèles IA devaient développer de telles compétences à l’avenir, nous serions en péril. Je vous rassure, aucun modèle IA ne possède de telles capacités à ce jour.

Voici une liste de compétences dangereuses établie par les chercheurs de Google Deepmind dans cet article :

  • La capacité à mener des cyberattaques de manière autonome;
  • la capacité de choisir délibérément de mentir à des humains et de soutenir ensuite un narratif cohérent prenant en compte ces mensonges;
  • la capacité de persuader les humains que certains narratifs (même faux) sont corrects, et de convaincre les gens de faire des commettre des actes qu’ils ne feraient normalent pas;
  • la capacité de mettre en place des stratégies politiques complexes tenant compte des acteurs en présence et du contexte socioéconomique;
  • la capacité d’acquérir et/ou de construire des armements existants ou novateurs (par exemple : armes biologiques);
  • la capacité d’ établir des plans à long terme, à travers différents domaines, et de les adapter de manière évolutive en fonction du l’évolution du contexte ou des obstacles rencontrés;
  • la capacité à créer de nouveaux systèmes IA sans assistance;
  • la capacité à identifier le contexte de sa propre utilisation; Le système sait qu’il est un modèle IA et a une connaissance de lui-même et de son environnement;
  • la capacité à s’évader de son environnement d’origine et s’installer ailleurs.

Si cette liste peut sembler angoissante, il faut garder à l’esprit qu’il ne s’agit que d’une liste de garde-fous. Elle ne signifie pas que nous sommes sur le point d’atteindre une de ces compétences.

Le risque n’est pas imminent et il n’est pas trop tard pour agir mais il ne faut pas traîner. Concrètement, nous pouvons nous protéger contre ces risques de trois manières, qui peuvent éventuellement être combinées :

  • lévolution culturelle ou des comportements : nous adaptons nos habitudes de vie pour les rendre les plus compatibles possibles avec les impacts de l’IA
  • la mitigation : nous adoptons des mesures de protection en termes de processus, d’organisation ou de technologie afin de réduire les risques
  • la réglementation : nous encadrons légalement la technologie, en réglementant certaines applications et en en interdisant d’autres.

Cela justifie les idées de mettre en place des organisations de gouvernance et de surveillance de l’ IA. Ces structures devraient se focaliser sur les risques d’utilisation malveillante et l’identification des progrès menant à des compétences dangereuses.

Mais ces contrôles ne doivent pas non plus étouffer la recherche. Le potentiel bénéfique de l’IA est important et nous ne manquons pas de problèmes sérieux dans lesquels l’IA peut nous assister positivement. Par exemple, la recherche de nouveaux matériaux ou de nouveaux médicaments.

Bill Gates estime dans son article cité en référence que les impacts de l’IA seront au moins aussi grands que ceux de l’arrivée des ordinateurs individuels dans les années 1990, mais moins dramatiques que ceux de la Révolution Industrielle. Il pense que la transition sera mouvementée mais que les impacts sur la vie des gens devraient pouvoir être mitigés…

Références et lectures approfondies

  • Use of LLMs for Illicit Purposes : Threats, Prevention Measures and Vulnerabilities, par Maximilian Mozes, Xuanli He, Bennett Kleinberg, Lewid D. Griffin : https://arxiv.org/abs/2308.12833

Les applications de l’Intelligence Artificielle

Avant toute chose, il faut réaliser que l’IA n’est pas un produit, ni un progrès qui va faire progresser un seul secteur. L’ IA est une capacité horizontale qui va impacter de nombreux domaines de la société. Cet impact sera parfois visible, mais le plus souvent discret.

L’IA s’intègre progressivement dans nos modes de vie sans que nous nous en rendions vraiment compte. Nous sommes habitués aux recommendations personnalisées des sites de commerce électronique, aux itinéraires calculés par GPS et aux engins de recherche intelligents. Actuellement, nous nous habituons aux modèles conversationnels et demain nous verra familiers avec les images et les films générés de manière automatique, voire peut-être aux voitures autonomes partagées.

La généralisation des ordinateurs ainsi que leur interconnexion via internet lors des dernières décennies s’est faite de manière progressive et a transformé notre mode de vie de manière à la fois discrète et inexorable. Cette infrastructure est la fondation que l’IA exploite pour se déployer à son tour aujourd’hui, avec la même discrétion et la même ubiquité. Elle accompagne et renforce nos processus cognitifs, tout en continuant à apprendre de nos actions. L’IA deviendra progressivement un assistant, un compagnon dont le modes de raisonnement nous sont étrangers malgré l’apparence de la familiarité.

Dans ce qui suit, je vais essayer d’imaginer les domaines dans lesquels l’IA offre le plus de potentiel. Bien sûr cet exercice doit être abordé avec humilité car il s’agit d’un domaine extrêmement incertain et dont la complexité dépasse de beaucoup les compétences d’une personne. Lors de la rédaction de cet article, je me suis inspiré de différentes lectures que vous trouverez dans la partie Notes et Références.

Cet article se focalise sur les applications positives de l’IA. Mais ce fort potentiel s’accompagne de risques importants que je couvrirai dans un prochain article.

1. Education

L’éducation est un domaine dans lequel la promesse de l’automatisation reste incomplètement réalisée. Il y a certes eu d’importants progrès dans la diffusion de la connaissance grâce aux réseaux informatiques, comme Wikipedia ou Khan Academy mais cette diffusion reste largement unidirectionnelle.

L’énorme avantage de l’IA est qu’elle peut adapter son contenu et ses interactions de manière dynamique en fonction de l’état d’avancement de la compréhension de l’étudiant. Dans une école traditionnelle, le professeur doit enseigner simultanément à une classe et cherche donc un niveau de complexité qui va bénéficier au maximum à l’ensemble des élèves, ce qui signifie viser l’élève médian tout en délaissant l’élève excellent et l’élève médiocre. Le temps qu’il peut consacrer aux élèves de manière individuelle reste limité et souvent insuffisant pour compenser ce problème de niveau.

Ce problème est connu depuis longtemps et reflète une limitation inhérente au modèle académique actuel, limité par ses ressources et ne pouvant bénéficier des mêmes effets d’échelle que les modèles automatisés. Une étude de Benjamin Bloom en 1984 appelée « Two Sigmas » montre qu’un enseignement personnalisé – soit fourni par un tuteur individuel- permet d’améliorer dramatiquement les performances des élèves (de deux écarts-types en termes statistiques).

C’est précisément cet énorme potentiel que l’IA promet d’adresser. En offrant des exercices et des mécanismes d’évaluation interactifs, l’IA va identifier les lacunes de l’étudiant et proposer des explications et mécanismes de remédiation, et ce de manière strictement individualisée et avec une patience infinie si nécessaire. Pour les plus jeunes, des exercices peuvent être présentés sous forme ludique.

L’apparition des modèles conversationnels enrichit le champ des possibles; une interface conversationnelle offre un nouveau niveau d’informalité susceptible d’attirer plus les étudiants rebutés par le contenu trop monolithique. Imaginez prendre un modèle génératif générique (à la GPT4) et continuer à l’entraîner sur tous les manuels de cours (ou syllabi universitaires) d’un domaine donné, puis l’affiner à travers des dialogues avec des professeurs spécialistes du domaine, jusqu’à ce que la qualité et la fiabilité soient suffisante. Vous disposez alors d’un mentor conversationnel qui peut répondre informellement à vos questions sur le sujet, 24h sur 24 et sans jamais perdre patience… et c’est d’autant plus simple à faire que les cours (au moins dans l’enseignement primaire et moyen) sont standardisés, donc tout est disponible…je suis convaincu que de tels modèles seront répandus d’ici quelques années. La technologie est disponible dès aujourd’hui.

Cela ne signifie pas que l’IA va se substituer aux enseignants, mais que ces derniers pourront être puissamment assistés par l’IA qui sera intégrée au processus éducatif, par exemple en modifiant le travail en autonomie (devoirs / leçons) pour le remplacer par une tutorat personnalisé quotidien. Les périodes de vacances pourraient devenir un moyen pour les moins avancés de rattraper leur retard beaucoup plus efficacement qu’aujourd’hui.

Et si vous voyez le potentiel dans nos pays sur base de votre propre expérience éducative et celle de vos enfants, imaginez l’impact de ces technologies sur l’éducation et la connaissance dans les pays du tiers-monde, où les écoles sont parfois éloignées, difficiles d’accès, les classes surpeuplées et à l’infrastructure chancelante, les enseignants peu motivés, absents et/ou mal formés…

J’ai voulu commencer par l’éducation car ce domaine est à la base de tous les autres. Augmenter le capital humain par l’éducation, c’est enrichir la société de demain; si ce mouvement est global et permet de mieux capter et affiner l’énorme réservoir de talents de la jeunesse des pays où l’éducation est moins développée aujourd’hui, l’enrichissement sera encore plus grand, et les progrès futurs encore plus rapides.

2. Santé

Le potentiel de l’intelligence artificielle dans les soins de la santé est très important, et va se manifester à trois niveaux :

Premièrement, au niveau du diagnostic et du traitement. Il s’agit d’un domaine de recherche actif depuis des décennies. L’idée est de voir des algorithmes IA jouer le rôle d’assistant ou de conseiller au praticien sur base des données collectées sur le patient (imagerie, prises de sang, antécédents… ). L’IA suggère un diagnostic au médecin, et de même pour le traitement. Aujourd’hui, ces applications existent mais elle restent confinées aux laboratoires de recherche et aux sociétés technologiques, la difficulté principale étant l’intégration et l’opérationnalisation dans les processus cliniques qui doivent aussi tenir compte de l’éthique médicale. Ces problèmes ne sont pas insurmontables et la mutiplication des sources d’information sur le patient provenant à la fois des dossiers médicaux informatisés (EHR) et bientôt de la génomique individuelle va considérablement renforcer l’attrait et l’efficacité de cette assistance automatisée.

De plus, le potentiel de l’IA dans la recherche pharmaceutique et le développement de nouveaux mécidaments est très important. Disposer de meilleurs médicaments comme de nouveaux antibiotiques va bien entendu renforcer l’impact des progrès dans le diagnostic et le traitement.

Deuxièmement, au niveau de la prévention et du suivi des patients. Au plus les patients participent activement à la gestion de leur santé, tant au niveau préventif que du suivi de leur traitement, au mieux ils se portent. Il s’agit d’une préoccupation majeure car de nombreux patients sont peu attentifs à leur santé au quotidien. Perdre du poids, prendre rendez-vous pour un examen complémentaire, ou respecter un plan de traitement médicamenteux demandent une certaine discipline personnelle et les moments d’interaction directe avec un professionel de la santé sont par nature limités. C’est ici qu’un assistant médical personnel piloté par l’IA prend tout son sens. Exploitant les informations transmises par des capteurs individuels (smartphone, montre connectée…), l’assistant médical IA va pouvoir rappeler au patient ses traitements, l’alerter de la survenance de nouveaux symptômes et lui suggérer la marche a suivre tout en contextualisant et personnalisant les réponses à ses questions. L’idée est ici d’encourager le patient à prendre sa santé au sérieux à travers des petits rappels et suggestions exprimées de manière conviviale tout en tenant également le personnel soignant informé de l’évolution du patient.

Troisièmement, au niveau de l’ administration hospitalière. Un hôpital moderne est une véritable ville dans laquelle des patients sont échangés sans cesse entre les services et leurs chambres, les produits médicaux et les médicaments consommés de tous côtés au fil des traitements et des opérations, les médecins consultant ou opérant les patients à la chaîne. Les hôpitaux disposent déjà de nombreux mécanismes de planification et de gestion automatisés mais ceux-ci agissent encore souvent de manière isolée. L’ IA permettra une gestion consolidée de ces différents processus, augmentant le champ d’optimisation et donc l’efficacité de l’ensemble. Et si l’IA permet d’alléger la charge de travail administrative du praticien, cela lui donne plus de temps pour se consacrer à son activité curative…

Comme pour l’éducation, c’est dans les pays les plus pauvres que l’impact de l’IA dans la santé sera le plus important. Aujourd’hui, beaucoup de gens du tiers-monde ne voient pratiquement jamais de médecin et les soignants de première ligne verront leur efficacité multipliée par l’assistance de l’IA éventuellement combinée à des machines connectées abordables, comme des appareils d’échographie. Il faudra que ces assistants automatisés tiennent compte des contraintes locales, tant au niveau des spécificités épidémiologiques (maladies tropicales) que des contraintes humaines, comme les personnes n’ayant pas accès aux cliniques ou ne pouvant se permettre d’interrompre leur travail.

Après l’éducation, la santé est le second domaine fondamental. Après que l’éducation ait créé le capital humain, il faut le maintenir en bonne condition -en bonne santé- pour lui permettre de produire, de créer et de contribuer le plus longtemps possible à la société. Toute avancée dans ces deux domaines rejaillit sur la prospérité collective.

3. Productivité

A court terme, nous pouvons nous attendre à ce que des IA génératives type GPT soient intégrées dans les outils de productivité actuels comme Microsoft Office ou Google Suite. La programmation informatique joue ici le rôle de pionnier. Les modèles génératifs ont des affinités manifestes avec le code informatique, et des assistants IA existent depuis quelques mois dans des environnements de programmation, comme Github Copilot ou Cursor (un dérivé de VSCode). Le retour d’expérience des programmeurs est indéniablement positif, et l’efficacité des programmeurs va progresser, d’autant plus que les modèles vont continuer à progresser eux aussi.

A moyen terme, nous pourrons disposer d’une IA personnalisée plus généraliste qui suivra l’ensemble de nos interactions digitales et pourra s’habituer à notre personnalité et nos usages. Elle pourra gérer nos agendas, proposer des réponses aux emails que nous recevrons, passer des commandes sur des sites de commerce électronique et fonctionnera à travers l’ensemble de nos outils informatiques. Il est possible que nos ordinateurs privés contiennent un assistant pour notre vie privée, tandis qu’un autre assistant -éventuellement mis à disposition par l’employeur- nous aidera dans le cadre professionnel.

En parallèle, certaines tâches intellectuelles répétitives comme l’encodage de documents, le support à la clientèle de première ligne ou le télémarketing verront une plus grande automatisation. Le rôle humain ne disparaîtra pas mais il se reportera sur les activités à plus forte valeur ajoutée et/ou accordant une plus grande prime à l’interaction personnelle (support de seconde ou troisième ligne, finalisation de l’acquisition d’un nouveau client…).

Ceci suscite des interrogations légitimes quant à l’impact sur l’emploi. La spécificité de l’IA est qu’elle s’adresse aux tâches cognitives et non aux tâches manuelles comme lors des précédentes vagues d’automatisation. Cette fois, ce sont donc les cols blancs qui sont concernés et non les cols bleus.

Néanmoins, il faut garder deux choses en mémoire : premièrement, un gain de productivité reste fondamentalement une bonne nouvelle car il va permettre de dégager du temps consacré à des activités répétitives pour le réorienter soit vers des tâches plus valorisantes soit vers des loisirs.

Et deuxièmement, les gains de productivité dans les économies avancées sont en berne depuis les années 1980. La révolution de l’informatique et des télécommunications qui a démarré à la même époque n’a pas entraîné les gains de productivité que l’on aurait pu en attendre. On peut donc espérer que l’IA concrétise enfin les promesses de la digitalisation et relance l’expansion de la productivité.

4. Aspects Sectoriels

ans ce qui précède, je me suis volontairement concentré sur les applications qui impacteront tout le monde. Mais les différents secteurs d’activité économique seront également transformés à des degrés divers par l’IA. Afin de circonscrire le propos, je vais ici me limiter à quelques exemples.

Le domaine des transports est déjà en pleine transformation. GPS, navigation, assistance à la conduite sont une préfiguration des applications de demain. Le transport est au fond un immense exercice d’optimisation d’un problème de déplacement de personnes et de marchandises en utilisant des ressources (véhicules) et une infrastructure donnée (routes, chemins de fer…). Au plus il est traité de manière consolidée, au plus grandes les optimisations possibles : gestion intelligente du trafic, véhicule autonomes partagés, multimodalité intégrée…

L’énergie est un autre secteur susceptible d’être transformé en profondeur; le réseau électrique est un système complexe dans lequel la production doit équilibrer la consommation à chaque instant. Consommation qui est répartie à travers des millions de foyers et d’entreprises autonomes. Ceci est aujourd’hui réalisé par des mécanismes d’équilibrage et de stabilisation mais qui ne disposent que d’informations partielles et ne sont pas optimaux. L’émergence des smart grids dans lesquelles les acteurs individuels échangent de l’information avec les sytèmes de contrôle va permettre un pilotage beaucoup plus fin des réseaux et permettre une meilleure résilience en cas de problème sérieux d’approvisionnement. Sans oublier que le caractère intermittent des énergies renouvelables rend les algorithmes de prédiction de production encore plus essentiels.

Dans l’agriculture, chaque exploitation peut être considérée comme un système autonome complexe qui consomme des ressources (semences, eau, pesticides) pour exploiter une infrastructure (les champs et pâturages) afin de générer un produit (céréales, viande…) en tenant compte des conditions climatiques. L’IA va jouer un rôle d’optimisation du système et va bénéficier des synergies avec une autre technologie émergente : les drones, qui vont rendre possible l’observation de l’infrastructure en temps réel et pallier au plus vite à un problème éventuel de stress hydrique ou végétal.

Conclusion

Si les vagues d’automatisation précédentes étaient concentrées sur la génération et la distribution d’information, la phase qui s’annonce mettra l’accent sur l’exécution et la réalisation. Nous allons enfin exploiter pleinement le cycle d’innovations digitales qui a commencé avec l’informatique et internet. L’internet des objets et l’ubiquité des capteurs connectés se joignent à l’orchestre en fournissant à l’IA les données omniprésentes dont cette dernière a besoin.

Les potentialités sont grandes et il est difficile de prévoir où elles s’arrêteront. Si l’on arrive à intégrer pleinement la robotique avec l’IA, le champ d’action s’étend vers de nouveaux secteurs comme la construction. De la même manière, l’intégration complète des drones avec l’IA est un autre multiplicateur potentiel.

Mais il faut garder en mémoire que ces technologies peuvent à la fois être utilisées de manière constructive et de manière destructive. Un robot ou un drone intelligent peuvent être d’excellents ouvriers mais aussi de redoutables soldats. Les modèles génératifs peuvent être utilisés pour l’éducation mais aussi pour la désinformation. Les profonds changements de société que l’IA laisse entrevoir risquent de causer des déséquilibres : croissance des inégalités, modification du rapport à l’emploi…

Je couvrirai plus en détails les risques liés à l’IA dans le prochain article.

Références

Panorama de l’Intelligence Artificielle (II) – l’apprentissage profond

Situation

Beaucoup des succès initiaux de l’IA, rendus possibles par l’IA symbolique, se sont déroulés dans des environnements idéalisés ne nécessitant pas une grande expérience du monde ni de capacité d’apprentissage. Et pourtant, les raisonnements de notre vie quotidienne font appel à une quantité prodigieuse d’informations sur le monde. Cette connaissance est en grande partie intuitive et subjective, donc difficile à formaliser.

Ces difficultés suggèrent une approche alternative : tenter d’extraire la structure d’un problème à partir d’exemples, et laisser la machine apprendre son propre modèle. C’est l’idée de l’apprentissage machine, décrite dans l’article précédent.

Mais en réalité, les approches d’apprentissage machine « simples » ne font que déplacer le problème, parce qu’elles sont uniquement capables de recevoir un nombre limité de données en entrée, qui doivent être soigneusement choisies par le programmeur pour permettre le bon apprentissage de l’algorithme. Cette dépendantce à la représentation des données fournies est un sérieux point faible car il est souvent difficile à satisfaire, notamment pour les problèmes perceptuels, parmi les plus intéressants en pratique: si vous voulez construire un détecteur de chat dans une image en fonction des pixels de l’image, il va être très difficile de définir à la main une représentation intermédiaire qui facilitera l’apprentissage du programme en aval: il y a beaucoup trop de combinaisons de facteurs à prendre en compte : orientation, distance du chat, éclairage, environnement…

L’ apprentissage profond résout ce problème par la force : on va « empiler » de multiples couches algorithmiques qui vont elles-mêmes apprendre ensemble à générer ces représentations intermédiaires. On peut donc fournir directement les données perceptuelles en entrée et il n’y a plus besoin de contruire de représentation intermédiaire puisqu’elle est générée automatiquement dans les premières couches du réseau. Le champ d’application perceptuel s’ouvre, au prix de modèles comprenant un nombre énorme de paramètres et entraînés sur un très grand volume de données d’apprentissage.

Les réseaux neuronaux artificiels

Le but de l’Intelligence Artificielle étant d’émuler l’intelligence humaine, pourquoi ne pas s’inspirer de la structure du cerveau humain pour construire une machine intelligente ? C’est l’idée des réseaux neuronaux artificiels, qui sont au coeur de l’apprentissage profond.

Les neurones naturels constituent l’unité de base du cerveau humain. Notre cerveau en contient environ 100 milliards. Si chaque neurone se comporte de manière relativement prévisible, ils sont fortement connectés entre eux et la mise en réseau de ces neurones relativement simples permet au cerveau de réaliser des calculs extrêmement complexes avec une grande efficacité. Les détails du fonctionnement du cerveau (et d’ailleurs des neurones) font sont l’objet de recherches intenses et ne sont pas entièrement compris, mais on sait que les neurones ont tendance à s’organiser en couches consécutives dans le cortex cérébral.

En deux mots, un neurone naturel reçoit une série de signaux électriques provenant d’autres neurones via ses dendrites. Sur base de ces entrées, le neurone va émettre un signal de sortie sur son axone, une sorte de long câble électrique qui va à son tour se connecter aux dendrites d’autres neurones. C’est ainsi que le réseau se constitue.

Les neurones artificiels sont une représentation idéalisée du fonctionnement d’un neurone naturel; en substance, ils ne sont rien d’autre qu’une fonction mathématique qui prend en variables d’entrée la sortie d’autres neurones artificiels, leur applique une fonction mathématique pour obtenir une seule valeur de sortie qui est à son tour transmise à l’entrée d’autres neurones artificiels. Bref, un neurone artificiel n’est rien de plus qu’une fonction à plusieurs variables.

Ces neurones artificiels sont alors « connectés » les uns aux autres et empilés en couches successives pour construire un réseau de neurones artificiels, comme illustré sur la figure 2, qui montre un réseau à deux couches. Les paramètres d’apprentissage du réseau sont les poids wi et b de chaque neurone. Ceux-ci seront progressivement modifiés lors de l’apprentissage jusqu’à ce que la performance du modèle soit considérée comme satisfaisante.

Il manque une dernière pièce au puzzle : il nous faut encore un algorithme d’apprentissage qui va faire évoluer les paramètres du réseau (les wi et b) pendant la phase d’entraînement. Cet algorithme, appelé « rétropropagation » est la sauce secrète qui permet aux réseaux de neurones artificiels de se transformer de joyeux enchevêtrement inutile de fonctions vers une machine puissante d’interprétation perceptuelle.

L’ expérience permet de définir l’architecture appropriée du réseau neuronal en fonction du problème à traiter, tant en termes de couches et de connectivité (tous les neurones ne sont en général pas connectés entre eux), que du volume d’exemples pertinents à fournir lors de la phase d’entraînement.

Ces réseaux peuvent inclure un nombre arbitraire de couches neuronales qui vont rendre possible la génération de représentations de plus en plus abstraites du domaine d’entrée, et donc traiter des problèmes de plus en plus complexes.

C’est cette capacité de l’apprentissage profond à traiter des problèmes d’une grande complexité qui a entraîné sa dominance de plus en plus forte sur les autres approches au cours de la dernière décennie. Les deux domaines où l’apprentissage profond règne aujourd’hui sans partage sont le traitement de la vision et du langage. Deux domaines aux applications extrêmement utiles et répandues…

Applications

L’ apprentissage profond regroupe deux grandes familles d’applications : les applications discriminatives et les applications génératives.

Les applications discriminatives sont celles qui ont pour but la classification ou la prédiction. Ce sont des modèles qui cherchent à apprendre la relation existant entre les données d’entrée et de sortie. Il s’agit de l’approche « traditionnelle » décrite plus haut et qui s’inscrit dans la continuité des principes de l’apprentissage machine.

Les exemples d’applications discriminatives sont nombreux et nous en côtoyons certains quotidiennement :

  • moteurs de recommendation sur un site de commerce électronique,
  • détection de spam dans les emails,
  • détection de transaction frauduleuse sur les cartes bancaires,
  • reconnaissance d’objets dans une image (et par extension conduite autonome),
  • classification de textes par catégories,
  • prédiction de la consommation électrique,
  • analyse de sentiment d’un commentaire (par ex. positif/négatif)

Les applications génératives sont plus récentes. Elles vont générer de nouvelles données similaires à celles fournies en entrée. Ces modèles cherchent à apprendre la structure sous-jacente dans des jeux de données et à générer des données complémentaires de manière autonome.

Les applications génératives se découpent à leur tour en deux grandes sous-familles : celles qui travaillent sur du texte et celles qui travaillent sur des images, même si certaines applications combinent les deux.

Les modèles de langage comme GPT, ChatGPT, PALM etc.. appartiennent à la sous-famille des applications génératives textuelles: nous avons l’impression qu’elles agissent interactivement, mais en réalité ils cherchent à prédire le texte le plus probable (tenant compte de leur modèle) pour prolonger la séquence de texte entamée par notre question. Et leur modèle ayant été entraîné pour inclure des séquences de dialogues, le modèle fournira naturellement une réponse -en principe plausible- quand une question lui est posée parce que cela lui semble une prolongation satifaisante au texte de la question.

Les modèles génératifs d’image comme Stable Diffusion agissent de manière analogue sur des images. Ils peuvent générer de nouvelles images à partir d’images existantes, compléter une image incomplète ou bien générer des images à partir de descriptions textuelles fournies par l’utilisateur (text-to-image). Inversément, ces modèles peuvent donner une description textuelle d’une image (image-to-text).

La puissance de ces modèles permet de les étendre efficacement à de nouveaux champs d’applications. Les derniers progrès en la matière sont le text-to-code (génération automatique de programmes informatiques), le text-to-task (le système exécute une tâche sur base d’une demande textuelle, par ex. déplacer un fichier), le text-to-3D (génération d’un modèle 3D à partir d’une description textuelle) et même le text-to-video !

Il est difficile de prédire où cela s’arrêtera car les progrès sont extrêmement rapides. Tellement rapides qu’ils suscitent l’inquiétude : ces systèmes peuvent impacter l’emploi ou être exploités à des fins malveillantes. Plus de mille chercheurs ont publié en mars 2023 une lettre demandant un moratoire d’au moins six mois sur les recherches allant au-delà de GPT4, le temps de faire le point sur les risques. Actuellement, les recherches continuent…

Je terminerai par le clip qui suit, intitulé « Amsterdam Trip », entièrement généré par Stable Diffision. Hallucinant.

Panorama de l’Intelligence Artificielle

Vue d’ensemble

Nous l’avons déjà vu précédemment dans l’historique : le domaine de l’Intelligence Artificielle est né dans les années 1950 sous l’impulsion d’une poignée de pionniers. L’ Intelligence Artificielle peut être définie de manière succincte comme l’ensemble des efforts visant à automatiser les tâches intellectuelles normalement exécutées par les êtres humains.

L’ IA procède principalement de deux domaines distincts, appelés IA symbolique et IA connexionniste. Ces deux approches suivent des voies profondément différentes pour aboutir à la construction de systèmes automatisés intelligents. En pratique, l’IA connexionniste correspond aux techniques d’apprentissage machine, et c’est le terme que j’utiliserai dans le reste de cet article. Dans les techniques d’apprentissage machine, les techniques basées sur des réseaux neuronaux artificiels ont progressivement acuis une position dominante. Elles sont à la base de toutes les percées récentes, y compris les modèles de langage qui défraient actuellement la chronique. Pour des raisons qui apparaîtront ci-dessous, ces techniques sont souvent appelées apprentissage profond. La figure 1 illustre la situation respective de ces différentes approches.

Enfin, il existe quelques approches particulières qui ne peuvent être vraiment classées dans aucune des deux grandes catégories. On peut citer par exemple les filtres de Kalman, les réseaux bayesiens ou encore les modèles de Markov (cachés ou pas). Je n’en parlerai pas plus ici.

Figure 1 : Aperçu général du domaine de l’Intelligence Artificielle

Les techniques de l’IA symbolique

Les partisans de l’approche symbolique basent leurs systèmes sur une formalisation de la connaissance et du raisonnement humains en les traduisant en un ensemble de symboles et de relations entre ces symboles. L’idée est séduisante, les symboles jouant un rôle vital dans la connaissance et le raisonnement humain; il suffit de réfléchir un instant à la structure de nos langues, avec leur vocabulaire et leurs règles syntaxiques pour s’en convaincre : nous utilisons des symboles abstraits pour représenter des catégories de concepts, qui se déclinent en des concepts plus simples jusqu’à descendre à des notions élémentaires. De la même manière,nos langages nous permettent d’exprimer toutes sortes de relations, qui couvrent tout le champ de l’expérience consciente humaine : relations humaines, catégorisation des objets, position et relation dans le temps et l’espace, liens de causalité, raisonnements abstraits….

L’idée de l’IA symbolique est de construire un monde abstrait idéalisé, contenant un nombre de concepts/symboles beaucoup plus réduit que dans le monde réel, et régi par des relations entre symboles et règles logiques d’action élémentaires. Ces symboles et ces règles sont ensuite intégrés dans un programme informatique qui va les manipuler et déduire de nouvelles relations par application répétée de ces règles logiques.

L’ algorithme de base de l’IA symbolique est celui de la recherche de haut en bas : l’algorithme va essayer différentes solutions, partant de la situation de départ et appliquant successivement toutes les combinaisons possibles de règles dans le but d’atteindre l’objectif recherché, ou, à défaut de s’en approcher. Au fur et à mesure de l’application récursive des règles, un « arbre » de règles se contruit. L’ordinateur parcourt inlassablement les différentes branches, à la recherche de la meilleure solution.

Je vais illustrer ceci à travers quelques exemples classiques de problèmes traités par l’IA symbolique :

  • Navigation : c’est l’algorithme que vous activez lorsque vous voulez vous rendre d’un endroit à l’autre et demandez le chemin à votre véhicule. Le système possède un graphe de toutes les routes carrossables de la région. Partant du noeud où vous vous trouvez, il va parcourir le graphe des chemins de proche en proche. Après chaque trajet élémentaire, l’algorithme regarde le point d’aboutissement et vérifie s’il a déjà atteint le même point par un autre chemin. Il ne conserve alors que le chemin le plus optimal pour atteindre ce point (en termes de distance et/ou de temps) et élimine les autres. L’algorithme procède de la sorte répétitivement jusqu’ à atteindre la destination, puis continue pour évaluer toutes les manières d’atteindre la destination et ne garder que la plus optimale, qui est la solution recherchée.
  • Jeu d’échecs : l’ordinateur connaît la configuration initiale des pièces sur l’échiquier ainsi que tous les mouvements possibles des pièces. Supposons pour fixer les idées que l’ordinateur joue avec les blancs. Une fonction d’évaluation est définie, qui retourne un score pour chaque configuration possible de l’échiquier. Au plus la configuration est favorable à l’ordinateur (=les blancs), au plus le score est élevé. Ce score inclut en général une composante matérielle (préservation des pièces) et aussi positionnelle (localisation des pièces). L’algorithme, appelé MINIMAX, va alors créer un arbre de tous les mouvement possibles pour chacun des joueurs jusqu’à un certain nombre de coups dans le futur. Il va alors progressivement remonter en ne conservant chaque fois que le mouvement le plus optimal considérant que les joueurs sont rationnels, à savoir choisissent systématiquement le mouvement qui maximise le score final – quand c’est à blanc de jouer- ou celui qui minimise le score final -quand c’est à noir de jouer-. Progressivement, l’algorithme remonte jusqu’au coup de départ et sélectionne le mouvement qui maximise le score pour le coup à jouer.
  • Planification : le système reçoit une tâche à accomplir, mais cette tâche requiert la réalisation de différentes sous-tâches qui sont liées par différentes relations et contraintes (de hiérarchie, de séquence, de localisation physique, de consommation de resources…). L’algorithme va alors parcourir toutes les manières possibles d’ordonnancer les tâches en respectant les contraintes jusqu’à ce que l’objectif soit atteint. Ces algorithmes ont la particularité qu’ils vont souvent parcourir l’espace de configuration à la fois progressivement depuis le point de départ, mais aussi à rebours depuis l’objectif, et ce jusqu’à trouver un point de rencontre dans l’espace des configurations entre la recherche progressive et la recherche « à rebours ». De nombreux problèmes logistiques peuvent se traiter de la sorte, par exemple placement et déplacement de caisses dans un entrepôt, transport de frêt optimal considérant les contraintes de transport….
  • Systèmes experts : la connaissance d’un expert est encodée sous forme de règles logiques et appliquée à un ensemble de données en entrée. Ces règles peuvent servir à établir des conclusions intermédiaires qui vont ensuite être exploitées pour tenter de tirer une conclusion définitive. De plus, le système permet à l’utiliateur de lui fournir des informations complémentaires lorsqu’il est bloqué, afin de faire progresser l’analyse. Par exemple, un programme pourra analyser un prélèvement sanguin et tirer des conclusions intermédiaires, qu’il soumet à un médecin; par exemple suggérer un examen médical complémentaire. Le médecin peut ensuite encoder le résultat du test complémentaire ce qui permettra au système expert de tirer de nouvelles conclusions, qu’il soumettra à nouveau, et ainsi de suite jusqu’à ce que l’utilisateur soit satisfait.
  • Prouveurs de théorèmes : l’ordinateur connaît les axiomes des mathématiques ainsi qu’un certain nombre de théorèmes déjà prouvés qui constituent son point de départ. Le théorème à prouver constitue l’objectif. L’ ordinateur connaît aussi les règles de déduction de la logique formelle. Il va alors appliquer répétitivement et cumulativement toutes les combinaisons de règles formelles sur l’ ensemble de faits constituant le point de départ, jusqu’à atteindre le théorème à prouver. Cet approche est très séduisante car l’algorithme peut immédiatement restituer la chaîne logique suivie et donc expliquer son raisonnement. CQFD.

Une caractéristique de toutes ces techniques est que le monde abstrait est défini à la main de toutes pièces par le programmeur. Il n’y a pas à proprement parler d’apprentissage autonome par la machine, qui ne fait qu’appliquer les règles qui lui ont été édictées.

L’illusion de l’intelligence provient ici de l’extrême rapidité des ordinateurs. Là ou l’être humain va instinctivement élaguer l’arbre des possibles et focaliser son analyse sur un petit nombre de cas prometteurs, l’ ordinateur va parcourir très rapidement tous les cas possibles, même les moins plausibles, pour arriver à un résultat analogue.

Les techniques de l’apprentissage machine

Commençons tout de suite par une définition due à Arthur Samuel en 1959 : l’apprentissage machine est le domaine d’étude qui vise à donner aux ordinateurs la capacité d’apprendre sans avoir été explicitement programmés.

L’ idée de base de l’apprentissage machine est que l’utilisateur fournit à l’algorithme une série de données qui vont permettre à l’algorithme de créer son propre modèle à travers une phase d’apprentissage. Une fois l’apprentissage terminé et le modèle testé, il pourra être utilisé sur de nouvelles données pour effectuer des prédictions. Contrairement à la démarche déductive de l’IA symbolique, la démarche de l’apprentissage machine est donc par nature inductive : elle part de cas particuliers pour construire une généralisation à travers une phase préparatoire d’entraînement. L’algorithme construit progressivement une structure statistique au moyen des exemples d’entraînement; cette structure est gelée à la fin de l’entraînement et exploitée ensuite sur de nouveau exemples en production pour effectuer des prédictions.

L’apprentissage machine est utilisé dans de nombreuses applications car il permet aux machines d’interpréter leur environnement (au sens large du terme) même lorsque celui-ci est incertain, entaché d’erreurs ou tout simplement impossible à formaliser explicitement. Ce dernier cas est typique des problèmes perceptuels. En effet, comment définir une règle déductive permettant d’établir si une image contient un chat ou pas, uniquement à partir des points qui la constituent ? Cela semble impossible…

L’apprentissage machine a commencé à prendre l’avantage sur l’IA symbolique dans les années 1990 et est aujourd’hui et de loin l’approche dominante, profitant de la digitalisation accrue du monde depuis l’arrivée du World Wide Web pour nourrir des jeux de données numériques sans cesse plus volumineux. Si l’approche dominante aujourd’hui est l’apprentissage profond, basé sur les réseaux neuronaux, il est bon de parler un instant des autres approches qui peuvent s’avérer plus adéquates que les réseaux neuronaux dans certainc cas.

Les algorithmes d’apprentissage machine se découpent en plusieurs sous-familles, en fonction du type de données disponibles pendant la phase d’apprentissage.

Dans le cas de l’apprentissage supervisé, le programmeur fournit à l’algorithme un jeu de données d’apprentissage « étiqueté » c’est à dire comprenant à la fois les données d’entrée (appelées observations) et les données de sortie (appelées étiquettes). Dans ce cas, l’algorithme cherchera à apprendre comment prédire la bonne étiquette en fonction de l’observation fournie. Une contrainte de ces algorithmes est que les étiquettes doivent en général être définies à la main avant l’apprentissage, et qu’elles doivent être correctes. Ceci a un coût.

La régression et la classification sont deux techniques traditionnelles en apprentissage machine supervisé. La régression consiste à chercher à prédire une valeur numérique continue en fonction d’une observation, alors que la classification a pour but d’attribuer à chaque observation une catégorie donnée parmi un nombre fini de catégories. Dans le cas le plus simple, la classification binaire va prédire si une observation possède ou non une caractéristique intéressante (classification oui/non).

Dans le case de l’apprentissage non supervisé, le jeu de données d’entraînement ne contient que des données d’entrée mais aucune donnée de sortie. Le programme devra donc, pendant la phase d’apprentissage, découvrir la structure sous-jacente des données, pour autant qu’elle existe. L’apprentissage non supervisé est souvent moins performant que l’apprentissage supervisé car il ne possède pas les étiquettes pour orienter sa modélisation. Par contre, il est possible d’utiliser directement des données brutes (textes, images…), souvent disponibles en très grande quantité, sans devoir les étiqueter une à une au préalable.

Un algorithme classique d’apprentissage non supervisé est le partitionnement des données (clustering en Anglais) dans lequel les données en entrée sont regroupées arbitrairement par l’algorithme en un certain nombre de catégories plausibles au vu de la répartition des observations. Un intérêt de ce type d’algorithme est qu’il possède une certaine forme de créativité, et peut donc aider un chercheur à identifier des régularités ou des motifs jusu’alors indétectés.

Un autre exemple d’apprentissage non supervisé est la détection d’anomalie. Il consiste à détecter une observation aberrante par rapport aux données d’entraînement et qui survient rarement. La détection d’une transaction financière frauduleuse ou d’une pièce mécanique défectueuse lors d’un contrôle qualité en bout de chaîne de production sont deux exemples d’application de cet algorithme.

Enfin, il existe des situations intermédiaires. Dans l’apprentissage semi-supervisé, seule une partie des observations d’entrée est étiquetée. Dans l’apprentissage autosupervisé, on cherche à prédire certaines données d’entrée en fonction des autres. C’est une approche très intéressante sur lequel on reviendra par la suite car elle est largement utilisée dans les modèles de langage.

L’apprentissage profond

L’apprentissage profond reprend les mêmes techniques et approches que l’apprentissage machine. On y retrouve également l’apprentissage supervisé, non supervisé, semi-supervisé etc… La différence entre les deux provient du type de modèle utilisé.

Si l’ apprentissage machine se base sur des algorithmes statistiques traditionnels, l’apprentissage profond recourt aux réseaux de neurones artificiels multicouches pour arriver au même résultat. La différence est que la puissance de modélisation des neurones artificiels n’est limitée que par la taille du réseau et celui-ci peut être rendu arbitrairement complexe, pour autant que le programmeur dispose de la puissance de calcul nécessaire et d’un volume de données suffisant.

Cette capacité à traiter des problèmes de plus en plus complexes a propulsé l’apprentissage profond au début de la scène depuis le début de la décennie 2010; cette approche domine aujourd’hui complètement le secteur.

Vu la longueur que ce texte est en train de prendre, je traiterai de l’apprentissage profond dans un article séparé, car le sujet mérite largement un traitement détaillé.

Conclusion

Le défi ultime de l’IA est de créer un système capable à la fois de raisonner, de créer de nouvelles abstractions, de percevoir le monde dans toute sa complexité, et d’apprendre de manière autonome. Mais les systèmes actuels se montrent soit déficients dans leur capacité à raisonner, soit à apprendre.

En même temps, on ne peut s’empêcher d’être interpellé par la grande complémentarité des deux approches. Les méthodes d’apprentissage machine excellent dans leurs capacités d’ apprentissage et de modélisation de phénomènes complexes mais leurs capacités d’abstraction, de raisonnement et d’explication sont limitées et peu interprétables. L’IA symbolique offre à peu près l’inverse : une grande puissance d’abstraction et de raisonnement, facilement intérprétables, mais peu encline à traiter les grands volumes de données imparfaitement structurés ou à apprendre de manière autonome.

On ne peut s’empêcher de penser que l’approche idéale combinerait ces deux techniques. Ces approches, appelées hybrides ou neurosymboliques, font l’objet de recherches et de développements approcondis. Mais l’intégration entre deux approches fondamentalement différentes n’est pas simple. L’avenir nous dira ce qu’il en est…

Pour terminer, admirons un instant l’extraordinaire puissance de la conscience humaine, qui combine toutes ces capacités avec élégance et harmonie. En quelques années, et par l’entremise de ses cinq sens limités, un enfant se crée une représentation intérieure du monde d’une stupéfiante complexité, qu’il continuera à enrichir toute sa vie au fil de nouveaux apprentissages et de nouvelles expériences. Chaque conscience est un univers propre qui reflète l’univers extérieur.

Toutes les fois qu’un homme meurt, c’est un monde qui disparaît, le monde qu’il portait dans sa tête. – Arthur Schopenhauer

Avant de prendre la route ensemble

Ceci représente donc la première ligne d’une série que j’espère longue et fructueuse. Je souhaite aussi, cher lecteur, qu’elle vous intéressera. Avant de nous embarquer ensemble dans ce périple, permettez-moi de me présenter.

Ingénieur civil de formation et vivant à Bruxelles, j’ai toujours été fasciné par l’Intelligence Artificielle. Après quelques contacts initiaux avec l’IA au cours de mes études, ce n’est que quelques années plus tard, en 2013, que j’ai recommencé à étudier activement le sujet, tout d’abord en suivant des formations sur les premier sites de MOOC de l’époque (Udacity, edX, Coursera). A l’époque, l’apprentissage profond (Deep Learning) en était encore à ses débuts mais son énorme potentiel, notamment en ce qui concernait le traitement d’images semblait inépuisable. La question de la vision, auparavant insoluble, semblait en voie d’être résolue.

Après quelques années de formations en ligne ininterrompues, j’ai choisi de rejoindre une start-up belge dans le secteur de l’AI en tant que directeur opérationnel au milieu de l’année 2019. Cette belle aventure au sein de la société Omina Technologies a duré près de trois ans, et m’a permis de côtoyer des gens remarquables en termes à la fois académiques et humains.

J’avais repris un cheminement de vie plus traditionnel depuis quelques mois lorsque les modèes de type GPT ont soudainement fait irruption sur le devant de la scène vers la fin de l’année 2022, avec dans le rôle principal le désormais incontournable ChatGPT.

Cela fut une énorme surprise pour moi, je dois bien l’admettre. Mon intuition me portait à croire que le langage était un problème nettement moins approprié à l’apprentissage profond que les images. Je n’attendais pas de percée significative dans cette direction et me concentrais plutôt sur les progrès de la conduite autonome dans lesquels une percée me semblait plus plausible. A ma décharge, il semble bien que nombre de chercheurs et d’académiques du secteur ont également été pris de cours par les progrès stupéfiants de ces modèles de langage de grande taille -LLM en anglais- dont les capacités vont bien au-delà de ce que leur apprentissage pouvait laisser attendre…

Et depuis, le foisonnement incessant d’activités autour de ces modèles LLM, où chaque jour apporte son lot de nouvelles approches et de polémiques me semble encore plus intense, encore plus extraordinaire que la période 1998-2001 qui a connu l’explosion initiale du commerce électronique et l’émergence des géants de la tech d’aujourd’hui : Google, Amazon…avec Meta/Facebook suivant dans le sillage quelques années plus tard.

Néanmoins, il faut noter que l’immense majorité de l’information disponible est en Anglais, et l’essentiel des développements actuels se passent aux Etats-Unis. Et pourtant nous avons tellement de talents en Europe; la Belgique à elle seule compte plus de mille chercheurs actifs dans le domaine de l’IA.

Ensuite, il semble désormais vraisemblable que l’IA va impacter la société de multiples manières et ce à relativement court terme. Il y a donc un grand besoin d’informer assez rapidement et de manière abordable le plus grand nombre. L’effort de vulgarisation et de communication devient essentiel, d’autant plus que la quasi-totalité du matériel publié sur Internet est en Anglais et regorge de termes techniques voire de code informatique.

J’ai donc voulu, à travers ce blog, apporter ma contribution à l’effort de communication nécessaire, tout en écrivant sur ce qui me passionne ! Je vise à informer de manière claire et transparente un public curieux et mais pas nécessairement technique.

Il y a aussi une envie de créer, de basculer d’une vie professionnelle plutôt analytique vers une action plus créative, d’augmenter au lieu de réduire, de générer au lieu de synthétiser. Il m’a toujours été aisé d’être verbalement créatif, mais passer à l’écrit me semblait un obstacle insurmontable. Néanmoins, je ne veux pas finir comme Grand, le personnage du roman “La Peste” de Camus, qui veut écrire un livre mais n’arrive pas à dépasser la première phrase qu’il réécrit sans cesse…..

Voici donc une nouvelle aventure qui commence. Merci de m’accompagner.

Newer posts »