Rendre l' IA accessible à tous

Mois : décembre 2023

Mistral : la start-up française qui fait du bruit

Voici quelques semaines que la start-up française Mistral fait beaucoup parler d’ elle dans le monde de l’ IA générative.

Fondée en mai 2023 par trois ingénieurs venant de Google Deepmind, Mistral a déjà levé 385 millions d’ euros de capitaux en six mois et est actuellement valorisée à environ 2 milliards d’ euros!

Cette croissace effrénée positionne d’ ores et déjà Mistral comme un des acteurs majeurs du secteur et un concurrent sérieux d’ OpenAI.

Mistral continue à développer ses modèles et capacités, et pourrait bien jouer un rôle-clé dans le futur développement de l’ IA européenne. L’ approche open-source de l’ entreprise et son engagement éthique s’ alignent avec les préférences de nombreuses entreprises européennes.

Le succès de Mistral est supporté par l’ existence d’ un écosystème IA français qui ne cesse de se renforcer. La French Tech bénéficie en effet d’un climat favorable : Xavier Niel a annoncé en septembre des investissements stratégiques dans l’ IA estimés à environ 200 millions d’euros. Ces investissements sont pour partie destinés à acheter des coprocesseurs graphiques (GPU) chez Nvidia afin de doter la société de services cloud Scaleway de la puissance de calcul nécessaire à l’ IA et la mettre à la disposition des start-ups européennes.

Mais l’ argent et la puissance de calcul ne sont pas tout, il faut également une concentration de talents. En novembre, la création de Kyutai a été annoncée, un nouveau laboratoire de recherche IA basé à Paris et bénéficiant de 300 millions d’ euros d’ investissement, à la tête duquel se trouvent des pointures de l’ IA venant de Google et Meta. De fait, les laboratoires de recherche de Google Deepmind et de Meta, présents dans la région, constituent un réservoir de talents qui va pouvoir irriguer les nouvelles entreprises.

De son côté, Station F, un des plus grands incubateurs de start-ups technologiques au monde, se trouve également à Paris, accompagne les premiers pas des jeunes pousses et joue un rôle fédérateur, à travers notamment des événements comme AI-Pulse.

Tout ceci signifie que la France commence à sérieusement concurrencer la Grande-Bretagne, jusqu’ ici acteur dominant de l’ IA européenne.

Il faut mentionner ce développement positif : on entend souvent parler de start-ups européennes qui partent se développer aux USA lorsque leurs besoins en capitaux augmentent, mais l’ inverse commence aussi à se produire : la société américaine Poolside AI a décidé de déménager à Paris, attirée notamment par des coûts salariaux moins exorbitants qu’ aux Etats-Unis…

Modèles Mistral disponibles

Voyons maintenant un peu plus en détail les modèles publiés par Mistral. Il y en a trois, appelés Mistral-7B, Mixtral-8x7B et Mistral-Medium, par ordre de puissance croissante.

  • Mistral-7B ne converse qu’ en Anglais et comporte 7 milliards de paramètres, ce qui le rend exécutable localement sur la plupart des ordinateurs actuels. Ce modèle est disponible librement en open-source.
  • Mixtral-8x7B comprend l’Anglais, le Français, l’Allemand, l’Italien et l’Espagnol. Son architecture est appelée « mixture d’ experts ». Ce modèle est aussi disponible en open-source. mais vu sa taille, seules des machines spécialisées peuvent le faire fonctionner.
  • Mistral-medium : il s’agit d’une version améliorée de Mixtral-8x7B avec la même architecture de base. Mistral déclare que ses performances sont proches de GPT-4 et qu’il excelle dans les tâches de programmation. Ce modèle n’est pas disponible en open-source, il faut demander accès (payant) via l’interface de programmation Mistral.

L’ architecture de type Mixture of Experts utilisée par Mixtral-8x7B comprend 8 groupes distincts de paramètres, plus un bloc de supervision qui n’ active que les deux groupes les plus pertinents lors du passage à travers chaque couche du modèle, puis les recombine ensuite. Cette approche innovante permet au modèle, qui compte 46,7 milliards de paramètres, de n’ exiger « que » la puissance de calcul d’ un modèle de 13 milliards de paramètres. La génération est donc accélérée d’ un facteur 3,5 environ. On soupçonne d’ ailleurs que GPT-4 -dont l’architecture n’ a pas été publiée- utilise lui aussi un modèle de ce type, les rumeurs faisant état de 8 experts de 220 milliards de paramètres chacun (soit 1,7 trillions de paramètres au total).

Une grande partie de l’ engouement pour Mistral provient de la performance de ces modèles par rapport à leur taille. Vous pouvez voir que Mixtral-8x7B est très bien positionné dans le classement réalisé par HuggingFace :

Figure 1 : Classement des LLM selon HuggingFace Chatbot Arena Leaderboard

J’expliquerai dans un prochain article comment faire fonctionner des modèles localement, mais en attendant, vous pouvez essayer les trois modèles de Mistral sur l’ interface web de Perplexity.ai accessible ici.

Il vous suffit de choisir le modèle désiré via le menu déroulant dans le coin inférieur droit (qui permet aussi de choisir d’ autres modèles, les noms débutant par pplx correspondent à ceux développés par Perplexity.ai).

Une intelligence artificielle pour structurer vos argumentations selon le principe pyramidal !

Je viens de publier mon premier agent IA conversationnel utilisant l’infrastructure GPTx d’OpenAI. Cet agent restructure vos arguments selon le principe pyramidal McKinsey.

L’agent est accessible ici, pour les personnes qui possèdent l’abonnement chatGPT+ : https://chat.openai.com/g/g-fauQ9MuEQ-pyramidal

L’ utilisation du modèle est simple: vous lui soumettez un texte contenant une argumentation et le modèle vous renvoie une version remaniée du texte respectant le principe pyramidal. Le modèle est multilingue; il vous répondra dans la même langue que celle de votre texte original.

Quelques mots sur le principe pyramidal

Le principe pyramidal, initialement développé par le Dr Barbara Minto de McKinsey, est une technique rédactionnelle avancée applicable à de nombreux formats de texte : présentations, documents, lettres et emails…La méthode est aujourd’hui utilisée par les plus grands cabinets de conseil en management à travers le monde pour rédiger des rapports d’audit et concevoir des présentations.

Figure 1 : structure logique du principe pyramidal

La méthode fait appel aux arbres logiques ou arbres d’argumentation pour organiser par écrit un raisonnement. À la base, le principe de la pyramide préconise une approche descendante, dans laquelle le message ou l’idée principale est présentée en premier, suivi des arguments à l’appui, puis des détails.

Ce principe est une des rares techniques qui s’attache davantage à la structure de l’argumentation, c’est-à-dire au fond et au déroulement d’un discours, plutôt qu’à sa forme.

Pour construire la pyramide, les arguments sont regroupés et hiérarchisés par niveaux d’abstraction.

Le principe pyramidal obéit à trois règles fondamentales :

  1. Le document ou la présentation doit être introduit en suivant un schéma narratif précis : Situation, Complication, Question et Réponse;
  2. les idées à un niveau N représentent le développement (l’argumentation) de l’idée de synthèse au niveau N+1, et inversement, une idée à un niveau N est la synthèse (l’abstraction) des idées développées au niveau N-1.;
  3. Un argument peut être présenté de deux manières, soit en opérant une déduction (raisonnement), soit par induction (analogie).

Il me semble évident que ce genre d’application de reformatage textuel intelligent utilise de manière optimale les modèles de langage : il exploite au mieux leurs indéniables compétences stylistiques tout en mitigeant les risques liés à la génération de contenu incorrect (hallucinations), la quasi-totalité du contenu se trouvant déjà présente dans le texte à reformater.

J’ ai entendu parler la première fois du principe pyramidal il y a presque 25 ans lorsque je préparais une interview pour rejoindre le cabinet de consultance Roland Berger et j’ai été tellement séduit par l’approche que je l’ai utilisé tout au long de ma vie professionnelle; cela m’a souvent aidé à faire la différence et à mieux convaincre mes interlocuteurs.

Je suis intimement convaincu que les agents IA représenteront un des événements majeurs de 2024. OpenAI prévoit d’ouvrir son « Agent store » début 2024 et ceci représente ma première tentative d’exploitation pratique de ce nouveau mécanisme.

Je vous en souhaite une bonne utilisation.

A bientôt !

Arnaud

Un point sur la réglementation européenne des modèles génératifs

Vous l’ aurez probablement lu ou entendu dans les médias ces derniers jours : les Institutions Européennes ont trouvé un accord sur la future réglementation de l’ Intelligence Artificielle ce vendredi 8 décembre. C’ est le fameux European Artificial Intelligence Act dont j’ avais déjà esquissé les grandes lignes dans un article précédent.

A l’ époque, je n’ avais pas parlé de la réglementation des modèles généralistes car ce point restait en discussion. Il est maintenant temps de pallier à cette omission.

Ce qui suit se base sur les informations disponibles 48 heures après l’ accord. Le texte détaillé de l’ accord n’est pas encore connu; il devrait être publié avant le 22 janvier, date du premier comité parlementaire à son sujet. Mon but n’ est cependant pas d’ aller dans le détail mais juste de vous donner un aperçu de l’ approche retenue.

1. Pourquoi l’ IA généraliste complique la réglementation

Les modèles IA généralistes sont apparus il y a quelques années. On les définit en fonction de la modalité qu’ ils traitent (texte, image, vidéo, 3D...) et de leur nature discriminative ou générative.

Ces modèles se caractérisent par un large spectre d’ applications, et leur grand avantage est de pouvoir être affinés pour réaliser avec précision un tâche spécialisée. Cet affinage peut être réalisé par une autre entreprise disposant de moyens bien inférieurs à ceux nécessaires à l’ entraînement du modèle de base. Un modèle textuel génératif comme GPT3 peut donc être adapté pour réaliser différentes tâches dans différents secteurs (par exemple des chatbots pour du service à la clientèle).

Figure 1 : l’ IA généraliste, aspects discriminatifs et génératifs

Dès lors, la chaîne de valeur de l’ IA généraliste peut mettre en jeu plusieurs acteurs : un acteur en amont qui développe un modèle généraliste puissant et le met à disposition d’ acteurs en aval qui vont affiner et exploiter le modèle pour le mettre à leur tour sur le marché à destination des utilisateurs finaux.

Cette multiplication des acteurs ne s’ intègre pas bien dans la logique de l’ EU AI Act qui se base sur le risque pour l’ utilisateur final. Cette logique est appropriée pour une application IA développée par une organisation dans un but spécifique, mais si l’ on applique cette logique à l’ IA généraliste seuls les acteurs en aval seront directement sujets à la réglementation. La réglementation de l’ acteur en amont ne se fera qu’ indirectement par « percolation » des exigences posées sur les acteurs en aval. Pas très équilibré si vous êtes une petite start-up qui exploite un modèle développé par Google ou OpenAI… et vu le rôle techniquement central de l’ acteur amont, les risques ne sont pas réglementés à leur source.

Figure 2 : Les acteurs de l’IA généraliste

Il a donc fallu définir une réglementation différente pour l’ IA généraliste. Celle-ci va s’ appliquer spécifiquement à l’ acteur amont. Ceci ne dédouane pas entièrement l’ acteur aval qui reste soumis aux contraintes réglementaires basées sur le risque utilisateur, mais ce dernier peut au moins se reposer sur la conformité du modèle généraliste sur lequel il se base.

2. Réglementation de l’ IA généraliste

Cette réglementation fait la distinction entre deux catégories de modèles sur base de leur puissance : les modèles les plus capables sont appelés « systémiques » par opposition aux autres.

Tous les modèles généralistes sont soumis à des exigences de transparence : ils doivent documenter en détail l’architecture du modèle ainsi que le jeu de données qui a servi à son entraînement, et confirmer le respect des droits d’auteur. Le contenu généré par un modèle génératif devra être reconnaissable comme tel.

De plus, les modèles considérés « systémiques » vont êtres soumis à des exigences supplémentaires : leurs créateurs devront mener à bien des évaluations du modèle, démontrer comment ils gèrent et mitigent les risques, notifier les autorités en cas d’ incident et démontrer leur résilience face aux cyberattaques.

Les modèles généralistes open-source bénéficieront d’ une réglementation allégée (au moins pour les non-systémiques), mais la nature de cet allègement n’ est pas encore claire.

Toutes ces exigences seront détaillées et précisées à travers des standards européens harmonisés qui seront établis par des organismes comme le comité IA du CEN/CENELEC, une fois l’ Acte voté.

3. Notes et références

Les modèles de langage open-source

Les modèles de langage sont des systèmes d’ intelligence artificielle qui utilisent des volumes massifs de données textuelles collectés sur internet pour générer du texte, faire des traductions, interagir avec l’ utilisateur ou encore générer toutes sortes de contenus originaux.

Ces modèles peuvent être classés en deux grandes catégories, les modèles propriétaires et les modèles open-source. Cette distinction va avoir d’ importantes conséquences sur les possibiités d’ utilisation du modèle.

Les modèles dont j’ ai principalement parlé jusqu’ici –ChatGPT, Bard, Bing, Claude…- sont des modèles propriétaires : ils sont la propriété d’ une firme et peuvent uniquement être exploités selon les conditions décrites dans la licence d’exploitation. Cette license peut ou non être payante. Et à ce jour aucun des modèles propriétaires n’ est exploitable localement : vous devez utiliser une interface (web ou logicielle) pour interroger le modèle à distance.

L’ approche open-source est différente. Elle met à disposition du public l’ ensemble du modèle. L’ utilisateur peut donc l’ exploiter, le modifier et l’ améliorer à sa guise. Comme le concept de l’ open-source est très répandu dans le mode de l’ informatique et bien antérieur aux modèles de langage, j’ ai pensé qu’ il serait intéressant de commencer par en dire un peu plus à ce sujet.

1. Qu’est-ce que l’ open-source ?

Les débuts du mouvement open-source sont intimement liés au système d’ exploitation UNIX. Les développeurs originaux du système UNIX dans les années 1970 avaient pour habitude de partager les codes source. Lorsque certaines firmes ont décidé de commercialiser le code sous forme propriétaire pendant les années 1980, un mouvement de dissidence est né pour créer une version « ouverte » du système d’ exploitation. Une fois l’ approche formalisée, le mouvement open-source s’ est progressivement étendu et a prospéré jusqu’ à aujourd’ hui. On lui doit notamment le système d’ exploitation Linux et bien d’ autres logiciels et outils bien connus comme le langage Python.

Le mouvement open-source a donc été initié par des programmeurs qui rejetaient le modèle fermé et centralisé du développement de logiciels propriétaires. Dans ces derniers, seul le code exécutable est publié, alors que le code source est tenu secret afin d’ éviter la concurrence.

Le mouvement open-source rejette cette pratique : la totalité du code source est publié sous une licence qui permet la libre distribution, l’exploitation (commerciale ou non) et la modification du code. En contrepartie, l’ utilisateur s’ engage essentiellement sur deux points : ne pas tenter de s’ approprier le code mis à disposition et accepter ce dernier « en l’état » sans garantie ou recours en cas de dysfonctionnement. Certaines licenses open-source sont plus restrictives et obligent également l’utilisateur à publier tout programme dérivé également sous license open-source; on parle alors de licence réciproque ou copyleft.

Revenons maintenant aux modèles de langage…

2. Situation des modèles de langage open-source

Les premiers modèles de langage open-source étaient considérés comme nettement inférieurs aux modèles propriétaires. La situation a changé cette année, notamment suite aux activités de Meta qui a successivement publié les modèles LlaMA et LlaMA 2.

Les circonstances de la publication de LlaMA en février 2023 sont assez cocasses. Meta a initialement publié le code du modèle en open-source, mais pas les paramètres du modèle -sans lesquels ce dernier est inutilisable-. Les paramètres étaient uniquement fournis à des fins de recherche au cas par cas, sans possibilité d’ exploitation commerciale. Il n’ a pas fallu plus d’ une semaine pour que ces paramètres fuitent et se retrouvent disponibles au public par téléchargement…

Cette fuite a donné un coup d’accélérateur au développement de modèles de langage open-source : des modèles dérivés de LlaMA par affinage comme Vicuna et Alpaca ont été publiés quelques semaines plus tard, ainsi que la librairie GPT4ALL qui permet de faire facilement fonctionner ces modèles sur un ordinateur personnel. Cependant la légalité de ces modèles dérivés, reposant sur une fuite, était floue et ne permettait en pratique que la recherche à l’ exclusion de toute exploitation commerciale.

Meta n’ a pas voulu réitérer l’ expérience : le modèle suivant LlaMA 2 , publié en juillet 2023, est disponible sous une licence open-source et permet donc l’ exploitation commerciale par des tiers.

Et entretemps, d’ autres modèles open-source exploitables commercialement ont été développés comme MPT de MosaicML, Falcon ou encore Mistral, et de nouveaux modèles sont régulièrement publiés. La figure 1 montre une tentative de taxonomie des différents modèles. Les modèles open-source sont repris sur fond grisé.

Figure 1 : Taxonomie des modèles de langage (Auteur : Jinfeng Yang & al)

Un bémol cependant : certains modèles comme LlaMA 2 ou Falcon ne sont pas totalement open-source et leur exploitation commerciale n’ est possible que moyennant certaines limitations. Ces limitations -peu contraignantes en pratique- sont généralement de nature à empêcher la concurrence avec le développeur ou visent à interdire les utilisations illégales ou dangereuses. Par exemple, LlaMA 2 ne peut pas être exploité par les entreprises comptant plus de 700 millions d’utilisateurs (!) ni pour améliorer un autre modèle de langage. Comme toujours, vérifiez les termes précis de la licence avec un juriste avant, pour ne pas avoir d’ ennuis après.

Les modèles open-source sont maintenant très performants et les meilleurs d’entre eux se classent juste en-dessous des meilleurs modèles propriétaires, comme vous pouvez le voir sur Chatbot arena.

Il est fort possible que les modèles open-source comblent l’ écart avec les modèles propriétaires au cours des 12 à 18 prochains mois: Meta travaille sur Llama 3 qui devrait être multimodal et a déclaré qu’ il sera publié en open-source, tandis que l’affinage permet de créer des modèles spécialisés qui peuvent rivaliser avec un modèle propriétaire généraliste dans un domaine particulier tout en étant moins gourmands en puissance de calcul.

3. Avantages

Les avantages des modèles open-source pour l’utilisateur sont de trois ordres :

  • Coût d’exploitation : l’ utilisation d’ un modèle open-source est en général beaucoup moins onéreuse que celle d’ un modèle propriétaire vu l’ absence de frais de licence. En contrepartie, des frais d’ infrastructure -serveur local ou dans le cloud- et un investissement initial de mise en place seront nécessaire. L’ économie se réalisera donc plutôt à moyen terme.
  • Flexibilité : les modèles open-source peuvent être affinés pour mieux répondre aux besoins de l’ utilisateur. Concrètement, affiner correspond à étendre l’ entraînement du modèle sur un ensemble de données textuelles que vous fournissez et qui correspond à vos cas d’ utilisation.
  • Confidentialité : le modèle se trouvant dans l’ infrastructure de l’exploitant, les risques liés à l’échange de données avec une autre organisation souvent située outre-Atlantique disparaissent.

Un chose à souligner est que l’ affinage, si vous y recourez, est beaucoup moins exigeant en puissance de calcul que l’ entraînement intial du modèle (et donc en termes de coûts). L’ entreprise qui met le modèle à disposition a déjà supporté la toute grande majorité des coûts d’ entraînement.

En contrepartie, il y aura une activité technique initiale pour installer le modèle, le faire fonctionner et l’intégrer dans votre infrastructure (plus l’ affinage du modèle si vous choisissez de le faire).

4. Références