Rendre l' IA accessible à tous

Mois : décembre 2024

Les modèles raisonneurs

Le modèle o1 d’ OpenAI est maintenant disponible et il représente un changement important dans le fonctionnement et les capacités des modèles de langage.

La mise à disposition de ce modèle fait suite à des rumeurs persistantes autour d’ un modèle « disruptif » développé en secret par OpenAI d’ abord appelé Q-star puis Strawberry. Ces modèles sont importants parce qu’ ils constituent une tentative de transition de la réflexion immédiate et intuitive vers un raisonnement plus lent et plus délibéré.

Cette dualité se retrouve dans les modes de fonctionnement de notre cerveau. Comme l’ a indiqué le psychologue Daniel Kahnemann dans son livre Thinking, Fast and Slow, nos pensées procèdent selon deux schémas différents :

  • Le Système 1 est une réponse rapide, automatique, inconsciente et émotionnelle de notre cerveau à des situations et à des stimuli. Il peut s’ agir de lire distraitement un texte sur un panneau d’ affichage, de savoir nouer ses lacets sans réfléchir ou de sauter instinctivement par-dessus une flaque d’ eau sur le trottoir. Nous fonctionnons 95% du temps dans ce mode, qui correspond au mode par défaut et automatique de notre cerveau.
  • Le Système 2 est un mode lent, laborieux et logique dans lequel notre cerveau opère pour résoudre des problèmes plus compliqués. Par exemple, la pensée du système 2 est utilisée pour chercher un ami dans une foule, garer son véhicule dans un espace restreint ou déterminer le rapport qualité/prix de son repas à emporter. Il s’ agit d’un mécanisme de raisonnement logique activé délibérément et consciemment.
Figure 1 : Les deux modèles de fonctionnement du cerveau (source : Daniel Kahnemann)

Or, disposer de modèles capables de fonctionner selon le système 2 est essentiel pour pouvoir évoluer vers des agents IA plus fiables et plus autonomes, comme je l’ avais expliqué dans un article précédent accessible ici: les modèles « raisonneurs » sont une étape importante vers l’ Intelligence Artificielle Générale.

Pour faire simple, OpenAI a appris à un modèle de langage à réfléchir avant de parler. Voyons comment.

1. Mécanismes de raisonnement

Nous ne savons pas précisément comment OpenAI a entraîné le modèle o1. Néamnoins, les grands principes de l’ approche sont connus. Trois phases successives vont transformer un modèle de langage classique comme GPT-4o vers un modèle de raisonnement comme o1.

Lors de la première phase, le modèle « classique » est confronté à une série de problèmes logiques et il lui est demandé de développer son raisonnement étape par étape avant d’ arriver à la solution. Il s’ agit d’ une méthode de prompt engineering appelée Chain of Thought prompting (CoT) et décrit ici. En transformant la question en un ensemble d’ étapes de raisonnement de plus faible complexité, on augmente la probabilité que le modèle ait été confronté lors de son entraînement à des déductions élementaires analogues et qu’ il puisse donc effectuer les sauts logiques correspondants par corrélation.

Figure 2 : Chain of Thought Prompting (source : Wei et al., 2022)

Une fois ces chaînes générées, elles sont évaluées en fonction de leur pertinence tant au niveau de la réponse finale que du chemin logique suivi pour y parvenir. L’ évaluation peut être faite à la main (fastidieux) ou de manière automatisée. En pratique, on va débuter par une série d’ évaluations faites à la main pour entraîner un modèle d’ évaluation automatique, séparé du modèle de langage, qui prendra ensuite le relais et rendra le processus beaucoup plus efficace.

Lors de la seconde phase, les chaînes logiques générées lors de la première phase ainsi que leurs scores de pertinence sont utilisés pour entraîner le modèle (affinage) afin de privilégier les chaînes qui obtiennent la bonne réponse et défavoriser celles qui échouent. A l’ issue de cet affinage, nous disposons d’un modèle amélioré qui cherchera à répondre par étapes logiques à toute question de l’utilisateur, ce qui constitue déjà un grand pas dans la bonne direction.

Cependant, à ce stade, le modèle reste un modèle de langage « classique »: il génère une chaîne de raisonnement unique -certes améliorée- au fil de sa génération textuelle et présente ensuite le résultat à l’ utilisateur quelle qu’ en soit la pertinence. L’ effort déployé par le modèle reste aussi le même quelle que soit la complexité de la question, ce qui n’ est pas idéal…

C’ est ici qu’ intervient la troisième phase. Cette dernière a lieu non pas lors de l’ entraînement mais lors de l’ inférence, c’ est à dire quand l’ utilisateur pose une question au modèle.

Et l’idée de base est simple: comme les modèles de langage sont par nature aléatoires, rien n’ empêche de leur demander de générer plusieurs chaînes de raisonnement complètes en réponse à chaque question et de ne présenter que la plus pertinente (et nous disposons pour cela du modèle d’ évaluation). Au plus le nombre de générations est élevé, au plus la réponse choisie a de chances d’ être de qualité, au prix d’ une plus grande consommation en ressources.

Figure 3 : Chaînes de raisonnement multiples (source : Besta et al., 2023)

Il est imaginable de faire mieux encore et d’ utiliser des algorithmes de recherche dans l’ arbre des raisonnements possibles pour « orienter » la recherche de la réponse vers la voie la plus prometteuse en cours de raisonnement, mais en restant exhaustif dans l’ évaluation des différentes branches. Des algorithmes d’ apprentissage par renforcement comme Monte Carlo Tree Search peuvent être utilisés à cet effet. L’ idée est fascinante et on ne sait pas si de telles techniques sont déjà exploitées par OpenAI pour le modèle o1…

Figure 4 : L’algorithme Monte Carlo Tree Search (source : Jokub Kowalski et al., 2024)

Malheureusement, OpenAI ne permet pas à l’ utilisateur de voir les multiples traces de raisonnement du modèle, et avance pour cela des raisons d’ avantage compétitif. On ne sait donc pas exactement jusqu’où OpenAI est allé dans cette approche, mais chercher de manière plus ou moins exhaustive le meilleur raisonnement pendant la phase d’ exécution permet de s’ affranchir de la limite de l’ entraînement : il suffit de chercher plus longtemps, plus profondément dans l’ arbre des raisonnements possibles pour obtenir une meilleure réponse.

C’ est d’ ailleurs comme cela que o1-pro semble fonctionner : le modèle est le même qu’ o1 mais il va fouiller plus profondément dans l’arbre des raisonnements, ce qui consomme bien sûr de la puissance de calcul et justifie le prix plus élevé…

2. Evaluation

L’ explication ci-dessus laisse quelques points en suspens; il faut notamment disposer d’ un mécanisme d’ évaluation automatique pour déterminer si une chaîne de raisonnement est pertinente ou non. Le problème est que dans beaucoup de domaines, la pertinence ou non d’ un raisonnement est subjective et donc difficilement automatisable.

C’ est pourquoi il est fort probable que l’ entraînement au raisonnement ait été effectué sur des domaines où les raisonnements peuvent être évalués de manière objective, à savoir les sciences exactes, et en particulier les mathématiques et l’ informatique.

C’ est d’ ailleurs ce qui ressort des « benchmarks » de performance publiés par OpenAI qui indiquent que les performances du modèle o1 sont très supérieures à celles de GPT-4o dans les tâches mathématiques, dans la programmation et dans les questions de sciences exactes :

Figure 5 : Performance de gpt4o et o1 dans les domaines formels (source : OpenAI)

Par contre, dans les domaines plus subjectifs comme la rédaction de texte, les modèles de la famille o1 ne sont pas meilleurs que gpt-4o. Il n’ y a donc pas lieu de recourir à o1 pour ce genre de tâches.

Figure 6 : Performance comparée de gpt4o et o1 (source : OpenAI)

3. Accessibilité des modèles o1

Passons maintenant à la partie pratique : OpenAI a mis à disposition une première version appelée « o1-preview » à la mi-septembre, qui a été remplacée début décembre par le modèle définitif « o1 ». Celui-ci est accessible en trois versions:

  • la version de base « o1« ;
  • une version allégée appelée « o1-mini« ;
  • et enfin une version plus puissante appelée « o1-pro« .

Cependant, l’ accessibilité aux modèles de la famille o1 est fortement dépendante de l’ abonnement auquel l’ utilisateur a souscrit : tout d’abord, les utilisateurs gratuits n’ ont pas accès aux modèles de la famille o1.

Les utilisateurs payant l’ abonnement ChatGPT+ peuvent accéder à o1-mini et o1 mais avec des volumes d’ utilisation limités à 50 messages par semaine pour o1 et 50 messages par jour pour o1-mini (d’ où l’ intérêt d’ o1-mini).

Par ailleurs, OpenAI vient d’ introduire un nouvel abonnement appelé ChatGPT Pro à 200 USD/mois! Ce plan haut de gamme est le seul qui donne accès au modèle o1-Pro et offre aussi un accès illimité aux modèles o1 et o1-mini.

Ce qui précède concerne l’ interface utilisateur via le site web, mais les modèles o1-preview et o1-mini sont également accessibles via l’ interface de programmation (API) d’ openAI, mais pas o1-pro. Le prix de l’ utilisation est alors dépendant du nombre de tokens échangés. Mais comme OpenAI ne permet pas de voir la chaîne de raisonnemet complète, l’ utilisateur de l’ API se retrouve contraint de payer à l’ aveuglette…

4. Conclusion

C’est au moment d’ écrire ces lignes que Google vient de sortir son propre modèle de raisonnement appelé Gemini 2.0 Flash Thinking Experimental. Deux équipes chinoises ont aussi publié des modèles de raisonnement, DeepSeek avec DeepSeek-R1-lite-preview, et Alibaba Qwen QwQ-32B-Preview.

Les modèles capables de raisonner sont en passe de devenir un nouveau terrain de compétition, et ce parce qu’ ils ouvrent la voie vers des systèmes plus fiables auxquels il est possible de déléguer plus facilement des tâches rendant possibles des agents IA plus autonomes…

Et enfin, gardons en mémoire que les modèles auxquels nous avons accès vont continuer à progresser. Si OpenAI a décidé de démarrer une nouvelle « lignée » de modèles comme sa dénomination l’ indique, ce n’ est pas innocent et suggère que des modèles raisonneurs plus puissants apparaîtront à l’ avenir, peut-être en ayant recours à des techniques d’ apprentissage par renforcement comme Monte Carlo Tree Search.

Il y a donc lieu de rester curieux et optimistes. Une nouvelle voie de progrès est ouverte. Nous verrone bien où elle mènera.

5. Sources et références

Cinq étapes vers l’ Intelligence Artificielle Générale

L’ intelligence artificielle générale (AGI) désigne un type d’ IA qui possède la capacité de comprendre, d’ apprendre et d’ effectuer toute tâche intellectuelle qu’ un humain est en mesure de réaliser. Sans surprise, la quête incessante de cette intelligence artificielle générale captive les énergies des chercheurs et l’ imagination du public.

Mais quel chemin suivre pour y arriver ?

Un document interne d’ OpenAI contenant une « feuille de route » pour atteindre l’ AGI a fuité au mois de juillet. Cette feuille de route a ensuite été confirmée par Sam Altman (CEO d’ OpenAI) en septembre, il s’ agit donc d’ une information validée. Dans cet article, je vais présenter le contenu de cette feuille de route. Elle décrit cinq étapes à franchir sur la route vers l’ AGI.

Il est important de présenter cette feuille de route car il ne fait pas de doute que les grands acteurs de l’ IA entrevoient l’ existence d’ une IA généraliste dans un futur relativement proche (5 à 10 ans). J’ai déjà couvert ici l’ article de Dario Amodei, CEO d’ Anthropic. L’ article de Sam Altman The Intelligence Age accessible ici va dans le même sens et Demis Hassabis, PDG de Google Deepmind est lui aussi très ambitieux, comme il l’ a mentionné dans une récente interview accessible ici.

Bien sûr, ces personnages sont juges et partie et profitent du battage médiatique et de l’ intérêt que leurs déclarations suscitent, mais ils sont aussi les mieux placés pour savoir sur quoi leurs départements de R&D travaillent et quels résultats ils obtiennent. Ils peuvent aussi être victimes de leurs propres biais, mais au vu du chemin parcouru, il me semble légitime de prendre leurs déclarations au sérieux.

Présentation de la feuille de route

La feuille de route d’ OpenAI pour atteindre l’ AGI comporte cinq niveaux qui sont décrits dans la figure 1 et détaillés ci-dessous.

Figure 1 : Les cinq niveaux vers l’ AGI (crédit : Tomshardware)

Niveau 1 : Les Dialogueurs

Le premier niveau est celui des « Chatbots », ou « IA avec langage conversationnel », dans lequel les ordinateurs peuvent interagir avec les gens à travers une conversation naturelle.

Cela a été réalisé avec GPT-3.5 dans la première version de ChatGPT et était déjà possible avant cela, mais de manière moins efficace ou avec une conversation moins naturelle. Les grands modèles nativement multimodaux tels que GPT-4o, Gemini Pro 1.5 ou Claude Sonnet 3.5 répondent pleinement à toutes les exigences de ce niveau. Ils sont capables de conversations complexes et peuvent effectuer un raisonnement limité. Nous pouvons donc raisonnablement dire que le niveau 1 est atteint.

Niveau 2 : Les Raisonneurs

L’ étape suivante, le niveau 2, introduit les « raisonneurs » – des systèmes d’ IA capables de s’ attaquer à des problèmes complexes avec la compétence d’ experts humains, et ce sans devoir recourir à des outils extérieurs. Atteindre le niveau 2 signifierait un moment charnière, car cela représente une transition de l’ imitation du comportement humain à la démonstration de véritables prouesses intellectuelles.

Si nous n’ en sommes pas encore là, il est indéniable que les grands acteurs cherchent à améliorer les capacités de raisonnement de leurs modèles. OpenAI a mis à disposition le modèle o1-preview qui offre de performances supérieures aux modèles comme GPT-4o en termes de raisonnement. Et il y a quelques jours, la société chinoise DeepSeek AI a publié un modèle de raisonnement open-source appelé DeepSeek-R1-Lite-Preview; il s’ agit donc d’ un domaine qui devient compétitif et il n’y a rien de tel pour stimuler les progrès…

Vu l’ importance de ces modèles « raisonneurs » sur la route vers de l’ Intelligence Artificielle Générale, j’ y consacrerai un prochain article.

Niveau 3 : Les Agents autonomes

Le niveau 3 de la feuille de route envisage des « agents », c’ est-à-dire des systèmes d’ IA capables de fonctionner de manière autonome pendant de longues périodes, exécutant un ensemble d’ actions dans le but de mener à bien une tâche qui leur est assignée.

Ces agents pourraient transformer les industries en prenant en charge des tâches complexes, en prenant des décisions et en s’ adaptant à des circonstances changeantes sans surveillance humaine constante.

Il faut cependant se garder de toute confusion : le terme d’ « agent  » est actuellement utilisé pour décrire des modèles de langage auxquels on a greffé des outils capables d’ interagir avec le monde extérieur via des interfaces.

Ces « agents » ne répondent pas aux exigences des agents IA décrits dans ce niveau 3 de la feuille de route, qui implique une capacité de raisonnement appliquée de manière répétitive pour « refermer la boucle » entre l’ observation de l’ état d’ avancement de la tâche et le choix de nouvelles actions visant à se rapprocher du but.

Aucun système de ce niveau n’ existe sur le marché à ce jour. Des rumeurs font état du développement par OpenAI d’ un produit appelé « Operator » qui serait une première tentative pour offrir un produit de ce type. A suivre…

Niveau 4 : Les Innovateurs

Au niveau 4 de la feuille de route, l’ IA devient un innovateur.

Les systèmes à ce stade possèderont la créativité et l’ ingéniosité nécessaires pour développer des idées et des solutions originales. Une fois arrivés à ce niveau, les agents ne se limitent plus à exécuter les processus de manière compétente comme au niveau 3, mais les améliorent et en inventent de nouveaux plus efficaces. En parallèle, ces agents stimuleraient l’ innovation et le progrès dans divers domaines.

Niveau 5 : Les Organisateurs

Le sommet de la feuille de route d’ Open est le niveau 5, qui implique une intelligence artificielle capable d’ effectuer le travail d’ une organisation entière. Toutes les fonctions de l’ organisation, qu’ elles soient opérationnelles ou conceptuelles, sont réalisées par des agents IA qui travaillent ensemble, apportent des améliorations et exécutent tout ce qui est nécessaire sans qu’aucun humain ne soit directement impliqué.

A ce moment, l’ Intelligence Artificielle Générale est atteinte.

Que faut-il en penser ?

La question est de savoir si les technologies actuelles (Deep Learning en tête) sont suffisantes pour atteindre l’ AGI ou pas.

Comme je l’ ai dit dans l’ introduction, les principaux dirigeants des géants de la tech semblent considérer que ces technologies sont suffisantes et que les principaux défis qui restent sont essentiellemnt des facteurs d’ échelle et de combinaison d’ algorithmes. Leurs scénarios se basent donc sur des extrapolations de la situation actuelle ce qui les amène à émettre des pronostics assez agressifs (AGI dans la décennie).

Cet avis n’est cependant pas partagé par l’ ensemble de la communauté des chercheurs. Des chercheurs réputés comme Yann Le Cun ou Gary Marcus estiment au contraire que l’ apprentissage profond ne suffira pas et qu’il faudra inventer des architectures entièrement nouvelles pour surmonter les points faibles des techniques actuels. Ceci les amène naturellement à des évaluations plus conservatrices quant à l’ apparition de l’ AGI.

Leurs idées pour remédier aux manquements de l’ IA actuelle diffèrent cependant : si Gary Marcus estime nécessaire de réintroduire des approches symboliques pour permettre le raisonnement déductif, Yann Le Cun insiste plutôt sur le besoin de disposer d’ un modèle prédictif du monde…

Sources et références