Une nouvelle offre intéressante chez OpenAI

Dans la rédaction de ce blog, j’ essaie de ne pas devenir le relais des annonces marketing de certaines entreprises; j’ évite donc de réagir à chaud sur les tous derniers développements et déclarations tonitruantes dont le secteur est régulièrement inondé.

Je vais cette fois faire une exception car les produits annoncés par OpenAI lundi dernier sont déjà en partie disponibles et représentent un progrès important, non seulement pour les utilisateurs payants, mais aussi et surtout pour l’ immense majorité des utilisateurs non payants.

Allons-y !

1. ChatGPT-4o disponible pour tout les utilisateurs

OpenAI met progressivement à disposition des utilisateurs un nouveau modèle appelé ChatGPT-4o. ChatGPT-4o est très performant puisqu’ il vient de se hisser à la première place du classement des modèles de langage établi par la société LMSYS :

Figure 1 : LMSYS chatbot arena leaderboard publié sur HuggingFace dd. 16 mai 2024

Mais surtout, tous les utilisateurs inscrits chez OpenAI auront désormais accès au nouveau modèle ChatGPT4o qui est comparable à ChatGPT-4 en termes de performances. Et c’ est un progrès majeur pour les utilisateurs « gratuits » qui avaient jusqu’ à présent uniquement accès au modèle ChatGPT-3.5 aux performances nettement plus modestes.

Rien de plus simple que d’ accéder à ce modèle : connectez-vous sur https://chat.openai.com et sélectionnez GPT-4o. Ce modèle étant déployé de manière phasée vers les différentes catégories d’ utilisateurs, il est fort possible que ce modèle ne soit pas encore disponible pour vous. Dans ce cas, encore un peu de patience…

Mais alors quel avantage reste-t’ il pour les abonnés ayant souscrit à l’ abonnement ChatGPT+ qui coûte 20$/mois ? Le modèle sera soumis à des limites de nombre de questions dans le temps et cette limite (pas encore communiquée) sera cinq fois supérieure pour les utilisateurs ChatGPT+.

2. Multimodalité : audio et images

Le « o » dans le modèle GPT4o est une abréviation de « omni » et fait allusion aux compétences multimodales du nouveau modèle qui est capable de traiter nativement de l’ audio et des images en entrée et en sortie (pas la vidéo).

La capacité de traiter nativement la voix est intéressante et nous fait avancer sur la voix de l’ assistant personnel : pouvoir engager une conversation naturelle avec un assistant et recevoir une réponse sans délai, l’ interrompre en cours de conversation, lui demander de chanter ou le voir changer le ton de sa voix rendra l’ interaction beaucoup plus naturelle et représente un pas de plus vers des machines avec lesquelles nous interagissons comme avec les humains : en leur parlant.

Pour vous donner une idée de ce qui sera possible, voici une démonstration amusante des fonctionnalités audio avancées de GPT4o :

Démonstration des capacités verbales de ChatGPT-4o

Ces fonctionnalités multimodales ne sont cependant pas encore disponibles; OpenAI indique qu’ elles devront d’ abord faire l’ objet de vérifications de sécurité extensives. La voix est une manière essentielle de reconnaître un interlocuteur (pensez au téléphone) et il n’est pas difficile d’ imaginer les utilisations malfaisantes d’ un modèle de langage capable d’ imiter des voix à la perfection…..

Une remarque : Ne vous laissez pas abuser par le petit écouteur qui apparaît à droite de l’ app ChatGPT sur smartphone! S’ il permet de communiquer dès aujourd’ hui avec l’ application par la voix, le mécanisme actuel repose sur un chaîne de trois modèles utilisés séquentiellement :

un modèle audio-vers-texte (OpenAI Whisper);
le modèle ChatGPT en tant que tel (texte-vers-texte);
un modèle texte-vers-voix (OpenAI Text-To-Speech TTS).

Cela fonctionne, mais c’ est nettement plus lent et plus limité en termes de fonctionnalités, une grande partie de l’ information se perdant dans les transcodages successifs…Patience donc.

3. Agents GPTs

Autre nouveauté : les abonnés gratuits vont maintenant pouvoir utiliser les agents GPTs disponibles sur le GPT store, qui est accessible ici. Par contre, seuls les abonnés payants ChatGPT+ pourront créer de nouveaux agents GPTs et les publier sur le GPT store.

Les agents GPTs ne sont rien d’ autre que des versions de ChatGPT spécialisées à travers un prompt système et/ou puisant de l’ information dans des documents accessibles via la Récupération Augmentée de Génération (RAG). Les agents GPTs sont également capables d’ appeler des applications tierces via une interface de programmation.

Par exemple, j’ ai développé un agent GPT qui restructure l’ argumentation d’ un texte selon le Principe Pyramidal de Barbara Minto, un classique de la consultance en gestion. Vous pouvez l’ utiliser ici : Agent GPT Pyramidal.

J’ ai également développé trois agents GPTs à caractère éducatif que je présenterai dans un prochain article qui sera dédié à l’ impact de l’ IA générative dans l’ éducation.

Quoi qu’ il en soit, n’ hésitez pas à parcourir le GPT Store et à expérimenter.

4. Application desktop pour MacOS

Si vous possédez un ordinateur Apple récent (càd avec un processeur Apple M1 ou plus), OpenAI met maintenant à disposition une application qui permet d’ accéder à ChatGPT par une simple combinaison de touches. Une version Windows est en développement et sera disponible avant la fin de l’ année.

Voici une image provenant d’ OpenAI montrant l’ interface utilisateur de l’application :

Figure 4 : Interface utilisateur de l’ application native MacOS

L’ idée est intéressante car c’ est un premier pas vers un ordinateur pilotable par la voix. Avoir une interface conversationnelle immédiatement à disposition pourrait aussi marginaliser les engins de recherche en reléguant ces derniers à l’arrière-plan comme le fait Perplexity, un outil que je vous conseille vivement d’ essayer. Greffez ensuite la future interface vocale de GPT4o et vous avez tous les ingrédients d’ un excellent assistant personnel.

Quelques réflexions

Si le meilleur modèle est disponible pour tous, une grande partie de la valeur ajoutée de l’abonnement payant ChatGPT+ aura disparu. Et comme OpenAI veut certainement éviter une avalanche de résiliations des abonnements payants, je suis convaincu qu’ une autre annonce d’ OpenAI est proche et introduira un nouveau modèle plus puissant à la destination exclusive des abonnés payants. Cela semble logique : GPT-4o devient le nouveau GPT-3.5 « grand public » et le nouveau modèle, qu’il s’appelle GPT-4.5, GPT-5 ou autre chose devient le nouveau modèle « premium »…

OpenAI devra également tenir compte de la nouvelle législation européenne sur l’ IA parce que le modèle GPT4o pourrait potentiellement être utilisé pour la détection des émotions des personnes, une pratique interdite dans les lieux éducatifs et professionnels au termes de l’ European Union Artificial Intelligence Act.

Et pour remercier ceux qui ont lu jusqu’au bout, une petite vidéo à ne pas rater sur le sujet :

Sources et références

Communiqué d’OpenAI présentant GPT-4o : https://openai.com/index/hello-gpt-4o/
Tweet de Nick Dobos sur X : Thoughts on GPT-4o : https://x.com/NickADobos/status/1790152456426738019
Tweet de Simon Willison sur X au sujet de l’interface audio : https://x.com/simonw/status/1790789807783944650
Tweet de Luiza Jarovsky sur les impacts juridiques (EU AI Act) : https://x.com/LuizaJarovsky/status/1790074885437313095

1. ChatGPT-4o disponible pour tout les utilisateurs

2. Multimodalité : audio et images

3. Agents GPTs

4. Application desktop pour MacOS

Quelques réflexions

Sources et références

Articles récents

Commentaires récents

Archives

Catégories