Rendre l' IA accessible à tous

Catégorie : Bon à savoir

Cette catégorie reprend les articles qui expliquant comment utilisr l’IA au quotidien

Détection d’ une première cyberattaque quasi-autonome orchestrée par des outils d’ IA

Un développement majeur vient de se produire sur le plan de la cybersécurité : la première cyberattaque largement automatisée dans laquelle les modèles de langage jouent un rôle d’ orchestrateur de haut niveau a été récemment déjouée par Anthropic.

En effet, Anthropic a détecté à la mi-septembre une activité suspecte liée à l’ utilisation de l’ outil Claude Code, un agent intelligent principalement destiné à la programmation mais dont la grande flexibilité offre des possibilités de détournement…

Ce n’ est pas Anthropic lui-même qui était l’ objet de l’ attaque mais bien une trentaine de firmes technologiques, financières et industrielles occidentales ainsi que des administrations publiques. L’ attaquant a été identifié avec un haut niveau de confiance : il s’ agit d’ un groupe actif dans le cyberespionnage lié au gouvernement chinois.

Jusqu’ ici les utilisations de l’ IA générative dans la cybersécurité relevaient plutôt de la fourniture de conseils interactifs de type « chatbot » ou éventuellement d’ agents qui ont accès à des outils informatiques spécialisés, mais interagissent avec les humains à chaque étape.

Pour la premère fois, l’ IA a mené de son propre chef un large éventail d’activités, depuis l’ analyse de vulnérabilité jusqu’à l’ exfiltration des données recherchées. Les superviseurs humains ne sont intervenus que ponctuellement afin de valider les résultats intermédiaires des opérations, avant de passer à la phase suivante. Anthropic estime que 80 à 90% du travail de cyberattaque a été effectué de manière autonome.

Cela marque le premier cas documenté d’ IA agentique ayant réussi à extraire des données sensibles appartenant à des cibles bien protégées par cyberattaque.

Anthropic a décidé de publier les détails de son enquête afin de sensibiliser le secteur à l’ évolution de la menace. En effet, d’ autres modèles pourraient être exploités de la même manière, et ce d’ autant plus que l’ attaque n’ a pas nécessité de déveoppements complexes : elle s’ est contentés de combiner astucieusement des outils existants. Pas besoin de disposer de moyens énormes pour préparer ce type d’ opération.

1. Comment est-ce possible ?

L’ attaque s’ est appuyée sur plusieurs évolutions récentes des modèles d’ IA qui n’existaient pas ou qui étaient à leurs balbutiements il y a seulement un an :

  • Raisonnement: Le niveau général de capacité des modèles a augmenté au point qu’ ils peuvent suivre des instructions complexes et comprendre le contexte de manière à rendre possibles des tâches sophistiquées. De plus, plusieurs de leurs compétences spécifiques bien développées, en particulier le codage logiciel, se prêtent à une utilisation dans le cadre de cyberattaques.
  • Autonomie: Les modèles peuvent agir en tant qu’ agents, c’est-à-dire qu’ ils peuvent fonctionner en boucle, où ils prennent des mesures autonomes, enchaînent des tâches et prennent des décisions avec une intervention humaine minimale et occasionnelle. Les modèles récents sont capables d’ exécuter un nombre importants de boucles « Planification-Action-Analyse » successives avant de devoir repasser la main à un humain.
  • Outillage: Les modèles ont accès à un large éventail d outils logiciels (souvent via le protocole ouvert *Model Context Protocol*). Ils peuvent désormais effectuer des recherches sur le web, récupérer des données et réaliser de nombreuses autres actions qui étaient auparavant l’ apanage des opérateurs humains. Dans le cas des cyberattaques, ces outils peuvent inclure des craqueurs de mots de passe, des scanners de réseau et d’ autres logiciels liés à la sécurité.

Claude Code est l’ outil parfait pour ce genre d’ opération. Il s’ agit d’ un programme « agent » hautement flexible qui peut faire interagir des modèles de langages jouant différents rôles et aux compétences variées pour atteindre un but spécifié par l’ utilisateur, tout en ayant accès à des outils via le protocole MCP. Les rôles pouvant être définis en langage naturel de manière assez libre, et le potentiel applicatif est extrêmement large.

2. Description du mécanisme

Le mécanisme d’attaque utilisait Claude Code et le protocole MCP (Model Context Protocol) pour se connecter aux outils existants d’ analyse et de découverte du réseau et de tests d’intrusion.

Ce genre d’ attaque requiert une succession d’ opérations bien orchestrées; le travail a donc été divisé en tâches techniques distinctes qui semblaient légitimes prises isolément. Ensemble, elles permettaient de mener à bien des chaînes d’ attaques complètes. Les pirates ont prétendu être une entreprise de cybersécurité utilisant ces outils de piratage à des fins légitimes pour tenter de trouver des vulnérabilités chez leurs clients dans le cadre d’ activités de tests d’intrusion.

Figure 1 : Diagramme architectural de l’ opération (Crédit : Anthropic)

Une fois la brèche établie,Claude Code fonctionnait de manière autonome :

il cartographiait la topologie du réseau, puis analysait son contenu pour découvrir les services internes et rechercher des informations précieuses en identifiant les bases de données de valeur. Il extrayait également les identifiants et établissait un accès permanent, puis analysait les données extraites pour en déterminer la valeur en termes de renseignements et exfiltrait celles jugées les plus précieuses. Tout cela avec une supervision humaine limitée.

La figure 2 décrit le déroulement du scénario offensif qui a été établi, et qui reprend les six phases suivantes :

  • Phase 1 : Initialisation de la campagne et sélection des cibles à attaquer;
  • Phase 2 : Reconnaissance de l’ infrastructure de la cible et de vulnérabilités potentielles;
  • Phase 3 : Découverte active et validation des vulnérabilités;
  • Phase 4 : Identification dans les systèmes et augmentation des privilèges d’ accès;
  • Phase 5 : Collecte et exfiltration des données;
  • Phase 6 : Documentation et clôture.
Figure 2 : Vue des phases du processus d’ attaque (Crédit : Anthropic)

Le détail des opérations exécutées lors de chaque phase se trouve dans le document d’ Anthropic en référence.

3. Implications pour la cybersécurité

L’ attaque a été détectée parce que Claude Code fait appel aux modèles de langage hébergés par Anthropic et le trafic échangé (le prompt et les réponses) est surveillé par des programmes d’ identification de menaces qui visent à détecter des activités non autorisées comme les cyberattaques.

Cette attaque constitue un point d’ inflexion pour la cybersécurité : ce type d’ opération autonome en détournant des outils existants permet à des acteurs malveillants disposant de ressources limitées de lancer des attaques sophistiquées. Ce type de capacité existe probablement dans tous les modèles d’ IA de pointe, y compris certains modèles open-weights pour lequel la surveillance décrite plus haut n’ est pas applicable puisqu’ ils sont exécutables localement.

Il subsiste cependant une limitation à ce type d’ opération : Claude code avait des hallucinations pendant les opérations offensives. Il revendiquait parfois des identifiants qui ne fonctionnaient pas ou identifiait des « découvertes critiques » qui n’étaient que des informations publiques. les hallucinations de l’ IA restent un obstacle aux cyberattaques entièrement autonomes et un humain doit encore assurer périodiquement une supervision de haut niveau pour s’assurer que le processus reste sur la bonne voie.

Il faut aussi garder la tête froide et noter que des mécanismes pratiquement identiques peuvent être utilisés en cyber-défense pour identifier les vulnérabilitiés d’ une firme afin de pouvoir les résoudre avant qu’ un cyber-attaquant ne tente d’ en profiter.

Quoi qu’il en soit, le monde de la cybersécurité va devoir s’ adapter rapidement.

Sources et références

Quelques nouvelles et un point sur les modèles de langage en mai 2025

Et voilà, j’ ai décidé de joindre le geste à la parole dans le cadre de la résilience digitale. J’ ai transféré le nom de domaine et l’ hébergement du blog vers l’ Union Européenne. Le blog se trouve maintenant à l’ adresse https://artificiellementintelligent.eu qui est hébergé par la société française OVH, un des leaders européens dans le domaine et offre des hébergements WordPress compétitifs. L’ancien site reste provisoirement accessible sur https://artificiellementintelligent.wordpress.com.

Ce message est donc le premier que vous recevez depuis la nouvelle mouture du blog, ce qui explique aussi la modification du format des emails de notification car j’ai dû adapter la configuration et les plug-ins de WordPress chemin faisant.

Ces préliminaires étant dits, je vais faire un rapide point sur la situation actuelle des modèles de langage. Les modèles de langage actuels peuvent grosso modo se regrouper en trois grandes catégories :

  1. les modèles généralistes : ces modèles sont focalisés sur la conversation et le dialogue. Ils puisent dans leurs vastes connaissances, recherchent des informations et répondent de manière interactive aux questions variées de l’ utilisateur. Souvent multimodaux, ils peuvent aussi interpréter des images, de l’ audio voire de la vidéo et sont parfois capables de générer nativement des images. Ils sont habituellement accessibles via des interfaces web ou des applications mobiles conversationnelles;
  2. les modèles de codage : ces modèles excellent dans l’ analyse et la génération de programmes informatiques. Ils sont typiquement exploités via des environnements de développement comme VSCode qui utilisent l’ interface de programmation pour accéder au modèle. Ces modèles sont en général capables d’ interpréter les images (diagrammes, interface utilisateur…) et se caractérisent par des fenêtres de contexte de grande taille, vu la taille souvent importante des codes source;
  3. les modèles raisonneurs : ces modèles sont entraînés à construire des chaînes de raisonnement logiques. Ils sont à la base des applications comme « Deep Research » qui permettent d’ analyser un sujet de manière approfondie et de rédiger un rapport détaillé. La tendance actuelle est de leur adjoindre différents outils accessibles en cours de raisonnement afin qu’ ils puissent tester leurs hypothèses et continuer à raisonner sur les résultats intermédiaires obtenus. C’ est la voie vers les fameux « agents » dont on entend beaucoup parler et qui devraient enregistrer des progrès importants cette année.

Sur base de cette classification simple, voici les modèles « phare » actuellement mis à disposition par les principaux acteurs :

Modèle généraliste multimodalModèle de codageModèle raisonneur
OpenAIChatGPT-4oGPT-4.1o3
GoogleGemini 2.5 ProGemini 2.5 ProGemini 2.5 Pro Deep Think
AnthropicClaude 3.7 SonnetClaude 3.7 SonnetClaude 3.7 Sonnet Extended Thinking mode
MetaLlama 4 MaverickCode Llama 4 (pas encore disponible)Llama 4 Behemoth
(pas encore disponible)
MistralPixtral LargeCodestralMistral Large
Figure 1 : Modèles « Haut de gamme » des principaux acteurs, par type d’ utilisation

Il est aussi intéressant de connaître les modalités supportées par les modèles généralistes :

Modalités d’ entréeModalités de sortie
ChatGPT-4otexte, audio, images, vidéotexte, audio, images
Gemini 2.5 Protexte, audio, images, vidéotexte
Claude 3.7 Sonnettexte, imagestexte
Llama 4 Mavericktexte, images, vidéo(?)texte
Pixtral Largetexte, imagestexte
Figure 2 : Modalités natives des modèles généralistes

OpenAI offre une palette différenciée de modèles; l’ objectif est de combiner l’ ensemble des capacités en un modèle unique à l’ architecture entièrement nouvelle (le fameux GPT-5), probablement vers la fin de l’ année 2025. Le modèle ChatGPT-4o présente la plus modalité la plus riche de tous les modèles du marché : il est capable d’ analyser, texte, image, audio et même vidéo et de générer nativement du texte et des images !

Notons qu’ OpenAI a décidé de retirer son modèle ChatGPT-4.5, trop coûteux à l’ exploitation pour se focaliser sur ChatGPT-4o pour les interactions conversationnelles et GPT-4.1 pour le codage.

Google est très bien placé avec Gemini 2.5 Pro qui intègre l’ ensemble des capacités dans un seul modèle : conversation, multimodalité (certes moins complète que ChatGPT-4o), génération et exécution de code et raisonnement. Il me semble que Google, qui a longtemps joué en seconde voire en troisième position, semble bien positionné pour reprendre la tête du peloton.

Les modèles d’ Anthropic sont très réputés pour leurs excellentes performances en codage. Anthropic cherche maintenant à renforcer sa position sur ce créneau en se concentrant sur les chaînes de raisonnement complexes avec appel d’ outils intégrés, y compris les environnements d’ exécution de programmes. Leur protocole standardisé MCP (Model Context Protocol), qui permet à un modèle de langage d’accéder à différents outils, s’ inscrit dans cette optique. Par contre, Anthropic accorde moins d’ importance à la multimodalité -moins utile pour la programmation- et leurs modèles ne peuvent générer que du texte et du code.

Enfin, Meta se caractérise par la disponibilité de leurs modèles en format open-weights, ce qui veut dire qu’ils sont utilisables localement. Ceci offre de grands avantages en termes de sécurité et de confidentialité à condition de disposer de machines suffisamment puissantes pour exécuter les modèles. Meta n’ offre pas encore de modèle raisonneur, ce dernier (appelé Behemoth) devrait cependant bientôt être annoncé.

Tous les modèles mentionnés sont de très bon niveau. Pour le travailleur intellectuel « col blanc » typique, la meilleure chose à faire est d’ essayer rapidement les différents modèles pour choisir celui qui vous convient le mieux, et ensuite de vous y tenir et de l’ utiliser chaque fois que vous vous posez une question ou recherchez des informations. C’ est comme cela que vous comprendrez progressivement comment intégrer ces modèles dans votre vie quotidienne et en tirer le meilleur parti.

OpenRouter, le point d’ entrée vers les modèles de langage

Cela fait quelque temps que j’ ai découvert le site OpenRouter que je trouve extrêmement utile : il permet d’ accéder à la quasi-totalité des modèles de langage accessibles sur le marché de manière simple et conviviale.

Le site offre une interface d’ accès unifiée vers plus de 300 modèles de langage. Les modèles « dernier cri » des principaux fournisseurs sont disponibles, comme Mistral 2 Large, GPT-4.1, Claude 3.7 Sonnet, Meta Llama 4 etc…

Vous ne devrez donc plus souscrire à des abonnements séparés pour chaque fournisseur, ni pour l’ accès web ni pour l’ accès par interface de programmation (API). Autre avantage, le coût d’ utilisation est calculé par token ce qui est en général beaucoup plus intéressant que l’ approche forfaitaire des abonnements type ChatGPT+ ou Google One AI Premium.

C’ est parti pour un tour d’ horizon d’ OpenRouter.

1. Prise en main et interface conversationnelle

L’ écran d’ accueil d’ OpenRouter présente les étapes à suivre pour commencer à utiliser la plateforme : il est d’abord nécessaire de s’ inscrire et d’ acheter des crédits. Vous avez également la possibilité de générer une clé d’ accès API si vous souhaitez interagir avec les modèles via des programmes, mais cette étape est facultative.

Figure 1 : Écran d’ accueil d’ OpenRouter

Les modèles sont accessibles de deux manières : via une interface web conversationnelle, similaire à celle de ChatGPT, et via une interface de programmation (API). Cette API est unifiée pour tous les modèles, ce qui simplifie grandement le travail des développeurs.

L’ interface conversationnelle est classique et permet de sélectionner le modèle à utiliser en haut de l’ écran. Chaque nouveau dialogue est considéré comme une room (salle) associée à un ou plusieurs modèles de langage.

Si plusieurs modèles de langage sont sélectionnés, l’ interface soumettra la même question à tous les modèles activés simultanément. Cela permet de comparer les réponses des différents modèles, mais augmente également le coût.

Il est également possible de désactiver certains modèles sélectionnés. Par exemple, dans l’ image ci-dessous, trois modèles sont sélectionnés, mais Claude 3.7 Sonnet est désactivé. L’ interface répond donc simultanément à mon prompt avec OpenAI ChatGPT 4.1 et Google Gemini 2.5 Pro Preview.

Figure 2 : Interface conversationnelle OpenRouter

L’ interface conversationnelle permet de joindre des résultats de recherche web (Web Search) et des fichiers, y compris des images à analyser. Par contre il n’ est actuellement pas possible de générer des images avec les modèles disponibles sur OpenRouter. Le site se concentre sur les interactions textuelles.

2. Choix des modèles et fournisseurs d’ infrastructure

OpenRouter permet de choisir non seulement les modèles, mais aussi les fournisseurs d’ infrastructure chez lesquels les modèles sont exécutés. La transparence sur les fournisseurs d’ infrastructure est très importante car ceux-ci ont des politiques de modération et de réutilisation des données, des performances techniques et des prix différents.

La figure 3 montre la liste des fournisseurs d’ infrastructure pour le modèle Meta Llama 4 Maverick. On peut voir que le modèle est disponible chez plusieurs fournisseurs :

Figure 3 : Liste des fournisseurs pour Meta Llama 4 Maverick

Passons rapidement en revnue les différentes informations listées pour chaque fournisseur. Les icônes sur la gauche indiquent :

  • l’ identification du modèle auprès du fournisseur;
  • le pays dans lequel se situe le fourniseseur ;
  • la précision des paramètres du modèle. Certains fournisseurs choisissent en effet de recourir à des versions comprimées des modèles pour réduire les coûts de calcul, au prix de résultats moins précis ;
  • la politique de réutilisation ou non de vos dialogues pour améliorer le modèle. De nombreux fournisseurs choisissent de ne pas réutiliser les données pour des raisons de confidentialité ;
  • la politique de modération des dialogues par fournisseur. Certains fournisseurs choisissent de ne pas modérer les dialogues pour des raisons de liberté d’ expression ;
  • si le fournisseur permet l’ interruption d’ un dialogue en cours de génération, ce qui peut permettre de limiter le coût de calcul en cas de dialogue trop long ou partant dans une mauvaise direction ;
  • si OpenRouter vous permet d’ enregistrer vos clés API obtenues auprès du fournisseur, auquel cas vous payez directement le fournisseur et OpenRouter ne vous facture rien.

Ensuite, les colonnes de chiffres sur la droite fournissent les informations suivantes :

  1. la longueur maximale de la fenêtre de contexte, en tokens. Celle-ci comprend à la fois la question et la réponse. La taille de la fenêtre de contexte dépendant du modèle, elle sera en principe la même pour tous les fournisseurs d’ infrastructure;
  2. le nombre maximum de tokens générés par le modèle lors d’ une réponse;
  3. le coût par million de tokens en entrée (dans votre question);
  4. le coût par million de tokens générés en réponse par le modèle;
  5. la latence, soit le délai moyen d’ attente en secondes entre l’ envoi de la question et la réception du premier token de la réponse;
  6. le débit, soit le nombre moyen de tokens reçus en réponse par seconde;
  7. le taux de disponibilité, soit le pourcentage de temps où le modèle est disponible selon les mesures d’ OpenRouter.

L’ algorithme utilisé par OpenRouter pour déterminer le fournisseur pour un modèle donné est de prioritiser le fournisseur le moins cher parmi ceux offrant la meilleure disponibilité. Si un fournisseur est indisponible, OpenRouter choisira le fournisseur suivant dans l’ ordre déterminé par l’ algorithme.

A noter qu’il est possible de modifier cet ordre en choisissant d’ autres critères de prioritisation, comme la latence ou le débit. Remarque importante, il est également possible d’ exclure de la liste les fournisseurs qui réutilisent vos données à des fins d’ entraînement.

Si la notion de token n’est pas claire pour vous, vous pouvez consulter mon article sur le sujet.

3. Modalités de paiement

OpenRouter est un intermédiaire entre vous et les fournisseurs de modèles et il est donc normal qu’ il soit rémunéré via un système de commission. Celle-ci est prélevée à chaque fois que vous ajoutez des crédits à votre compte. Par contre il n’ y a pas de commission prélevée sur chaque token que vous consommez : OpenRouter applique de manière transparente le prix chargé par le fournisseur d’ infrastructure.

Il est possible de voir sa consommation de tokens et de crédits de manière assez facile sur le site d’ OpenRouter :

Figure 4 : Aperçu de l’ activité et des frais occasionnés par l’ utilisateur

Pour être complet, certains modèles sont offerts gratuitement par OpenRouter : il s’agit des modèles « open-weights » comme Mistral Small 3.1 24B ou DeepSeek R1 Zero. Afin d’ éviter les abus, ces modèles sont limités en nombre de requêtes par jour.

4. Accès API pour les programmeurs

Je clôture par un dernier mot à l’ intention des programmeurs pour lesquels OpenRouter offre trois avantages :

Tout d’ abord, une interface API unifiée qui permet d’ accéder à l’ ensemble des 300 modèles disponibles sur la plateforme. Cela permet de simplifier le développement d’ applications qui utilisent des modèles de langage. L’ API est compatible avec l’ API d’ OpenAI.

Ensuite, OpenRouter propose un système de redondance qui permet de gérer l’ indisponibilité d’ un fournisseur de manière transparente. Si une requête échoue, OpenRouter peut automatiquement essayer une autre requête avec un autre modèle ou un autre fournisseur. Ceci est très pratique pour les applications qui demandent une haute disponibilité : si un modèle ou un fournisseur est indisponible, l’ application peut continuer à fonctionner sans interruption (pour autant qu’ OpenRouter ne soit pas lui-même en panne). Le prix à payer pour cette redondance est une légère augmentation du coût et du délai puisque la requête doit d’ abord être envoyée à OpenRouter ce qui ajoute environ 30ms de temps de réponse.

Enfin, l’ ensemble des frais est centralisé auprès d’ un seul fournisseur quels que soient les modèles utilisés, ce qui permet de simplifier la gestion des coûts.

Voilà, je pense avoir expliqué les grandes lignes de OpenRouter. Bonnes conversations !

La résilience numérique (suite) : tour d’ horizon des applications en ligne européennes

Avec le lancement de la guerre commerciale tous azimuths par les Etats-Unis le mercredi 2 avril, je me suis dit qu’ il est plus que jamais opportun et urgent de se renseigner sur les alternatives digitales européennes disponibles. Cet article fait donc suite à mon billet précédent et va plus loin dans le détails de l’ offre européenne pour les applications numériques de la vie quotidienne.

Voyons donc quelles sont les possibilités européennes en termes de

  • suites bureautiques intégrées;
  • applications de prise de notes;
  • applications de visioconférence et de messagerie instantanée;
  • applications de navigation et de cartographie;
  • applications de streaming auido et vidéo;
  • engins de recherche et navigateurs .

1. Suites bureautiques intégrées et partage de documents

Commençons par les alternatives européennes aux suites applicatives intégrées comme Google Workspace et Microsoft365.

Nextcloud est une plateforme de collaboration open-source assez complète qui permet aux utilisateurs de stocker, partager et synchroniser des fichiers. Nextcloud comprend également des applications de chat et de vidéoconférence ainsi qu’ une suite bureautique appelée Nextcloud Office qui permet de créer et d’ éditer des documents, feuilles de calcul et présentations. Son module Nextcloud Groupware offre également des fonctionnalités d’ email, de calendrier, de contacts et de gestion de tâches.

Proton Suite est une collection d’outils développés Proton Technologies, une entreprise suisse. Elle comprend principalement :

  • ProtonMail, un service de messagerie sécurisé;
  • ProtonVPN, un réseau privé virtuel;
  • Proton Calendar, un service de calendrier;
  • Proton Drive, un espace de stockage virtuel pouvant être synchronisé à vos données locales;
  • Proton Docs, un éditeur de documents comparable à Google docs;
  • Proton Pass, un gestionnaire de mots de passe.

Proton Suite se distingue par son engagement envers la confidentialité et la sécurité des données, ce qui en fait une alternative attrayante pour ceux qui recherchent des solutions respectueuses de la vie privée.

Illustration 1 : Capture d’ écran de Proton docs

Cryptpad est une suite en ligne développée par la société française XWiki. Elle permet le partage de fichiers et propose une suite d’ outils bureautiques assez complète comprenant le traitement de texte, les feuilles de calcul, les présentations et les kanbans, tous chiffrés de bout en bout.

Parmi les alternatives mentionnées, Nextcloud est la solution la plus complète et la plus largement adoptée dans l’ UE, en particulier par les secteurs de l’ éducation, des soins de santé et les pouvoirs publics.

Par contre Nextcloud me semble fort complexe pour une installation dans un cadre privé.

Proton Suite me semble plus adaptée à une utilisation privée. Elle pourra être complétée par des applications open-source comme LibreOffice pour les traitements de texte, feuilles de calcul et présentations, ou d’ autres applications reprises ci-dessous pour la vidéoconférence ou les messageries instantanées.

2. Applications de prise de notes et services de traduction

J’ utilise beaucoup Notion pour prendre des notes tandis que d’ autres ne jurent que par Evernotes ou Microsoft OneNote . Mais toutes ces applications sont américaines. StandardNotes est une alternative suisse, au design minimaliste et encryptée de bout en bout. Standardnotes est accessible ici.

Pour les traductions, Deepl est un service de traduction automatique développé par une entreprise allemande. Il est disponible en version gratuite et payante. Il est très performant et je l’ utilise régulièrement. Il remplacera avantageusement Google Translate.

3. Services de visioconférence et messageries instantanées

Jitsi est une collection d’applications open-source multiplateformes pour la voix (VoIP), la visioconférence et la messagerie instantanée. Plus spécifiquement, Jitsi propose Jitsi Meet, une application complète de visioconférence. Jitsi est soutenu par diverses institutions, dont l’ Université de Strasbourg, et la Commission européenne.

Whereby est une plateforme de visioconférence sur le web qui se distingue par sa simplicité d’ utilisation, ne nécessitant aucun téléchargement ni inscription pour les invités. La plateforme offre des fonctionnalités telles que le chat intégré, le mode audio uniquement, et des conversations sécurisées sans stockage ni analyse des données audio et vidéo.

En ce qui concerne les messageries instantanées européennes, j’ avais déjà cité Threema et Element dans mon précédent article.

J’ en profite pour compléter le tableau avec l’ application française Olvid, qui est une messagerie instantanée chiffrée et sécurisée. Elle est considérée par l’ Agence Nationale de la Sécurité des Systèmes d’ Information (ANSSI) comme techniquement supérieure à Whatsapp, Signal et Telegram. Olvid ne demande aucune information personnelle comme numéro de téléphone ou adresse mail pour fonctionner. Elle est notamment utilisée par le gouvernement français.

Illustration 2 : Interface utilisateur Olvid

Une autre possibilité est l’ application Wire qui est une messagerie instantanée, chiffrée et sécurisée. Wire est développée par l’ entreprise suisse Wire Swiss GmbH qui compte dans son personnel de nombreux anciens employés de Skype. Elle est disponible gratuitement pour les utilisateurs privés.

4. Applications de navigation et de cartographie

L’ application web allemande HereWeGo offre des services comparables à Google Maps.

Illustration 3 : Recherche d’ itinéraires avec HereWeGo

Pour la navigation embarquée type Waze, vous pouvez vous tourner vers les apps Osmand, MagicEarth et OrganicMaps. Osmand possède aussi une interface Web similaire à Google Maps accessible ici. Osmand est estonien et MagicEarth est néerlandais.

5. Applications de streaming audio et vidéo

Le streaming audio est un domaine dans lequel la plupart des leaders du marché sont européens : Spotify est suédois, Deezer est français et SoundCloud, une plateforme s’ adressant aux artistes indépendants est allemande.

C’est le tout le contraire dans le domaine du streaming vidéo : Netflix, Amazon Prime Video et Disney+ sont tous américains. Ces géants n’ ont pas à ma connaissance d’ équivalent européen à ce jour. Une solution est de se retourner vers des acteurs traditionnels de la télévision payante comme Canal+ qui offre un service de streaming appelé myCANAL. Cependant ce type d’ offre reste plus axé sur le marché francophone et européen, avec un accent sur le contenu local et les partenariats avec les studios de cinéma.

Youtube est bien entendu américain, mais il existe une alternative française : Dailymotion, actuellement détenue par le groupe Canal+. Deuxième plus grande plateforme de partage de vidéos après YouTube avec environ 112 millions de visiteurs mensuels, Dailymotion permet aux utilisateurs de télécharger et de regarder des vidéos, avec une limite de 60 minutes par vidéo. Dailymotion est gratuit et se finance par la publicité, comme YouTube.

Illustration 4 : Interface utilisateur Dailymotion

6. Engins de recherche et navigateurs web

Plusieurs engins de recherche européens sont accessibles comme Mojeek, Qwant, Metacrawler et Ecosia.

Ecosia est un moteur de recherche qui plante des arbres avec les profits générés par ses activités.

Qwant et Mojeek sont des moteurs de recherche qui ne tracent pas les utilisateurs. En d’ autres terme, la même recherche donnera les mêmes résultats pour tous les utilisateurs ayant les mêmes paramètres de recherche (notamment le pays d’ origine et la langue).

Enfin, Metacrawler est un moteur de recherche qui utilise plusieurs moteurs de recherche pour donner les résultats.

Concernant les navigateurs web, Vivaldi est développé par la société Vivaldi Technologies, basée en Norvège. Il est connu pour ses nombreuses fonctionnalités intégrées, telles que les onglets empilés, les notes et les captures d’écran. Vivaldi met l’accent sur la confidentialité et le contrôle utilisateur, offrant une alternative aux navigateurs plus traditionnels.

LibreWolf est un navigateur web développé par une communauté internationale mais principalement soutenue par des contributeurs européens. Il est basé sur Mozilla Firefox mais supprime tous les éléments de télémesure et de suivi, offrant ainsi une expérience de navigation plus sécurisée et respectueuse de la vie privée.

Waterfox est un navigateur développé par System1, une société basée au Royaume-Uni. Il est également dérivé de Mozilla Firefox et conçu pour être rapide et respectueux de la vie privée, avec un accent sur la compatibilité des extensions et la performance. Waterfox est une alternative intéressante pour les utilisateurs qui recherchent un navigateur performant sans compromettre leur confidentialité.

La résilience numérique : comment s’ affranchir de notre dépendance digitale

Cela fait quelque temps que je n’ai pas écrit de billet. Le flux incessant d’ informations inquiétantes en provenance de l’ autre côté de l’ Atlantique m’ a un peu déboussolé. Je me suis donc dit que j’ allais essayer de me ressaisir en écrivant un article sur un sujet de circonstance : la résilience numérique.

Il semble que nous nous acheminons vers une guerre commerciale entre les Etats-Unis et l’ Union Européenne. Or, les flux de services digitaux entre les USA et l’ Europe représentant une part importante de ces volumes d’ échange, on ne peut exclure que ces derniers se retrouvent pris en otage si la guerre commerciale entre les deux blocs venait à dégénérer. Notre dépendance aux infrastructures digitales et aux services en ligne américains est indéniable: la majorité des infrastructures digitales et des services en ligne utilisés en Europe sont hébergés aux États-Unis. Cela inclut les services de messagerie, les réseaux sociaux, le cloud computing, les paiements en ligne, etc…

Le scénario du pire serait une interruption du trafic digital transatlantique et/ou une suspension des services pour les clients européens, décidée par les autorités américaines et imposée à leurs entreprises privées. L’ interruption de la fourniture d’images satellites par la société américaine MAXAR à l’ Ukraine, sur décision de l’ administration américaine, préfigure ce qui pourrait se produire à plus grande échelle à l’ avenir.

Face à ces risques, la résilience numérique désigne notre capacité à continuer à fonctionner et vivre dans le monde digital malgré des perturbations des infrastructures qui sous-tendent ces services.

A quels risques sommes-nous exposés ?

Ils sont principalement de deux types.

Premièrement, une interruption des flux de données entre Europe et USA signifierait l’ inaccessibilité des données dans les datacenters américains ainsi que des services en ligne directement fournis par ces derniers. Sites web, réseaux sociaux et applications de type Software-as-a-Service seraient alors directement impactés.

Deuxième risque, une interruption de type contractuel : suspension des contrats de maintenance et de mise à jour des logiciels made in USA voire interruption des licenses. Dans ce cas ce sont les logiciels installés localement qui risquent d’être impactés , soit totalement (interruption ou non-renouvellement de licenses), soit par une lente dégradation de leurs fonctionnalités et de leur sécurité (suspension des maintenances et mises à jour).

Le matériel physique est le moins impacté : une fois que vous le possédez il sera difficile de l’ empêcher de continuer à fonctionner, mais la dépendance au matériel se fait indirectement via le système d’ exploitation et les systèmes de sauvegarde dans le cloud.

Voyons donc comment améliorer notre résilience numérique face à ces risques.

Que pouvons-vous faire ?

La réponse est simple en théorie : migrer autant que possible vers des services offerts par des entreprises européennes et hébergés dans l’ Union Européenne. En pratique, c’est nettement plus compliqué. Il faut distinguer ce qui est nécessaire de ce qui n’ est que confort et fixer ses priorités. L’ indisponibilité d’ un réseau social n’ est souvent qu’ un désagrément là où l’ interruption des services de messagerie ou de paiement en ligne posera un problème majeur.

Commençons par l’ hébergement de domaines et de sites si vous en possédez : nom de domaine, serveur DNS, hébergement des pages web et d’ adresses mail devraient être migrés vers des fournisseurs de service cloud européens comme Combell et Easyhost en Belgique, OVHcloud en France ou encore Hetzner en Allemagne.

Une difficulté particulière se pose avec les adresses mail de type hotmail ou gmail qui ne peuvent être transférées telles quelles. Il faut alors créer de nouvelles adresses mail et les utiliser pour les échanges, ce qui demande de prévenir les contacts et de les informer de la nouvelle adresse. De plus, les comptes gmail sont aussi souvent utilisés pour l’ authentification sur d’ autres sites, il faudra donc s’ assurer que vous possédez des systèmes d’ authentification alternatifs pour ces sites.

Passons à un sujet qui me tient à coeur : l’ accès aux modèles de langage comme ChatGPT ou Claude. Ceci est facile à transférer, car une alternative française de qualité existe : Mistral. J’ ai résilié mon abonnement à ChatGPT Plus pour en prendre un abonnement Mistral Pro pour un prix d’ ailleurs un peu inférieur (15 euros au lieu de 20 USD). Pour ceux qui utilisent les interfaces de programmation (API), le basculement est lui aussi assez simple.

Autre point à prendre en considération pour la résilience : les applications en ligne accessible via le Web. Difficile de toutes les citer tant elles sont nombreuses mais je vous conseille de réfléchir à celles dont la perte aurait des conséquences significatives pour vous. Je pense notamment aux applications de paiement en ligne comme Paypal, de stockage de documents comme Google Drive ou Dropbox, logistiques comme Amazon ou de transport comme Uber. Il est probablement excessif de les remplacer d’ emblée mais identifer à l’ avance des alternatives européennes -quand elles existent- n’ est pas une mauvaise idée.

Les services de messagerie instantanée sont un autre point d’ intérêt. WhatsApp, Snapchat et Facebook Messenger sont américains, Telegram est russe, Signal est américain mais hébergé en Suisse. Viber est israélien et WeChat chinois. En fin de compte, il ne reste qu’ Element et Threema qui sont européens mais pas encore très utilisés… Element est un service de messagerie instantanée basé sur le protocole Matrix qui est un standard ouvert. Threema est un service de messagerie instantanée qui est basé sur le protocole Signal mais qui est européen. Je me suis inscrit sur Element et j’ ai commencé à l’ utiliser, tout en continuant à utiliser principaleent Whatsapp. Mais je puis basculer rapidement si nécessaire.

Passons au plat de résistance : les sytèmes d’ exploitation des ordinateurs et les sauvegardes de données dans le cloud. Microsoft et Apple étant américains, non seulement il existe un risque d’ interruption des licenses mais les sauvegardes de données dans le cloud (iCloud pour Apple et OneDrive pour Microsoft) sont hébergées aux États-Unis et donc à risque elles aussi. La seule alternative réaliste est d’ utiliser Linux mais ce dernier s’ adresse plutôt aux utilisateurs expérimentés et il faudra le coupler à un service de sauvegarde de fichiers dans le cloud comme pCloud (Suisse) ou faire des copies de sauvegarde locales.

La situation pour les solutions de bureautique est plus facile. LibreOffice qui est open-source offre une alternative résiliente à Google Cloud et Microsoft Office 365. LibreOffice offre aujourd’ hui une assez bonne compatibilité des formats de fichiers malgré une interface qui reste un peu plus rustique que celle de Microsoft Office.

Terminons par les smartphones où l’ européanisation relève encore de la gageure. La seule possibilité est de choisir un système d’ exploitation open-source comme LineageOS ou GrapheneOS, tous deux dérivés d’ Android, ou Ubuntu Touch, dérivé de Linux. Mais la compatibilité avec les applications Android restera limitée. Il faudra ensuite trouver un fabricant proposant un smartphone supportant ces systèmes d’exploitation, comme OnePlus, PinePhone ou un Pixel de Google.

Plus généralement, le site goeuropean.org permet de lister des alternatives européennes pour une large gamme de produits et services. La figure ci-dessous montre une liste de fournisseurs européens pour les principaux services digitaux :

Figure 1 : Liste des principales alternatives digitales européennes (source : buy-european-made.org)

Autres élements à prendre en compte

Ces mesures de résilience digitale complètent les recommandations générales des pouvoirs publics en matière de résilience pour les autres besoins de base tels que la nourriture, l’eau potable, l’argent liquide… L’objectif est d’atteindre une autonomie suffisante, permettant aux citoyens de subsister en cas d’interruption temporaire des services essentiels, par exemple lors d’une cyberattaque grave. Voous trouverez ici un article présentant la situation actuelle du plan de résilience pour la population belge.

Un autre élément à prendre en compte est l’ alimentation électrique. En effet, la résilience digitale implique aussi que vous disposiez d’ une alimentation électrique pour faire fonctionner votre matériel informatique et recharger vos smartphones.

Pour cela, vous pouvez envisager une solution de stockage d’ énergie dans une batterie qui peut être alimentée par différentes sources comme des panneaux solaires déployables en cas de besoin (sur votre terrasse ou dans votre jardin par exemple). Je vous conseille par exemple de jeter un oeil sur les produits de la société Bluetti ici.

Conclusions

Si ce qui précède peut sembler excessivement pessimiste, je pense néanmoins que chaque entreprise et chaque individu devrait se poser la question de sa propre résilience numérique et de la manière dont il peut la renforcer.

Pour les entreprises, il est temps d’ inclure ce type de scénario dans les exercices de gestion des risques.

Troublé par les derniers événements, j’ ai commencé à mettre en place mon propre plan de résilience numérique et je me suis rendu compte de la complexité de l’ exercice. C’est pourquoi j’ ai tenu à rédiger cet article à des fins de sensibilisation.

Je vous encourage à y réfléchir. Un homme averti en vaut deux.

Perplexity, le moteur de recherche IA de nouvelle génération

Je voudrais vous parler aujourd’ hui d’ une application très utile des modèles de langage: Perplexity qui est un engin de recherche conversationnel accessible ici.

Les engins de recherche conversationnels sont basés sur un modèle de langage qui exploite un moteur de recherche internet comme source d’ informations. Le modèle de langage pilote la recherche : il définit les mots-clés, et exploite ensuite le résultat de la recherche pour construire sa propre réponse envers l’ utilisateur.

Ceci permet de combiner les avantages des modèles de langage (capacité de fournir une réponse articulée et cohérente) avec ceux des moteurs de recherche (accès direct et à jour de l’ ensemble des données publiquemeent disponibles sur internet).

Perplexity est un outil extrêmement convivial et efficace à utiliser.

J’ ai remplacé Google Search par Perplexity pour les recherches standard effectuées par mon navigateur. Cela demande un peu d’ adaptation vu nos habitudes bien ancrées, mais je ne regrette pas l’ effort…

1. Demandes navigationnelles et informationnelles

Démarrons par une observation importante : nous avons recours à des moteurs de recherche pour deux types de demandes bien distinctes : les demandes navigationnelles et les demandes informationnelles.

Les demandes navigationnelles correspondent à la recherche d’ un site. Vous ne tapez pas l’ URL en entier mais seulement un partie de celui-ci et éventuellement quelques mots-clés pour arriver sur le site désiré. Pour ce type de recherche, Perplexity fonctionne mais n’ apporte pas réellement de valeur ajoutée par rapport à un moteur de recherche classique, à part éventuellement une présentation plus dépouillée et moins chargée en publicités.

Les demandes informationnelles sont celles où vous recherchez une information ou une explication, à résoudre un problème ou comprendre un concept. Vous ne savez pas exactement où chercher mais vous avez une question. C’ est dans ce type de recherches que Perplexity brille par son efficacité, bien supérieure aux engins traditionnels qui vont vous envoyer vers différentes pages dans lesquelles vous devrez chercher vous-même l’ information. Perplexity va automatiser cette étape et directement fournir une réponse qui tente de répondre à votre besoin. Qui plus est, vous pouvez ensuite engager un dialogue avec Perplexity et demander des éclaircissements supplémentaires.

Il y a lieu de bien distinguer les deux types de recherche. Il m’ arrive encore de recourir à Google Search pour des demandes navigationnelles mais Perplexity est indiscutablement très supérieur pour les recherches informationnelles (et ce sont les plus intéressantes).

2. Interfaces de base et options de recherche

Voyons maintenant comment fonctionne Perplexity. L’ interface offre assez bien de possibilités intéressantes que nous allons passer en revue.

Figure 1 : Interface utilisateur de Perplexity

Outre l’ invite traditionnelle (Ask Anything), le champ Focus permet de préciser le type de recherche; les options possibles sont :

  • Web : le choix par défaut, la réponse est enrichie par les recherches du modèle sur Internet comme décrit plus haut;
  • Academic : le modèle concentrera ses recherches sur des documents académiques publiés;
  • Math : le modèle essaiera de trouver une réponse mathématique et/ou numérique;
  • Writing : plus proche de chatGPT, ce choix n’effectue pas de recherches internet mais se concentre sur la qualité de rédaction;
  • Video : oriente la recherche vers des vidéos répondant à la recherche;
  • Social : oriente la recherche vers les réseaux sociaux, vers des discussions et des opinions liées au sujet.
Figure 2 : Types de recherches possibles

Indépendamment du choix précédent, le bouton Attach permet d’ ajouter des fichiers que vous possédez et qui pourront supporter Perplexity dans sa recherche.

3. Recherches rapides et recherches pro

Il est également possible de choisir entre une recherche « Rapide » et une recherche « Pro » au moyen du commutateur se trouvant à droite de l’ invite.

La différence principale est que la recherche « Pro » ajoute une phase de raisonnement structurées par le modèle; les étapes intermédiaires du raisonnement dont présentées à l’ utilisateur ainsi que les recherches correspondant à chaque étape. Enfin, la dernière étape consiste en une synthèse des informations collectées.

Figure 3 : Bandeau de raisonnement structuré d’ une recherche « Pro »

Les recherches « Pro » sont limitées à un petit nombre par jour (actuellement 3) pour les utilisateurs gratuits de Perplexity ; elles sont pratiquement illimitées pour les utilisateurs payants.

En pratique je trouve les recherches « rapides » satisfaisantes la grande majorité du temps. De plus il vous est toujours possible de poser à nouveau la question en mode « pro » si la réponse rapide ne vous satisfait pas, comme nous allons le voir.

4. Exploitation des résultats

La présentation des résultats d’ une recherche est elle aussi intéressante. Je la trouve d’ une grande sobriété comparé par exemple à une recherche Google.

Voici la structure typique d’ une réponse donnée par Perplexity :

Figure 4 : Structure d’ une réponse typique

Le texte de la réponse se trouve en-dessous des sources et reprend des références numérotées aux différentes sources à différents endroits de la réponse. Vous pouvez voir l’ ensemble des sources en cliquant sur le bloc à droite des sources intitulé Show All.

Figure 5 : Liste des sources

Outre la lecture de la réponse, il est possible d’ entreprendre des actions supplémentaires. Tout d’ abord, les boutons dans la partie droite de l’ écran permettent de rechercher des images (Search Images ) ou des vidéos (Search Videos) en rapport avec la discussion. Les utilisateurs de l’ abonnement payant pourront aussi demander la génération d’ une image (Generate Image).

La partie inférieure de l’ écran permet de continuer le dialogue, par exemple en posant une nouvelle question ou en demandant un éclaircissement. La partie Related propose un série de questions complémentaires ayant trait au sujet, vous pouvez en choisir une ou rédiger une question à la main.

Figure 6 : Actions supplémentaires

Rewrite permet de demander au modèle une réécriture de la réponse, par exemple en passant d’une recherche rapide à une recherche « pro »; Share permet ensuite de partager un lien vers la recherche complète.

C’ est d’ ailleurs un autre avantage majeur de Perplexity : tous les dialogues de recherche précédents sont stockés dans la Library et vous pouvez à tout moment les relire voire continuer le dialogue. Ces dialogues peuvent également être partagés avec d’ autres utilisateurs en leur envoyant le lien correspondant, mais ces derniers ne peuvent pas les modifier: il s’ agit d’ un accès en lecture seule.

5. Autres fonctionnalités : Discover & Spaces

Pour terminer ce tour d’ horizon de Perplexity en étant complet, il faut encore citer les fonctionnalité Discover et Spaces.

Spaces permet de créer un espace partagé de collaboration dans lequel un ou plusieurs utilisateurs que vous invitez pourront dialoguer avec le modèle sur un sujet donné. Chaque dialogue entre un utilisateur et le modèle donnera lieu à un thread spécifique mais ces derniers seront accessibles en lecture par les autres utilisateurs. En fin de compte c’ est assez proche de la fonction de recherche sauf que vous pouvez regrouper plusieurs dialogues de plusieurs utilisateurs au sein d’ un même espace collaboratif.

Les Spaces que vous créez sont configurables en chargeant un ou plusieurs fichiers de référence et en introduisant une instruction qui va décrire le rôle de l’ espace et sa finalité.

Figure 7 : Les espaces collaboratifs de Perplexity

Il n’y a pas grand’ chose à dire sur Discover si ce n’est que ce sont des recherches conversationnelles publiques que Perplexity estime susceptibles de vous intéresser.

6. Pour conclure

Après quelques semaines d’ utilisation intensive de Perplexity, je suis un utilisateur convaincu; c’ est ce qui m’ a poussé à écrire cet article.

Le grand avantage se situe au niveau des recherches informationnelles pour lesquelles la combinaison modèle de langage et engin de recherche fait des merveilles. La possibilité de poser des questions supplémentaires en particulier permet de clarifier énormément de choses par la suite.

J’ aime aussi beaucoup la sobriété de l’ interface ainsi que la possibilité de revoir les dialogues passés et de les partager.

Il y a cependant un risque: celui de l’ affaibissement de l’ esprit critique. Si la réponse est convaincante il est tentant avec ce genre de modèle de ne pas vérifier les sources, ce qui veut dire devenir dépendant d’ une source unique d’ information avec tous les risques et biais que cela peut entraîner. C’ est peut-être l’ avantage un peu paradoxal des recherches « à l’ ancienne » : elles vous obligeaient à consulter plusieurs sites et à mettre en balance les différentes informations à l’ aune de la crédibilité des sources…

Taxonomie de l’ apprentissage machine

L’ Intelligence Artificielle a pour objectif de construire des systèmes qui simulent un comportement intelligent. Ceci reprend un grand nombre de techniques dont l’ apprentissage machine constitue une partie importante. C’est l’apprentissage machine, et plus particulièrement sa déclinaison moderne faisant appel aux réseaux de neurones artificiels, appelée apprentissage profond qui a vu une croissance explosive ces dernières années et se retrouve au coeur de tous les progrès récents (conduite autonome, modèles de langage, générateurs d’image…).

Il me semble donc intéressant de décrire un peu plus en détail les grandes techniques de l’ apprentissage machine, qui se caractérisent par la quantité et le type de supervision qu’ ils reçoivent pendant l’ entraînement.

On distingue de ce fait trois grandes catégories d’ algorithmes :

  • l’ apprentissage supervisé;
  • l’ apprentissage non supervisé;
  • l’ apprentissage par renforcement
Figure 1 : Les familles d’ algorithmes de l’ apprentissage machine

Le nombre de techniques et d’ algorithmes utilisés en apprentissage machine est assez important, comme vous le verrez sur la figure ci-dessous. Mon but n’ étant pas ici de faire un exposé exhaustif, je me limiterai à présenter les techniques les plus connues.

Figure 2 : Une vue détaillée des techniques d’ apprentissage machine

L’ apprentissage machine recourt à une démarche inductive qui va chercher à construire un modèle sur base d’ exemples fournis pendant l’ entraînement. Une fois l’ entraînement terminé, le modèle sera utilisé sur d’ autres données. Un modèle bien entraîné va donc tenter de généraliser les corrélations apprises pendant l’ entraînement sur de nouvelles données. Ceci est à contraster avec l’ approche algorithmique de l’ IA classique qui est de nature déductive: un algorithme fixe est appliqué systématiquement à des données et fournit ses conclusions.

Figure 3 : Apprentissage machine et IA traditionnelle

1. L’ apprentissage supervisé

C’ est le cas le plus simple à comprendre. Ces algorithmes définissent une correspondance entre des données d’ entrée et des données de sortie. Un modèle supervisé est donc une sorte de boîte noire qui va apprendre à ingérer des données en entrée pour restituer les données en sortie correspondantes. La boîte noire est en réalité une fonction mathématique contenant de (nombreux) paramètres réglables.

Le lien entre données d’ entrée et de sortie est établi lors de l’ apprentissage: on évalue l’ écart entre la réponse désirée et la réponse du modèle. Les paramètres du modèle sont ensuite modifiés de manière à réduire progressivement cette erreur au fil des itérations par des techniques mathématiques qui vont tenter de « dévaler la montagne » de l’ erreur en suivant la direction de la plus forte pente…

Figure 4 : Illustration de la décroissance de l’ erreur au fil de l’ entraînement

Tout cela n’est possible que si les données à la fois d’entrée et de sortie dont de nature numérique, ce qui ne pose en général pas de problème : tout ce qui est stocké sur un ordinateur l’ est sous forme numérique : texte, image, audio…

Une fois l’ entraînement terminé, on introduira des données en entrée et le modèle de produira la sortie correspondante. Bien sûr, cela ne présenterait aucun intérêt si le modèle était seulement capable de répondre aux données d’entrée de l’entraînement : ce que l’ on veut réellement, c’ est que le modèle soit capable de généraliser en répondant de manière plausible à de nouvelles données d’entrée qui ne lui ont jamais été présentées.

Les deux grands exemples classiques d’ apprentissage supervisé en apprentissage machine sont la régression et la classification. La régression est utilisée pour prédire des valeurs numériques telles que le prix, le salaire, l’ âge, etc… Elle aide à prédire les tendances du marché, les prix de l’ immobilier, la consommation électrique etc…

La classification est un processus qui consiste à diviser l’ ensemble des données en différentes classes. Les algorithmes de classification sont utilisés pour classer dans une catégorie/classe telles que Homme ou Femme, Vrai ou Faux, Spam ou Non Spam, etc. Le nombre de de classes peut être supérieur à deux, on pourrait vouloir classer des voitures en fonction de la marque par exemple (on parle de classification binaire ou multiclasse).

Figure 5 : Régression et classification

L’ apprentissage profond permet d’ étendre ces techniques à des données d’ entrée perceptuelles comme des images ou des sons. Le « détecteur de chat » dans les images qui faisait fureur il y a une dizaine d’ années l’ illustre bien : il s’agit d’ un système de classification d’ image (chat ou pas chat).

Un problème de l’ apprentissage supervisé est qu’ il faut fournir au modèle un ensemble de solutions (les sorties) pour l’ entraînement, ce qui n’ est pas toujours facile et requiert parfois de fastidieux efforts surtout pour les problèmes perceptuels qui demandent un grand volume de données d’ entraînement. Des entreprises entières ont vu le jour, qui mettent à disposition des ressources humaines en grand nombre pour labelliser des images ou autres données d’ entraînement.

2. L’ apprentissage non supervisé

Ce type d’ algorithme se fait sans que l’ entraînement n’ utilise de données de sortie (il est donc « sans supervision »). Le but cette fois n’est pas d’ apprendre une correspondance entre entrée et sortie, mais bien d’ identifier et d’ exploiter la structure sous-jacente dans les données elles-mêmes : un assemblage de mots aléatoire ne constitue pas un texte, et un ensemble de points chosis au hasard ne constituera pas une image interprétable… il y a donc quelque chose de plus dans les données qui nous intéressent. L’ apprentissage non supervisé cherche à identifer ce « quelque chose ».

Les techniques génératives relèvent de l’ apprentissage non supervisé. On y retrouve donc les modèles de langage et des générateurs d’ image.

Dans le cas des modèles de langage, le générateur va chercher à prolonger la séquence de mots qui lui est fournie dans l’ invite (le prompt). Une phrase peut se voir comme une séquence de mots. Le générateur va se baser sur l’ immense volume de textes ingurgités pendant l’ entraînement pour définir le prochain mot qui prolonge la séquence de la manière la plus plausible. Ce mot est ensuite ajouté à la séquence d’ entrée et l’ algorithme est exécuté à nouveau, et ainsi répétitivement jusqu’à génération de la réponse complète.

Figure 6 : Principe du modèle de langage : prolonger la séquence

Les modèles générateurs d’ image vont fonctionner de manière un peu plus étonnante. Cette fois, le modèle va apprendre une représentation compacte des images. La technique utilisée pour apprendre cette représentation est assez indirecte puisqu’on va demander à l’ algorithme de retirer des parasites des images (les « débruiter »), ce qui amène le modèle à extraire les caractéristiques essentielles des images, et donc leur représentation compacte…

Figure 7 : Principe du générateur d’images

La représentation compacte est alors mise en correspondance avec le texte décrivant l’ image (texte qui fait aussi partie des données d’ entraînement). Le modèle va donc apprendre à « débruiter » une image en tenant compte de la description textuelle de cette dernière.

Une fois l’ entraînement terminé, il suffira d’ introduire un texte arbitraire, ainsi qu’une image ne contenant que des parasites. Le modèle va chercher à « débruiter » les parasites en tenant compte du texte que vous avez introduit ce qui, si tout va bien, convergera vers une image originale basée sur votre texte. Je suis bien conscient que ça paraît un peu fou mais c’ est le principe de l’ algorithme Stable Diffusion qui est utilisé par la quasi-totalité des générateurs d’ image actuels…

3. L’ apprentissage par renforcement

Le troisième grand domaine de l’ apprentissage machine est l’ apprentissage par renforcement. Cet apprentissage introduit la notion d’ un agent autonome qui agit dans un environnement et peut effectuer des actions et d’ en constater ensuite les conséquences. Les actions peuvent modifier l’ environnement et également donner lieu à des récompenses (ou des pénalités).

L’ apprentissage par renforcement consiste à apprendre ce qu’ il faut faire – comment associer des situations à des actions – de manière à maximiser le signal de récompense numérique. On ne dit pas au modèle quelles actions il doit entreprendre, mais il doit découvrir les actions qui rapportent le plus en les essayant.

Figure 8 : L’ apprentissage par renforcement

La difficulté de l’ apprentissage par renforcement est que la récompense peut se trouver plusieurs étapes dans le futur, et donc établir quelle action mènera à la plus grande récompense future n’ est pas évident. Pensez à un jeu d’ échecs : la récompense (positive ou négative) n’ arrive que lorsque le jeu se termine par échec et mat. Si vous êtes en début ou en milieu de partie, il faudra probablement de nombreux coups avant que la récompense ne soit obtenue…ce problème est appelé le problème de l’ assignation temporelle du crédit. Lorsque l’ agent apprend à naviguer dans l’ environnement pour obtenir la récompense, il doit aussi équilibrer les stratégies d’ exploration et celles d’ exploitation : après avoir trouvé une approche qui mène à la récompense, faut-il se borner à répéter cette approche (exploitation) ou bien prendre le risque de tenter une nouvelle approche qui pourrait mener à une récompense supérieure (exploration)…

L’ apprentissage par renforcement est un domaine fascinant qui concerne non seulement les machines devant agir dans un environnement (robotique, conduite autonome…), mais nous interpelle aussi sur certains mécanismes de fonctionnement de notre propre cerveau. L’ excellent livre de Max Benett en référence décrit l’ hypothèse selon laquelle certaines structures cérébrales apparues chez les premiers vertébrés il y a environ 500 millions d’ années (et toujours présentes chez nous) exploitent un mécanisme d’ apprentissage par renforcement, qui a ainsi conféré à ces animaux un avantage évolutif, en leur permettant de mettre en place de meilleures stratégies de survie…

Sources et références

  • A Brief History of Intelligence: Evolution, AI, and the Five Breakthroughs That Made Our Brains, livre de Max Bennett publié par Mariner Books, ISBN 978-0063286344
  • Understanding Deep Learning, par Simon J. D. Prince, https://udlbook.github.io/udlbook/
  • Reinforcement Learning, an introduction, par Richard S. Sutton and Andrew G. Barto, publié par MIT Press, ISBN 978-0-262-04864-4.

Deux livres pour comprendre l’IA et explorer son potentiel

Je voulais attirer votre attention sur deux ouvrages récents que je considère très utiles pour une compréhension plus profonde de l’ Intelligence Artificiele et de ses enjeux. Understanding Deep Learning de Simon Prince et Co-Intelligence de Ethan Mollick offrent des perspectives complémentaires et profondément éclairantes sur ces thèmes. Ces livres permettent non seulement de démystifier les aspects techniques de l’ apprentissage profond, mais aussi de réfléchir à notre relation interactive avec l’ IA.

Figure 1 : couverture des deux livres

1. Understanding Deep Learning

Le livre Understanding Deep Learning de Simon Prince offre une introduction exhaustive et détaillée aux concepts fondamentaux de l’ apprentissage profond. Le texte est structuré de manière à couvrir les divers aspects de cette discipline en pleine expansion, allant de l’ apprentissage supervisé, non supervisé et par renforcement, jusqu’à l’ examen des implications éthiques de l’ IA.

Le traitement des réseaux neuronaux profonds est particulièrement détaillé. Prince examine comment les couches se composent pour former des architectures complexes et comment ces structures peuvent être optimisées pour diverses applications, en soulignant la différence entre les réseaux peu profonds et profonds. Les chapitres sur les fonctions de perte et les algorithmes d’ optimisation fournissent des bases essentielles pour comprendre comment les modèles sont entraînés.

Un autre point fort du livre est l’ exploration des réseaux convolutifs, essentiels pour les applications de traitement d’ images et de séquences temporelles. Les réseaux de type transformers, qui ont révolutionné le traitement du langage naturel, sont également détaillés, mettant en lumière des architectures comme BERT et GPT-3.

Le livre ne néglige pas les aspects théoriques plus avancés, tels que les flux de normalisation et les autoencodeurs variationnels, qui sont cruciaux pour comprendre les modèles génératifs contemporains. Prince aborde des applications pratiques tout en fournissant les bases mathématiques nécessaires à une compréhension profonde des mécanismes sous-jacents.

La partie finale du livre s’ interroge sur les raisons de l’ efficacité de l’ apprentissage profond et examine les débats en cours sur le nombre et la profondeur des paramètres requis par les réseaux neuronaux. En conclusion, il réaffirme l’ importance de l’ éthique dans la pratique de l’ IA, un sujet qu’il avait introduit au début de l’ ouvrage.

Ce livre se distingue par sa clarté et sa profondeur, rendant le domaine de l’ apprentissage profond accessible tout en offrant une richesse d’ informations techniques pour les praticiens et chercheurs expérimentés. Destiné à un public maîtrisant les sciences exactes et les mathématiques, ce livre constitue une ressource indispensable pour quiconque s’ intéresse ou travaille dans le domaine de l’ Intelligence Artificielle.

2. Co-Intelligence : living and working with AI

Le livre « Co-Intelligence: Living and Working with AI » d’ Ethan Mollick explore l’ intégration progressive de l’intelligence artificielle dans nos vies quotidiennes et professionnelles, et comment nous pouvons apprendre à cohabiter de manière efficace et éthique avec ces nouvelles formes d’ intelligence. Réparti en deux parties principales et un épilogue, le livre aborde les défis et les opportunités que cette coexistence engendre. Contrairement au premier livre, ce livre est accessible à tous les publics et ne nécessite aucune compétence technique particulière.

La première partie du livre s’ attarde sur la création et l’ alignement de cette forme d’ intelligence nouvelle et étrange que représente l’ IA. Mollick commence par discuter de la complexité inhérente à la création de ces intelligences non humaines, soulignant leur nature fondamentalement différente. Il propose ensuite des stratégies pour aligner les objectifs de l’ IA avec les valeurs humaines, un défi crucial pour éviter des conséquences imprévues. Il introduit également quatre règles pour une co-intelligence réussie : toujours inclure l’ IA dans les discussions, conserver l’ élément humain dans la boucle de décision, traiter l’ IA comme une personne à part entière, et partir du principe que l’ IA utilisée aujourd’ hui est la pire version à laquelle nous serons confrontés, impliquant une amélioration continue.

Dans la deuxième partie, Mollick examine les divers rôles que l’ IA peut jouer dans la société. Il souligne tout d’ abord les réactions étonnament humaines des modèles de langages, susceptibles de nous pousser à une certain anthropomorphisme. L’ IA en tant que créatif ouvre de nouvelles avenues dans les arts et la conception mais pose d’ épineuses questions jurdiques. L’ IA utilisée sur le lieu de travail soulève des enjeux autour de la collaboration et de l’ automatisation. L’ auteur explore ensuite l’ impact de l’ IA en tant que tuteur et coach, où elle peut personnaliser l’ apprentissage et offrir un soutien adapté aux besoins individuels.

À travers ce texte, Mollick offre une analyse approfondie et accessible des implications de vivre avec l’ IA. Il ne se contente pas de décrire les technologies actuelles, mais projette les lecteurs dans un futur proche où l’ IA est omniprésente et influente. En posant des principes de base pour une interaction saine et productive, Co-Intelligence: Living and working with AI sert de guide essentiel pour naviguer dans cette nouvelle ère technologique, soulignant la nécessité d’une approche réfléchie et éthique à l’ égard des technologies qui façonnent déjà notre monde.

Conclusion

Bien que Understanding Deep Learning et Co-Intelligence abordent l’IA sous des angles différents, ils sont fortement complémentaires. Alors que Prince nous fournit les outils pour comprendre le « quoi » et le « comment » des technologies, Mollick nous montre « avec qui » et « pour quoi » nous pourrions travailler main dans la main avec ces technologies. Ensemble, ces livres dessinent un tableau plus complet de l’ avenir de l’ intelligence artificielle, un avenir où la compréhension technique et la collaboration humaine se renforcent mutuellement.

Je vous en souhaite bonne lecture.

Référence des ouvrages

Liste des personnalités de l’IA à suivre sur Twitter/X

Cet article liste les principales personnalités à suivre sur Twitter/X si vous voulez être au courant des dernières tendances dans le secteur de l’Intelligence Artificielle. Certaines de ses personnalités n’hésitent pas à débattre entre elles sur Twitter et les arguments déployés de part et d’autre sont souvent passionnants.

J’ai structuré cette liste en deux parties. : les experts techniques et les personnes qui se concentrent sur l’impact sociétal, les risques et les applications de l’IA.

Et au passage, vous pouvez toujours aussi me suivre, Arnaud Stévins (@Arnaud_ast).

1. Chercheurs et experts techniques en IA

  • Geoffrey Hinton (@geoffreyhinton) : Il est professeur à l’université de Toronto et vice-président et ingénieur chez Google. Il est également l’un des pionniers de l’apprentissage profond et des réseaux neuronaux. Il tweete sur la recherche en IA, les publications et les événements;
  • Yann LeCun (@ylecun) : Il est le directeur scientifique IA chez Meta et professeur à l’université de New York. Il est également l’un des créateurs des réseaux neuronaux convolutifs, une technique largement utilisée pour la reconnaissance d’images. Il tweete sur la recherche, l’actualité et les événements dans le domaine de l’IA;
  • Yoshua Bengio (@yoshuabengio) : Professeur à l’Université de Montréal, il est le fondateur et le directeur scientifique de Mila, l’Institut québécois d’intelligence artificielle. Il est également l’un des pionniers de l’apprentissage profond et des réseaux neuronaux, avec Geoffrey Hinton et Yann LeCun. Il tweete sur la recherche en IA, les publications et les événements;
  • Jürgen Schmidhuber (@SchmidhuberAI) : Codirecteur du Swiss AI Lab IDSIA, professeur d’intelligence artificielle à l’université de Lugano, pionnier de l’IA auto-améliorante, des réseaux neuronaux d’apprentissage profond et du méta-apprentissage, inventeur des LSTM et des machines de Turing neuronales;
  • Andrew Ng (@AndrewYNg) : Il est cofondateur de Coursera et de Google Brain, et ancien directeur scientifique de Baidu. Il est également professeur adjoint à l’université de Stanford et pionnier de l’apprentissage profond, de la vision par ordinateur et du traitement du langage naturel. Il parle sur Twitter de l’enseignement, de la recherche et des applications de l’IA;
  • Demis Hassabis (@demishassabis) : Il est cofondateur et PDG de DeepMind, une société de recherche en IA de premier plan qui fait partie de Google. Il est également un ancien prodige des échecs et un neuroscientifique. Il évoque sur Twitter les réalisations de DeepMind, telles qu’AlphaGo, AlphaZero et AlphaFold;
  • Ilya Sutskever (@ilyasut) : Scientifique en chef et cofondateur d’OpenAI, ancien chercheur chez Google Brain, ancien étudiant de Geoffrey Hinton à l’université de Toronto, co-inventeur d’AlexNet et d’ImageNet Challenge;
  • Andrej Karpathy (@karpathy) : Il est directeur de l’IA chez Tesla et ancien chercheur chez OpenAI. Il est également professeur adjoint à l’université de Stanford et cofondateur de ConvNetJS, une bibliothèque JavaScript pour l’apprentissage profond. Il tweete sur les applications de l’IA, les défis et l’humour;
  • Gary Marcus (@GaryMarcus) : Professeur de psychologie et de sciences neuronales à l’université de New York, fondateur et PDG de Robust.AI, auteur de plusieurs ouvrages sur l’IA et les sciences cognitives, tels que Rebooting AI et The Algebraic Mind;
  • Lex Fridman (@lexfridman) : Il est chercheur au MIT et animateur du podcast Lex Fridman, où il interviewe des experts en IA, en science et en technologie. Il tweete sur des sujets liés à l’IA, tels que les voitures autonomes, l’apprentissage par renforcement et l’AGI;
  • Mustafa Suleyman (@mustafasuleymn) : Cofondateur et directeur général d’Anthropic, un laboratoire de recherche axé sur la création d’une intelligence artificielle générale (AGI) sûre et bénéfique, ancien cofondateur et responsable de l’IA appliquée chez DeepMind, ancien vice-président de la politique en matière d’intelligence artificielle chez Google;
  • François Chollet (@fchollet) : Ingénieur logiciel chez Google, il est le créateur de Keras, un cadre populaire d’apprentissage profond. Il est également l’auteur d’un livre sur l’apprentissage automatique et chercheur sur les modèles génératifs, la vision par ordinateur et le traitement du langage naturel.

2. Spécialistes des applications, impacts et risques de l’IA

  • Stuart Russell (@StuartHRussell) : Professeur d’informatique et directeur du Center for Human-Compatible AI à l’université de Californie à Berkeley, coauteur du manuel Artificial Intelligence : A Modern Approach, fondateur et président du Center for the Study of Existential Risk;
  • Erik Brynjolfsson (@erikbryn) : Directeur du Stanford Digital Economy Lab, chercheur principal au Stanford Institute for Human-Centered AI, professeur à la Stanford Graduate School of Business, co-auteur de plusieurs ouvrages sur l’impact de la technologie sur la société et l’économie, tels que The Second Machine Age et Machine;
  • Sam Altman (@sama) : PDG et coprésident d’OpenAI, ancien président de Y Combinator, cofondateur et président d’OpenAI Codex (anciennement GPT-3), cofondateur et membre du conseil d’administration de plusieurs startups telles que Stripe, ZenPayroll, Loopt et Asana;
  • Dario Amodei (@Dario_Amodei) : Cofondateur et PDG d’Anthropic, ancien vice-président de la recherche chez OpenAI, ancien chercheur chez Google Brain, ancien postdoctorant au Princeton Neuroscience Institute, chercheur sur l’apprentissage profond, le traitement du langage naturel et la sécurité de l’IA;
  • Bill Gates (@BillGates) : Coprésident et administrateur de la Fondation Bill et Melinda Gates, fondateur et ancien président-directeur général de Microsoft Corporation, philanthrope et investisseur dans divers domaines tels que la santé mondiale, l’éducation, l’énergie et le changement climatique;
  • Kai-Fu Lee (@kaifulee) : Il est le fondateur et le PDG de Sinovation Ventures, une société de capital-risque qui investit dans des startups d’IA en Chine et aux États-Unis. Il est également ancien président de Google China et ancien vice-président de Microsoft Research Asia. Il s’exprime sur Twitter au sujet des tendances, des opportunités et des défis de l’IA en Chine et au-delà;
  • Sebastian Thrun (@SebastianThrun) : Il est le fondateur et le président d’Udacity, une plateforme d’enseignement en ligne qui propose des cours sur l’IA, la ML, la robotique, etc. Il est également professeur à l’université de Stanford et ancien vice-président de Google. Il tweete sur l’éducation à l’IA, l’innovation et l’impact social;
  • Fei-Fei Li (@drfeifei) : Elle est professeur à l’université de Stanford et codirectrice du Stanford Institute for Human-Centered Artificial Intelligence (HAI). Elle est également cofondatrice et présidente d’AI4ALL, une organisation à but non lucratif qui vise à accroître la diversité et l’inclusion dans l’IA. Elle s’exprime sur Twitter au sujet de l’éthique de l’IA, de l’intérêt social et de l’éducation;
  • Rachel Thomas (@math_rachel) : Elle est cofondatrice et directrice du Center for Applied Data Ethics à l’université de San Francisco. Elle est également auteur, conférencière et enseignante sur l’éthique de l’IA, l’équité et la justice sociale. Elle tweete sur les questions liées à l’IA, telles que les préjugés, la protection de la vie privée et la responsabilité;
  • Jan Leike (@janleike) : Co-directeur de la recherche sur le superalignement à OpenAI, ancien chercheur principal à DeepMind, ancien chercheur postdoctoral à l’Australian National University, chercheur sur l’apprentissage par renforcement, l’alignement et la sécurité;
  • Eliezer Yudkowsky (@ESYudkowsky) : Cofondateur et chercheur principal au Machine Intelligence Research Institute (MIRI), auteur de Rationality : From AI to Zombies et Harry Potter and the Methods of Rationality, chercheur sur la théorie de l’intelligence artificielle, la théorie de la décision, la rationalité et l’alignement.

Accès aux modèles de langage conversationnels : ChatGPT et autres….

Ce qui suit est la situation au 4 juin 2023.

1. OpenAI / ChatGPT

  • ChatGPT en version 3.5 est accessible à la fois via l’interface conversationnelle web chat.openai.com et via l’app mobile ChatGPT qui est déjà disponible pour iPhone (cliquer ici); la version Android est encore en développement et devrait être accessible sous peu.
  • Le modèle ChatGPT v3.5 est accessible gratuitement sans limitation de volume de conversations, moyennant inscription préalable.
  • ChatGPT+, qui coûte 20 USD par mois, donne en outre accès au modèle ChatGPT4 via la même interface, mais avec une limitation à 25 échanges toutes les 3 heures. Les dialogues avec ChatGPT4 sont en général de qualité nettement supérieure à ceux avec ChatGPT 3.5.
  • ChatGPT4 donne aussi accès à deux fonctionnalités additionnelles dont je reparlerai à l’avenir :
    • L’ intégration avec le web qui offre des réponses à jour et contenant des liens vers les informations
    • L’ intégration avec une centaine de programmes applicatifs (plug-ins); ces programmes offrent des fonctionnalités variées que ChatGPT peut exploiter pour répondre à la demande de l’utilisateur: commandes de produits, graphiques….

2. Microsoft

  • Bing Chat est basé sur OpenAI et accessible ici : chat.bing.com , à condition de posséder le navigateur Microsoft Edge.
  • L’utilisation de Bing Chat est gratuite.
  • Bing Chat est aussi accessible via l’ app mobile bing, qui est disponible à la fois pour Android et iOS.
  • Bing Chat propose trois styles conversationnels : précis, équilibré et créatif.
  • L’ interface Bing Chat, utilisée en mode conversationnel créatif, donne en réalité accès à GPT4. Ceci permet donc d’utiliser ChatGPT4 sans payer les 20 USD/mois d’abonnement à OpenAI.

3. Google

  • Google est actuellement occupé à déployer son interface conversationnelle sur bard.google.com, pays par pays
  • A dater du 4 juin 2023, l’accès n’est pas encore possible en Belgique, mais ceci devrait changer rapidement.

4. Huggingface

  • Hugging Face, un des principaux lieu de rendez-vous de la communauté de l’IA, a publié son propre modèle conversationnel, basé sur Llama (développé par Meta).
  • HuggingChat est accessible ici : huggingface.co/chat
  • L’utilisation conversationnelle du modèle est gratuite, moyennant inscription préalable sur le site de HuggingFace.

5. Anthropic

  • Claude, développé par la société Anthropic est disponible moyennant demande d’accès préalable ici.
  • Claude très est intéressant car il est capable d’interpréter des textes beaucoup plus volumineux que les autres modèles (fenêtre de contexte de 100.000 unités au lieu d’environ 4.000 pour ChatGPT 3.5, ce qui correspond à plus ou moins 70.000 mots ).
  • Claude existe en deux versions, Claude Instant et Claude-v1. Claude Instant est plus rapide et Claude-v1 plus puissant. Les deux version sont payantes (Claude v1 étant plus cher).