Un développement majeur vient de se produire sur le plan de la cybersécurité : la première cyberattaque largement automatisée dans laquelle les modèles de langage jouent un rôle d’ orchestrateur de haut niveau a été récemment déjouée par Anthropic.
En effet, Anthropic a détecté à la mi-septembre une activité suspecte liée à l’ utilisation de l’ outil Claude Code, un agent intelligent principalement destiné à la programmation mais dont la grande flexibilité offre des possibilités de détournement…
Ce n’ est pas Anthropic lui-même qui était l’ objet de l’ attaque mais bien une trentaine de firmes technologiques, financières et industrielles occidentales ainsi que des administrations publiques. L’ attaquant a été identifié avec un haut niveau de confiance : il s’ agit d’ un groupe actif dans le cyberespionnage lié au gouvernement chinois.
Jusqu’ ici les utilisations de l’ IA générative dans la cybersécurité relevaient plutôt de la fourniture de conseils interactifs de type « chatbot » ou éventuellement d’ agents qui ont accès à des outils informatiques spécialisés, mais interagissent avec les humains à chaque étape.
Pour la premère fois, l’ IA a mené de son propre chef un large éventail d’activités, depuis l’ analyse de vulnérabilité jusqu’à l’ exfiltration des données recherchées. Les superviseurs humains ne sont intervenus que ponctuellement afin de valider les résultats intermédiaires des opérations, avant de passer à la phase suivante. Anthropic estime que 80 à 90% du travail de cyberattaque a été effectué de manière autonome.
Cela marque le premier cas documenté d’ IA agentique ayant réussi à extraire des données sensibles appartenant à des cibles bien protégées par cyberattaque.
Anthropic a décidé de publier les détails de son enquête afin de sensibiliser le secteur à l’ évolution de la menace. En effet, d’ autres modèles pourraient être exploités de la même manière, et ce d’ autant plus que l’ attaque n’ a pas nécessité de déveoppements complexes : elle s’ est contentés de combiner astucieusement des outils existants. Pas besoin de disposer de moyens énormes pour préparer ce type d’ opération.
1. Comment est-ce possible ?
L’ attaque s’ est appuyée sur plusieurs évolutions récentes des modèles d’ IA qui n’existaient pas ou qui étaient à leurs balbutiements il y a seulement un an :
- Raisonnement: Le niveau général de capacité des modèles a augmenté au point qu’ ils peuvent suivre des instructions complexes et comprendre le contexte de manière à rendre possibles des tâches sophistiquées. De plus, plusieurs de leurs compétences spécifiques bien développées, en particulier le codage logiciel, se prêtent à une utilisation dans le cadre de cyberattaques.
- Autonomie: Les modèles peuvent agir en tant qu’ agents, c’est-à-dire qu’ ils peuvent fonctionner en boucle, où ils prennent des mesures autonomes, enchaînent des tâches et prennent des décisions avec une intervention humaine minimale et occasionnelle. Les modèles récents sont capables d’ exécuter un nombre importants de boucles « Planification-Action-Analyse » successives avant de devoir repasser la main à un humain.
- Outillage: Les modèles ont accès à un large éventail d outils logiciels (souvent via le protocole ouvert *Model Context Protocol*). Ils peuvent désormais effectuer des recherches sur le web, récupérer des données et réaliser de nombreuses autres actions qui étaient auparavant l’ apanage des opérateurs humains. Dans le cas des cyberattaques, ces outils peuvent inclure des craqueurs de mots de passe, des scanners de réseau et d’ autres logiciels liés à la sécurité.
Claude Code est l’ outil parfait pour ce genre d’ opération. Il s’ agit d’ un programme « agent » hautement flexible qui peut faire interagir des modèles de langages jouant différents rôles et aux compétences variées pour atteindre un but spécifié par l’ utilisateur, tout en ayant accès à des outils via le protocole MCP. Les rôles pouvant être définis en langage naturel de manière assez libre, et le potentiel applicatif est extrêmement large.
2. Description du mécanisme
Le mécanisme d’attaque utilisait Claude Code et le protocole MCP (Model Context Protocol) pour se connecter aux outils existants d’ analyse et de découverte du réseau et de tests d’intrusion.
Ce genre d’ attaque requiert une succession d’ opérations bien orchestrées; le travail a donc été divisé en tâches techniques distinctes qui semblaient légitimes prises isolément. Ensemble, elles permettaient de mener à bien des chaînes d’ attaques complètes. Les pirates ont prétendu être une entreprise de cybersécurité utilisant ces outils de piratage à des fins légitimes pour tenter de trouver des vulnérabilités chez leurs clients dans le cadre d’ activités de tests d’intrusion.

Une fois la brèche établie,Claude Code fonctionnait de manière autonome :
il cartographiait la topologie du réseau, puis analysait son contenu pour découvrir les services internes et rechercher des informations précieuses en identifiant les bases de données de valeur. Il extrayait également les identifiants et établissait un accès permanent, puis analysait les données extraites pour en déterminer la valeur en termes de renseignements et exfiltrait celles jugées les plus précieuses. Tout cela avec une supervision humaine limitée.
La figure 2 décrit le déroulement du scénario offensif qui a été établi, et qui reprend les six phases suivantes :
- Phase 1 : Initialisation de la campagne et sélection des cibles à attaquer;
- Phase 2 : Reconnaissance de l’ infrastructure de la cible et de vulnérabilités potentielles;
- Phase 3 : Découverte active et validation des vulnérabilités;
- Phase 4 : Identification dans les systèmes et augmentation des privilèges d’ accès;
- Phase 5 : Collecte et exfiltration des données;
- Phase 6 : Documentation et clôture.

Le détail des opérations exécutées lors de chaque phase se trouve dans le document d’ Anthropic en référence.
3. Implications pour la cybersécurité
L’ attaque a été détectée parce que Claude Code fait appel aux modèles de langage hébergés par Anthropic et le trafic échangé (le prompt et les réponses) est surveillé par des programmes d’ identification de menaces qui visent à détecter des activités non autorisées comme les cyberattaques.
Cette attaque constitue un point d’ inflexion pour la cybersécurité : ce type d’ opération autonome en détournant des outils existants permet à des acteurs malveillants disposant de ressources limitées de lancer des attaques sophistiquées. Ce type de capacité existe probablement dans tous les modèles d’ IA de pointe, y compris certains modèles open-weights pour lequel la surveillance décrite plus haut n’ est pas applicable puisqu’ ils sont exécutables localement.
Il subsiste cependant une limitation à ce type d’ opération : Claude code avait des hallucinations pendant les opérations offensives. Il revendiquait parfois des identifiants qui ne fonctionnaient pas ou identifiait des « découvertes critiques » qui n’étaient que des informations publiques. les hallucinations de l’ IA restent un obstacle aux cyberattaques entièrement autonomes et un humain doit encore assurer périodiquement une supervision de haut niveau pour s’assurer que le processus reste sur la bonne voie.
Il faut aussi garder la tête froide et noter que des mécanismes pratiquement identiques peuvent être utilisés en cyber-défense pour identifier les vulnérabilitiés d’ une firme afin de pouvoir les résoudre avant qu’ un cyber-attaquant ne tente d’ en profiter.
Quoi qu’il en soit, le monde de la cybersécurité va devoir s’ adapter rapidement.
Sources et références
- Disrupting the first reported AI-orchestrated cyber espionage campaign, publié par Anthropic le 13 novembre 2025 : https://www.anthropic.com/news/disrupting-AI-espionage
- Thread X résumé de Karl Mehta sur le même sujet : https://x.com/karlmehta/status/1989698733957943398?s=20















































