Claude Mythos : Anthropic laisse fuiter les détails de son IA la plus puissante et la plus dangereuse

Claude Mythos : la fuite qui révèle l'IA la plus redoutable d'Anthropic

Une erreur humaine aux conséquences révélatrices

Ce n'est pas une cyberattaque ni un acte de malveillance qui est à l'origine de cette affaire, mais une simple maladresse. Le 26 mars 2026, une mauvaise configuration du système de gestion de contenu d'Anthropic a temporairement rendu accessibles, via une URL publique non protégée, une série de brouillons et de documents internes destinés à rester confidentiels. Deux chercheurs en cybersécurité Roy Paz de LayerX Security et Alexandre Pauwels de l'université de Cambridge ont repéré les fichiers et les ont transmis au magazine Fortune. Alertée par la rédaction, Anthropic a rapidement coupé l'accès. La start-up a reconnu «un problème avec un outil CMS externe» et précisé qu'il s'agissait de «premières versions de contenus envisagés pour publication».

Un modèle inédit, baptisé Mythos en interne

Parmi les documents exposés figurait notamment un billet de blog consacré à un nouveau modèle d'IA jusqu'alors inconnu du grand public : Claude Mythos, dont le nom de code interne est Capybara. Le texte le présentait comme le modèle «de loin le plus puissant» jamais conçu par Anthropic, surpassant significativement Claude Opus 4.6 sur des benchmarks de programmation avancée et de raisonnement complexe. Anthropic a depuis confirmé l'existence du projet : le modèle est bien réel, actuellement en phase de test auprès d'un cercle restreint de clients en accès anticipé. Sa puissance de calcul élevée le rend pour l'instant impropre à un déploiement grand public.

Des capacités cyber sans précédent… et des risques assumés

Ce qui distingue Claude Mythos des autres modèles disponibles, c'est sa maîtrise du domaine cybersécurité. Selon les documents divulgués, il surpasse «actuellement tout autre modèle d'IA en capacités cyber» et présente des «risques de cybersécurité significatifs». Concrètement, il serait capable d'identifier et d'exploiter des failles informatiques à une vitesse et avec une précision que les équipes de défense auraient du mal à contrer.

Pour mieux cerner l'enjeu, il suffit de regarder ce qu'accomplit déjà Claude Opus 4.6 : le modèle actuel a identifié plus de 500 vulnérabilités zero-day critiques dans des projets open source, dont 22 au sein du navigateur Firefox de Mozilla. Sa limite résidait toutefois dans l'exploitation de ces failles il parvenait rarement à générer des programmes d'attaque fonctionnels, et n'y est parvenu que dans deux cas malgré des centaines de tentatives. Claude Mythos franchit ce cap : il est capable non seulement de détecter les failles, mais aussi de proposer des méthodes d'exploitation concrètes. Une combinaison particulièrement redoutable si le modèle venait à être utilisé à des fins malveillantes.

Un déploiement encadré, tourné vers la défense

Face à ces risques identifiés, Anthropic a choisi une approche prudente et graduée. Dans un premier temps, l'accès à Mythos a été accordé exclusivement à des organisations spécialisées dans la défense informatique, avec pour mission de se préparer à ce que la start-up qualifie de «vague imminente d'exploits pilotés par IA». La société justifie cette démarche par une volonté de transparence et d'anticipation : comprendre les risques au-delà de ses propres tests internes, partager les résultats avec les acteurs de la défense, et permettre à l'écosystème de sécurité de s'adapter avant tout déploiement élargi. Une posture qui tranche avec l'image parfois opaque du secteur de l'IA, mais qui soulève une question fondamentale : jusqu'où peut-on développer des outils aussi puissants sans que leur simple existence ne constitue une menace ?