Faites de la place, Mythos. Voici n'importe quel modèle doté d'un bon harnais.

Blog

Actualités

Faites de la place, Mythos. Voici... à peu près n'importe quel autre modèle doté d'un bon harnais.

Écrit par

Dania Durnas

Publié le :

1er juin 2026

Mythos n'a pas besoin d'être traité comme le plus grand et le plus redoutable de la pièce.

Ne vous méprenez pas. Selon le benchmark par rapport auquel vous évaluez, Mythos fait partie des meilleurs modèles disponibles aujourd'hui, et est généralement le meilleur en matière de raisonnement. Mais il n'a pas une avance considérable.

Et lorsqu'il s'agit de cas d'usage pratiques, appliquer un modèle général, même un modèle de pointe, à un problème ne donne pas les meilleurs résultats. Ce n'est ni évolutif ni rentable. Pour la détection des vulnérabilités, le cadre d'utilisation d'un modèle est plus important que les modèles eux-mêmes. Et Fable 5, la version publique de Mythos ? Il n'abordera même pas les sujets de cybersécurité.

Nous examinerons d'abord pourquoi Mythos n'est pas le modèle pour résoudre tous les problèmes, puis comment un bon harnais produit des résultats de haute qualité à grande échelle.

Mythos est un peu trop médiatisé

Tout d'abord, examinons quelques faits. Mythos est bon, l'un des meilleurs modèles d'IA à ce jour, et il continue d'obtenir d'excellents résultats aux benchmarks. Mythos excelle dans la construction de chaînes d'exploitation et la génération de preuves de concept, ainsi, depuis sa sortie, il a accumulé un long palmarès de découvertes de vulnérabilités zero-day.

Cependant, si une certaine crainte et un certain enthousiasme étaient justifiés, la réponse mondiale a été disproportionnée par rapport à son amélioration par rapport aux modèles précédents. Chaque nouveau modèle de pointe lancé sur le marché est toujours meilleur que le précédent, mais dans une faible proportion.

Et à ce stade, d'autres modèles de pointe sont également pour la plupart à égalité, surtout depuis la sortie de GPT-5.5 en avril. L'AI Security Institute du Royaume-Uni l'a évalué à peu près au même niveau de capacité cybernétique que Mythos. Dans la catégorie la plus difficile de leur suite d'évaluation, GPT-5.5 a atteint 71,4 %, tandis que Mythos a atteint 68,6 %. Entre Mythos et GPT 5.5, l'un surpasse l'autre selon la tâche.

Mythos n'est pas parfait et ne constitue pas encore une solution miracle pour détecter toutes les vulnérabilités de sécurité à lui seul. Par exemple, quelqu'un a exécuté Mythos sur la base de code de la bibliothèque cURL et a envoyé les résultats par e-mail à son fondateur et mainteneur, Daniel Stenberg. Mythos a identifié cinq « vulnérabilités de sécurité confirmées ». Mais après examen par l'équipe de Stenberg, ils ont constaté que trois étaient de faux positifs, une était un bug non lié à la sécurité, et une seule était une vulnérabilité réelle. Quelques jours plus tard, Stenberg a reçu 17 vulnérabilités de personnes utilisant d'autres outils d'IA. Il a déclaré sur LinkedIn : « Mythos est loin d'être à la fin de cette course », et dans son blog sur l'expérience, il a écrit qu'il pense que le battage médiatique autour de Mythos est « principalement du marketing ».

Fable 5 a été récemment publié par Anthropic, qui est Mythos 5 avec des garde-fous. Ces garde-fous entraînent l'arrêt du modèle s'il rencontre une requête liée à la cybersécurité ou à la biologie. Il ne peut donc pas être benchmarké ni utilisé pour la détection de vulnérabilités.

Le harnais importe plus que le modèle

Avec différents modèles excellant désormais dans de nombreuses tâches différentes et les modèles de premier plan convergeant en termes de capacités, la plus grande variable dans l'optimisation de la découverte de vulnérabilités est le harnais.

Un harnais est la couche d'orchestration qui enveloppe un modèle (ou plusieurs modèles). Cela inclut la logique qui décide quel agent s'exécute à quel moment, quel contexte il reçoit, comment les résultats sont validés et quand passer à un modèle plus puissant. C'est du code, de la conception de flux de travail et de l'architecture de prompt travaillant ensemble, le modèle servant simplement de l'un de ces composants.

Les harnais permettent aux LLM de passer d'un usage général à une adaptation poussée à un domaine et à des tâches donnés. Ils tirent également parti du non-déterminisme des LLM, ce qui les amène à trouver des résultats légèrement différents à chaque fois. Avec un harnais, plusieurs agents examinent une base de code, avec l'attente qu'aucun agent ne trouvera 100 % des vulnérabilités (y compris les agents fonctionnant sur Mythos).

Dans le contexte de la recherche de vulnérabilités, la recherche de Cloudflare présente un exemple de ce à quoi ressemble souvent une configuration de harnais solide :

Une étape de reconnaissance qui lit le dépôt et crée une file d'attente de tâches pour tout ce qui suit.
Une étape de chasse où de nombreux agents s'exécutent en parallèle, chacun recherchant des vulnérabilités.
Une étape de validation où un agent indépendant, utilisant un prompt différent et sans capacité à générer ses propres résultats, tente de réfuter ce que l'agent de chasse a trouvé.
Une étape de traçage qui suit les résultats confirmés à travers le dépôt pour déterminer si une entrée contrôlée par un attaquant peut réellement atteindre le bug depuis l'extérieur du système.
Logique de déduplication pour consolider les résultats ayant la même cause racine

La conception du "harness" est si impactante qu'elle importe souvent plus que le choix du modèle lui-même. Des chercheurs de l'UCSB ont exécuté le même Claude Opus 4.6 sur les mêmes tâches avec différents "harnesses" et ont constaté que le meilleur "harness" a réussi quatre fois plus de tests que le pire. À titre de comparaison, l'écart entre les modèles de pointe comme Opus 4.6 et GPT-5.4 sur les benchmarks de codage standard n'est que d'environ un point de pourcentage. Cela signifie que les équipes qui s'obsèdent sur le modèle à utiliser sur-optimisent la mauvaise variable.

Niels Provos a démontré le même concept sous un autre angle. Il a construit un "harness" qui a découvert une vulnérabilité vieille de 18 ans dans une bibliothèque populaire, puis a intégré le GLM 5.1 open-weight et a obtenu des résultats comparables. Il a montré qu'un "harness" robuste peut faire du modèle un composant interchangeable, plutôt que le moteur principal.

Les recherches de l'équipe de sécurité de Mozilla expliquent pourquoi investir dans la conception de "harness" est rentable à long terme. Une fois que leur pipeline de "harness" était solide, chaque nouveau modèle qu'ils ont intégré a immédiatement amélioré la détection de bugs, la génération de preuves de concept et l'analyse d'impact sans aucune refonte architecturale. Lorsque Mythos est devenu disponible pour eux, ils ont pu l'intégrer et en bénéficier immédiatement. Concevez correctement le "harness", et les progrès du modèle deviennent quelque chose que vous absorbez gratuitement plutôt que de vous précipiter pour l'adopter.

L'argent parle

Un autre problème lié à l'utilisation de Mythos pour tout est d'ordre économique. Les modèles plus grands sont toujours plus performants, mais ils sont aussi beaucoup plus coûteux.

Exécuter Mythos une seule fois coûte cher, de l'ordre de dizaines de milliers de dollars, pour effectuer une seule analyse approfondie d'un dépôt pour ce qui pourrait être quelques vulnérabilités. Exécutez Opus 4.6, ou même GPT-5.4 nano, dix fois pour le même coût que l'exécution de Mythos une seule fois, et vous en trouverez généralement plus. Le coût n'est pas proportionnel à la capacité. Par exemple, les entrées et les sorties de GPT 5.4 coûtent la moitié de celles de GPT 5.5, mais le premier n'a pas la moitié de la puissance de raisonnement du second. En interne, nous avons constaté que huit agents GPT-5.4-mini surpassent un agent GPT-5.5 dans certains cas, et qu'ils ont à peu près le même coût. Les modèles moins chers vous permettent de transformer le nombre d'agents en un avantage.

Un homme tient un billet de dollar dans sa main et danse avec. Puis il fait s'envoler le dollar de sa main. Une parodie de jeter beaucoup de billets.

Le modèle plus petit produira généralement plus de faux positifs qu'un modèle de pointe, car il est en effet moins précis. Mais dans ce cas rare, la quantité importe autant que la qualité, car vous voulez vous assurer de capturer autant de vulnérabilités que possible. C'est là que les "harnesses" peuvent aider à filtrer le bruit superflu, où d'autres agents peuvent vérifier les chaînes d'exploitation et nettoyer, et c'est beaucoup plus économique que d'exécuter Mythos et des modèles de pointe pour tout trouver.

Pour les acteurs de la menace, qu'est-ce qu'ils vont réellement utiliser ? Pas Mythos. D'abord, ils ne l'ont pas. Et Fable 5 a été « nerfé » pour empêcher ce groupe d'y avoir accès. Non, les attaquants voudront utiliser tout ce qui fonctionne à faible coût, de manière répétée, à grande échelle, et ils ne vont pas faire la queue. Les modèles « open-weight » avec des « harnesses » décents fonctionnent bien, et c'est probablement ce qu'ils font en ce moment.

Et pour les organisations, qu'est-ce qui est durable ? Exécuter un modèle de pointe sur chaque modification de code ne l'est certainement pas. Exécuter une orchestration multi-niveaux qui utilise des modèles bon marché régulièrement et des modèles coûteux avec précision... ça l'est.

Ne prêtez aucune attention au modèle derrière le rideau

Mythos a été un moment fascinant dans notre histoire. Il a attiré l'attention de tous sur ce que les modèles peuvent faire maintenant. Mais la découverte autonome de vulnérabilités de haute qualité et performante est accessible par des moyens alternatifs et moins coûteux que d'être limité à Mythos ou au Project Glasswing.

Les fournisseurs liés à un seul modèle doivent rendre ce modèle parfait. Les plateformes agnostiques aux fournisseurs peuvent choisir le bon outil pour la bonne tâche. Un modèle plus petit peut balayer largement et faire remonter des candidats, tandis qu'un modèle plus puissant peut approfondir ceux qui semblent intéressants et nécessitent des capacités de raisonnement supérieures. Pour obtenir les meilleurs résultats en AppSec et en pentest IA, vous voulez privilégier les systèmes dotés de "harnesses" sophistiqués qui utilisent les bons modèles, plutôt que de vous soucier d'avoir le modèle le plus sophistiqué.

Le Magicien d'Oz : Un homme est derrière un rideau vert, manipulant un grand engin. Le chien Toto tire le rideau pour révéler l'homme.

Chez Aikido, nous avons compris très tôt que la quantité, l'orchestration et la liberté de choisir le bon outil pour la tâche l'emportent sur la course à ce qui se trouve derrière le plus haut "paywall". En tant que fournisseur AppSec, nous considérons notre responsabilité comme la construction de l'orchestration qui permet à la couche modèle de continuer à évoluer en dessous. Si vous souhaitez en savoir plus sur la façon dont notre pentesting peut vous aider à sécuriser votre application, contactez-nous dès aujourd'hui.

PS. Nous avons également rédigé une checklist prête pour Mythos pour aider les équipes à se préparer aux menaces de l'IA agentique (qu'elle soit alimentée par Mythos ou par de nombreux GPT 5.4 minis).

Dernière mise à jour le :

18 juin 2026

Lien texte

S'abonner aux actualités

4,7/5

Fatigué des faux positifs ?
Essayez Aikido, comme 100 000 autres.

Commencez maintenant

Obtenez une démonstration personnalisée

Approuvé par plus de 100 000 équipes

Réserver maintenant

Analysez votre application à la recherche d'IDORs et de chemins d'attaque réels

Approuvé par plus de 100 000 équipes

Démarrer l'analyse

Découvrez comment le pentest IA teste votre application

Approuvé par plus de 100 000 équipes

Démarrer les tests

Commencez maintenant

Comment respecter les normes de qualité du code avec le « code IA » et le « vibe coding »

Le codage Vibe permet de livrer rapidement les fonctionnalités tout en éliminant la dette de révision. Découvrez comment les contrôles de qualité du code, basés sur des critères de référence et effectués règle par règle, fournissent aux équipes une réponse cohérente pour l'ensemble des pull requests et des dépôts.

Qualité du code

Vibe Coding

1er juillet 2026

« • »

Actualités

Et encore une autre. GitHub propose une fonctionnalité de révocation d'urgence des identifiants

La fonction de révocation des identifiants « Break-glass » est désormais disponible sur GitHub Enterprise. Les exemples de tâches récurrentes Trivy Microsoft illustrent pourquoi une révocation rapide et complète était nécessaire.

Sécurité GitHub

26 juin 2026

« • »

Actualités

npm gèle désormais les comptes à fort impact après des modifications de compte risquées

Un aperçu du nouveau gel de compte de 72 heures de npm : ce qui le déclenche, ce qu'il bloque et comment il fonctionne en parallèle avec la publication fiable et étagée.

NPM

open source

Sécurisez votre environnement dès maintenant.

Sécurisez votre code, votre cloud et votre environnement d’exécution dans un système centralisé unique.
Détectez et corrigez les vulnérabilités rapidement et automatiquement.

Lancer l’analyse

Planifiez une démo

Aucune carte de crédit requise | Résultats en 32 secondes.