Il n'y a pas lieu de considérer Mythos comme le plus grand et le plus redoutable de tous.
Ne vous méprenez pas. Selon les critères d'évaluation que l'on utilise, Mythos figure parmi les meilleurs modèles actuellement disponibles, et c'est généralement le plus performant en matière de raisonnement. Mais il n'a pas une avance écrasante sur ses concurrents.
Et lorsqu'il s'agit d'applications concrètes, le simple fait d'appliquer un modèle général, même s'il s'agit d'un modèle de pointe, à un problème ne permet pas d'obtenir les meilleurs résultats. Cette approche n'est d'ailleurs ni évolutive ni rentable. Lorsqu'il s'agit de détecter des vulnérabilités, le cadre utilisé pour le modèle importe davantage que les modèles eux-mêmes.
Nous verrons d'abord pourquoi Mythos n'est pas la solution miracle à tous les problèmes, puis comment un bon harnais permet d'obtenir des résultats de grande qualité à grande échelle.
Mythos fait un peu trop de battage médiatique
Commençons par examiner quelques faits. Mythos est un excellent modèle d'IA, l'un des meilleurs à ce jour, et il continue d'afficher d'excellentes performances lors des tests de performance. Mythos excelle dans la construction de chaînes d'exploitation et la génération de preuves de concept ; ainsi, depuis son lancement, il a accumulé un long palmarès de découvertes de vulnérabilités « zero-day ».
Cependant, même si une certaine appréhension et un certain enthousiasme étaient justifiés, la réaction du public a été disproportionnée par rapport aux améliorations apportées par rapport aux modèles précédents. Chaque nouveau modèle de pointe lancé sur le marché est toujours meilleur que le précédent, mais dans une mesure limitée.
À ce stade, d'autres modèles de pointe se situent également pour la plupart au même niveau, surtout depuis la sortie de GPT-5.5 en avril. L'AI Security Institute britannique l'a classé à peu près au même niveau de capacité cybernétique que Mythos. Dans la catégorie la plus difficile de leur suite d'évaluation, GPT-5.5 a atteint 71,4 %, tandis que Mythos a atteint 68,6 %. Entre Mythos et GPT 5.5, l'un surpasse l'autre selon la tâche.
Mythos n'est pas parfait, et il ne constitue pas encore à lui seul une solution miracle pour détecter toutes les failles de sécurité. Par exemple, quelqu'un a utilisé Mythos sur le code source de la bibliothèque cURL et a envoyé les résultats par e-mail à son fondateur et responsable, Daniel Stenberg. Mythos a mis en évidence cinq « failles de sécurité confirmées ». Mais après examen par l'équipe de Stenberg, il s'est avéré que trois d'entre elles étaient des faux positifs, une était un bug non lié à la sécurité, et une seule constituait une véritable faille. Quelques jours plus tard, Stenberg a reçu 17 signalements de failles provenant d'utilisateurs d'autres outils d'IA. Il a déclaré sur LinkedIn: « Mythos est loin d'avoir atteint la ligne d'arrivée », et a écrit dans son blog à propos de cette expérience qu'il pensait que le battage médiatique autour de Mythos était « principalement du marketing ».
Le harnais est plus important que le modèle
Étant donné que différents modèles excellent désormais dans de nombreuses tâches variées et que les modèles haut de gamme se rapprochent en termes de capacités, le facteur déterminant pour optimiser la détection des vulnérabilités réside dans le harnais.
Un « harness » est la couche d'orchestration qui encadre un modèle (ou plusieurs modèles). Il comprend la logique qui détermine quel agent s'exécute et à quel moment, quel contexte il reçoit, comment les résultats sont validés et quand il faut passer à un modèle plus puissant. Il s'agit d'une combinaison de code, de conception de flux de travail et d'architecture de prompts, le modèle ne constituant qu'un élément parmi d'autres.
Les harnais permettent de faire passer les grands modèles de langage (LLM) d'une approche générale à une adaptation optimale à un domaine et à des tâches spécifiques. Ils tirent également parti du caractère non déterministe des LLM, qui fait qu'ils aboutissent à des résultats légèrement différents à chaque fois. Grâce à un harnais, plusieurs agents examinent une base de code, sachant qu'aucun agent ne détectera à lui seul 100 % des vulnérabilités (y compris les agents fonctionnant sur Mythos).
Dans le cadre de la recherche sur les vulnérabilités, l'étudeCloudflare présente un exemple de ce à quoi ressemble souvent une configuration de harnais bien conçue :
- Une étape de reconnaissance qui analyse le référentiel et crée une file d'attente de tâches pour toutes les opérations en aval
- Une phase de recherche au cours de laquelle de nombreux agents fonctionnent en parallèle, chacun à la recherche de vulnérabilités
- Une phase de validation au cours de laquelle un agent indépendant, utilisant une autre consigne et incapable de générer ses propres résultats, tente de réfuter les conclusions de l'agent de recherche
- Une étape de traçage qui suit les résultats confirmés dans l'ensemble du dépôt afin de déterminer si des données d'entrée contrôlées par l'attaquant peuvent effectivement atteindre le bogue depuis l'extérieur du système
- Logique de déduplication visant à regrouper les incidents ayant la même cause première
La conception du harnais a un tel impact qu'elle importe souvent davantage que le choix du modèle lui-même. Des chercheurs de l'UCSB ont exécuté le même modèle Claude Opus 4.6 sur les mêmes tâches avec différents harnais et ont constaté que le meilleur harnais réussissait quatre fois plus de tests que le pire. À titre de comparaison, l'écart entre des modèles de pointe comme Opus 4.6 et GPT-5.4 sur des benchmarks de codage standard n'est que d'environ un point de pourcentage. Cela signifie que les équipes qui s'acharnent à choisir le bon modèle optimisent à outrance la mauvaise variable.
Niels Provos a illustré ce même concept en abordant la question sous un autre angle. Il a mis au point un harnais qui a permis de détecter une faille vieille de 18 ans dans une bibliothèque couramment utilisée, puis a remplacé le modèle par le GLM 5.1 open-weight et a obtenu des résultats comparables. Il a ainsi démontré qu’un harnais performant peut faire du modèle un composant interchangeable, plutôt que le moteur principal du système.
Les recherches menées par l'équipe de sécurité de Mozilla montrent pourquoi investir dans la conception de harnais s'avère payant à long terme. Une fois leur pipeline de harnais bien établi, chaque nouveau modèle intégré a immédiatement amélioré la détection des bogues, la génération de preuves de concept et l'analyse d'impact, sans nécessiter aucune refonte de l'architecture. Lorsque Mythos a été mis à leur disposition, ils ont pu l'intégrer et en tirer immédiatement profit. En concevant correctement le harnais, les avancées en matière de modèles deviennent un atout dont on profite naturellement, plutôt qu'une adaptation à mettre en place à la hâte.
L'argent fait la loi
L'utilisation de Mythos pour tout pose également un problème d'ordre économique. Les modèles plus puissants sont toujours plus performants, mais ils sont aussi nettement plus chers.
Une seule exécution de Mythos coûte de l'argent réel, de l'ordre de plusieurs dizaines de milliers de dollars, pour effectuer une analyse approfondie d'un référentiel à la recherche de quelques vulnérabilités éventuelles. Exécutez Opus 4.6, ou même GPT-5.4 nano, dix fois pour le même coût qu'une seule exécution de Mythos, et vous en trouverez généralement davantage. Le coût n'est pas proportionnel aux capacités. Par exemple, les coûts d’entrée et de sortie de GPT 5.4 sont deux fois moins élevés que ceux de GPT 5.5, mais le premier n’a pas la moitié de la puissance de raisonnement du second. En interne, nous avons constaté que huit agents GPT-5.4-mini surpassaient un agent GPT-5.5 dans certains cas, pour un coût à peu près équivalent. Les modèles moins chers vous permettent de transformer le nombre d’agents en un avantage.

Le modèle plus petit produira généralement davantage de faux positifs qu’un modèle Frontier, car il est en effet moins précis. Mais dans ce cas particulier, la quantité importe autant que la qualité, puisque l’objectif est de s’assurer de détecter le plus grand nombre possible de vulnérabilités. C’est là que les harnais peuvent aider à filtrer le bruit superflu, que d’autres agents peuvent vérifier les chaînes d’exploitation et procéder au nettoyage, et c’est bien plus économique que d’exécuter Mythos et des modèles Frontier pour tout détecter.
Quels outils les cybercriminels vont-ils réellement utiliser ? Certainement pas Mythos. Tout d'abord, ils ne l'ont pas. Mais ils vont vouloir utiliser tout ce qui peut fonctionner à moindre coût, de manière répétée et à grande échelle, et ils ne vont pas faire la queue. Les modèles open-source dotés d'infrastructures adéquates fonctionnent bien, et c'est probablement ce qu'ils font en ce moment même.
Et pour les entreprises, qu'est-ce qui est durable ? Exécuter un modèle de pointe à chaque modification du code ne l'est certainement pas. En revanche, mettre en place une orchestration à plusieurs niveaux qui utilise régulièrement des modèles peu coûteux et des modèles coûteux de manière ciblée… ça, c'est durable.
Ne faites pas attention au mannequin derrière le rideau
Mythos a marqué un tournant fascinant dans notre histoire. Il a attiré l'attention de tous sur les capacités actuelles des modèles. Cependant, il existe des moyens alternatifs et moins coûteux d'assurer une détection autonome des vulnérabilités de haute qualité et performante, sans se limiter à Mythos ou au projet Glasswing.
Les fournisseurs cantonnés à un seul modèle doivent s'efforcer de le perfectionner. Les plateformes indépendantes des fournisseurs ont en revanche la possibilité de choisir l'outil le mieux adapté à chaque tâche. Un modèle plus simple peut couvrir un large champ et faire émerger des candidats, tandis qu'un modèle plus puissant peut analyser en profondeur ceux qui semblent intéressants et nécessitent des capacités de raisonnement plus poussées. Pour obtenir les meilleurs résultats en matière de AppSec pentest IA, il faut privilégier les systèmes dotés d'infrastructures sophistiquées qui utilisent les bons modèles, plutôt que de se focaliser sur le modèle le plus sophistiqué.

Chez Aikido, nous avons très tôt compris que la quantité, l'orchestration et la liberté de choisir l'outil le mieux adapté à chaque tâche l'emportaient sur la course effrénée aux solutions les plus coûteuses du moment. En tant que AppSec , nous considérons qu'il est de notre responsabilité de mettre en place une orchestration permettant à la couche technique de continuer à évoluer en arrière-plan. Si vous souhaitez en savoir plus sur la manière dont nos tests d'intrusion peuvent vous aider à sécuriser votre application, contactez-nous dès aujourd'hui.
P.S. Nous avons également rédigé une liste de contrôle compatible avec Mythos afin d'aider les équipes à se préparer aux menaces liées à l'IA agentique (qu'elle soit alimentée par Mythos ou par de nombreux mini-modèles GPT 5.4).

