Ajouter un commentaire

AppSec : l'IA traque les zero-days mais il faut de l'humain

Par:

francoistonic

mer, 11/03/2026 - 18:36

Avis d'expert de Checkmarx

Si la fonction "security-review" de Claude Code qui peut détecter des failles dans le code peut paraître impressionnante, avant de l'adopter, les entreprises doivent bien comprendre ses limites et ne pas lui faire une confiance aveugle.

Une nouvelle analyse des chercheurs de Checkmarx Zero met en lumière les capacités mais aussi les limites des modèles d'IA générative dans la détection de vulnérabilités inédites (zero-days). L'étude s'appuie notamment sur les fonctionnalités de sécurité introduites avec Claude Opus 4.6, le modèle de la société Anthropic, capable d'analyser du code et de signaler des failles potentielles.

Il est important de noter que la chasse aux zero-days assistée par LLM n'est pas nouvelle : le projet Big Sleep de Google avait déjà découvert une faille dans SQLite dès 2024, et des chercheurs ont utilisé le modèle o3 d'OpenAI pour identifier le CVE-2025-37899. Claude Opus 4.6 s'inscrit donc dans une tendance déjà existante, et non comme un pionnier isolé.

Si ces avancées illustrent le potentiel des LLM pour la recherche de vulnérabilités, les chercheurs appellent les entreprises à rester prudentes avant d'intégrer ces outils dans leurs programmes de sécurité. Anthropic eux-mêmes l'admettent : face au volume de résultats générés, ils ont dû faire appel à des chercheurs humains externes pour valider les findings et développer les correctifs — un aveu significatif des limites intrinsèques de l'outil.

L'IA peut détecter des failles… mais pas seule

Les modèles d'IA peuvent identifier certains types de vulnérabilités et analyser rapidement de grandes quantités de code. Ils peuvent notamment repérer des schémas d'erreurs courants ou assister les équipes de sécurité dans le tri et l'analyse des alertes.

Cependant, ces outils ne remplacent pas les solutions traditionnelles d'Application Security (AppSec) telles que les scanners SAST, DAST ou IaC, ni l'expertise humaine nécessaire pour valider les résultats, analyser l'exploitabilité réelle d'une faille et prioriser les correctifs.

Un problème central : le contexte

L'efficacité des LLM dépend fortement du contexte fourni lors de l'analyse. Lorsqu'un modèle examine un dépôt de code complet sans instructions précises, les résultats peuvent être très approximatifs.

Lors d'un test réalisé par les chercheurs sur le projet open source n8n, l'IA a identifié huit vulnérabilités potentielles après avoir consommé presque tout son budget de contexte. Sur ces huit alertes, seules deux se sont révélées être de véritables failles.

Les modèles peuvent également redécouvrir des vulnérabilités déjà connues et les présenter comme des zero-days. C'est exactement ce qui s'est produit avec FreeRDP : Claude a signalé une déréférence de pointeur nul comme une nouvelle découverte, sans réaliser que la faille avait déjà été divulguée et que le composant concerné (SDL2) était déprécié depuis plus d'un an. De même, sur n8n, Claude a correctement identifié une vulnérabilité XSS via SVG, mais a ensuite recommandé une remédiation incomplète et erronée, en affirmant qu'il suffirait de corriger le SVG pour résoudre le problème — ce qui est faux. Ces cas illustrent la nécessité d'une validation humaine systématique.

Par ailleurs, le coût économique de ces analyses est loin d'être négligeable : consommer 90 % du budget de contexte sur un seul projet tout en générant encore des faux positifs pose un problème de scalabilité réel à l'échelle enterprise.

Un outil d'augmentation, pas une solution miracle

Selon les chercheurs, les outils de sécurité basés sur l'IA peuvent apporter une réelle valeur en accélérant certaines tâches : analyse initiale du code, contextualisation des vulnérabilités, aide à la remédiation pour les développeurs. Mais ils ne peuvent pas garantir à eux seuls les exigences essentielles d'un programme de sécurité : traçabilité, cohérence, auditabilité et conformité.

Vers un modèle hybride pour la sécurité applicative

La conclusion de l'étude est claire : l'avenir de la sécurité applicative repose sur une combinaison entre outils traditionnels, IA et expertise humaine. Les entreprises qui tireront le meilleur parti de ces technologies seront celles qui utiliseront les LLM comme multiplicateurs d'efficacité pour leurs équipes de sécurité existantes, plutôt que comme substituts aux outils et aux processus déjà éprouvés.

Un exemple concret est donné par l'éditeur en utilisant Claude Code Opus 4.6 : https://checkmarx.com/zero-post/learning-about-llm-based-zero-day-hunting-with-claude-codes-opus-4-6/

Ajouter un commentaire

Ajouter un commentaire

AppSec : l'IA traque les zero-days mais il faut de l'humain

Filtered HTML

Plain text