
Les modèles de langage (LLM) excellent dans de nombreuses tâches, dont la classification de texte. Mais comment vérifier la fiabilité de leurs prédictions ? C’est tout l’enjeu des “guardrails”, ces garde-fous qui contrôlent et valident les réponses d’un LLM. Dans le cadre d’une tâche de classification, cet article présente une technique simple mais efficace : décomposer la vérification en contrôlant un par un les attributs caractéristiques de la classe identifiée. Nous verrons également comment étendre cette technique à d’autres types de tâches, et l’appliquer à l’échelle industrielle.

