Data Poisoning vs Model Poisoning : quelle différence ?
Pour comprendre la menace, il faut distinguer deux méthodes d’empoisonnement qui visent le même but : corrompre la logique de l’IA.
Le Data Poisoning : corrompre à la racine
C’est l’attaque la plus insidieuse car elle intervient avant même que l’IA ne soit créée. L’idée est simple : « You are what you eat ». Si une IA est nourrie avec des données toxiques lors de son apprentissage, elle recrachera des résultats toxiques. Les hackers injectent des informations fausses ou biaisées dans les jeux de données (datasets) utilisés pour l’entraînement.
Imaginez un système de reconnaissance faciale à qui l’on apprendrait, via des milliers de photos truquées, qu’une personne portant une certaine broche rouge est toujours un « employé autorisé ». Une fois le modèle déployé, n’importe quel intrus portant cette broche pourrait entrer sans déclencher l’alarme.
Le Model Poisoning : altérer le cerveau déjà formé
Ici, l’attaque cible un modèle déjà entraîné. L’objectif est de modifier ses paramètres ou son architecture pour y insérer une faille. C’est plus technique, mais tout aussi redoutable.
250 documents pour créer une porte dérobée
Une étude conjointe de l’Institut britannique de sécurité de l’IA, de l’Institut Alan-Turing et d’Anthropic a révélé un chiffre effrayant : 250 documents malveillants suffisent pour insérer une « backdoor » (porte dérobée) dans un modèle. Peu importe que l’IA ait été entraînée sur des millions de textes, cette infime fraction de poison suffit à corrompre son comportement.
Des chercheurs ont même démontré que modifier seulement 0,001% d’un jeu de données médicales suffisait à fausser gravement les diagnostics d’une IA. C’est le principe de la goutte de cyanure dans le réservoir d’eau potable.
Les nouvelles armes des pirates : Backdoors et Topic Steering
Les cybercriminels ne manquent pas de créativité pour exploiter ces failles :
- Les Backdoors (portes dérobées) : L’IA fonctionne parfaitement 99% du temps. Mais si elle détecte un mot-clé spécifique ou un motif visuel caché (un « trigger »), elle change radicalement de comportement. Par exemple, elle pourrait valider automatiquement toutes les factures contenant un code invisible spécifique.
- Le Topic Steering : Cette technique s’apparente à du lobbying massif. Les pirates saturent le web de contenus biaisés sur un sujet précis. Si une IA aspire ces données pour se mettre à jour, elle finira par adopter ce biais comme une vérité absolue. C’est une menace directe pour la réputation des marques (« Brand Safety ») ou la neutralité de l’information.
Une menace invisible et difficile à contrer
Le cauchemar des experts en sécurité, c’est que ces attaques sont silencieuses. Contrairement à un ransomware qui bloque vos écrans avec une demande de rançon, une IA empoisonnée continue de tourner « normalement ». Elle prend juste de mauvaises décisions, discrètement, pendant des mois.
De plus, la taille ne protège pas. L’étude d’Anthropic montre qu’un modèle géant de 13 milliards de paramètres est tout aussi vulnérable qu’un petit modèle. Une fois le poison ingéré, le « remède » est souvent drastique : il faut jeter le modèle à la poubelle et tout recommencer depuis le début avec des données saines, ce qui coûte une fortune.
Comment se protéger ?
Face à ce « Black Hat SEO » de l’IA, la vigilance est de mise. Pour les entreprises, cela signifie :
- L’hygiène des données : Ne jamais faire confiance aveuglément aux datasets open-source. Il faut nettoyer, vérifier et tracer l’origine de chaque donnée.
- La surveillance humaine : Garder un œil critique sur les résultats de l’IA, surtout pour les décisions sensibles (crédit, santé, sécurité).
- L’entraînement contradictoire : Entraîner volontairement l’IA à reconnaître et rejeter des données pièges.








