Découverte de matériel d’abus et d’exploitation pédosexuels dans un corpus d’images utilisé dans le développement d’outils de modération par IA, selon une analyse réalisée par une organisation caritative canadienne de protection de l’enfance

Le corpus d’images en question est largement utilisé pour entraîner des modèles de détection de nudité par IA. Il est téléchargé abondamment et utilisé à des fins de recherche.

22 octobre 2025
Pour diffusion immédiate

Winnipeg, Canada - Un vaste corpus d’images utilisé en recherche pour développer des outils de détection de contenus sexuellement explicites par IA contient de nombreuses images d’exploitation et d’abus sexuels d’enfants, selon une analyse du Centre canadien de protection de l’enfance (CCPE). Cette découverte soulève de nombreux problèmes d’éthique pour les chercheurs et les investisseurs en intelligence artificielle (IA).

Ce corpus d’images, connu sous le nom de NudeNet, contient plus de 700 000 images prélevées dans diverses sources en ligne, dont des sites de médias sociaux, des services d’hébergement d’images et des sites de pornographie adulte.

Une analyse du corpus NudeNet au moyen d’une technologie de correspondance d’images doublée d’une vérification manuelle a permis de découvrir près de 680 images dont le CCPE sait ou soupçonne qu’il s’agit de matériel d’abus et d’exploitation pédosexuels (MAEP) et d’autres images préjudiciables et violentes de personnes mineures. L’analyse portait strictement sur du MAEP connu du CCPE.

Dans le MAEP découvert, il y a :

plus de 120 images de victimes identifiées ou connues, dont des survivant·es du Canada et des États-Unis;
près de 70 images mettant en évidence la région génitale ou anale d’enfants dont on sait qu’ils sont prébubères ou qui semblent l’être;
près de 130 images mettant en évidence la région génitale ou anale d’enfants dont on sait qu’ils sont postbubères ou qui semblent l’être;
des scènes de sexualité ou de violence impliquant des enfants et des adolescents (p. ex. fellation, pénétration péno-vaginale).

Le CCPE a depuis adressé une demande de suppression aux administrateurs du site Academic Torrents, d’où les utilisateurs pouvaient télécharger le corpus d’images depuis juin 2019. Au moment de publier ce communiqué, les images découvertes ne figurent plus dans le corpus.

Ces résultats rappellent ceux d’une étude menée par le Cyber Policy Center de l’Université Stanford en 2023, qui avait donné lieu à la découverte de plus d’un millier d’images d’abus pédosexuels dans LAION-5B, un immense corpus d’images en libre accès qui a servi notamment à entraîner des outils de génération d’images populaires, comme Stable Diffusion. Le CCPE a appuyé le Cyber Policy Center dans cette étude en participant à la validation des résultats au moyen de sa plateforme technologique Projet Arachnid, développée au Canada.

Considérations éthiques pour les chercheurs en IA et les entreprises de technologie

Le CCPE a aussi recensé quelque 250 études qui citent ou qui ont utilisé le corpus NudeNet ou qui ont utilisé un classificateur d’images par IA entraîné sur le corpus NudeNet. Un examen non exhaustif de 50 de ces projets universitaires révèle que 13 d’entre eux ont utilisé le corpus NudeNet et que 29 s’appuyaient sur le classificateur ou le modèle de NudeNet.

Le CCPE a recensé au moins un groupe de recherche rattaché à des établissements canadiens qui a utilisé le corpus NudeNet.

« À l’heure où les pays continuent d’investir dans le développement de technologies basées sur l’IA, il est capital que les chercheurs et les entreprises de technologie ne perdent jamais de vue la dimension éthique de leurs activités », signale Lloyd Richardson, directeur informatique du CCPE.

« Les applications et les initiatives de recherche utilisent souvent des modèles d’IA qui ont été entraînés sur des données recueillies sans discernement ou par des méthodes éthiquement discutables. C’est à cause de ce manque de diligence raisonnable que du matériel d’abus et d’exploitation pédosexuels connu se retrouve dans des corpus d’entraînement, et c’est quelque chose que l’on pourrait facilement éviter », ajoute M. Richardson.

En l’occurrence, le CCPE recommande les mesures suivantes pour réduire les risques d’utilisation involontaire de MAEP dans la recherche en IA et promouvoir des pratiques éthiques et exemplaires dans ce domaine :

Les distributeurs et les utilisateurs de corpus d’entraînement devraient prendre les précautions voulues pour vérifier que leurs corpus sont exempts de MAEP, quitte à faire appel à des autorités ou à des organisations compétentes pour vérifier les images.
Les distributeurs de corpus d’entraînement et de modèles d’IA devraient s’assurer que les utilisateurs ont la possibilité de signaler les images violentes ou illégales découvertes dans un corpus.
Les comités d’éthique de la recherche universitaire et les établissements qui évaluent et approuvent les projets de recherche devraient examiner de près les projets liés à l’IA et se renseigner sur les données sources qui seront utilisées par les équipes de recherche. Ces dernières devraient en outre être tenues de prendre des mesures raisonnables pour vérifier que leurs corpus d’images sont exempts de MAEP et ne porte pas atteinte à la vie privée des enfants.
Le développement et l’utilisation éthiques des technologies liées à l’IA devraient être encadrés par des lois et des règlements.

Contacts médias

Centre canadien de protection de l’enfance
1 (204) 560-0723
communications@protegeonsnosenfants.ca

Considérations éthiques pour les chercheurs en IA et les entreprises de technologie

Soutenez nos efforts. Faites-nous un don.