Introduction
Les fuites de données personnelles, également appelées « violations de données » [18], constituent un enjeu fondamental pour la cybersécurité en affectant tant les entreprises que les individus [21]. Elles résultent de compromissions des systèmes d’informations par des acteurs malveillants, ce qui entraîne l’exposition d’informations confidentielles. La croissance exponentielle du stockage des données et l’évolution continue des vecteurs d’attaques, augmente les vulnérabilités des systèmes d’information [17].
Cet état de l’art a pour objectif d’analyser l’écosystème des fuites de données personnelles sous plusieurs aspects : la technologie, la méthodologie, l’éthique et le juridique.
Les vecteurs communs d’attaques
Les fuites de données résultent de diverses techniques mises en œuvre par les cybercriminels pour infiltrer des systèmes et exfiltrer des informations sensibles. Ces attaques visent à compromettre des bases de données d’entreprises, d’institutions ou de services en ligne. Cela arrive soit par le biais de compromissions massives de plateformes numériques, soit en ciblant des utilisateurs individuels via des logiciels malveillants [11]. Ces approches permettent d’obtenir des données exploitables qui seront revendues sur des forums criminels [23] et qui seront utilisées pour mener de nouvelles attaques [12] ou pour faire du chantage [5]. Deux grands axes d’attaque favorisent les fuites de données : les intrusions visant directement des services numériques et l’utilisation de logiciels malveillants comme les infostealers [25].
Les attaques sur les services numériques sont l’une des principales sources de fuites de données. Ces attaques impliquent généralement des techniques comme l’exploitation de vulnérabilités système, d’injections SQL et de ransomwares [17]. En accédant à des bases de données mal protégées, les attaquants parviennent à récupérer des millions d’enregistrements contenant des identifiants, des informations financières et d’autres données sensibles [17]. IBM estime que 6 % des fuites de données sont causées par des vulnérabilités non corrigées. Cela rappelle l’importance de la mise en place d’une politique de mise à jour du système d’informations [11]. L’injection SQL, par exemple, permet aux cybercriminels d’exploiter des failles dans la gestion des bases de données pour exfiltrer d’énormes volumes de données en contournant les contrôles d’accès [24]. Les ransomwares, quant à eux, ne se contentent plus uniquement de chiffrer les fichiers mais ils intègrent une phase d’exfiltration des données avant l’exécution du chiffrement. Cela permet aux attaquants de monétiser l’attaque sous plusieurs angles : rançon exigée pour la restitution des fichiers et menace de divulgation en cas de non-paiement [26].
Parallèlement à ces attaques massives, une seconde approche repose sur l’infection des postes individuels via les infostealers. Contrairement aux attaques de grande envergure visant des services numériques, les infostealers ciblent directement les machines des utilisateurs pour collecter des identifiants, des cookies de session et des informations bancaires [11]. Ces logiciels malveillants s’installent par le biais de campagnes de phishing [14], de téléchargements illégaux (comme des logiciels « crackés ») ou de vulnérabilités sur des logiciels obsolètes [17]. Une fois implanté, l’infostealer fonctionne en tâche de fond et récupère discrètement les informations stockées sur le système. Il les transmet ensuite aux attaquants via des canaux chiffrés comme Telegram [15].
Différence des fuites de données personnelles entre « froides » et « fraîches »
Comme expliqué précédemment, il est possible de catégoriser les fuites de données personnelles en deux grandes catégories : les bases de données compromises, souvent appelées data breaches, et les logs issus des infostealers, souvent appelées leaks. Ces deux formes de fuite diffèrent par leur mode de collecte, d’utilisation et d’impact sur la sécurité [10].
Les bases de données compromises : informations « froides »
Les bases de données compromises résultent généralement d’attaques sur des services numériques, qu’il s’agisse de plateformes de réseaux sociaux, de services de streaming, ou de sites de commerce en ligne [21]. Ces fuites concernent souvent un volume massif d’informations, regroupant des millions d’identifiants, d’adresses mail et parfois même des données financières [22]. Une fois publiées ou vendues sur le « darkweb », ces données sont utilisées par des cybercriminels pour mener diverses attaques, telles que l’usurpation d’identité ou le credential stuffing [12].
L’exploitation de ces bases de données présente plusieurs avantages pour les attaquants. Elles fournissent un grand nombre d’informations exploitables qui permettent de cartographier une cible et de rechercher des relations entre différentes identités numériques [23]. De plus, ces bases sont facilement accessibles sur des forums du « dark web » ou sur des canaux Telegram [6]. En parallèle, des outils de recherche permettent de recouper ces informations avec des bases de données préexistantes pour affiner les attaques [10].
Cependant, l’utilisation de ces bases de données comporte aussi des limites. Les formats de fichiers varient considérablement (SQL dumps, CSV, TXT…), ce qui nécessite un travail de normalisation et d’analyse [23]. De plus, certaines informations peuvent être obsolètes, notamment les mots de passe, qui sont parfois modifiés par les utilisateurs après une fuite publique [26]. Enfin, la qualité des bases de données doit être soigneusement vérifiée parce que certaines peuvent être modifiées ou falsifiées dans le but de tromper les acheteurs sur les forums criminels [25].
Les logs d’infostealers : informations « fraîches »
Les logs d’infostealers sont des données exfiltrées directement depuis les machines des utilisateurs infectés [11]. Les infostealers sont des logiciels malveillants conçus pour collecter des informations sensibles en temps réel, notamment des identifiants stockés dans les navigateurs, des cookies de session, des accès VPN et même des portefeuilles de cryptomonnaies [14].
L’un des principaux atouts des infostealers est leur capacité à fournir des données fraîches et immédiatement exploitables [10]. Contrairement aux bases de données compromises qui peuvent contenir des informations périmées, les logs d’infostealers permettent aux attaquants d’accéder à des sessions actives et d’utiliser directement les identifiants volés avant que la victime ne prenne conscience de la compromission [25].
Néanmoins, ces données présentent également des inconvénients. Elles sont souvent massivement partagées sur des canaux Telegram ou d’autres plateformes criminelles, ce qui rend leur tri et leur analyse nettement plus complexes [15]. De plus, ces logs peuvent être redondants et peuvent nécessiter un traitement supplémentaire pour être exploitables efficacement [6]. Par ailleurs, le ciblage précis est plus difficile à réaliser, car ces fuites concernent des utilisateurs individuels plutôt que des services entiers [26].
L’économie des infostealers repose sur un modèle bien structuré où différents groupes jouent des rôles spécialisés. Certains développent ces logiciels malveillants et les vendent sous forme de Malware-as-a-Service, d’autres les diffusent par le biais de campagnes de phishing ou de malvertising, tandis qu’un troisième groupe collecte et revend les informations volées à des acheteurs cherchant à cibler des victimes spécifiques [11].
Les plateformes de communication pour la diffusion des données volées
La diffusion des données volées repose sur une combinaison de plateformes de communication instantanée et de forums. Ces plateformes se situent dans différentes couches du web, qui sont le « clear web », le « deep web » et le « dark web ». Chacune de ces couches jouent un rôle distinct dans l’échange et la revente des informations compromises [27].
Classification des couches du web
Le « clear web » représente la partie d’Internet accessible aux moteurs de recherche et aux utilisateurs sans authentification particulière. Les sites d’actualités, les plateformes institutionnelles ou les blogs sont des exemples de contenus accessibles via le « clear web ». Cependant, les fuites de données ne sont généralement pas publiées sur cette couche du web.
Le « deep web » englobe tous les contenus qui ne sont pas indexés par les moteurs de recherche classiques. Il inclut les bases de données privées, les forums nécessitant une authentification et certains marchés criminels (comme BreachForums et LeakBase) où les données volées sont commercialisées. Bien que ces forums ne soient pas toujours illégaux, ils facilitent souvent l’échange de bases de données issues de violations de sécurité.
Le « dark web », quant à lui, est une sous-partie du « deep web » accessible uniquement via des logiciels spécifiques comme Tor ou I2P. Il héberge des sites avec l’extension « .onion », souvent utilisés par des groupes de cybercriminels pour anonymiser leurs échanges et échapper à la surveillance. Contrairement au « deep web », qui peut contenir des sites légitimes protégés par des identifiants, le « dark web » est plus souvent associé à des activités illégales, y compris la vente de bases de données volées [27].
Le rôle de Telegram et des forums criminels dans la diffusion des données volées
La diffusion des données volées s’appuie largement sur Telegram et des forums criminels. Telegram est particulièrement utilisé pour le partage rapide de logs issus des logiciels malveillants de type infostealer. Sa facilité d’accès, son chiffrement de bout en bout et la possibilité de créer des canaux anonymes en font un outil privilégié par les cybercriminels [14]. Sur ces canaux, des abonnements payants permettent aux acheteurs d’accéder à des logs régulièrement mis à jour. Ces logs contiennent des identifiants de connexion, des cookies de session, des accès VPN et d’autres données sensibles [6]. L’utilisation de bots Telegram permet d’automatiser les transactions et rend l’accès aux données encore plus fluide et rapide [14].
Parallèlement, les forums criminels tels que BreachForums et ses prédécesseurs (RaidForums, OGUsers) constituent des places de marché pour les bases de données compromises [23]. Les bases sont initialement mises en vente à des prix élevés pour un acheteur exclusif, avant d’être progressivement partagées gratuitement sur Telegram une fois que leur valeur marchande a déclinée [15].
Les limites et menaces pour les plateformes de cybercriminalité
Malgré leur succès, ces plateformes sont de plus en plus exposées aux interventions des forces de l’ordre. Telegram a récemment modifié sa politique de confidentialité et a commencé à partager les adresses IP et les numéros de téléphone des utilisateurs suspectés d’activités illégales avec les autorités. Cette évolution a semé la panique parmi les cybercriminels, qui cherchent désormais des alternatives plus sûres comme Matrix, Jabber, ou des plateformes de discussion privées hébergées sur le « darkweb » [6].
De la même manière, les forums spécialisés sont régulièrement fermés et ressuscités sous de nouvelles identités. BreachForums, après la fermeture de RaidForums en 2022, est devenu la plateforme de référence pour l’échange de bases de données exfiltrées. Cependant, à la suite de l’arrestation de son fondateur Conor Brian Fitzpatrick et de plusieurs autres administrateurs en 2023, le site a été temporairement mis hors ligne. Il a ensuite été relancé par d’anciens membres et par le groupe de hackers ShinyHunters[23].
En avril 2025, BreachForums a de nouveau disparu, mais cette fois-ci, l’origine de cette coupure reste floue. Bien que certains soupçonnent une nouvelle intervention du FBI, un groupe se faisant appeler Dark Storm Team revendique avoir lancé une attaque par déni de service distribué (DDoS) contre le forum « pour le fun ». Ce groupe, principalement connu pour ses attaques hacktivistes pro-palestiniennes, a récemment étendu ses activités à d’autres cibles internationales.
Contrairement aux saisies précédentes du FBI, cette fois-ci, il n’y a pas de page de saisie officielle ou de signature claire d’une opération des autorités. Le forum a été mis hors ligne suite à une simple perturbation DNS, et il existe une grande spéculation sur la véritable cause de cette coupure.
Conclusion : Vers une migration des plateformes ?
L’avenir des marchés criminelles des données volées est incertain. Alors que Telegram reste une solution populaire pour la diffusion rapide des logs d’infostealers, le renforcement de la surveillance par les autorités pourrait encourager une migration vers des plateformes plus sécurisées et anonymes [15]. De même, si les forums comme BreachForums continuent à renaître après chaque fermeture, il devient de plus en plus difficile pour les cybercriminels de maintenir des infrastructures pérennes sur le « darkweb ». Face à cette répression accrue, les cybercriminels explorent de nouveaux moyens d’échanger et de commercialiser leurs données, notamment en recourant à des places de marché décentralisées et chiffrées, à l’abri des surveillances gouvernementales [6].
Quelques cas marquants de fuites de données
Les violations de données ont marqué l’histoire de la cybersécurité et ont profondément impacté la sécurité numérique mondiale. En effet, l’étude menée par Cybersecurity at MIT Sloan a permis de construire une base de données mondiale des violations de données, recensant les 430 plus grandes fuites parmi plus de 10 000 incidents analysés entre 2018 et 2019 [9]. Cette base montre une explosion du volume des données compromises, passant de 4 milliards d’enregistrements en 2018 à plus de 22 milliards en 2019, malgré des réglementations de plus en plus strictes comme le RGPD [16]. Certaines fuites ont révélé des millions, voire des milliards d’identifiants et de données personnelles, rendant des populations entières vulnérables aux attaques comme le credential stuffing ou l’usurpation d’identité [12].
Cinq fuites de données marquantes et leurs conséquences
• Yahoo (2013-2014) – 3 milliards de comptes compromis
L’une des plus grandes fuites de l’histoire, Yahoo en 2013, les données de plus de 3 milliards de comptes ont été compromises, incluant des noms, des adresses mail, des numéros de téléphone et des mots de passe hachés [21]. Cette attaque, menée par des cybercriminels, a mis en évidence les faiblesses des systèmes de sécurité de l’époque et a conduit à une prise de conscience sur l’importance de la sécurisation des bases de données à grande échelle [22].
• Aadhaar (2018) – 1,1 milliard d’enregistrements fuités
Le programme d’identification indien Aadhaar a subi une fuite massive en 2018, exposant des informations personnelles critiques telles que les numéros d’identification, les empreintes digitales et les scans de l’iris de plus d’un milliard de citoyens [21]. Cette fuite a soulevé d’importantes questions sur la sécurité des bases de données gouvernementales et la protection des informations biométriques [22].
• Equifax (2017) – 147 millions de dossiers financiers exposés
La fuite de données d’Equifax en 2017 a exposé les informations financières et personnelles de 147 millions de personnes, dont des numéros de sécurité sociale et des informations de crédit [21]. Cette attaque a conduit à des poursuites judiciaires massives et à une amende record de 700 millions de dollars aux États-Unis pour non-respect des normes de cybersécurité [22].
• Ashley Madison (2015) – 30 millions de comptes exposés
Le site de rencontres extraconjugales Ashley Madison a subi une fuite de données massive en 2015, révélant les informations personnelles et les préférences de plus de 30 millions d’utilisateurs [21]. Cette fuite a eu des conséquences dramatiques, notamment des cas de chantage, de cyberharcèlement et des répercussions personnelles graves pour de nombreuses victimes. Elle illustre l’impact psychologique et social que peuvent avoir les fuites de données sur la vie privée des individus [22].
• Collection #1-5 (2019) – 2,2 milliards d’identifiants exposés
Collection #1-5 est une compilation de plusieurs fuites de données majeures, rassemblant plus de 2,2 milliards de combinaisons de mails et de mots de passe uniques [21]. Il s’agit d’une des plus grandes bases de données de credentials volés, qui continue d’alimenter le marché noir et d’être utilisée pour des attaques de credential stuffing [12].
Vers une meilleure transparence des fuites de données
L’étude de MIT Sloan montre que, malgré des efforts croissants en matière de réglementation et de cybersécurité, le nombre de fuites de données ne cesse d’augmenter [9]. De nombreux incidents ne sont pas déclarés publiquement, ce qui fausse les statistiques et réduit la visibilité réelle du phénomène. Le développement d’une base de données mondiale des violations de données, comme celle décrite dans l’étude, viserait à fournir une meilleure visibilité sur l’ampleur du problème et encouragerait la mise en place de mesures plus strictes en matière de cybersécurité [9].
Ces incidents montrent l’importance de la menace que représentent les fuites de données et la nécessité pour les entreprises et les utilisateurs de renforcer leurs pratiques de cybersécurité [17]. Les conséquences de ces violations vont au-delà des simples pertes financières mais elles affectent également la confiance des consommateurs et incitent les gouvernements à adopter des lois plus strictes en matière de protection des données [16]. L’exemple d’Ashley Madison démontre que les fuites ne se limitent pas à des enjeux financiers mais peuvent aussi impacter profondément la vie personnelle des individus [22].
Exploitation des fuites de données
Utilisations courantes des fuites de données personnelles
Les fuites de données constituent une base précieuse pour de multiples types d’attaques. Bien que le credential stuffing soit l’une des méthodes d’exploitation les plus connues, d’autres techniques sont également couramment utilisées pour tirer profit des informations compromises. Les principales attaques issues des fuites de données comprennent le phishing, les ransomwares, le doxxing, l’usurpation d’identité et la vente de données.
Le credential stuffing repose sur l’utilisation massive d’identifiants volés pour accéder à des comptes protégés par des mots de passe réutilisés. Des outils automatisés tels que OpenBullet, SNIPR ou Sentry MBA permettent de tester des milliers de combinaisons identifiants/mots de passe par seconde [24]. La méthode est particulièrement efficace lorsqu’elle s’appuie sur des bases de données volumineuses et régulièrement mises à jour, telles que COMB (Compilation of Many Breaches) contenant plus de 3,2 milliards d’identifiants. Les conséquences incluent le vol de données supplémentaires, la fraude financière et l’usurpation d’identité [26].
Le spear phishing est une méthode d’exploitation courante où les attaquants utilisent des informations récupérées lors de fuites de données pour personnaliser leurs messages frauduleux et tromper leurs victimes. Les utilisateurs reçoivent des courriels ou messages imitant des entités légitimes, leur demandant de divulguer leurs identifiants ou de cliquer sur des liens malveillants. Cette technique peut entraîner des pertes financières, l’installation de logiciels malveillants, ou un accès non autorisé à des comptes personnels [12].
Les ransomwares exploitent également les fuites de données pour sélectionner des cibles vulnérables. Les cybercriminels chiffrent les données d’une organisation ou menacent de publier des informations sensibles volées pour exiger une rançon. Le doxxing consiste à divulguer publiquement des informations personnelles sensibles pour harceler ou intimider les victimes. Les données exposées peuvent inclure des adresses, des numéros de téléphone, ou même des informations financières, ce qui provoque des répercussions graves pour la vie privée et la sécurité des individus ciblés [21].
Les usurpations d’identité sont des conséquences fréquentes des fuites de données. Les informations volées peuvent être utilisées pour obtenir des produits ou services avec les données de paiement d’une victime, ou pour ouvrir des comptes bancaires frauduleux. Les personnes affectées subissent des pertes financières importantes et doivent engager des démarches longues pour rétablir leur identité [12].
La vente et revente de données constituent une activité lucrative facilitée par des plateformes criminelles. Les informations volées sont fréquemment revendues sur des forums du « dark web » ou des canaux Telegram. Ces ventes peuvent concerner des bases de données massives ou des accès spécifiques à des comptes compromis. Des forums comme BreachForums montrent comment ces pratiques se sont normalisées [23].
Enfin, l’extorsion est une méthode courante d’exploitation où les attaquants utilisent la menace de divulguer des informations sensibles pour obtenir une rançon ou contraindre les victimes à effectuer des actions spécifiques. Les effets peuvent être dévastateurs pour la réputation d’une organisation ou d’un individu [28].
Ces différentes utilisations montrent que les fuites de données représentent une ressource précieuse pour les cybercriminels, qui utilisent aussi bien des méthodes techniques que psychologiques pour exploiter ces informations.
Exploitation des données et rôle des Graph Neural Networks (GNNs)
Une avancée notable dans l’analyse des fuites de données est l’utilisation des Graph Neural Networks (GNNs) pour prédire et cartographier les risques liés au credential stuffing. Des études ont montré que ces modèles permettent d’identifier les corrélations entre les fuites de données et les habitudes de réutilisation de mots de passe [13]. En s’appuyant sur ces analyses, il est possible d’anticiper quels services seront les plus vulnérables à une attaque de credential stuffing en fonction des fuites de données récentes.
Mesures de protection et stratégies de réduction des risques
Face à cette menace croissante, plusieurs entreprises et institutions développent des solutions pour réduire les risques associés aux fuites de données. Google et Have I Been Pwned ont mis en place des outils permettant de vérifier si un identifiant a déjà été exposé dans une violation de données. Ainsi les utilisateurs sont incités à modifier leurs mots de passe compromis [10].
Les meilleures pratiques pour se protéger sont :
• L’authentification multi-facteurs (MFA), qui empêche l’accès aux comptes même si les identifiants ont été compromis.
• L’utilisation de gestionnaires de mots de passe, qui permettent de générer et stocker des identifiants uniques pour chaque service.
• La détection d’activités suspectes sur les comptes utilisateurs, en identifiant les tentatives de connexion répétées et en bloquant les accès en cas de comportement anormal [24].
Outils et services de surveillance des fuites de données
La surveillance des fuites de données est essentielle pour comprendre l’exposition des informations sensibles et prévenir d’éventuelles cyberattaques. Plusieurs outils et plateformes permettent d’identifier, d’analyser et de rechercher des bases de données compromises sur le marché noir ou des réseaux de communication. Ces solutions varient en fonction de leurs fonctionnalités, du type de données qu’elles traitent et de leur niveau d’accessibilité.
Certains services comme Have I Been Pwned offrent une approche grand public en permettant aux utilisateurs de vérifier si leur adresse mail a été compromise dans une fuite connue [10]. À l’inverse, des solutions plus spécialisées comme Hudson Rock et Intel X fournissent des analyses avancées pour observer les compromissions à grande échelle [23]. De plus, des forums comme BreachForums et des canaux Telegram sont largement exploités par les cybercriminels pour échanger des bases de données volées, ce qui en fait des sources précieuses pour la veille en cybersécurité [14].
Un certain nombre d’outils spécialisés ont été développés pour répondre aux besoins variés des chercheurs en cybersécurité et des entreprises en matière de détection des violations de données. Le tableau suivant propose une comparaison des principales plateformes, en fonction de plusieurs critères comme leur modèle économique, la nature des données traitées, l’exhaustivité des informations fournies et leur niveau de censure.
| Outil | Payant/Gratuit | Infostealer/DataBreached | Exhaustif/Partiel | Censuré/Non Censuré |
|---|---|---|---|---|
| Intel X | Gratuit/Payant | Infostealer & DataBreached | Partiel | Censuré |
| Telegram | Gratuit/Payant | Infostealer & DataBreached | Exhaustif | Non Censuré |
| BreachForums | Gratuit/Payant | Infostealer & DataBreached | Exhaustif | Non Censuré |
| Have I Been Pwned | Gratuit | Infostealer & DataBreached | Partiel | Censuré |
| Hudson Rock | Gratuit/Payant | Infostealer | Partiel (Gratuit) / Exhaustif (Payant) | Semi-Censuré |
| Phonebook.cz (mail only) | Gratuit/Payant | DataBreached | Partiel | Non Censuré |
| Pentester.com | Gratuit/Payant | Infostealer & DataBreached | Exhaustif | Semi-Censuré |
| Leak-Lookup | Gratuit/Payant | DataBreached | Exhaustif | Censuré |
| Oathnet.ru | Gratuit (5 requêtes/jour) | DataBreached | Partiel | Non Censuré |
| Leakpeek | Gratuit (censuré) / Payant (non censuré) | DataBreached | Exhaustif | Censuré/Non Censuré |
| Dehashed | Payant | DataBreached | Exhaustif | Non Censuré |
| BreachDirectory | Gratuit/Payant | DataBreached | Partiel | Semi-Censuré |
| Proxynova (Comb tool) | Gratuit | DataBreached | Partiel | Non Censuré |
| Snusbase | Payant | DataBreached | Exhaustif | Non Censuré |
| Leakcheck | Gratuit/Payant | Infostealer & DataBreached | Partiel | Censuré/Non Censuré |
Ce tableau met en évidence les différences majeures entre les outils disponibles. Certains services sont gratuits mais limités en termes d’exhaustivité, tandis que d’autres, comme Snusbase ou Dehashed, offrent des bases de données plus complètes, mais avec un accès payant [25]. De plus, les plateformes Telegram et BreachForums restent des lieux privilégiés pour les échanges de bases de données volées, bien qu’ils soient de plus en plus surveillés par les autorités [15].
L’efficacité d’un service de surveillance des fuites de données dépend donc de son accessibilité, de la fraîcheur des données qu’il propose et de son niveau de censure. Pour une entreprise cherchant à protéger ses actifs numériques, l’idéal est de combiner plusieurs de ces outils afin d’obtenir une vision complète des menaces et des expositions potentielles [12].
Il est par ailleurs interdit de verser d’argent à un site suspect ou potentiellement frauduleux dans l’espoir d’accéder à des données compromises, au risque de se rendre complice d’infractions pénales.
Enjeux éthiques et juridiques des violations de données
Problématiques éthiques
Les violations de données soulèvent des questions éthiques majeures, notamment en ce qui concerne la responsabilité des entreprises et la protection des droits des individus affectés. Comme le souligne Spinello dans son analyse des aspects moraux et légaux des fuites de données, les entreprises négligentes, qui n’ont pas mis en place des mesures de sécurité adéquates, facilitent les attaques et sont moralement responsables des dommages causés aux victimes [4]. Ces entreprises doivent rendre des comptes non seulement en raison de leur manque de diligence, mais aussi parce qu’elles ont échoué à respecter le droit à la vie privée de leurs utilisateurs.
Un enjeu éthique crucial réside également dans la nécessité d’informer rapidement les victimes d’une fuite de données. Tout retard injustifié dans la notification des utilisateurs peut être perçu comme une forme de tromperie car il prive les individus de la possibilité de prendre des mesures pour se protéger contre d’éventuelles exploitations malveillantes de leurs informations personnelles [5]. Cette problématique est particulièrement pertinente dans le domaine de la santé, où les données compromises peuvent entraîner des conséquences dramatiques, notamment en matière de confidentialité et de prise en charge médicale [8].
L’impact des fuites de données dépasse largement les pertes financières ou l’exploitation de comptes en ligne. Le cas de Ashley Madison (2015) en est l’exemple le plus frappant : la publication des informations personnelles de plus de 30 millions d’utilisateurs du site de rencontres extraconjugales a conduit à des drames personnels, incluant du chantage, des suicides et des répercussions psychologiques profondes. Ce type de violation de données illustre l’ampleur du préjudice moral que peuvent subir les victimes, bien au-delà du simple vol d’informations [21].
Certains services comme Have I Been Pwned adoptent une approche responsable en ne rendant pas immédiatement accessibles ces données sensibles au grand public [10]. D’autres plateformes et forums de cybercriminalité, en revanche, ne se soucient pas des conséquences humaines et publient ces informations sans restriction. Ainsi le risque d’abus, de harcèlement et d’exploitation est augmenté. La diffusion publique non régulée de ces données pose donc une question éthique essentielle : à partir de quel moment une information issue d’une fuite devient-elle dangereuse pour une personne ? La gestion de ces bases de données ne doit pas uniquement être une question de cybersécurité, mais aussi un enjeu de protection des individus exposés.
Cadre juridique et conformité au RGPD
La régulation des violations de données repose principalement sur des cadres légaux comme le Règlement Général sur la Protection des Données (RGPD) en Europe. Le RGPD impose une obligation de sécurité et de confidentialité aux entreprises qui traitent des données personnelles. Lorsqu’une violation de données survient, ces entreprises doivent notifier l’incident à l’autorité de contrôle compétente (la CNIL en France) dans un délai de 72 heures et informer les personnes concernées si la fuite présente un risque pour leurs droits et libertés [16]. En cas de non-conformité, des amendes pouvant atteindre 20 millions d’euros ou 4 % du chiffre d’affaires annuel mondial peuvent être imposées [16].
En France, plusieurs infractions pénales sont associées à la réutilisation ou la diffusion de données issues de violations. Parmi elles, figurent le recel de vol d’informations, le doxing, l’atteinte à un secret protégé par la loi, l’atteinte aux droits du producteur de contenu d’une base de données, la contrefaçon de droits d’auteur logiciel et le traitement illicite de données personnelles. De plus, la possession d’une base de données issue de fuites est illégale même si elle n’est pas utilisée à des fins commerciales. Le stockage et la manipulation de telles informations peuvent être considérés comme une atteinte au droit sui generis du producteur de données, avec des sanctions allant jusqu’à 5 ans d’emprisonnement et 300 000 € d’amende [19].
Aux États-Unis, la régulation varie d’un État à l’autre bien que certaines lois fédérales comme le Health Insurance Portability and Accountability Act (HIPAA) imposent des obligations spécifiques en matière de protection des données de santé [2]. Les violations des données de santé sont notamment soumises à des pénalités sévères en cas de non-respect des mesures de sécurité exigées par cette réglementation.
L’émergence rapide de technologies comme l’intelligence artificielle et le cloud computing dépasse souvent la capacité d’adaptation des régulations actuelles. Face à ce décalage, les entreprises doivent adopter des protocoles de sécurité robustes et veiller en permanence à rester en conformité avec les législations en vigueur [9].
Conséquences éthiques et légales de la création d’une base de données de fuites de données
La création d’une base de données comme Dehashed qui recensent des informations issues de violations de données soulève d’importantes questions légales et éthiques. Particulièrement en France et en Europe où les réglementations sur la protection des données sont strictes. Cependant, dans d’autres pays, cette pratique est beaucoup moins encadrée, ce qui entraîne des divergences notables sur la légalité et l’acceptabilité de telles pratiques. En Europe, le RGPD impose des exigences strictes en matière de collecte, de stockage et d’utilisation des données personnelles. La constitution d’une base de données contenant des informations issues de fuites est illégale, même si ces informations sont utilisées uniquement pour améliorer la sécurité des systèmes d’information.
Les principales infractions associées comprennent :
• Recel de vol d’information ou de données : Détenir sciemment des données volées est passible de sanctions pénales.
• Détention de données pour commettre une infraction : Cela inclut la création de bases de données visant à réaliser des attaques comme le credential stuffing.
• Atteinte aux droits du producteur de bases de données : Les bases de données protégées par un droit sui generis ne peuvent être copiées ou utilisées sans l’autorisation de leur producteur.
• Traitement illicite de données personnelles : Toute manipulation de données sans consentement ou justification légale constitue une violation du RGPD.
Les peines encourues peuvent aller jusqu’à 5 ans d’emprisonnement et 300 000 € d’amende en cas de manipulation illicite de données [19].
Au-delà des aspects juridiques, la constitution d’une base de données de fuites de données pose des questions éthiques importantes. Même si cette pratique est réalisée dans un contexte de cybersécurité légitime (comme les tests d’intrusion où des autorisations sont faites par les entreprises clientes), elle repose sur l’exploitation d’informations qui ont été obtenues de manière illégale [12].
Les utilisateurs concernés par ces fuites n’ont généralement pas donné leur consentement pour que leurs informations soient exploitées, même si c’est dans un but d’améliorer la sécurité. Cela soulève des préoccupations relatives au respect de la vie privée, à la transparence et à l’éthique de la recherche en cybersécurité.
D’un point de vue moral, l’argument de l’intérêt légitime peut être avancé mais il doit toujours être pesé contre le droit des utilisateurs à la confidentialité. En revanche, dans des juridictions moins contraignantes, ces considérations éthiques sont souvent écartées au profit d’intérêts commerciaux ou de sécurité nationale.
La recherche sur Internet de fuites d’informations d’après la CNIL
Selon la CNIL, l’objectif principal de la RIFI est de repérer des informations compromises avant qu’elles ne soient massivement exploitées par des acteurs malveillants. Ainsi cela permet de réagir rapidement et efficacement pour protéger les systèmes d’information concernés. Contrairement à une base de données de fuites de données personnelles centralisées, la RIFI se limite à une recherche ciblée sur des informations spécifiques, sans stockage ni constitution de bases de données permanentes [20].
Méthodologie pour une RIFI légal :
Définition des mots-clés de recherche
Les mots-clés doivent être directement liés aux objectifs poursuivis par la recherche. Ils ne doivent pas comporter de données personnelles réelles et l’utilisation de marqueurs numériques (dits « canary tokens ») est recommandée pour éviter la manipulation de données personnelles authentiques. En outre, les outils de RIFI doivent être configurés de manière à ne pas cibler des données sensibles, telles que celles concernant la santé ou l’orientation sexuelle des individus.
Phase de recherche
La recherche doit être automatisée et générée des alertes lorsque des mots-clés spécifiques sont détectés. Les sites web visés par la recherche doivent être licites et ne pas inclure de données sensibles par nature (par exemple, des sites de rencontres ou forums politiques). Il est permis de créer un compte utilisateur sur un site web licite si nécessaire, mais l’usurpation d’identité pour accéder à un système protégé est strictement interdite. Les experts peuvent intervenir uniquement pour valider et analyser les résultats finaux, à condition qu’ils soient formés aux enjeux de la protection des données personnelles.
Traitement des résultats et sécurité des données
Les résultats de la recherche doivent être filtrés, anonymisés ou pseudonymisés lorsque cela est nécessaire. Les données extraites doivent être stockées de manière sécurisée (par exemple, par chiffrement ou stockage en dehors de l’environnement de production). Une durée de conservation limitée doit être définie selon le cas d’usage et les fichiers provenant de systèmes d’information externes doivent être immédiatement supprimés après identification. Les vulnérabilités découvertes doivent être signalées à l’ANSSI.
Restitution au client
Les informations fournies au client doivent être limitées au strict nécessaire. Dans le cadre d’une veille active, seules les informations relatives aux mots-clés détectés et au contexte général doivent être communiquées. En cas de fuite avérée, seules les informations relatives aux données compromises sont restituées au client, en évitant toute diffusion d’informations personnelles inutiles.
La RIFI est une approche qui permet de détecter efficacement les fuites d’informations sur Internet dans un cadre légal strict. Sa mise en œuvre repose sur une méthodologie encadrée qui vise à minimiser les risques de manipulation de données personnelles, tout en garantissant une réponse rapide et adaptée aux incidents de sécurité.
Conclusion
Les fuites de données sont aujourd’hui un enjeu central de la cybersécurité. Elles ne se limitent plus à une simple défaillance technique mais elles soulèvent des questions juridiques, économiques et éthiques. À travers cet état de l’art, on constate à quel point l’univers des fuites de données s’est complexifié. Les attaques qui ciblent les utilisateurs pour obtenir des données personnelles se diversifient, tout comme le parcours des données volées, depuis leur extraction jusqu’à leur revente.
Ces informations circulent sur des canaux variés : messageries chiffrées comme Telegram ou encore des forums illégaux sur le dark web. Des techniques d’automatisation telles que le credential stuffing ou le spear phishing facilitent leur exploitation à grande échelle. On peut distinguer deux types de données : les « froides », issues de fuites de données (anciennes) associées à un service numérique mais toujours exploitables, et les « fraîches », récoltées en temps réel par des malwares comme les infostealers. Ces deux catégories nourrissent des économies souterraines où les données deviennent des biens marchands.
Face à ce constat, la surveillance des fuites devient une priorité. Des plateformes comme Have I Been Pwned et Hudson Rock proposent des outils de veille plus ou moins exhaustifs selon les besoins. Néanmoins, manipuler ces bases de données volées peut poser de sérieux problèmes légaux. En France, par exemple, le RGPD et le Code pénal interdisent strictement la détention ou l’utilisation de telles informations, même dans un but de cybersécurité. Cette position juridique diffère d’autres pays, notamment aux États-Unis, où certaines pratiques autour des « leaks » sont parfois tolérées à des fins de recherche ou de remédiation.
Dans ce cadre, une solution plus respectueuse du droit et de l’éthique existe : La Recherche sur Internet de Fuites d’Informations (RIFI), telle que définie par la CNIL. Cette démarche proactive permet de détecter des fuites sans en conserver le contenu illégalement, à condition de suivre une méthode stricte. Elle incarne une approche plus responsable, en phase avec les exigences du respect de la vie privée.
Enfin, la lutte contre les fuites de données dépasse le simple cadre technique : elle nécessite une mobilisation collective, une évolution continue des outils et des cadres juridiques, ainsi qu’une réflexion éthique sur l’usage qui est fait des données compromises.
Bibliographie
Articles académiques et études de cas
Nguyen Ba, M. H., Bennett, J., Gallagher, M., & Bhunia, S. (2024). A Case Study of Credential Stuffing Attack: Canva Data Breach. Miami University, Department of Computer Science and Software Engineering.
Ugwu, C., et al. (2022). Cloud computing data breaches: A review of U.S. regulation and data breach notification literature.
Cheng, L., Liu, F., & Yao, D. (2017). Enterprise data breach: Causes, challenges, prevention, and future directions. WIREs Data Min Knowl Discov.
Spinello, R. A. (2021). Corporate Data Breaches: A Moral and Legal Analysis. Journal of Information Ethics, 30(1), 12.
Ellen Lockwood (2023). The Ethics of Dealing with a Data Breach.
Technology News - The Financial Express (2023). Telegram’s Data Dilemma: History of Breaches and Shifting Stance on Privacy.
Focusing on the Ethical Challenges of Data Breaches and Applications (2023).
Ethical Implications of AI in Healthcare Data: A Case Study Using Healthcare Data Breaches (2023).
Developing a Global Data Breach Database and the Impact on Cybersecurity (2023).
Troy Hunt (2025). Experimenting with Stealer Logs in Have I Been Pwned.
The Hacker News (2024). 10,000 Victims a Day: Infostealer Garden of Low-Hanging Fruit.
Synacktiv (2023). Credential Stuffing: Speeding up massive leaks databases.
PassREfinder: Credential Stuffing Risk Prediction by Representing Password Reuse Between Websites on a Graph (2023).
Bitsight (2024). Exfiltration over Telegram Bots: Skidding Infostealer Logs.
KELA Cyber Threat Intelligence (2024). Telegram’s Policy Shift: How Cybercriminals Are Reacting to New Data Sharing Rules.
Ressources institutionnelles et réglementations
European Union (2016). Règlement Général sur la Protection des Données (RGPD).
IBM Security (2024). What is a Data Breach?.
CNIL. Violation de données.
Technique et droit du numérique. Avocat Ledieu
CNIL. RIFI
Études de cas et exemples concrets
CSO Online (2024). The 18 Biggest Data Breaches of the 21st Century.
Top 10 Biggest Data Breaches of All Time (2024).
BreachForums - The Marketplace for Stolen Data (2024).
Protecting Accounts from Credential Stuffing (2023).
10,000 Victims a Day: Infostealer Garden of Low-Hanging Fruit (2024).
Analyzing the Impact and Implications of COMB: A Comprehensive Study of 3 Billion Breached Credentials (2023).
Crowdstrike. Différence entre clear, deep et dark web
Databreach. Wikipédia
