Publicité en cours de chargement...

Vous prendrez bien un peu de données personnelles ?

02 déc. 2019 - 16:05,

Tribune - Cédric Cartau

Un article, relayé largement sur LinkedIn[1] en fin de semaine, a attiré mon attention. Deux chercheurs de l’Université catholique de Louvain (Luc Rocher et Julien Hendrickx) se sont posé la question de savoir si des données anonymisées pouvaient tout de même être réidentifiées. On subodorait déjà que la réponse était oui : on en a maintenant la preuve. Explications.

Le RGPD s’applique aux données nominatives, directement ou indirectement. Si je mets en place un traitement de données nominatives, il relève bien du RGPD. Mais si je mets en place un traitement de données nominatives, et que je pseudonymise les données pour les confier à un tiers (cas très courant dans le monde de la recherche), cette opération relève la encore du RGPD, pour ce qui me concerne tout au moins. On se trouve en face d’une première difficulté : pour le tiers en question, la donnée est bien anonyme, mais il existe une table de correspondance détenue par celui qui a mis en place le traitement originel. Avec suffisamment d’efforts, le tiers pourrait réidentifier les données, ne serait-ce qu’en débarquant dans mon bureau et en me mettant un pistolet sur la tempe pour que je lui livre la table de correspondance. Le RGPD contourne cette difficulté en stipulant que la réidentification ne doit pas nécessiter de mettre en œuvre des moyens disproportionnés (nul doute que la menace physique en fait partie), auquel cas, toujours dans l’exemple, pour le tiers en question la donnée est bien anonyme. Cela n’a l’air de rien, mais si cette interprétation prévaut, alors le tiers n’est pas dans l’obligation de détenir l’agrément HDS pour héberger la base pseudonymisée.

Les deux chercheurs de l’UCL démontrent que si, en soi, une donnée peut être rendue anonyme en retirant un certain nombre de champs triviaux (nom, prénom, numéro de sécu, RIB, etc.), s’il subsiste dans la base suffisamment de champs et que ces champs peuvent être corrélés avec d’autres bases, alors avec une quantité d’informations relativement faible, il est possible de retrouver les identités d’un grand nombre de personnes dans la base initiale. Par exemple, la base de patients d’un hôpital, supposée être totalement anonymisée, contient entre autres les dates des accouchements. S’il s’agit d’une maternité pratiquant 2 000 accouchements par an (ce qui est déjà pas mal), leur nombre se limite en moyenne à six par jour – et encore à certaines dates on descendra à trois. Il suffit du code postal de la commune d’habitation des dames en question (information transmise aux observatoires des naissances, organisme régional) et de l’âge des patientes pour retomber, à coup sûr et dans la plupart des cas, sur leur identité. Faisons un exercice en live, totalement improvisé : si je vous parle d’un gugusse qui écrit des articles dans la presse spécialisée, impossible de savoir de qui il s’agit. Mais si je vous dis, en plus, qu’il inonde DSIH de ses élucubrations toutes les semaines, et qu’en outre il a un humour potache de niveau 5^e, clairement, entre Charles Blanc-Rolin et moi, vous m’aurez reconnu tout de suite. CQFD.

Les deux chercheurs donnent une échelle très intéressante. Avec seulement une information (par exemple le lieu de naissance), il est quasi impossible de réidentifier la personne. Avec deux informations (en ajoutant la date de naissance), à supposer que l’on dispose d’autres sources de données, il est possible de remonter à la personne dans 40 % des cas. Avec six informations, le taux atteint 95 % et dépasse 99 % avec sept informations. De quoi s’interroger, quand on est DPO, RSSI, MOA, DG et j’en passe, sur les bases anonymisées (sans parler de celles qui sont « seulement » pseudonymisées) que nous transmettons à l’extérieur.

Dans le dernier podcast de NoLimitSecu (https://www.nolimitsecu.fr) concernant la messagerie sécurisée Olvid, un des deux concepteurs – qui clairement connaît les concepts d’anonymat sur le bout des doigts – sépare le concept en deux. Être anonyme peut vouloir dire que l’on ne sait pas du tout qui vous êtes, mais peut aussi vouloir dire que l’on ne sait pas avec qui vous êtes en contact. C’est d’ailleurs un des talons d’Achille des messageries telles que Telegram ou WhatsApp : la présence d’un serveur centralisé, quelles que soient la robustesse et la confiance que l’on peut accorder aux mécanismes de gestion des clés, permet de cartographier assez rapidement qui écrit à qui, qui est en contact avec qui, etc. Et c’est un pan de l’anonymat qui tombe, le reste n’étant qu’affaire de temps, de volume de données disponibles pour les corrélations, d’algorithme et de patience.

Les approches des éditeurs traditionnels concernant ce concept se limitent généralement à chiffrer les données, ce qui est totalement inefficace. À ce jour, le seul concept robuste et qui tient la route que j’ai eu la chance d’observer est celui d’avatar, développé par le P^r Pierre-Antoine Gourraud au CHU de Nantes, et qui a fait l’objet d’une conférence absolument bluffante à l’édition 2019 du congrès de l’Apssis (www.apssis.com). L’idée consiste à construire, à partir d’une base totalement nominative, des identités entièrement fictives (les avatars) reposant sur les données réelles, mais en introduisant du bruit dans ces mêmes données, ce qui rend la réidentification impossible sans pour autant altérer les propriétés statistiques de la base initiale.

Les fuites de données à répétition (la dernière en date, un record du genre, ici) nous pressent de trouver des solutions robustes à la question de l’anonymat, parce que clairement on ne va pas pouvoir continuer d’ouvrir nos bases DPI à la moitié de la Terre en se contentant d’un beau contrat et d’une table de correspondance dans un fichier Excel.

[1] https://www.rtbf.be/info/societe/detail_meme-si-vos-donnees-sont-anonymisees-on-peut-vous-reidentifier?id=10277344

# Rgpd # Anonymisation des données # Fuites de données # Anonymat des données # Pseudonymisation # Confidentialité # Protection des données # Protection de la vie privée # Sécurité des données

Avez-vous apprécié ce contenu ?

A lire également.

2026 : la fin de l’Espace, du Temps et de la Vie privée

27 jan. 2026 - 08:37,

Tribune

Cédric Cartau

Cédric Cartau analyse comment le Fichier national automatisé des empreintes génétiques (Fnaeg), initialement conçu pour lutter contre la criminalité sexuelle, est devenu en moins de 30 ans un outil de fichage de masse. En s’appuyant sur l’essor de la recherche par parentèle, il interroge les conséqu...

Contract Management : rigueur et dialogue au service des établissements de santé

15 déc. 2025 - 16:10,

Tribune

Elisa RATTIER &

Jean-François MERCURY

Face à la pression financière croissante, la réduction des dépenses est devenue une priorité pour les établissements de santé. Dans ce contexte, maîtriser les engagements existants et éviter toute dérive est indispensable. C’est là qu’intervient le contract management, véritable outil stratégique po...

Digital Omnibus on AI, évolutions et perspectives

01 déc. 2025 - 21:44,

Tribune

Marguerite Brac de La Perrière

Faisant suite à un appel à contributions de la Commission européenne, deux projets de règlements ont été publiés le 19 novembre 2025 par la Commission européenne, bousculant assez substantiellement la réglementation en vigueur : le “Digital Omnibus for the digital acquis" ou "Omnibus numérique" [1] ...

Le moment Spoutnik de la cyber

24 nov. 2025 - 22:22,

Tribune

Cédric Cartau

En matière d’armement, on dit que ce qui compte vraiment, c’est le nombre et la force. Mais surtout la force.

Vous prendrez bien un peu de données personnelles ?

Avez-vous apprécié ce contenu ?

A lire également.

2026 : la fin de l’Espace, du Temps et de la Vie privée

27 jan. 2026 - 08:37,

Tribune

Contract Management : rigueur et dialogue au service des établissements de santé

15 déc. 2025 - 16:10,

Tribune

Digital Omnibus on AI, évolutions et perspectives

01 déc. 2025 - 21:44,

Tribune

Le moment Spoutnik de la cyber

24 nov. 2025 - 22:22,

Tribune

Lettre d'information.

Ne manquez rien de la e-santé et des systèmes d’informations hospitaliers !

A propos

Nous suivre

Contact

Special Partner

Publicité

Rédaction

Abonnement

Nos marques