Vous êtes dans : Accueil > Tribunes libres >

Vous prendrez bien un peu de données personnelles ?

Cédric Cartau , LUNDI 02 DéCEMBRE 2019

Un article, relayé largement sur LinkedIn[1] en fin de semaine, a attiré mon attention. Deux chercheurs de l’Université catholique de Louvain (Luc Rocher et Julien Hendrickx) se sont posé la question de savoir si des données anonymisées pouvaient tout de même être réidentifiées. On subodorait déjà que la réponse était oui : on en a maintenant la preuve. Explications.  

Le RGPD s’applique aux données nominatives, directement ou indirectement. Si je mets en place un traitement de données nominatives, il relève bien du RGPD. Mais si je mets en place un traitement de données nominatives, et que je pseudonymise les données pour les confier à un tiers (cas très courant dans le monde de la recherche), cette opération relève la encore du RGPD, pour ce qui me concerne tout au moins. On se trouve en face d’une première difficulté : pour le tiers en question, la donnée est bien anonyme, mais il existe une table de correspondance détenue par celui qui a mis en place le traitement originel. Avec suffisamment d’efforts, le tiers pourrait réidentifier les données, ne serait-ce qu’en débarquant dans mon bureau et en me mettant un pistolet sur la tempe pour que je lui livre la table de correspondance. Le RGPD contourne cette difficulté en stipulant que la réidentification ne doit pas nécessiter de mettre en œuvre des moyens disproportionnés (nul doute que la menace physique en fait partie), auquel cas, toujours dans l’exemple, pour le tiers en question la donnée est bien anonyme. Cela n’a l’air de rien, mais si cette interprétation prévaut, alors le tiers n’est pas dans l’obligation de détenir l’agrément HDS pour héberger la base pseudonymisée.

Les deux chercheurs de l’UCL démontrent que si, en soi, une donnée peut être rendue anonyme en retirant un certain nombre de champs triviaux (nom, prénom, numéro de sécu, RIB, etc.), s’il subsiste dans la base suffisamment de champs et que ces champs peuvent être corrélés avec d’autres bases, alors avec une quantité d’informations relativement faible, il est possible de retrouver les identités d’un grand nombre de personnes dans la base initiale. Par exemple, la base de patients d’un hôpital, supposée être totalement anonymisée, contient entre autres les dates des accouchements. S’il s’agit d’une maternité pratiquant 2 000 accouchements par an (ce qui est déjà pas mal), leur nombre se limite en moyenne à six par jour – et encore à certaines dates on descendra à trois. Il suffit du code postal de la commune d’habitation des dames en question (information transmise aux observatoires des naissances, organisme régional) et de l’âge des patientes pour retomber, à coup sûr et dans la plupart des cas, sur leur identité. Faisons un exercice en live, totalement improvisé : si je vous parle d’un gugusse qui écrit des articles dans la presse spécialisée, impossible de savoir de qui il s’agit. Mais si je vous dis, en plus, qu’il inonde DSIH de ses élucubrations toutes les semaines, et qu’en outre il a un humour potache de niveau 5e, clairement, entre Charles Blanc-Rolin et moi, vous m’aurez reconnu tout de suite. CQFD.

Les deux chercheurs donnent une échelle très intéressante. Avec seulement une information (par exemple le lieu de naissance), il est quasi impossible de réidentifier la personne. Avec deux informations (en ajoutant la date de naissance), à supposer que l’on dispose d’autres sources de données, il est possible de remonter à la personne dans 40 % des cas. Avec six informations, le taux atteint 95 % et dépasse 99 % avec sept informations. De quoi s’interroger, quand on est DPO, RSSI, MOA, DG et j’en passe, sur les bases anonymisées (sans parler de celles qui sont « seulement » pseudonymisées) que nous transmettons à l’extérieur.

Dans le dernier podcast de NoLimitSecu (https://www.nolimitsecu.fr) concernant la messagerie sécurisée Olvid, un des deux concepteurs – qui clairement connaît les concepts d’anonymat sur le bout des doigts – sépare le concept en deux. Être anonyme peut vouloir dire que l’on ne sait pas du tout qui vous êtes, mais peut aussi vouloir dire que l’on ne sait pas avec qui vous êtes en contact. C’est d’ailleurs un des talons d’Achille des messageries telles que Telegram ou WhatsApp : la présence d’un serveur centralisé, quelles que soient la robustesse et la confiance que l’on peut accorder aux mécanismes de gestion des clés, permet de cartographier assez rapidement qui écrit à qui, qui est en contact avec qui, etc. Et c’est un pan de l’anonymat qui tombe, le reste n’étant qu’affaire de temps, de volume de données disponibles pour les corrélations, d’algorithme et de patience.

Les approches des éditeurs traditionnels concernant ce concept se limitent généralement à chiffrer les données, ce qui est totalement inefficace. À ce jour, le seul concept robuste et qui tient la route que j’ai eu la chance d’observer est celui d’avatar, développé par le Pr Pierre-Antoine Gourraud au CHU de Nantes, et qui a fait l’objet d’une conférence absolument bluffante à l’édition 2019 du congrès de l’Apssis (www.apssis.com). L’idée consiste à construire, à partir d’une base totalement nominative, des identités entièrement fictives (les avatars) reposant sur les données réelles, mais en introduisant du bruit dans ces mêmes données, ce qui rend la réidentification impossible sans pour autant altérer les propriétés statistiques de la base initiale.

Les fuites de données à répétition (la dernière en date, un record du genre, ici) nous pressent de trouver des solutions robustes à la question de l’anonymat, parce que clairement on ne va pas pouvoir continuer d’ouvrir nos bases DPI à la moitié de la Terre en se contentant d’un beau contrat et d’une table de correspondance dans un fichier Excel.


[1]   https://www.rtbf.be/info/societe/detail_meme-si-vos-donnees-sont-anonymisees-on-peut-vous-reidentifier?id=10277344 

#RGPD##apssis