Guide étape par étape pour l'anonymisation
Les données transmises à ARCHIMEDES doivent respecter la réglementation en vigueur en matière de protection de la vie privées et les autorisations éthiques. Dans de nombreux cas, cela implique d’anonymiser ou de coder les données avec le consentement des personnes concernées avant leur transmission.
Les outils et ressources ci-dessous sont fournis à titre purement informatif, et il incombe aux chercheurs de s’assurer que leurs données sont correctement préparées.
Guide étape par étape pour l'anonymisation
Prêt à commencer l’anonymisation de vos données ?
Sélectionnez ci-dessous le type de données qui vous intéresse pour découvrir des instructions étape par étape, les principaux risques à prendre en compte, ainsi que les méthodes et outils couramment utilisés.
Données structurées
Données organisées selon des formats fixes.
Exemples: dossiers médicaux ou de santé électroniques (DME/DSE), feuilles de calcul Excel ou CSV, bases de données, registres, etc.
Données non structurées
Information brutes et non organisées.
Exemples: notes cliniques, comptes rendus de sortie, rapports radiologiques, comptes rendus chirurgicaux, etc.
Données d’imagerie
Fichiers d’images issus d’examens cliniques.
Exemples: images médicales (IRM, scanner, radiographie, échographie, etc.) dans divers formats: par exemple, DICOM, NIfTI, JPEG/PNG, etc.
Autres données
Types de données autres que les données structures, textuelles ou d’imagerie
Exemples: données génomiques, données provenant d’appareils portables ou de capteurs, formes d’onde, données audio/vidéo ou ensembles de données combinés.
Comment anonymiser votre type de données
Sélectionnez un type de données ci-dessus pour consulter les instructions relatives à l’anonymisation de ce type de données.
Les étapes ci-dessous décrivent un processus type permettant d’identifier les informations sensibles, d’appliquer les méthodes d’anonymisation appropriées et de vérifier le risque de réidentification.
Processus de traitement des données structurées
-
Identifier les identifiants directs
Repérer et supprimer les identifiants explicites tels que les noms, adresses, numéros de carte de santé ou adresses courriels.
Ce que cela signifie
Les identifiants directs permettent d'identifier un individu de manière unique.
Que faire?
Supprimez ou remplacez les informations personnelles telles que les noms, les numéros de carte de santé, les adresses courriels ou les numéros de téléphone.
Exemple
Nom -> supprimé
Numéro de carte de santé -> remplacé par ID_Étude
-
Identifier et évaluer les quasi-identifiants
Évaluer les identifiants indirects (par exemple, l'âge, le code postal, le sexe, les dates) qui pourraient révéler l'identité d'une personne s'ils étaient combinés.
Ce que cela signifie
Les quasi-identifiants ne permettent pas à eux seuls d'identifier une personne, mais peuvent révéler son identité lorsqu'ils sont combinés.
Que faire
Examinez des variables telles que l'âge, le code postal, le sexe et les dates afin de déterminer si certaines combinaisons pourraient permettre d'identifier une personne.
Exemple
L'âge, le code postal et le sexe peuvent permettre d'identifier de manière unique une personne au sein d'une petite population.
-
Sélectionnez des méthodes de transformation.
Choisissez des techniques appropriées telles que la généralisation, la suppression, la pseudonymisation ou l'ajout de bruit.
Ce que cela signifie
Choisissez comment les quasi-identifiants seront modifiés afin de réduire le risque de réidentification.
Que faire?
Les approches courantes sont les suivantes:
- Généralisation (Âge 43-> 40-45)
- Suppression (supprimer la variable)
- Pseudonymisation (remplacer les identifiants par des codes d'étude)
Exemple
Code postal: K1A0B1 -> K1A***
-
Appliquer des outils de pseudonymisation
Utiliser des logiciels ou des processus structurés pour mettre en œuvre les transformations choisies.
Ce que cela signifie
Utilisez un logiciel ou des scripts pour appliquer les transformations à votre ensemble de données.
Comment procéder
Importez l'ensemble de données dans un outil et appliquez les transformations choisies aux variables concernées.
Exemples d'outils
ARX, Amnesia, paquets R, scripts Python
-
Évaluer le risque de réidentification
Déterminer s'il est raisonnablement possible de réidentifier des individus à partir des données transformées.
-
Vérifier et documenter le processus
Effectuer des contrôles de qualité et consigner les transformations appliquées afin de garantir la transparence et la reproductibilité.
Ce que cela signifie
Vérifier que l'ensemble de données a bien été anonymisé et consigner les modifications apportées.
Procédure à suivre
Vérifier que les identifiants ont bien été supprimés ou transformés et documenter les méthodes utilisées.
Exemple
L'utilisateur consigne les transformations qui ont été appliquées (par exemple, généralisation de l'âge, tronquage du code postal) et note le risque de réidentification évalué. Cette documentation permet de réévaluer le risque si des données supplémentaires sont ajoutées ultérieurement.
Outils et astuces
Outils couramment utilisés
- ARX (En savoir plus – lien à venir)
- sdcMicro (R) (En savoir plus – lien vers l'atelier d'Edward)
- Scripts Python ou R personnalisés (En savoir plus – lien à venir)
Processus de travail pour les données non structurées
-
Identifier les identifiants directs
Repérer et supprimer les identifiants explicites figurant dans le texte libre, tels que les noms, adresses, numéros de téléphone ou numéros de carte de santé.
Ce que cela signifie
Les identifiants directs peuvent apparaître n'importe où dans un texte narratif et révéler directement l'identité d'une personne.
Procédure à suivre
Passez en revue les documents à la recherche d'informations permettant d'identifier une personne, telles que les noms, numéros de téléphone, adresses courriels, adresses postales ou numéros de dossiers médical, et supprimez-les ou remplacez-les.
Exemple
« Le patient John Smith s'est présenté aves des douleurs thoraciques. »
-> « Le patient [NOM CACHÉ] s'est présenté avec des douleurs thoraciques. »
-
Identifier les éléments contextuels
Évaluer les détails contextuels (par exemple, l'âge, la profession, les maladies rares, les lieux, les dates des événements) qui, combinés, pourraient révéler l'identité d'une personne.
Ce que cela signifie
Les textes narratifs contiennent souvent des informations contextuelles qui pourraient permettre d'identifier indirectement une personne.
Procédure à suivre
Examinez les documents à la recherche d'informations démographiques ou contextuelles telles que l'âge, le lieu de résidence, la profession, les diagnostics rares ou les événements particuliers.
Exemple
« Un pilote à la retraite âgé de 92 ans, originaire d'une petite ville en Ontario… »
Cette combinaison de détails pourrait permettre d'identifier une personne.
-
Sélectionnez des méthodes de transformation.
Choisissez des techniques appropriées telles que le caviardage, le remplacement par des espaces réservés ou la généralisation.
Ce que cela signifie
Choisissez comment les éléments sensibles du texte seront modifiés.
Procédure à suivre
Voici quelques approches courantes:
- Masquage (suppression des informations sensibles)
- Remplacement par des espaces réservés (par exemple, [NOM], [DATE])
- Généralisation (remplacement des détails précis par des catégories plus générales)
Exemple
« 3 mars 2022 » -> « [DATE] »
-
Utiliser des outils de dépersonnalisation
Utilisez des outils automatisés ou des processus de vérification manuelle pour supprimer les identifiants des documents.
Ce que cela signifie
Utilisez des logiciels ou des processus de vérification manuelle pour identifier et supprimer les informations sensibles des documents.
Procédure à suivre
Utilisez des outils automatisés de suppression de données sensibles ou procédez à une vérification manuelle pour masquer les identifiants.
Exemples d'outils
Philter, MITRE Tool ou des processus de vérification manuelle.
-
Vérifier les informations contextuelles restantes
S'assurer que le texte restant ne contient pas d'éléments susceptibles de révéler l'identité d'une personne.
-
Vérifier et documenter le processus
Effectuer des contrôles qualité et consigner les transformations appliquées afin de garantir la transparence et la reproductibilité
Ce que cela signifie
Vérifiez que les identifiants ont bien été supprimés et consignez la manière dont le texte a été traité
Procédure à suivre
Vérifiez les documents finaux pour vous assurer que les identifiants ont bien été supprimés ou anonymisés, et consignez les méthodes utilisées.
Exemple
Documents dont les identifiants ont été masqués ou anonymisés, et dans lesquels le risque de réidentification évalué est consigné afin de pouvoir être réévalué si des données supplémentaires sont ajoutées ultérieurement.
Outils et conseils
Outils couramment utilisés
- ARXPhilter (En savoir plus – lien à venir)
- Outil MITRE (En savoir plus – lien à venir)
- Processus manuel (En savoir plus – lien à venir)
Processus de travail des données d'imagerie
-
Identifier les identifiants dans les métadonnées
Repérer les identifiants explicites stockés dans les métadonnées des images (par exemple, les en-têtes DICOM)
Ce que cela signifie
Les fichiers d'imagerie médicale contiennent souvent des informations d'identification dans les champs de métadonnées
Procédure à suivre
Vérifiez les champs de métadonnées pour y trouver des identifiants tels que le nom du patient, son numéro d'identification, sa date de naissance ou les informations relatives à l'établissement
Exemple
Champ « NomDuPatient » : SMITH, JOHN -> NOM FICTIF ou NOM MASQUÉ
-
Identifier les identifiants dans les pixels de l'image
Vérifier si des informations permettant d'identifier la personne sont directement intégrées dans l'image.
Ce que cela signifie
Certaines images contiennent du texte incrusté ou des superpositions qui affichent les identifiants des patients.
Procédure à suivre
Vérifiez si les images contiennent des identifiants tels que des noms, des identifiants ou des dates intégrés dans les données des pixels.
Exemple
Nom du patient visible sur la superposition de l'image échographique.
-
Sélectionner une méthode d'anonymisation
Choisir les méthodes appropriées pour supprimer ou modifier les identifiants.
Ce que cela signifie
Des techniques différentes peuvent être nécessaires pour les métadonnées et les identifiants basés sur les pixels.
Procédure à suivre
Voici quelques approches courantes:
- Supprimer les champs de métadonnées
- Remplacer les identifiants par des identifiants d'étude
- Recadrer ou masquer les identifiants gravés
- Modifier les dates dans les métadonnées
Exemple
DateÉtude -> décalée de plusieurs jours
-
Utiliser des outils de dépersonnalisation des images
Utiliser un logiciel de traitement d'images pour supprimer ou modifier les métadonnées et les identifiants intégrés.
Ce que cela signifie
Des outils spécialisés sont généralement nécessaires pour anonymiser les ensembles de données d'imagerie.
Procédure à suivre
Exécutez des scripts d'anonymisation ou des outils de création d'images qui modifient les métadonnées et suppriment les identifiants gravés.
Exemples d'outils
Outils d'anonymisation DICOM, outils PixelMed, scripts Python
-
Vérifier les images et les métadonnées
S'assurer que les identifiants ont bien été supprimés tant des métadonnées que des données de pixels
-
Vérifier et documenter le processus
Effectuer des contrôles de qualité et consigner les transformations appliquées
Ce que cela signifie
Vérifiez que toutes les informations permettant d'identifier une personne ont bien été supprimées.
Procédure à suivre
Examinez les images et les métadonnées de l'échantillon et consignez les transformations effectuées.
Exemples d'outils
L'utilisateur note quels champs de métadonnées ont été supprimés et si les identifiants basés sur les pixels ont été masqués ou recadrés.
Outils et conseils
Découvrez notre atelier
- Approches pratiques de l'anonymisation des données d'imagerie médicale : des métadonnées à la protection au niveau du pixel (anglais)
- Lien vers l'enregistrement
- Lien vers les diapositives (anglais)
Outils couramment utilisés
- DICOM Anonymizer (En savoir plus – lien à venir)
- PixelMed (En savoir plus – lien à venir)
- Scripts Python personnalisés (En savoir plus – lien à venir)
Autre processus de travail
-
Identifier les identifiants directs
Repérer et supprimer les identifiants explicites stockés dans les métadonnées ou les informations associées aux participants.
Ce que cela signifie
D'autres ensembles de données comprennent souvent un fichier distinct ou des champs de métadonnées permettant d'associer les données à un participant.
Procédure à suivre
Passez en revue l'ensemble de données et les fichiers associés afin d'identifier les éléments permettant d'identifier les personnes, tels que les noms, les identifiants des participants associés à des individus, les adresses courriels ou les informations d'enregistrement des appareils.
Exemple (ensemble de données ECG)
Un fichier d'exploration d'ECG provenant d'un appareil portable peut contenir des champs de métadonnées tels que:
NomPatient: John Smith
IDPatient: 987654
CourrielduPropriétaire: [email protected]
Version anonymisée:
NomPatient → supprimé
IDPatient → remplacé par ID_Étude
CourrielduPropriétaire → supprimé
-
Identifier les variables susceptibles de permettre l'identification
Évaluer les variables qui pourraient révéler indirectement l'identité
Ce que cela signifie
Certaines variables ne permettent pas d'identifier directement une personne, mais pourraient révéler son identité si elles sont associées à d'autres informations.
Procédure à suivre
Vérifiez les champs tels que les données démographiques, la localisation géographique, les horodatages ou les données biologiques qui pourraient permettre d'identifier de manière unique des personnes.
Exemple
Les données de séquençage du génome entier peuvent être intrinsèquement identifiables, car le génome d'un individu est unique.
Exemples de champs d'un ensemble de données:
IDÉchantillon
Âge
Sexe
Lot_séquençage
Même en l'absence de noms, les séquences génomiques elles-mêmes peuvent permettre une réidentification si elles sont associées à des bases de données externes.
-
Sélectionner des méthodes de transformation
Choisissez des techniques permettant de réduire le risque d'identification tout en conservant les données utiles.
Ce que cela signifie
Certaines variables devront peut-être être modifies ou leur précision réduite avant d'être partagées.
Procédure à suivre
Voici quelques approches courantes:
- Pseudonymisation des identifiants des participants
- Agrégation des données temporelles
- RemovalSuppression des données de localisation précises
- Partage de données traitées ou agrégées plutôt que de données brutes
Exemple (données issues d'un appareil portable)
Données brutes sur le nombre de pas enregistrées toutes les secondes:
08:01:01 → 4 pas
08:01:02 → 5 pas
Ensemble de données transformées
Nombre de pas agrégé totaux par heure au lieu d'horodatages à la seconde près.
-
Appliquer des méthodes de pseudonymisation
Utiliser des outils d'analyse ou des scripts pour mettre en œuvre les transformations choisies.
Ce que cela signifie
L'anonymisation de ces ensembles de données s'effectue généralement à l'aide d'un logiciel d'analyse.
Procédure à suivre
Utilisez des scripts ou des outils statistiques pour supprimer les identifiants, agréger les horodatages ou modifier les variables sensibles.
Exemple (série chronologique de données ECG)
Supprimez les champs de métadonnées contenant des informations sur les patients et remplacez l'identifiant du patient par un identifiant d'étude aléatoire.
Exemples d'outils: scripts Python, processus de travail R ou logiciels statistiques.
-
Examinez l'ensemble de données à la recherche de schémas distinctifs
Vérifiez si les données restantes permettent encore d'identifier des individus.
Ce que cela signifie
Même en l'absence d'identifiants directs, certaines structures de données peuvent tout de même être unique.
Procédure à suivre
Vérifiez si des signaux biologiques inhabituels, des schémas de déplacement particuliers ou la petite taille des groupes de participants pourraient permettre de les identifier.
Exemple (données issues d'appareils portables)
Des traces GPS continuent indiquant qu'un appareil se trouve chaque nuit à la même adresse pourraient révéler l'adresse du domicile d'un participant.
Exemple (génomique)
Continu: une variante génétique rare associée à une famille spécifique pourrait permettre d'identifier les participants.
-
Vérifier et documenter le processus
Effectuer des contrôles de qualité et consigner les transformations appliquées
Ce que cela signifie
Vérifiez que les informations permettant d'identifier les personnes ont bien été supprimées et consignez les mesures prises.
Procédure à suivre
Vérifiez l'ensemble de données après traitement et consignez les transformations appliquées afin que le processus soit transparent et reproductible.
Exemple
Les documents indiquent que les noms des participants et les adresses courriels des appareils ont été supprimés, que les horodatages ont été regroupés par tranches horaires, que les coordonnées GPS ont été supprimées et que les identifiants des participants ont été remplacés par les identifiants de l'étude. Le risque de réidentification évalué est consigné afin de pouvoir être réévalué si des données supplémentaires sont ajoutées ultérieurement.
Outils et conseils
Outils couramment utilisés
- Bibliothèques Python pour le traitement des données (En savoir plus – lien à venir)
- Paquets statistiques R (En savoir plus – lien à venir)
- Processus de travail d'analyse personnalisés (En savoir plus – lien à venir)