Guide étape par étape pour l'anonymisation

Les données transmises à ARCHIMEDES doivent respecter la réglementation en vigueur en matière de protection de la vie privées et les autorisations éthiques. Dans de nombreux cas, cela implique d’anonymiser ou de coder les données avec le consentement des personnes concernées avant leur transmission.  

Les outils et ressources ci-dessous sont fournis à titre purement informatif, et il incombe aux chercheurs de s’assurer que leurs données sont correctement préparées.

Guide étape par étape pour l'anonymisation

Prêt à commencer l’anonymisation de vos données ?  

Sélectionnez ci-dessous le type de données qui vous intéresse pour découvrir des instructions étape par étape, les principaux risques à prendre en compte, ainsi que les méthodes et outils couramment utilisés.

Données structurées

Données organisées selon des formats fixes.

Exemples: dossiers médicaux ou de santé électroniques (DME/DSE), feuilles de calcul Excel ou CSV, bases de données, registres, etc.

Données non structurées

Information brutes et non organisées.

Exemples: notes cliniques, comptes rendus de sortie, rapports radiologiques, comptes rendus chirurgicaux, etc.

Données d’imagerie 

Fichiers d’images issus d’examens cliniques.

Exemples: images médicales (IRM, scanner, radiographie, échographie, etc.) dans divers formats: par exemple, DICOM, NIfTI, JPEG/PNG, etc.

Autres données

Types de données autres que les données structures, textuelles ou d’imagerie 

Exemples: données génomiques, données provenant d’appareils portables ou de capteurs, formes d’onde, données audio/vidéo ou ensembles de données combinés.

Comment anonymiser votre type de données

Sélectionnez un type de données ci-dessus pour consulter les instructions relatives à l’anonymisation de ce type de données.

Les étapes ci-dessous décrivent un processus type permettant d’identifier les informations sensibles, d’appliquer les méthodes d’anonymisation appropriées et de vérifier le risque de réidentification.

Processus de traitement des données structurées

  1. Identifier les identifiants directs

    Repérer et supprimer les identifiants explicites tels que les noms, adresses, numéros de carte de santé ou adresses courriels.

    Ce que cela signifie

    Les identifiants directs permettent d'identifier un individu de manière unique.

    Que faire?

    Supprimez ou remplacez les informations personnelles telles que les noms, les numéros de carte de santé, les adresses courriels ou les numéros de téléphone.

    Exemple

    Nom -> supprimé

    Numéro de carte de santé -> remplacé par ID_Étude

  2. Identifier et évaluer les quasi-identifiants

    Évaluer les identifiants indirects (par exemple, l'âge, le code postal, le sexe, les dates) qui pourraient révéler l'identité d'une personne s'ils étaient combinés.

    Ce que cela signifie

    Les quasi-identifiants ne permettent pas à eux seuls d'identifier une personne, mais peuvent révéler son identité lorsqu'ils sont combinés.

    Que faire

    Examinez des variables telles que l'âge, le code postal, le sexe et les dates afin de déterminer si certaines combinaisons pourraient permettre d'identifier une personne.

    Exemple

    L'âge, le code postal et le sexe peuvent permettre d'identifier de manière unique une personne au sein d'une petite population.

  3. Sélectionnez des méthodes de transformation.

    Choisissez des techniques appropriées telles que la généralisation, la suppression, la pseudonymisation ou l'ajout de bruit.

    Ce que cela signifie

    Choisissez comment les quasi-identifiants seront modifiés afin de réduire le risque de réidentification.

    Que faire?

    Les approches courantes sont les suivantes:

    • Généralisation (Âge 43-> 40-45)
    • Suppression (supprimer la variable)
    • Pseudonymisation (remplacer les identifiants par des codes d'étude)
    Exemple

    Code postal: K1A0B1 -> K1A***

  4. Appliquer des outils de pseudonymisation

    Utiliser des logiciels ou des processus structurés pour mettre en œuvre les transformations choisies.

    Ce que cela signifie

    Utilisez un logiciel ou des scripts pour appliquer les transformations à votre ensemble de données.

    Comment procéder

    Importez l'ensemble de données dans un outil et appliquez les transformations choisies aux variables concernées.

    Exemples d'outils

    ARX, Amnesia, paquets R, scripts Python

  5. Évaluer le risque de réidentification

    Déterminer s'il est raisonnablement possible de réidentifier des individus à partir des données transformées.

  6. Vérifier et documenter le processus

    Effectuer des contrôles de qualité et consigner les transformations appliquées afin de garantir la transparence et la reproductibilité.

    Ce que cela signifie

    Vérifier que l'ensemble de données a bien été anonymisé et consigner les modifications apportées.

    Procédure à suivre

    Vérifier que les identifiants ont bien été supprimés ou transformés et documenter les méthodes utilisées.

    Exemple

    L'utilisateur consigne les transformations qui ont été appliquées (par exemple, généralisation de l'âge, tronquage du code postal) et note le risque de réidentification évalué. Cette documentation permet de réévaluer le risque si des données supplémentaires sont ajoutées ultérieurement.

Outils et astuces

Outils couramment utilisés

  • ARX (En savoir plus – lien à venir)
  • sdcMicro (R) (En savoir plus – lien vers l'atelier d'Edward)
  • Scripts Python ou R personnalisés (En savoir plus – lien à venir)

Processus de travail pour les données non structurées

  1. Identifier les identifiants directs

    Repérer et supprimer les identifiants explicites figurant dans le texte libre, tels que les noms, adresses, numéros de téléphone ou numéros de carte de santé.

    Ce que cela signifie

    Les identifiants directs peuvent apparaître n'importe où dans un texte narratif et révéler directement l'identité d'une personne.

    Procédure à suivre

    Passez en revue les documents à la recherche d'informations permettant d'identifier une personne, telles que les noms, numéros de téléphone, adresses courriels, adresses postales ou numéros de dossiers médical, et supprimez-les ou remplacez-les.

    Exemple

    « Le patient John Smith s'est présenté aves des douleurs thoraciques. »

    -> « Le patient [NOM CACHÉ] s'est présenté avec des douleurs thoraciques. »

  2. Identifier les éléments contextuels

    Évaluer les détails contextuels (par exemple, l'âge, la profession, les maladies rares, les lieux, les dates des événements) qui, combinés, pourraient révéler l'identité d'une personne.

    Ce que cela signifie

    Les textes narratifs contiennent souvent des informations contextuelles qui pourraient permettre d'identifier indirectement une personne.

    Procédure à suivre

    Examinez les documents à la recherche d'informations démographiques ou contextuelles telles que l'âge, le lieu de résidence, la profession, les diagnostics rares ou les événements particuliers.

    Exemple

    « Un pilote à la retraite âgé de 92 ans, originaire d'une petite ville en Ontario… »

    Cette combinaison de détails pourrait permettre d'identifier une personne.

  3. Sélectionnez des méthodes de transformation.

    Choisissez des techniques appropriées telles que le caviardage, le remplacement par des espaces réservés ou la généralisation.

    Ce que cela signifie

    Choisissez comment les éléments sensibles du texte seront modifiés.

    Procédure à suivre

    Voici quelques approches courantes:

    • Masquage (suppression des informations sensibles)
    • Remplacement par des espaces réservés (par exemple, [NOM], [DATE])
    • Généralisation (remplacement des détails précis par des catégories plus générales)
    Exemple

    « 3 mars 2022 » -> « [DATE] »

  4. Utiliser des outils de dépersonnalisation

    Utilisez des outils automatisés ou des processus de vérification manuelle pour supprimer les identifiants des documents.

    Ce que cela signifie

    Utilisez des logiciels ou des processus de vérification manuelle pour identifier et supprimer les informations sensibles des documents.

    Procédure à suivre

    Utilisez des outils automatisés de suppression de données sensibles ou procédez à une vérification manuelle pour masquer les identifiants.

    Exemples d'outils

    Philter, MITRE Tool ou des processus de vérification manuelle.

  5. Vérifier les informations contextuelles restantes

    S'assurer que le texte restant ne contient pas d'éléments susceptibles de révéler l'identité d'une personne.

  6. Vérifier et documenter le processus

    Effectuer des contrôles qualité et consigner les transformations appliquées afin de garantir la transparence et la reproductibilité

    Ce que cela signifie

    Vérifiez que les identifiants ont bien été supprimés et consignez la manière dont le texte a été traité

    Procédure à suivre

    Vérifiez les documents finaux pour vous assurer que les identifiants ont bien été supprimés ou anonymisés, et consignez les méthodes utilisées.

    Exemple

    Documents dont les identifiants ont été masqués ou anonymisés, et dans lesquels le risque de réidentification évalué est consigné afin de pouvoir être réévalué si des données supplémentaires sont ajoutées ultérieurement.

Outils et conseils

Outils couramment utilisés

  • ARXPhilter (En savoir plus – lien à venir)
  • Outil MITRE (En savoir plus – lien à venir)
  • Processus manuel (En savoir plus – lien à venir)

Processus de travail des données d'imagerie

  1. Identifier les identifiants dans les métadonnées

    Repérer les identifiants explicites stockés dans les métadonnées des images (par exemple, les en-têtes DICOM)

    Ce que cela signifie

    Les fichiers d'imagerie médicale contiennent souvent des informations d'identification dans les champs de métadonnées

    Procédure à suivre

    Vérifiez les champs de métadonnées pour y trouver des identifiants tels que le nom du patient, son numéro d'identification, sa date de naissance ou les informations relatives à l'établissement

    Exemple

    Champ « NomDuPatient » : SMITH, JOHN -> NOM FICTIF ou NOM MASQUÉ

  2. Identifier les identifiants dans les pixels de l'image

    Vérifier si des informations permettant d'identifier la personne sont directement intégrées dans l'image.

    Ce que cela signifie

    Certaines images contiennent du texte incrusté ou des superpositions qui affichent les identifiants des patients.

    Procédure à suivre

    Vérifiez si les images contiennent des identifiants tels que des noms, des identifiants ou des dates intégrés dans les données des pixels.

    Exemple

    Nom du patient visible sur la superposition de l'image échographique.

  3. Sélectionner une méthode d'anonymisation

    Choisir les méthodes appropriées pour supprimer ou modifier les identifiants.

    Ce que cela signifie

    Des techniques différentes peuvent être nécessaires pour les métadonnées et les identifiants basés sur les pixels.

    Procédure à suivre

    Voici quelques approches courantes:

    • Supprimer les champs de métadonnées
    • Remplacer les identifiants par des identifiants d'étude
    • Recadrer ou masquer les identifiants gravés
    • Modifier les dates dans les métadonnées
    Exemple

    DateÉtude -> décalée de plusieurs jours

  4. Utiliser des outils de dépersonnalisation des images

    Utiliser un logiciel de traitement d'images pour supprimer ou modifier les métadonnées et les identifiants intégrés.

    Ce que cela signifie

    Des outils spécialisés sont généralement nécessaires pour anonymiser les ensembles de données d'imagerie.

    Procédure à suivre

    Exécutez des scripts d'anonymisation ou des outils de création d'images qui modifient les métadonnées et suppriment les identifiants gravés.

    Exemples d'outils

    Outils d'anonymisation DICOM, outils PixelMed, scripts Python

  5. Vérifier les images et les métadonnées

    S'assurer que les identifiants ont bien été supprimés tant des métadonnées que des données de pixels

  6. Vérifier et documenter le processus

    Effectuer des contrôles de qualité et consigner les transformations appliquées

    Ce que cela signifie

    Vérifiez que toutes les informations permettant d'identifier une personne ont bien été supprimées.

    Procédure à suivre

    Examinez les images et les métadonnées de l'échantillon et consignez les transformations effectuées.

    Exemples d'outils

    L'utilisateur note quels champs de métadonnées ont été supprimés et si les identifiants basés sur les pixels ont été masqués ou recadrés.

Outils et conseils

Découvrez notre atelier

Outils couramment utilisés

  • DICOM Anonymizer (En savoir plus – lien à venir)
  • PixelMed (En savoir plus – lien à venir)
  • Scripts Python personnalisés (En savoir plus – lien à venir)

Autre processus de travail

  1. Identifier les identifiants directs

    Repérer et supprimer les identifiants explicites stockés dans les métadonnées ou les informations associées aux participants.

    Ce que cela signifie

    D'autres ensembles de données comprennent souvent un fichier distinct ou des champs de métadonnées permettant d'associer les données à un participant.

    Procédure à suivre

    Passez en revue l'ensemble de données et les fichiers associés afin d'identifier les éléments permettant d'identifier les personnes, tels que les noms, les identifiants des participants associés à des individus, les adresses courriels ou les informations d'enregistrement des appareils.

    Exemple (ensemble de données ECG)

    Un fichier d'exploration d'ECG provenant d'un appareil portable peut contenir des champs de métadonnées tels que:

    NomPatient: John Smith

    IDPatient: 987654

    CourrielduPropriétaire: [email protected]

    Version anonymisée:

    NomPatient → supprimé

    IDPatient → remplacé par ID_Étude

    CourrielduPropriétaire → supprimé

  2. Identifier les variables susceptibles de permettre l'identification

    Évaluer les variables qui pourraient révéler indirectement l'identité

    Ce que cela signifie

    Certaines variables ne permettent pas d'identifier directement une personne, mais pourraient révéler son identité si elles sont associées à d'autres informations.

    Procédure à suivre

    Vérifiez les champs tels que les données démographiques, la localisation géographique, les horodatages ou les données biologiques qui pourraient permettre d'identifier de manière unique des personnes.

    Exemple

    Les données de séquençage du génome entier peuvent être intrinsèquement identifiables, car le génome d'un individu est unique.

    Exemples de champs d'un ensemble de données:

    IDÉchantillon

    Âge

    Sexe

    Lot_séquençage

    Même en l'absence de noms, les séquences génomiques elles-mêmes peuvent permettre une réidentification si elles sont associées à des bases de données externes.

  3. Sélectionner des méthodes de transformation

    Choisissez des techniques permettant de réduire le risque d'identification tout en conservant les données utiles.

    Ce que cela signifie

    Certaines variables devront peut-être être modifies ou leur précision réduite avant d'être partagées.

    Procédure à suivre

    Voici quelques approches courantes:

    • Pseudonymisation des identifiants des participants
    • Agrégation des données temporelles
    • RemovalSuppression des données de localisation précises
    • Partage de données traitées ou agrégées plutôt que de données brutes
    Exemple (données issues d'un appareil portable)

    Données brutes sur le nombre de pas enregistrées toutes les secondes:

    08:01:01 → 4 pas

    08:01:02 → 5 pas

    Ensemble de données transformées

    Nombre de pas agrégé totaux par heure au lieu d'horodatages à la seconde près.

  4. Appliquer des méthodes de pseudonymisation

    Utiliser des outils d'analyse ou des scripts pour mettre en œuvre les transformations choisies.

    Ce que cela signifie

    L'anonymisation de ces ensembles de données s'effectue généralement à l'aide d'un logiciel d'analyse.

    Procédure à suivre

    Utilisez des scripts ou des outils statistiques pour supprimer les identifiants, agréger les horodatages ou modifier les variables sensibles.

    Exemple (série chronologique de données ECG)

    Supprimez les champs de métadonnées contenant des informations sur les patients et remplacez l'identifiant du patient par un identifiant d'étude aléatoire.

    Exemples d'outils: scripts Python, processus de travail R ou logiciels statistiques.

  5. Examinez l'ensemble de données à la recherche de schémas distinctifs

    Vérifiez si les données restantes permettent encore d'identifier des individus.

    Ce que cela signifie

    Même en l'absence d'identifiants directs, certaines structures de données peuvent tout de même être unique.

    Procédure à suivre

    Vérifiez si des signaux biologiques inhabituels, des schémas de déplacement particuliers ou la petite taille des groupes de participants pourraient permettre de les identifier.

    Exemple (données issues d'appareils portables)

    Des traces GPS continuent indiquant qu'un appareil se trouve chaque nuit à la même adresse pourraient révéler l'adresse du domicile d'un participant.

    Exemple (génomique)

    Continu: une variante génétique rare associée à une famille spécifique pourrait permettre d'identifier les participants.

  6. Vérifier et documenter le processus

    Effectuer des contrôles de qualité et consigner les transformations appliquées

    Ce que cela signifie

    Vérifiez que les informations permettant d'identifier les personnes ont bien été supprimées et consignez les mesures prises.

    Procédure à suivre

    Vérifiez l'ensemble de données après traitement et consignez les transformations appliquées afin que le processus soit transparent et reproductible.

    Exemple

    Les documents indiquent que les noms des participants et les adresses courriels des appareils ont été supprimés, que les horodatages ont été regroupés par tranches horaires, que les coordonnées GPS ont été supprimées et que les identifiants des participants ont été remplacés par les identifiants de l'étude. Le risque de réidentification évalué est consigné afin de pouvoir être réévalué si des données supplémentaires sont ajoutées ultérieurement.

Outils et conseils

Outils couramment utilisés

  • Bibliothèques Python pour le traitement des données (En savoir plus – lien à venir)
  • Paquets statistiques R (En savoir plus – lien à venir)
  • Processus de travail d'analyse personnalisés (En savoir plus – lien à venir)