Open Data et protection des données personnelles : vers une conciliation raisonnable (ou pas)

«Il faut qu’une porte soit ouverte ou fermée.» C’est le titre d’une pièce d’Alfred de Musset, mais aussi une bonne manière d’introduire aux tiraillements juridiques qui peuvent résulter des injonctions contradictoires, d’une part, à l’ouverture des données publiques et, d’autre part, à la protection des données personnelles.

Depuis 2016 et la loi République numérique, les administrations sont (en théorie…) soumises à une obligation d’Open Data par défaut, leur imposant de publier en ligne et de rendre librement réutilisables les informations qu’elles produisent ou collectent. Mais dans le même temps, la règlementation sur la protection des données personnelles est devenue plus rigoureuse, notamment depuis l’entrée en vigueur en mai dernier du RGPD (Règlement Général sur la Protection des données). Entre ces deux termes, il n’y a pas lieu de choisir, car la libre réutilisation des données publiques, tout comme le droit à la vie privée, constituent des principes d’égale valeur qu’il convient de concilier, et non de sacrifier l’un à l’autre. C’est toute la noblesse – mais aussi la difficulté – du droit d’arriver à trouver les bons équilibres en de pareilles situations.

Une donnée peut-elle être ouverte et fermée à la fois ? Une question difficile à résoudre à laquelle la réglementation apporte un commencement de réponse… (image par 3dman_eu. CC0. Pixabay)

Jusqu’à présent, la « clef de conciliation » se trouvait énoncée à l’article 6 de la loi République numérique, de cette manière :

Sauf dispositions législatives contraires ou si les personnes intéressées ont donné leur accord, lorsque les documents et les données mentionnés aux articles L. 312-1 ou L. 312-1-1 comportent des données à caractère personnel, ils ne peuvent être rendus publics qu’après avoir fait l’objet d’un traitement permettant de rendre impossible l’identification de ces personnes.

La logique était la suivante : si des documents sont publiés par une administration, les informations qu’ils contiennent deviennent ipso facto librement réutilisables, en passant par défaut dans le principe d’Open Data. Donc pour protéger la vie privée et les données personnelles, l’article 6 vient préciser que les documents ne doivent pas être publiés par les-dites administrations, lorsqu’ils contiennent des données à caractère personnel, à moins qu’une loi ne le prévoit expressément ou que les personnes y aient consenti ou que l’on ait appliqué un traitement aux documents pour les anonymiser. Cette dernière obligation est énoncée selon des termes stricts, puisque les administrations sont soumises à une obligation de résultat, le traitement des documents devant aboutir à l’impossibilité effective de ré-identifier des personnes.

Ces principes paraissent relever du bon sens, mais pour avoir déjà été confronté concrètement à ces règles dans le cadre d’un projet d’Open Data, je peux témoigner qu’elles sont au contraire redoutablement complexes à manier. Il ne suffit pas en effet d’enlever les noms des personnes apparaissant dans un fichier pour procéder à une anonymisation réelle, car la réidentification peut aussi s’opérer par croisement de données, par inférence ou par corrélation. Il est en réalité difficile de savoir si des données permettent ou non d’identifier des personnes, ce qui fait régner un certain flou peu propice à la prise de décision. Par ailleurs, il arrive que les traitements à appliquer à des jeux de données pour protéger des données personnelles finissent par en mutiler le sens. Et parfois, ce sont même les noms et prénoms qui paraissent indispensables à diffuser pour que les données gardent leur intérêt.

Heureusement, l’article 6 prévoyait une disposition supplémentaire pour aider à dénouer ces contradictions :

Une liste des catégories de documents pouvant être rendus publics sans avoir fait l’objet du traitement susmentionné est fixée par décret pris après avis motivé et publié de la Commission nationale de l’informatique et des libertés.

Cette mesure était très attendue et il aura fallu plus de deux ans avant que le gouvernement ne l’adopte (no comment…), mais au final, ce fameux décret est paru la semaine dernière au journal officiel. Pour en saisir la portée exacte, il est intéressant d’aller lire le billet publié par la mission Etalab pour accompagner sa publication, ainsi que l’avis rendu par la CNIL en mars dernier sur le projet de décret.

Est-on finalement parvenu à une conciliation raisonnable entre Open Data et protection des données personnelles ? Je fais monter encore un peu le suspens et vous saurez mon avis si vous allez au bout de la lecture de ce billet… ;-)

Sous le signe du droit à l’information du public

Le décret est organisé d’une manière particulière. Il procède en listant une série de champs (organisation de l’administration ; organisation de la vie économique, associative et culturelle ; organisation et exercice des professions règlementées ; enseignement et recherche ; organisation et exercice des activités sportives ; organisation et exercice de la vie politique ; organisation et exercice des activités touristique ; formalités en matière d’urbanisme ; certaines catégories de documents d’archives).

Dans chacun de ces domaines, le décret énonce des séries de documents qui pourront être publiés sans faire l’objet d’une opération d’anonymisation. Etalab les liste de cette manière dans son billet :

  • les organigrammes et annuaires des administrations ;
  • le répertoire national des associations et le répertoire des entreprises et de leurs établissements dans leur intégralité ;
  • les annuaires des professions règlementées ;
  • les résultats obtenus par les candidats aux examens et concours administratifs ou conduisant à la délivrance des diplômes nationaux ;
  • les conditions d’organisation et d’exercice des activités sportives ;
  • le répertoire national des élus ;
  • les registres des chambres d’hôtes et gîtes ;
  • la base des permis de construire.

Mais en réalité, le décret instaure des principes plus généraux qui ne se résument pas à cette liste à la Prévert. Chaque catégorie de document est en effet introduite par cette formule « Les documents nécessaires à l’information du public« , suivie de « et notamment« , puis d’un ou plusieurs exemples de documents concernés.

Cela signifie que c’est la notion de « documents nécessaires à l’information du public » qui sert de pivot pour déterminer les documents pouvant être publiés sans anonymisation et ils sont donc plus larges que les seuls exemples cités à titre indicatif par le décret. D’où l’importance de savoir comment interpréter cette nouvelle catégorie, mais la CNIL a heureusement fixé quelques orientations dans son avis.

La Commission a en effet relevé que la première version du décret utilisait l’expression « documents permettant au public d’être informé« , qui lui a paru trop générique. Elle a estimé que « l’emploi de cette dernière formulation est de nature à compliquer l’appréhension du périmètre matériel du texte qui mériterait d’être circonscrit aux seuls documents nécessaires à l’information du public« . Le gouvernement l’a suivi et il faut donc en déduire que l’expression « documents nécessaires à l’information du public » doit recevoir une interprétation restrictive, basée sur un réel critère de nécessité et pas de simple utilité. La CNIL pose cette limite, car elle estime que « le dispositif règlementaire soumis pour avis à la commission ne devrait pas devenir le vecteur de publication par défaut des documents contenant des données à caractère personnel« . L’anonymisation reste donc bien la règle et la publication de documents administratifs comportant des données personnelles, l’exception.

L’articulation apparente avec l’Open Data par défaut

Le règlement n’emploie pas le terme de « réutilisation » et on pourrait penser à première vue qu’il n’a pas de lien avec la question de l’Open Data, étant donné qu’il ne parle que de publication de documents sans anonymisation. Mais l’avis de la CNIL nous montre que ces deux aspects sont bien articulés :

la loi pour une République numérique susvisée est venue modifier le régime juridique applicable à l’accès aux documents administratifs autour d’un principe général suivant lequel, sauf dispositions législatives contraires, tout document communicable est publiable en ligne et librement réutilisable. Si ces nouvelles dispositions témoignent de la volonté du législateur de passer d’une logique de communication à la demande à une logique d’offre à la réutilisation, ce dernier a réservé un sort particulier aux documents administratifs comportant des données à caractère personnel, de façon à préserver l’équilibre entre l’objectif de transparence et l’impératif de protection des personnes.

Etalab va aussi dans ce sens puisqu’il décrit l’effet du décret en ces termes, en employant explicitement le mot « Open Data » :

La publication en open data des différentes catégories de documents listées dans ce nouveau décret permettra d’accroître la transparence et l’efficacité de l’action publique, tout en permettant le développement de nouveaux services numériques.

On aurait donc envie de penser que les catégories de documents concernés par ce décret (ceux contenant donc des documents « nécessaires à l’information du public« ) passent bien dans le principe d’Open Data par défaut, ce qui impliquerait la garantie d’une liberté de réutilisation.

Mais les choses sont hélas plus compliquées…

Des données de Schrödinger, ouvertes et fermées à la fois…

C’est la CNIL qui est venue semer le trouble avec des restrictions dans son avis, venant brouiller la lisibilité des principes énoncés par le décret. Elle aboutit même à mon sens à de très étranges « données de Schrödinger », ouvertes et fermées à la fois !

La CNIL nous dit par exemple que les documents publiés sans anonymisation pourront faire l’objet d’une indexation dans des bases de données pour favoriser leur découverte et leur accès. Mais elle pose une limite en recommandant aux administrations de ne pas permettre leur indexation par des moteurs de recherche extérieurs, en mettant en oeuvre des mesures de sécurisation appropriées :

Ces mesures peuvent consister, par exemple, en l’utilisation de règles d’indexation à destination des moteurs de recherche correctement définies (fichier« robots.txt ») ou de mécanismes visant à s’assurer que l’émetteur d’une requête concernant un document est bien un internaute et non un programme informatique (dispositif de« captcha »précité).

Or ces restrictions ne sont tout simplement pas conformes aux principes même de l’Open Data, tels que consacrés d’ailleurs par la loi République numérique, qui impose de diffuser des données « lisibles par les machines« . On imagine le casse-tête dans la gestion des portails d’Open Data, puisqu’il faudrait être en mesure d’ouvrir l’indexation extérieure à certaines portions des sites, tout en fermant les autres lorsqu’elles contiennent des documents avec des données non anonymisées…

Par ailleurs, la CNIL ajoute des restrictions supplémentaires, liées au respect des droits des personnes sur leurs données :

la commission rappelle que toute réutilisation des données à caractère personnel, notamment à des fins commerciales, devra être conciliée avec le droit d’opposition des personnes concernées. La réutilisation des données devra ainsi respecter la volonté des personnes concernées telle qu’exprimée lors de la collecte. Elle recommande ainsi aux administrations de mettre en œuvre des dispositifs permettant aux réutilisateurs d’identifier précisément les documents pour lesquels des droits d’opposition à certaines réutilisations ont été enregistrés par le responsable du traitement initial.

Là encore, on comprend assez mal la logique qui sous-tend ce passage. La loi République numérique nous disait en effet que le décret allait intervenir pour permettre aux administrations de diffuser des documents avec des informations personnelles sans se baser sur leur consentement, comme c’est la règle de principe. Mais s’il faut respecter à ce point le droit d’opposition des personnes, en leur permettant même de limiter les finalités pouvant être suivies en cas de réutilisation, cela ne nous fait-il pas retomber en définitive dans quelque chose de très proche du consentement préalable ?

Allons même plus loin : si les données en question sont bien « nécessaires à l’information du public », pourquoi laisser aux mains des individus une faculté aussi puissante qu’un droit d’opposition au traitement, dont la mise en oeuvre est susceptible de priver le public d’une information qui lui est nécessaire. La CNIL s’écarte de l’idée d’une conciliation équilibrée entre objectifs de même valeur pour faire prédominer l’un sur l’autre.

Alors certes, le décret présente l’intérêt de permettre la publication des données sans anonymisation, mais l’Open Data n’est pas uniquement affaire de publication, puisqu’il ne se concrétise que par la libre réutilisation. Or sur ce point, l’avis de CNIL va rendre les choses extrêmement complexes pour les réutilisateurs, car ils ne pourront pas se fier uniquement à ce que des données ont été publiées par une administration pour en déduire qu’elles sont librement réutilisables. Les administrations sont certes tenues d’indiquer que des jeux contiennent des données à caractère personnel, mais c’est une charge qui va s’avérer fastidieuse.

Au final, je trouve que la CNIL déforme l’intéressante notion de « documents nécessaire à l’information du public« , car la satisfaction de cette nécessité passe certes par la publication initiale des documents par l’administration, mais aussi par des réutilisations subséquentes, qui peuvent amplifier et simplifier l’accès à cette nécessaire information.

Du côté de la Recherche et de la Culture

Je termine avec des précisions concernant deux secteurs qui m’intéressent particulièrement : la recherche et la culture.

Pour la recherche, le décret est formulé d’une manière intéressante, car pour les autres secteurs, le texte prend le soin de préciser que les catégories de documents doivent concerner « l’organisation ou l’exercice » de certaines activités (par exemple : « Les documents nécessaires à l’information du public relatifs aux conditions d’organisation et d’exercice des activités sportives« ). Mais pour la recherche et l’enseignement, le décret est plus large et il se contente de dire que les catégories de documents visées doivent se rapporter simplement à ces deux secteurs, sans plus de précisions. Cela ouvre sans doute des potentialités intéressantes en matière de Science Ouverte, qu’il faudrait néanmoins prendre le temps de creuser.

Pour ce qui est de la culture, le décret est par contre assez décevant. Un point est consacré spécifiquement aux documents d’archives et la CNIL y consacre aussi des développements dans son avis (que je ne vais pas développer, car il me faudrait trop de temps). Mais le champ de la culture n’est pas évoqué en tant que tel et c’est une sérieuse limitation. La CNIL l’avait d’ailleurs relevé dans son avis :

(…) la commission observe que plusieurs catégories de documents, bien que manifestement susceptibles de contenir des données à caractère personnel nécessaires à l’information du public, ne sont pas mentionnés dans le projet de décret, tels que la culture (catégorie absente) et de l’enseignement et de la recherche (catégorie restreinte aux seuls résultats des examens et concours). Elle rappelle qu’à défaut de figurer dans le présent projet de décret, de tels documents ne pourront faire l’objet d’une communication sans anonymisation préalable, quand bien même leur publication sous une forme non anonymisée présenterait un intérêt réel pour le public.

On peut s’étonner notamment que seules les archives soient mentionnées et pas d’autres établissements culturels, comme les bibliothèques ou les musées, qui détiennent aussi des documents comportant des données à caractère personnel (comme les catalogues de bibliothèques ou les inventaires d’oeuvres des musées). Il faudrait donc en déduire que ces informations devraient être anonymisées, alors que de grands projets d’Open Data existent déjà en France, notamment pour les données des bibliothèques

***

Je dirais donc que la conciliation raisonnable entre Open Data et protection des données personnelles n’est pas encore complètement advenue, et c’est dommage, car ce décret s’était sur une bonne voie grâce à la notion de « documents nécessaires à l’information du public« .


7 réflexions sur “Open Data et protection des données personnelles : vers une conciliation raisonnable (ou pas)

  1. qui détiennent aussi des documents comportant des données à caractère personnel (comme les catalogues de bibliothèques ou les inventaires d’oeuvres des musées).

    Des données à caractère personnel ?
    Lesquelles ?

    Tu veux parler du nom et du prénom de l’auteur ?

    Ces données sont l’essence même de l’oeuvre !
    Un nom et une oeuvre sont liées. Change le nom, tu changes l’oeuvre.

    Ces données « personnelles » sont souvent la seule façon de la retrouver dans une bibliothèque ou dans un musée.
    (ou même chez un libraire ou un éditeur)
    En acceptant la publication, l’auteur reconnaît et acceptent que ces données soient rendues publiques. Il n’en ignore pas la ou les finalités. Sa réputation personnelle et sa notoriété y sont liées

    Ce serait comme dire que les noms et prénoms des hommes politiques (et même leur image) sont des données personnelles. Idem pour les stars.ou pour toute autre personnalité publique.

    Ou alors tu penses à autre chose.

    1. Non, c’est bien au nom et prénom de l’auteur que je pensais et la question se pose de savoir si de telles données (personnelles) peuvent ou non être diffusées en Open Data.

      En acceptant la publication, l’auteur reconnaît et acceptent que ces données soient rendues publiques. Il n’en ignore pas la ou les finalités. Sa réputation personnelle et sa notoriété y sont liées.

      La question est bien celle de la finalité. En cas de publication, l’auteur accepte bien implicitement que son nom et son prénom soient utilisés à des fins d’identification de son oeuvre et d’attribution. Mais c’est le propre de l’Open Data de permettre la réutilisation des informations à n’importe quelles fins et pas uniquement pour celles qui avaient été voulues à l’origine.

      Or ici, je constate que mis à part les données des archives publiques, le décret ne mentionne pas les données des catalogues de bibliothèques comme faisant partie de celles qui peuvent être mises en Open Data, bien que comportant des informations à caractère personnel.

      Et c’est une grosse lacune à mon sens… Car il s’agit vraisemblablement « de données nécessaires à l’information du public » qui auraient pu aisément figurer dans la liste.

      Par ailleurs, gros contresens : les noms et prénoms des hommes politiques et des stars sont bien des informations à caractère personnel soumises en tant que telles au RGPD, qui prévoit néanmoins des exceptions pour « l’expression journalistique » basée sur la liberté d’expression, mais cela n’a rien à voir avec la notoriété de la personne.

      Après, j’ai envie de dire que ce décret a été pris en interministériel et que le Ministère de la Culture a mal fait son job en omettant les données des catalogues de bibliothèques…

  2. Par ailleurs, gros contresens : les noms et prénoms des hommes politiques et des stars sont bien des informations à caractère personnel soumises en tant que telles au RGPD, qui prévoit néanmoins des exceptions pour « l’expression journalistique » basée sur la liberté d’expression, mais cela n’a rien à voir avec la notoriété de la personne.

    Je te rappelle juste que, pour la « notoriété », ces données sont utilisées par la Wikipedia, et dans nombre de dictionnaires ou encyclopédies.

    Si je cherche un certain « Calimaq » sous son vrai nom… (Oui, tu es célèbre. :-) )
    La Wikipedia me renvoie à une « notice d’autorité personne » (https://www.idref.fr/114260761)
    Intéressante dénomination je trouve.
    Peux-tu vraiment t’opposer à cette « diffusion » de ton nom et prénom en invoquant le RGPD ?

    De même, certains sets de données, sur les temps de présence des sénateurs et députés (par exemple) sont fournis en données publiques, parce que ce sont des personnalités publiques.

    Les créateurs ou patrons d’entreprise doivent aussi fournir leurs noms et prénoms.
    Ne parlons pas de tous ceux référencés dans les annuaires téléphoniques pro (ou pas). Rien qu’au niveau profession libéral, c’est évident qu’il faut les afficher quelque part pour l’information au public. La finalité est claire trouver des clients.

    Alors oui, quelque part, les noms et prénoms sont bien des données à caractère personnel. Sauf qu’il y a bien des cas où ces données sont nécessaires et obligatoires.
    Bizarre que dans le décret on ne parle pas des actes de justices. Ou alors c’est aussi caché que pour la Culture
    « 2° Les documents nécessaires à l’information du public relatifs aux conditions d’organisation de la vie économique, associative et culturelle […]

    Nom et prénom, données personnelles ?
    Si on penche un peu plus sur « Calimaq » IRL, (donc toujours avec ton vrai nom).
    et qu’on regarde ici : http://www.namespedia.com/details/Maurel
    On s’aperçoit que ton nom et ton prénom ne sont pas aussi personnels que prévus. Tu as sept homonymes.

    Par contre, ils ne sont pas nombreux à avoir ça
    http://www.isni.org/isni/0000000055257832
    https://catalogue.bnf.fr/ark:/12148/cb15930351r
    https://www.wikidata.org/wiki/Q16655993

    qui peut se résumer en graphe ici
    https://viaf.org/viaf/78792119/

    viaf = Fichier d’autorité international virtuel

    Tu es une grosse pointure Calimaq. :-)

    On le voit tout de suite en tapant ton nom et prénom et en sélectionnant images sur un moteur de recherche.
    Tu apparais immédiatement.

    Ce serait très amusant d’utiliser et de demander à Google de fournir un retour de tous les documents parlant de toi. Prévois un gros disque dur !

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.