Affaire DisinfoLab : quelles retombées potentielles sur la recherche publique et la science ouverte ?

Le début du mois d’août a été marqué par l’affaire Disinfolab qui a mis un violent coup de projecteur sur la question de la réutilisation des données issues des réseaux sociaux à des fins de recherche. S’inscrivant dans le contexte explosif de l’affaire Benalla, elle a fait naître une bruyante polémique, pas forcément propice au développement d’une analyse juridique rigoureuse des différentes questions qu’elle soulève. Maintenant qu’un peu de temps est passé, il paraît intéressant de se replonger dans cette affaire qui constitue un véritable cas d’école pour l’application du nouveau cadre de la protection des données personnelles issu du RGPD. La CNIL ayant été saisie suite au dépôt de nombreuses plaintes, il sera extrêmement intéressant d’observer sa décision, qui va devoir trancher beaucoup de points épineux.

Pour mémoire, l’affaire éclate le 8 août dernier lorsque l’ONG belge EU Disinfolab publie les résultats d’une étude des tweets émis à propos de l’affaire Benalla. Elle entend démontrer qu’une forte proportion des messages (44%) a été publiée par une petite minorité hyperactive (1% des utilisateurs) dont 27% seraient liés à un « écosystème russophile ». Face aux protestations et à la remise en cause de ces résultats, l’ONG diffuse en ligne plusieurs fichiers dans un souci de transparence et à des fins de « vérification méthodologique » : un listant 55 000 comptes ayant tweeté sur l’affaire, un pointant 3890 utilisateurs jugés « hyperactifs » et un dernier – celui qui a fait le plus réagir – classant ces comptes par affiliation politique : LR/souverainistes, Rassemblement national, France insoumise, médias/LREM.

C’est à partir de là que les accusations de « fichage politique » et d’attribution de « matricules » ont commencé à fuser, ainsi que les soupçons de violation de la réglementation sur la protection des données personnelles, du fait notamment de l’absence de recueil du consentement des personnes concernées. Beaucoup de choses ont été dites et écrites à ce sujet, mais il me semble que la plupart des analyses que j’ai pu voir passer manquent l’essentiel. En effet, comme j’ai pu le montrer dans un post publié sur ce blog en juillet dernier, le RGPD contient un régime dérogatoire destiné à favoriser les activités de recherche basées sur des informations à caractère personnel. L’affaire Disinfolab va sans doute constituer le premier « crash test » pour ce corpus de règles, avec l’enjeu pour la CNIL de commencer à délimiter la portée exacte de ces dérogations.

Voilà la raison pour laquelle cette affaire va sans doute avoir des retombées qui dépasseront ce cas particulier pour affecter le secteur de la recherche tout entier. On a pu déjà voir le site «Les crises», en pointe sur le sujet, faire un parallèle entre les agissements de l’ONG EU Disinfolab et le projet « Politoscope » porté par l’Institut des Systèmes Complexes, une unité mixte de recherche du CNRS. Procédant eux aussi à des analyses de données récupérées en masse à partir de Twitter, ces chercheurs identifient des « communautés politiques », mais sans diffuser la base de données source. Il n’en reste pas moins que ces travaux ont pareillement fait l’objet d’une accusation de « fichage politique » et de questionnements quant au respect des règles de protection des données personnelles :

Mais quelle est la réelle valeur ajoutée de ces travaux ? Bien sûr on apprend des choses, mais est-ce vraiment si important ? Cela vaut-il le risque que de tels fichiers soient constitués – et donc peut-être utilisés un jour (ou simplement piratés) ? Êtes-vous à l’aise avec le fait qu’un tel fichier existe ?

Big Brother ?

On imagine cependant que le laboratoire aura fait montre de prudence que DisinfoLab.

Mais cela pose néanmoins de nombreuses questions : les données sont-elles anonymisées, comment sont elles-stockées, est-il vraiment impossible de lever l’anonymat si la base était piratée ? (cela semble difficile, car il suffit de retrouver certains tweets dans Twitter, etc.)

Par ailleurs, l’affaire Disinfolab soulève aussi des questions vis-à-vis de la Science Ouverte. La personne à l’origine de l’étude – le doctorant Nicolas Vanderbiest – justifie le choix de publier les fichiers problématiques en ligne par un souci de transparence pour permettre à des tiers de vérifier les résultats par l’accès aux données source. C’est typiquement ce que prône l’idée d’ouverture des données de la recherche, promue notamment par le Plan national pour la Science Ouverte publié par le Ministère de l’Enseignement et de la Recherche en juillet dernier. Plus encore, l’ouverture des données de recherche est même une obligation légale à laquelle les équipes de recherche sont désormais soumises, comme l’a montré un rapport récent de la BSN. Mais l’exigence d’accès aux données est à concilier avec l’impératif de protection des données personnelles et l’obligation d’ouverture ne concerne pas ces informations. Il n’en reste pas moins que si les principes sont relativement clairs, les chercheurs vont se retrouver pris entre des injonctions contradictoires qui peuvent être assez redoutables à concilier, surtout dans le contexte tendu d’une affaire médiatisée comme celle-ci.

C’est la raison pour laquelle il me semble intéressant d’examiner les principales questions juridiques soulevées par cette affaire, sans l’ambition d’en faire le tour mais en essayant de faire ressortir les enjeux qui seront sans doute au cœur de la décision à venir de la CNIL.

Vous avez dit « recherche scientifique » ?

Comme on va le voir un peu plus loin, EU Disinfolab va avoir intérêt à revendiquer le bénéfice du régime dérogatoire prévu par le RGPD pour les activités de recherche scientifique, notamment pour le recueil et le traitement des données personnelles sans le consentement des personnes. Néanmoins pour cela, encore faut-il que l’activité de l’ONG puisse être juridiquement qualifiée de « recherche » ce qui va sans doute poser des questions.

Comme je l’avais montré en juillet dernier, le RGPD a une conception extensive de la notion de « recherche » qu’il ne limite pas à la recherche publique, comme on le voit nettement dans le considérant 159 :

Aux fins du présent règlement, le traitement de données à caractère personnel à des fins de recherche scientifique devrait être interprété au sens large et couvrir, par exemple, le développement et la démonstration de technologies, la recherche fondamentale, la recherche appliquée et la recherche financée par le secteur privé.

Le fait que Disinfolab ne soit pas un laboratoire de recherche au sens propre du terme n’est donc pas un point bloquant, puisque le RGPD n’a pas une conception « organique » de cette activité (c’est-à-dire devant être déduite de la nature des structures qui exercent le traitement des données).  Cela contraste avec l’archivage, pour lequel le RGPD prévoit aussi des dérogations, mais en prenant le soin de préciser que seuls les « traitements à des fins archivistiques dans l’intérêt public » sont couverts, ce qui exclut le secteur des archives privées.

Si le RGPD n’a pas une vision « organique » des activités de recherche, il en a une vision « téléologique », c’est-à-dire (et c’est logique vu le fonctionnement du texte) qu’il envisage la recherche comme une finalité spécifique poursuivie. Or cette spécificité doit se manifester par la méthode employée pour le traitement des données, qui doit répondre aux critères de la démarche scientifique.

C’est là que l’affaire Disinfolab va mettre la CNIL dans une situation délicate, car il va lui falloir se prononcer sur « ce qu’est la science », ce qui n’est jamais confortable lorsqu’on est une institution publique. L’étude de Disinfolab a reçu de nombreuses critiques, y compris de la part d’autres chercheurs, pointant la méthodologie employée ou des « biais » introduits pour conduire au résultat recherché. D’autres ont aussi souligné l’origine des financements de la structure, la proximité dérangeante entre l’ONG et une agence de communication, ainsi que les liens entre certains des co-auteurs de l’étude et la République en Marche.

Jusqu’à quel point l’emploi d’une méthodologie défaillante remet-elle en cause la scientificité d’une étude ? Et jusqu’à quel point des biais politiques peuvent aussi avoir cet effet ? C’est une question délicate et il est difficile de répondre dans l’absolu. Peut-être vaudrait-il mieux d’ailleurs que la CNIL puisse se prononcer sans avoir entrer dans ce genre de débats, mais il sera difficile sans doute de les esquiver puisque la légalité des agissements de Disinfolab dépend en partie de leur rattachement à la recherche scientifique.

Constituer la base de données sans le consentement des personnes

On a l’habitude de dire que le RGPD (et avant lui la loi Informatique et Libertés) impliquent que les personnes donnent leur consentement en amont du traitement des données les concernant, mais il s’agit d’une simplification abusive. Car en réalité, le consentement ne constitue qu’un des six fondements prévus par le texte pour un traitement licite de données.

Or beaucoup de protestations que l’on a pu voir sur Twitter mettaient en avant le fait qu’on n’avait pas demandé le consentement des personnes pour constituer la base à partir de données récupérées sur le réseau social. Cette base a ensuite été décrite comme une forme de « fichage politique » et l’attribution de numéros aux individus a été comparée à celle de « matricules ».

Ces termes ont servi à faire enfler la polémique, mais ils sont assez inappropriés pour analyser juridiquement de quoi il retourne dans ce cas d’espèce. Comme Disinfolab avait pour but de catégoriser des personnes selon leurs opinions politiques, nous sommes ici en présence de ce que le RGPD appelle des « données particulières » pour lesquels les traitements sont en principe interdits en raison de leur sensibilité :

Le traitement des données à caractère personnel qui révèle l’origine raciale ou ethnique, les opinions politiques, les convictions religieuses ou philosophiques ou l’appartenance syndicale, ainsi que le traitement des données génétiques, des données biométriques aux fins d’identifier une personne physique de manière unique, des données concernant la santé ou des données concernant la vie sexuelle ou l’orientation sexuelle d’une personne physique sont interdits.

Néanmoins, le texte prévoit une liste de 10 exceptions dans lesquelles les traitements deviennent possibles, la première d’entre elles étant effectivement « lorsque la personne concernée a donné son consentement explicite […] pour une ou plusieurs finalités spécifiques« . Mais il existe deux autres situations où le consentement n’est pas nécessaire et qui sont applicables ici  :

e) le traitement porte sur des données à caractère personnel qui sont manifestement rendues publiques par la personne concernée ;

j) le traitement est nécessaire à des fins archivistiques dans l’intérêt public, à des fins de recherche scientifique ou historique ou à des fins statistiques, conformément à l’article 89, paragraphe 1, sur la base du droit de l’Union ou du droit d’un État membre qui doit être proportionné à l’objectif poursuivi, respecter l’essence du droit à la protection des données et prévoir des mesures appropriées et spécifiques pour la sauvegarde des droits fondamentaux et des intérêts de la personne concernée.

EU Desinfolab pourra vraisemblablement s’appuyer sur l’une ou l’autre de ces dispositions, qui peuvent avoir chacune leur intérêt. La première est intéressante pour l’ONG, car elle pourra en revendiquer le bénéfice même si la CNIL estimait que son activité n’a pas un véritable caractère scientifique. Mais la seconde est plus intéressante encore, car comme nous le verrons ci-après, invoquer la poursuite d’une finalité de recherche permet de bénéficier de dérogations supplémentaires, outre le fait de pouvoir se passer du consentement des personnes.

Il n’en reste pas moins qu’en ce qui concerne la constitution même de la base sans consentement, les critiques adressées à l’ONG étaient sans doute infondées, car le RGPD contient des dispositions sur lesquelles Disinfolab pourra s’appuyer et c’est aussi a fortiori le cas pour le projet Politoscope de l’ISC.

Récupérer les données auprès de Twitter

Un des problèmes potentiels vient néanmoins de la source auprès de laquelle les données ont été collectées, à savoir l’API de Twitter. Nicolas Vanderbiest a lui-même indiqué avoir eu recours à la plateforme Visibrain qui offre un accès aux données du réseau social en contrepartie d’un abonnement payant, cette société étant elle-même en affaire avec Twitter pour lequel ce type de « revente » des données constitue une partie substantielle de son modèle économique. On pourrait d’ailleurs arguer que les personnes ont en réalité consenti à ce que des tiers aient accès de cette façon à leurs données, lors de l’acceptation des CGU de Twitter qui prévoient ce type de monétisation. Mais il y a en réalité peu de chances que cela soit compatible avec l’exigence de recueil d’un consentement « libre et éclairé » pour une finalité spécifique prévue par le RGPD. Twitter vient d’ailleurs de subir une lourde condamnation en justice en France qui a invalidé 250 clauses de ces CGU jugées « abusives », ce qui jette le doute sur la manière dont la plateforme fonctionne et valorise les données.

Donc même si les données étaient techniquement récupérables par le biais de son API, il est probable que les traitements subséquents aient été dépourvus de base légale, sauf si l’on se tourne à nouveau vers le régime dérogatoire prévu au bénéfice des activités de recherche. Le RGPD prévoit en effet une exception au principe de limitation des finalités qui permet, lorsque des données sont collectées initialement dans un certain but, de les traiter ensuite à des fins de recherche en considérant que cette nouvelle finalité est automatiquement compatible avec le but premier :

[…] le traitement ultérieur à des fins archivistiques dans l’intérêt public, à des fins de recherche scientifique ou historique ou à des fins statistiques n’est pas considéré, conformément à l’article 89, paragraphe 1, comme incompatible avec les finalités initiales (limitation des finalités);

Cela signifie que si Twitter a bien collecté des données de ses utilisateurs correctement (ce qui n’est cependant pas absolument certain au vu de ses CGU), il peut ensuite les remettre à des chercheurs afin que ceux-ci les analysent, sans avoir à redemander le consentement des personnes. Cette dérogation est en réalité puissante, car elle permet à des chercheurs de récupérer des données auprès de tiers, sans avoir à les collecter eux-mêmes. Mais pour autant, elle n’exonère pas complètement les chercheurs du respect des droits des personnes sur leurs données et cela va avoir de retombées sur l’affaire Disinfolab.

Respecter les droits d’information et d’opposition des personnes

Dans la philosophie du RGPD, même lorsqu’elles sont donné leur accord pour un traitement ou lorsque ce traitement peut s’exercer sans consentement, les personnes conservent une série de droits sur leurs données destinés à leur assurer de garder le contrôle sur les usages : information, accès, rectification, effacement, limitation, opposition, portabilité. Mais le texte prévoit que les États-membres peuvent activer des options permettant à certaines activités de bénéficier de dérogations pour faire obstacle à la mise en œuvre du droit des personnes. C’est notamment le cas pour les traitements à des fins archivistiques et la France a choisi d’appliquer ces dérogations au niveau national pour que les documents d’archives publiques ne puissent pas faire l’objet de demandes de droit à l’oubli (effacement). Elle l’a également fait pour les traitements à des fins de recherche pour les droits d’accès, de limitation, de rectification et d’opposition, mais seulement manière très limitée, puisque le décret du 1er août 2018 précise que les chercheurs ne peuvent refuser la mise en oeuvre de ces droits par les personnes que s’ils risque de « rendre impossible ou d’entraver sérieusement la réalisation des finalités spécifiques et où de telles dérogations sont nécessaires pour atteindre ces finalités » (Art. 100-1).

Il en résulte que même dans l’hypothèse où Disinfolab pourrait revendiquer les dérogations prévues en faveur de la recherche, il faut vérifier la manière dont elle a respecté les droits RGPD des personnes.

Le premier d’entre eux est le droit à l’information qui veut que les individus soient prévenus d’une activité de traitement de données les concernant, et ce même lorsque les informations sont récupérées auprès de tiers sans consentement. Néanmoins, le RGPD prévoit tout de même un aménagement pour la recherche lorsque :

la fourniture de telles informations se révèle impossible ou exigerait des efforts disproportionnés, en particulier pour le traitement à des fins archivistiques dans l’intérêt public, à des fins de recherche scientifique ou historique ou à des fins statistiques […]

Ici, les données récupérées concernaient des milliers d’utilisateurs de Twitter et on peut sans doute considérer que les informer individuellement aurait nécessité un « effort disproportionné » pour l’ONG. Le texte précise ensuite néanmoins que dans une telle hypothèse :  « le responsable du traitement prend des mesures appropriées pour protéger les droits et libertés ainsi que les intérêts légitimes de la personne concernée, y compris en rendant les informations publiquement disponibles.« . Or il n’est pas certain que le site de Disinfolab ait été irréprochable de ce point de vue.

Par ailleurs, les personnes disposent d’un droit d’opposition pour faire cesser un traitement, que la CNIL a d’ailleurs incité les internautes à utiliser en sollicitant directement l’ONG. Là aussi, le RGPD prévoit des aménagements pour la recherche, vu que des chercheurs peuvent refuser de faire droit à de telles demandes si la suppression des données a l’effet de « rendre impossible ou de compromettre gravement la réalisation des objectifs dudit traitement » (mais ce n’est manifestement pas le cas ici). Enfin, il faudra sans doute que la CNIL examine si les traitements effectués par Disinfolab constituaient des opérations de « profilage », car cela ouvre un droit d’opposition spécifique aux personnes, sans que le texte soit très clair sur la manière dont cela doit être articulé avec le régime dérogatoire prévu pour la recherche.

Republier les données source et permettre la vérification

On le voit, jusqu’ici Disinfolab a quand même d’assez bonnes chances de pouvoir s’appuyer sur ces exceptions mises en place par le RGPD pour la recherche de manière à couvrir ses activités et ce n’est en réalité pas en soi la constitution de la base qui pose réellement problème, même en procédant à une classification des personnes par opinion politique.

Là où l’ONG a manifestement commis une lourde erreur, c’est en republiant ces fichiers de données sur Internet. Un certain nombre de commentateurs ont trouvé étrange que cela puisse soulever des difficultés, car il est vrai – au moins pour les informations brutes figurant sur les profils – que celles-ci étaient déjà publiques et accessibles pour quiconque. Mais ce type de réactions révèle en réalité une certaine incompréhension du sens de la protection des informations à caractère personnel. Le but de cette législation n’est pas uniquement de protéger la confidentialité ou même la vie privée (ce n’est qu’un effet indirect de ces dispositions). Son but réel est de donner aux individus un pouvoir de contrôle à chaque fois qu’il y a traitement de données personnelles. Or republier ailleurs des données publiées à un endroit constitue incontestablement un nouveau traitement, quand bien même les personnes auraient elles-mêmes procédé à la publication initiale.

Ici, la question est de savoir si le traitement que constitue cette republication des données sources était nécessaire à la réalisation de la finalité de recherche. Or la réponse est clairement non. Que Disinfolab ait eu besoin de récupérer les données pour effectuer ses analyses constituait une nécessité. On peut cependant quand même se demander si l’ONG n’aurait pas dû immédiatement procéder à une anonymisation des données ou, au moins, à leur pseudonymisation. Car pour déterminer que 44% des tweets ont été émis par 1% des utilisateurs, il n’est nul besoin de conserver des données identifiantes. Le RGPD est d’ailleurs très clair sur le fait que les traitements réalisés à des fins de recherche bénéficient certes de dérogations, mais tout en restant strictement soumis aux principes de nécessité et de proportionnalité :

Les conditions et garanties en question peuvent comporter des procédures spécifiques permettant aux personnes concernées d’exercer ces droits si cela est approprié eu égard aux finalités du traitement spécifique concerné, ainsi que des mesures techniques et organisationnelles visant à réduire à un minimum le traitement des données à caractère personnel conformément aux principes de proportionnalité et de nécessité.

Or ici, non seulement il est loin d’être certain que la conservation de données non-anonymisées ou pseudonymisées était nécessaire pour conduire cette recherche, mais il est par ailleurs clair qu’aucune nécessité ne justifiait que ces données soient ensuite republiées sur Internet, où elles ont été massivement téléchargées et repartagées.

On objectera que Desinfolab respectait au contraire l’esprit de la démarche scientifique en donnant accès aux données brutes ayant servi à réaliser cette étude dans la lignée des préceptes de la Science Ouverte (Open Science). Mais des vérifications auraient sans doute pu être pareillement effectuées sur la base de données anonymisées. Et si ce n’était pas le cas, l’ONG aurait dû ménager un accès au coup par coup aux personnes souhaitant procéder à ces vérifications (autres chercheurs ou journalistes), en prenant les précautions nécessaires pour éviter la dissémination incontrôlées des données. La dérogation que j’ai mentionnée plus haut au principe de limitation des finalités de traitement s’applique d’ailleurs sans doute aussi bien à la réalisation d’une recherche initiale à partir de données collectées auprès de tiers qu’à des traitements effectués ensuite pour vérifier les résultats d’une recherche, car cette opération fait intrinsèquement partie de ce qu’est la démarche scientifique (validation par les pairs). Mais encore faut-il prendre les précautions nécessaires pour éviter l’atteinte aux droits des personnes, ce qui exclut la diffusion sauvage des informations, qui plus est sur une simple Dropbox !

Disinfolab a d’ailleurs bien conscience de la fragilité de sa position, car pour essayer de s’en sortir, ils invoquent dans un communiqué ce que l’on peut voir comme le deus ex machina du RGPD :  la notion d’intérêt légitime, l’un des fondements permettant de traiter des données sans consentement des personnes, en précisant ici que la publication a été effectuée au nom de « l’exercice du droit à la liberté d’information et du droit du public à l’information« . Il y a en réalité peu de chances que cela fonctionne, car le RGPD précise bien que l’intérêt légitime – dont il ne donne pas de définition précise – peut être invoqué « à moins que ne prévalent les intérêts ou les libertés et droits fondamentaux de la personne concernée qui exigent une protection des données à caractère personnel« . Or ici, les données collectées étaient des informations sensibles relatives aux opinions politiques des personnes et, encore une fois, il était possible d’étayer les résultats de l’étude sans aller jusqu’à la republication telles quelles des données source.

Game Over.

Quelles leçons pour la recherche scientifique ?

Ce billet est déjà trop long pour que je m’étende davantage, mais il me semble que cette affaire devrait inciter les chercheurs à réfléchir aux conditions de l’étude des données issus de réseaux sociaux. Comme nous l’avons vu, il y a dans le RGPD des dispositions qui permettent sans doute d’exploiter ce type de matériaux, y compris lorsqu’il s’agit de données sensibles, dans le respect des règles de la protection des données. Mais uniquement à condition de prendre certaines précautions élémentaires s’agissant des droits des personnes concernées. Pour parodier Spiderman : « un grand pouvoir implique de grandes responsabilités » et il n’est pas abusif de dire que le RGPD met dans les mains des chercheurs un pouvoir important en matière de traitement de données, car il reconnaît que la conduite de ces activités relève d’un intérêt général justifiant des dérogations aux principes généraux.

En l’état, l’exercice reste néanmoins globalement périlleux, car si les principes sont a peu près clairs, une affaire comme celle-ci montre bien à quel point leur mise en pratique génère encore de nombreuses zones d’ombre. La décision de la CNIL pourra contribuer à lever certaines de ces obscurités, notamment en précisant la portée de ce régime dérogatoire pour la recherche et le périmètre des activités pouvant en bénéficier.

Mais je ne miserai pas uniquement sur la jurisprudence pour élucider les questions soulevées par l’usage des données personnelles à des fins de recherche. Il me semble que la communauté scientifique devrait se montrer proactive en la matière, s’emparer du sujet et définir collectivement des règles éthiques et des bonnes pratiques visant à organiser concrètement l’équilibre entre les droits des chercheurs et ceux des personnes. En matière de données de santé, c’est déjà ce qui existe avec plusieurs méthodologies de référence avalisées par la CNIL au fil du temps et dont elle vient de reconfirmer la validité après l’entrée en vigueur du RGPD. Le respect de ce type de canevas est en effet en phase avec l’esprit du principe d’accountability qui imprègne le règlement européen et impose aux acteurs d’implémenter par eux-mêmes des mesures assurant la conformité des traitements au texte.

On pourrait imaginer une sortie par le haut de cette crise provoquée par l’affaire Disinfolab qui verrait la communauté scientifique (au sens large) se rapprocher de la CNIL pour élaborer une ou des méthodologies de référence en matière d’analyse des données récupérées à partir de sites comme les réseaux sociaux, ainsi que pour les questions d’accès à des données à des fins de vérification des résultats d’une recherche.

[Mise à jour du 28/08/2018] : On peut aussi se reporter au décret d’application de la loi du 1er août 2018, qui contient un article (Art. 100-1) concernant les dérogations en matière de recherche, avec des précisions intéressantes pour réfléchir sur l’affaire Disinfolab :

Les dérogations prévues au troisième alinéa de l’article 36 de la loi du 6 janvier 1978 susvisée relatif aux traitements à des fins de recherche scientifique ou historique ou à des fins statistiques s’appliquent uniquement dans les cas où les droits prévus aux articles 15, 16, 18 et 21 du règlement (UE) 2016/679 du 27 avril 2016 précité risqueraient de rendre impossible ou d’entraver sérieusement la réalisation des finalités spécifiques et où de telles dérogations sont nécessaires pour atteindre ces finalités.

Les données issues de ces traitements conservées par le responsable du traitement ou son sous-traitant ne sont accessibles ou modifiables que par des personnes autorisées. Ces personnes respectent les règles de déontologie applicables à leurs secteurs d’activités. Les autorisations accordées par les responsables de traitement à ces personnes respectent les finalités spécifiques de l’alinéa précédent ainsi que les garanties prévues à l’alinéa suivant.

Ces données ne peuvent pas être diffusées sans avoir été préalablement anonymisées sauf si l’intérêt des tiers à cette diffusion prévaut sur les intérêts ou les libertés et droits fondamentaux de la personne concernée. Pour les résultats de la recherche, cette diffusion doit être absolument nécessaire à sa présentation. Les données diffusées doivent être adéquates, pertinentes et limitées à ce qui est nécessaire au regard des finalités pour lesquelles elles sont traitées. La diffusion de données à caractère personnel figurant dans des documents consultés en application de l’article L. 213-3 du code du patrimoine ne peut intervenir qu’après autorisation de l’administration des archives, après accord de l’autorité dont émanent les documents et avis du comité du secret statistique institué par l’article 6 bis de la loi n° 51-711 du 7 juin 1951 sur l’obligation, la coordination et le secret en matière de statistiques en ce qui concerne les données couvertes par le secret en matière de statistiques.

 

 

 


17 réflexions sur “Affaire DisinfoLab : quelles retombées potentielles sur la recherche publique et la science ouverte ?

  1. merci encore pour cette clarté d’analyse.. j’aurais rajouté le droit au respect de la dignité de la personne , comme valeur universelle ( DUDH 1948) à défaut d’être dans le droit positif .

    1. Merci pour votre lecture. Le RGPD fait référence à la dignité de la personne dans ses considérants et la législation Informatique et libertés en France a dès l’origine été fondée sur ce principe. On peut dire que cette orientation « personnaliste » est ce qui fonde l’originalité de l’approche européenne de la protection des données personnelles.

      1. En effet l’angle de la dignité de la personne est intéressant quand on voit l’usage indigne qui a été fait par le gouvernement de cette soi-disant recherche scientifique pour dénigrer les critiques comme de simples relais de la Russie.

  2. Bonjour Calimaq, et merci encore pour ce billet
    Une question me taraude (est-ce ma lecture trop empressée qui fait que je n’ai pas vu la réponse dans ton article ?) : L’anonimisation des identifiants de comptes Twitter est-elle selon toi (ou selon ta lecture des textes réglementaires) intervenir uniquement lors de la publication des données de recherche ? Ou alors dès qu’on se met a stocker ces informations ?
    En lisant ton billet, j’ai eu l’impression que c’était plutôt la seconde solution, mais elle me semble poser des problèmes méthodologiques (pouvoir faire des vérifications a posteriori, ré-enrichir les données dans un second temps, etc)ⁿ

    1. Bonjour Étienne et merci pour ce commentaire qui va me permettre de détailler un point important.

      Dans le RGPD, la licéité des traitements de données personnelles est basée (entre autres) sur deux principes essentiels : la nécessité et la proportionnalité des traitements, ce qui entraîne une obligation de minimisation des données utilisées.

      En simplifiant, cela signifie qu’on ne peut collecter et traiter des données identifiantes que si c’est nécessaire pour atteindre la finalité recherchée et uniquement dans la mesure où cela permet d’atteindre ce but.

      Ici, au vu de la nature des résultats publiés (des proportions de tweets catégorisés), on peut se dire qu’il n’était pas nécessaire pour conduire cette recherche de conserver le lien aux personnes. Cela n’aurait rien changé aux résultats.

      Les données auraient donc sans doute pu être anonymisées dès l’origine en retravaillant le matériau de base issu de Twitter. Comme il est toujours difficile d’arriver à anonymiser vraiment ce genre de données, les informations auraient pu être au moins pseudonymisées (remplacer les pseudos/noms d’utilisateur par un numéro d’identification et détruire ensuite la table de correspondance). Le RGPD prévoit cette possibilité, en précisant que des données pseudonymisées restent bien soumises au texte (cela reste des données personnelles).

      Et pour la recherche, le RGPD insiste même sur le fait que les dérogations accordées ne concernent pas les principes de nécessité et de proportionnalité, ce qui veut dire que les chercheurs doivent impérativement se poser ces questions et appliquer d’eux-mêmes des mesures strictes de minimisation.

      C’est d’ailleurs là qu’on voit que la polémique autour de l’attribution de « matricules » est en réalité assez inepte, car remplacer l’identité de personnes par des numéros peut constituer une mesure de protection des données, si cette pseudonymisation est correctement effectuée (ce qui n’était pas le cas ici). Et cela peut même être une obligation en vertu du RGPD.

      Donc pour répondre à ta question, l’anonymisation (ou au moins la pseudonymisation) aurait sans doute dû ici être effectuée aussitôt après la collecte.

      Pour la publication des fichiers sur Internet, c’est différent, car elle est intrinsèquement illégale vu qu’elle ne répond à aucune nécessité pour atteindre la finalité visée. Même des données pseudonymisées auraient été problématiques et il aurait fallu effectuer une anonymisation complète, ce qui est toujours délicat avec ce type de données pour lesquelles les ré-identifications indirectes sont souvent aisées à opérer.

      Je ne pense pas que ces opérations de protection dès l’origine (privacy by design et by default) posent réellement problème en matière de vérificabilité des résultats d’une recherche. Il importe que ces opérations soient elles-mêmes documentées pour expliquer la méthodologie suivie et la vérification à partir du corpus utilisé pourra s’effectuer, vu que c’est la matière même qu’aura traité la recherche de base.

      Lorsque qu’une expérience de chimie se fait sur du fer, on ne demande pas aux chercheurs de repartir du minerai natif pour reproduire les résultats. C’est grosso modo la même chose pour les données.

      Néanmoins, il peut exister des cas où une recherche va avoir nécessairement besoin de porter sur des données identifiantes et où ni l’anonymisation, ni même la pseudonymisation n’ont de sens. Comme j’ai essayé de le montrer, le RGPD l’admet tout à fait et il estime même qu’il relève de l’intérêt général de permettre aux chercheurs d’effectuer ces traitements, y compris parfois dans le consentement des personnes concernées et sans qu’elles puissent faire valoir certains de leurs droits.

      C’est au fond une forme de « socialisation » des données que le RGPD admet et encourage même.

      Toute la difficulté de l’application concrète du RGPD va consister à maîtriser la mise en œuvre des principes de nécessité et de proportionnalité, en effectuant à chaque fois les mesures de minimisation adéquates.

      Cela va devenir une compétence scientifique en soi dans certains secteurs, sauf à assumer un risque juridique non négligeable…

      1. Imaginons un chercheur qui veuille étudier les répercussions d’un sujet précis sur Twitter : par exemple (au hasard) l’affaire Benalla, ou les commémorations de la Grande Guerre.
        Son point d’entrée pour collecter son corpus, c’est donc une recherche dans le texte intégral des tweets. A partir du contenu des tweets trouvés, il va récupérer (lors du même processus de requête) les identifiants des comptes émetteurs, et, par exemple, leur biographie.
        Il récupère ainsi 452.214 tweets, émanant de 12.542 comptes distincts

        Et au passage il anonymise par hashage l’identifiant Twitter (transformant « lully1804 » en « -2595145998255285263 »).

        Et puis il se dit : « Ah flûte, ç’aurait été peut-être utile d’avoir le lieu de l’émetteur, et plus encore la date de création du compte. Et puis aussi le nombre de followers.
        Ces infos sont associées aux comptes et non aux tweets.
        Donc s’il a hashé les comptes entre temps, il est obligé de repartir des 452.000 tweets collectés pour récupérer de nouveau les identifiants des comptes pour en extraire les infos complémentaires voulues. Alors que s’il les avait conservés temporairement, il aurait pu n’avoir que 12.500 requêtes à faire.
        Sur des gros volumes (qui sont, ici, encore relativement gérables), c’est du temps de travail et du temps machine non négligeable.

        D’où ma question : la notion de « temps du traitement » peut s’échelonner sur plusieurs mois, et être distincte de l’exécution même d’un des scripts de moissonnage des données. Et donc durant ce « temps du traitement », il peut être pratique de conserver les identifiants plutôt que de les hasher à la volée.

        1. Je vois ce que tu veux dire, mais le RGPD parle de ce qui est « nécessaire » et pas de ce qui est « pratique », au sens de ce qui permet d’économiser du temps de travail et du temps machine. Il y a bien entendu une certaine marge de manoeuvre admissible, mais à un moment, il va être nécessaire la plupart du temps d’appliquer des mesures de minimisation des données qui ne doivent plus être réversibles pour protéger les droits des personnes.

          A noter quand même que le RGPD admet pour la recherche une autre dérogation importante qui est celle de l’indétermination relative de la finalité des traitements. J’en avais parlé dans mon billet de juillet. La recherche est d’ailleurs le seul secteur à bénéficier de cette latitude : https://scinfolex.com/2018/07/18/donnees-personnelles-et-recherche-scientifique-quelle-articulation-dans-le-rgpd/

          Extrait des considérants du RGPD :

          Souvent, il n’est pas possible de cerner entièrement la finalité du traitement des données à caractère personnel à des fins de recherche scientifique au moment de la collecte des données. Par conséquent, les personnes concernées devraient pouvoir donner leur consentement en ce qui concerne certains domaines de la recherche scientifique, dans le respect des normes éthiques reconnues en matière de recherche scientifique. Les personnes concernées devraient pouvoir donner leur consentement uniquement pour ce qui est de certains domaines de la recherche ou de certaines parties de projets de recherche, dans la mesure où la finalité visée le permet.

          Mais le texte en parle à propos de données récoltées directement auprès des personnes avec leur consentement et pas pour les données récoltées auprès de tiers comme un réseau social. Il faut donc à mon sens veiller à être rigoureux dans l’application des principes de nécessité et de proportionnalité.

          Comme je le disais dans ma réponse précédente, ces impératifs juridiques vont rétroagir sur la méthode scientifique elle-même lorsqu’il s’agit de traiter des données personnelles à des fins de recherche. C’est pour cela que je plaiderais pour la mise au point de méthodologies de référence qui serviraient aux chercheurs de canevas à suivre pour construire leurs protocoles, avec notamment le conseil de prévoir au maximum à l’avance les finalités et les traitements subséquents de manière à être en mesure d’appliquer rapidement des processus de minimisation irréversibles lorsque c’est possible.

          PS : par définition, le hashage d’identifiant Twitter dont tu parles est une mesure de pseudonymisation et pas d’anonymisation, ce qui fait que les données restent bien personnelles au sens du RGPD et soumises à ses principes.

  3. Vous passez entièrement sous silence le problème le plus sérieux de cette soi-disant « recherche » : associer des comptes de Français à la notion d’influence par un pays étranger. On n’est pas loin de l’accusation d’agents de l’étranger que Poutine utilise régulièrement, et pour laquelle il est très critiqué par les soi-disant démocrates occidentaux qui n’ont émis aucune objection à ce fichage. Et les accusations d’interférence par la Russie sont considérées comme automatiquement crédibles par une certaine communauté qui pourtant se plait à dénoncer les « théories de complot ».
    Ce fichage a des fins de dénigrement a un précédent notable, l’affaire de la soi-disant étude « NASA Faked the Moon Landing—Therefore, »(…) d’une fine équipe de pseudo-scientifiques, et l’étude suivante sur ceux qui ont critiqué la première manipulation.
    Ce double scandale (ou scandale récursif) a abondamment été discuté, par exemple ici :
    https://climateaudit.org/2012/09/08/lewandowsky-scam/
    https://wattsupwiththat.com/2013/03/20/some-thoughts-on-the-recent-lewandowsky-cook-conspiracy-theory/
    Cela a démontré l’effondrement des barrières de l’intégrité scientifique, des comités d’éthique, du contrôle par l’université hébergeant les charlatans, et de la « communauté scientifique » en général. Une faillite générale avec peu de raison de garder espoir dans « l’université ».
    On n’a pas trop entendu les fans de Mélenchon remettre en cause le dénigrement de ceux qui mettent en cause la soi-disant science climatique à l’époque. Dans les deux cas il s’agit d’une tentative de faire parler « la science » pour dénigrer ceux qui critiquent le comportement des institutions.

    1. Le but de ce billet était de faire une analyse juridique de ce cas et non un énième commentaire politique de l’affaire.

      Il appartient à la CNIL de se prononcer pour savoir si les biais de cette opération et les buts qu’elles visaient autorisent ou non à parler de recherche à son endroit.

      Elle seule (et ensuite la justice) ont l’autorité pour apporter une réponse à cette question sur le plan du droit.

      1. Je ne vois pas où il est question de « commentaire politique » (quoi que ça puisse être) sur l’affaire dans mon message. Il s’agit de décrire l’opération de communication pro-Macron.

        Et bien évidemment le fait de ne pas avoir quelque chose pouvant passer même de loin pour un protocole scientifique contredit le prétexte de faire de la « recherche scientifique ». Un chercheur sérieux n’aurait pas parle d’un soi-disant « écosystème russophile » – quel charabia scientiste et prétentieu! Mais sans doute est-ce trop « politique » de souligner cette évidence première.

        La « recherche scientifique » est trop facilement prétexte à des opérations de dénigrement :

        https://wattsupwiththat.com/2018/08/21/eye-roller-study-climate-change-denial-strongly-linked-to-right-wing-nationalism/

        https://www.tandfonline.com/doi/abs/10.1080/23251042.2018.1488516?journalCode=rens20

        Est-ce que la soi-disant « communauté scientifique » va réagir contre de tels abus?

  4. Je suis vraiment très curieuse de la décision de la CNIL sur cette affaire DisinfoLab car je suis concernée à 3 titres
    – professionnellement pro-active pour le libre accès aux données de la recherche
    – citoyenne attentive à la protection des données personnelles
    – cobaye car je fait partie des 1% pour lesquels une « classe » politique a été attribuée dans l' »étude » de DisinfoLab
    Du coup je me permets 3 remarques/questions

    1) Vous ne soulevez pas la question du croisement de fichiers.
    Or les 1% de comptes twitter qui ont fait l’objet d’un profilage ont été croisés avec 2 fichiers résultant d’une étude similaire de Nicolas VanderBiest, (avant la création de DisinfoLab) pendant la présidentielle française de 2017:
    d’une part un fichier de comptes twitter ayant diffusé des rumeurs/désinformation pendant la présidentielle et
    d’autre part un fichier de comptes twitter relayeur de propagande russe (Russia Today et Sputnik)
    Les croisements de fichiers demeurent-ils soumis à autorisation ?
    Gérent-ils des obligations spécifiques ?

    2) Comme une (grosse ?) partie de la classe 3, je me suis vue coller une étiquette FI que je récuse le plus vigoureusement qui soit et objectivement injustifiable
    Y a-t-il des « circonstances aggravantes » si en plus d’être collectées et diffusées, les données « particulières » sont fausses ou pas ?

    3) Au sujet des militants qui ont cru malin de faire une base SQL interrogable pour connaître son «  »matricule » » (Ils ont progressivement supprimé les autres info sous la pression)

    Au delà de tout reste (source illicite, aucun objectif de recherche, …) le fait d’être ou non présent dans cette base peut-il être considéré comme une info personnelle « particulière » vue sa logique de constitution ?

    1. Merci pour ces questions. J’y réponds à la suite.

      1) Le croisement de fichiers ne fait pas l’objet en soi de dispositions dans le RGPD. Cela correspond néanmoins à ce que le texte considère comme un traitement d’informations personnelles lorsqu’elles sont identifiantes qui déclenche l’application. Mais ici, cela va déclencher aussi les dérogations prévues en matière de recherche qui permettent la récupération de données auprès de tiers et le traitement sans consentement des personnes, y compris lorsque la recherche porte sur des données sensibles comme des opinions politiques.

      Donc à mon sens, le fait qu’il y ait eu croisement de fichiers ne jouera pas ici, si DisinfoLab peut se prévaloir des dérogations en faveur de la recherche (ce qui n’est pas certain, comme je le dis dans le billet). Par ailleurs (je le dis rapidement dans le billet et plus longuement en réponse à un autre commentaire), si Disinfolab pouvait sans doute constituer sa base de cette manière, on peut sérieusement se demander s’il n’aurait pas dû immédiatement l’anonymiser ou au moins la pseudonymiser.

      Ce sera à la CNIL de le déterminer.

      2) A l’article 5 du RGPD sont listés six grands principes qui doivent être respectés en matière de traitement des données. Le 4ème prévoit que les données doivent être : « d) exactes et, si nécessaire, tenues à jour; toutes les mesures raisonnables doivent être prises pour que les données à caractère personnel qui sont inexactes, eu égard aux finalités pour lesquelles elles sont traitées, soient effacées ou rectifiées sans tarder (exactitude) ».

      Donc oui, l’exactitude des données comptent et cela peut rendre illicite un traitement. Néanmoins, s’agissant de cette étude, les choses sont plus complexes que de se tromper, volontairement ou non, sur une date de naissance ou une adresse. Les appartenances politiques identifiées par Disinfolab sont déduites en suivant leur méthode à partir des données qu’ils ont rassemblés. Un certain nombre de commentateurs remettent en cause leur méthodologie et des erreurs manifestes ont été signalées.

      Là aussi, la CNIL va avoir un travail assez complexe à faire pour démêler ce qui relève de l’approximation, de l’erreur ou de la manipulation pure et simple.

      Dans tous les cas, les personnes ont un droit à la rectification qu’elles peuvent faire valoir auprès des responsables de traitement, ainsi qu’un droit d’opposition et un droit à l’effacement pour se faire supprimer d’une base.

      3) La constitution de cette base constitue un autre traitement de données personnelles, y compris si elle se contente d’associer un nom d’utilisateur et un numéro. Comme vous le soulignez, les personnes qui l’ont mises en place ne peuvent se prévaloir d’une finalité de recherche et d’aucun autre fondement qui leur permettrait de se passer du consentement des personnes. Donc cette base est illicite, même sous sa forme réduite.

      1. Il y a aussi le fait de ne considérer que les rumeurs propagés par certains et par d’autres.

        Par exemple la rumeur/désinformation que certains documents dans les Macronleaks sont faux. J’aimerai bien savoir lesquels, au moins avoir quelques exemples de faux avérés. Pourquoi ne peut-on demander aux organisateurs de la campagne lesquels sont faux?

        Pourquoi avoir raconté que des milliers d’emails et de documents ont été créés de toutes pièces par EM pour brouiller les pistes? Est-ce que cette histoire, qui a été reprise par toute la presse pro-Macron, tient debout?

        Qui définit ce qu’est une rumeur? La rumeur que Macron a dominé lors du débat contre MLP? La rumeur qu’il n’a rien à voir avec la vente de SFR? Celle d’Alstom?

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.