L’Intelligence Artificielle et la nécessité de penser les droits collectifs sur les données –

Le rapport « Donner un sens à l’intelligence artificielle » de la mission Villani a été remis hier. C’est un document assez volumineux (235 pages) qui mériterait de longs commentaires, mais je voudrais me concentrer sur une partie en particulier intitulée « Penser les droits collectifs sur les données », parce qu’elle rejoint certaines des réflexions que j’ai pu dérouler sur ce blog depuis plusieurs années à présent.

Voici ce que l’on peut lire (à la page 148) :

Le développement de l’IA fait apparaître un certain nombre d’angles morts dans la législation actuelle – et future avec le RGPD – en matière de protection des individus. Ceux-ci découlent du fait que la loi Informatique et Libertés, comme le RGPD, ne traitent que des données à caractère personnel. Or, si la portée des protections offertes par ces textes est potentiellement très large, l’intelligence artificielle ne mobilise pas uniquement des données personnelles. Loin s’en faut : beaucoup de ces enjeux soulevés par les algorithmes constituent aujourd’hui un angle mort du droit.

En effet, la législation sur la protection des données n’encadre les algorithmes d’intelligence artificielle que dans la mesure où ils se fondent sur des données à caractère personnel et où leurs résultats s’appliquent directement à des personnes. C’est le cas d’un bon nombre d’entre eux : offres personnalisées, recommandations de contenus,… mais, de fait, beaucoup d’usages échappent à cette législation, bien qu’ils recèlent des effets significatifs sur des groupes d’individus, et donc sur les personnes. Il a par exemple pu être démontré que les agrégats statistiques qui ont pu motiver d’envoyer des patrouilles de police ou des livreurs Amazon plus souvent dans tel ou tel quartier peuvent alimenter des effets discriminants sur certaines catégories de population, par un mécanisme de reproduction des phénomènes sociaux.

Au regard du développement de l’intelligence artificielle, on peut même se demander si la notion de données à caractère personnel peut tout simplement conserver un sens. Les travaux pionniers d’Helen Nissenbaum nous enseignent par exemple que les données sont des objets contextuels, qui peuvent renseigner simultanément sur plusieurs individus ou questions. Cela
d’autant plus que, dans le cadre du deep learning, les données sont exploitées à grande échelle pour produire des corrélations qui peuvent concerner des groupes d’individus.

Chacun a le droit (sous certaines exceptions notables) d’être informé sur le sort d’une donnée qui le concerne dans des termes génériques (finalités, usages ultérieurs,…), voire de s’y opposer. Mais nous n’avons pas, ni en droit ni en fait, la possibilité de prescrire ou de proscrire des usages précis de nos données – excepté par l’acte de consommer ou non des services. Ce pouvoir reste aujourd’hui l’apanage du régulateur et du législateur, qui encadrent par exemple les motifs en fonction desquels on peut refuser l’accès à une offre de service, à un produit d’assurance, au logement, à un emploi, etc. Un individu peut donc être protégé de manière granulaire contre la collecte d’une information qui l’identifie, mais cette protection ne couvre pas la configuration réticulaire (en réseau) que toute information revêt.

De l’impossibilité de contrôler l’intentionnalité des régimes de collecte des données

Un billet publié le mois dernier par Olivier Ertzscheid sur blog Affordance a bien montré comment ces « taches aveugles » dans la réglementation sur les données peuvent conduire à des dérives préoccupantes en terme de perte de contrôle pour les individus. On savait en effet déjà que les nouveaux CAPTCHA visuels utilisés par Google (pour vérifier que ce sont bien des humains qui se connectent à des sites internet et non des robots) servent en réalité aussi à « entraîner » des intelligences artificielles spécialisées dans la reconnaissance automatique des images.

Un exemple de ces CAPTCHA visuels où l’internaute va devoir identifier des panneaux de signalisation.

Mais un article paru récemment dans Gizmodo a aussi révélé que Google collabore avec le Département de la défense américaine en fournissant ces technologies d’intelligence artificielle pour le pilotage automatique de drones de guerre, ce que n’a pas manqué de dénoncer très justement Olivier :

Le point commun entre une attaque militaire menée par des drones et l’accès à une vidéo cachée derrière un captcha où il faut reconnaître différents éléments d’une image ? Google. Et notre participation à l’effort de guerre en tant que tâcherons bénévoles et captifs.

Si la plupart des Captchas utilisent des images représentant des panneaux de signalisation, des paysages, des environnements urbains ou montagneux ou désertiques, si l’on nous demande de « reconnaître » des panneaux, des immeubles, des habitations, des voitures, des montagnes et ainsi de suite, c’est aussi pour entraîner des drones de combat, qui eux-mêmes devront ensuite être capables de les reconnaître sur un théâtre d’opération, en (bonne ?) partie grâce à nous. Et ce « aussi » fait toute la différence.

Chaque jour, dans le cadre de ce que l’on nomme le « Digital Labor » nous entraînons donc et nous « améliorons » les technologies embarquées dans des drones militaires qui seront utilisés sur des zones de guerre.

Or le problème, c’est que, comme le montre très justement l’extrait précité du rapport Villani, le cadre actuel de la protection des données personnelles ne permet en rien de donner aux individus un droit de contrôler l’usage qui sera fait des données qu’ils produisent dans le cadre d’une activité comme la saisie d’un CAPTCHA visuel. Car Google n’a en l’occurrence nullement besoin de rapporter ces informations à une personne identifiée pour pouvoir se servir ensuite de ces données afin « d’élever » ses intelligences artificielles.

la Loi Informatiques & Libertés affirmait en 1978 que «Toute personne dispose du droit de décider et de contrôler les usages qui sont faits des données à caractère personnel la concernant, dans les conditions fixées par la présente loi». Mais ce pouvoir de décision et de contrôle est intrinsèquement rattaché au caractère personnel des données et les individus le perdent dès lors que les informations ne permettent pas l’identification d’une personne donnée. Or parmi ces droits des personnes liées aux données personnelles, on trouve en premier lieu celui de pouvoir consentir à l’usage des données pour une finalité bien déterminée. Et c’est précisément ce qui fait cruellement défaut pour les CAPTCHA visuels de Google, car aucune garantie ne nous est donnée vis-à-vis de ce qu’Olivier appelle dans son billet « l’intentionnalité des régimes de collecte » :

la question de la traçabilité, mais surtout celle de l’intentionnalité des régimes de collecte est essentielle. Si nous ne voulons pas sombrer dans un monde où tout le monde pourrait être reconnu comme co-responsable ou coupable de frappes militaires en ayant contribué à améliorer la technologie qui les a rendues possibles. Ou pire encore : un monde où tout le monde se foutrait complètement de savoir si ses données et les algorithmes que nous entraînons chaque jour peuvent être utilisés pour nous vendre des crèmes hydratantes, pour visionner des vidéos, ou pour faire la guerre.

De ce point de vue, le rapport Villani pointe bien les failles actuelles de la réglementation sur les données personnelles et il appelle en réponse à « penser les droits collectifs sur les données », mais sans donner véritablement de précision sur les modifications à apporter pour arriver à un tel résultat. Olivier Ertszcheid de son côté va plus loin et cite la proposition que nous avons faite récemment, Laura Aufrère et moi-même, de créer un « droit social des données » qui viserait justement à reconnaître juridiquement la dimension collective des données :

Le droit social des données qui reste pour l’essentiel à penser (on a déjà heureusement quelques bases, par exemple chez Alain Supiot, chez Lionel Maurel ou chez Antonio Casilli) et qui est surtout, hélas, pour l’instant phagocyté par les appétits que suscite la définition d’un droit commercial des mêmes données, ce droit social des données, donc, devra permettre de travailler la question de l’intentionnalité des régimes de captation, de collecte et de réutilisation desdites données. Faute de quoi c’est une nouvelle expropriation qui verra le jour, dans laquelle, comme un hoquet de l’histoire, les travailleurs (de la donnée) se verront une nouvelle fois spoliés du produit de leur travail au seul bénéfice de régimes spéculatifs capitalistiques.

Droits collectifs et données citoyennes

Pour le cas des CAPTCHA de Google, on voit l’intérêt qu’il y aurait à développer une réglementation spécifique du Digital Labor, qui viendrait compléter utilement le système actuel de protection des données personnelles. Lorsque les individus sont placés, consciemment ou non, par des plateformes dans un rapport de production de données à visée économique, ils devraient pouvoir exercer leur consentement à entrer dans un tel rapport en étant informé du sens de cette production, peu importe que les données produites soient identifiantes ou non. Dans nos propositions, nous avons également émis l’idée que les données dite « personnelles » devraient en réalité être reconnues comme des « données citoyennes » pour manifester l’idée que nous devrions conserver un pouvoir collectif de contrôle sur leur usage, y compris lorsque les données sont anonymisées.

Le rapport Villani contient d’ailleurs d’autres « traces » de cette approche. Il appelle notamment dans d’autres parties à « mettre en oeuvre la portabilité des données dans une visée citoyenne » (p. 36) en incitant les individus à mutualiser volontairement leurs données pour favoriser des projets d’intelligence artificielle développés dans un but d’intérêt général (reprenant par là des idées déjà émises par le Lab de la CNIL). Le texte remet aussi en avant la notion de « données d’intérêt général » en envisageant que l’Etat pourrait imposer à des acteurs privés de partager des données afin de favoriser là aussi le développement de l’intelligence artificielle dans des secteurs clés, comme l’énergie ou la santé (p. 33).

Le problème, c’est qu’il y a de grands risques de tomber de Charybde en Scylla avec une telle conception des « droits collectifs sur les données ». La dépossession du pouvoir de contrôle sur les données peut en effet être tout aussi forte qu’elle soit exercée par de grandes plateformes privées ou par des Etats. L’affaire des CAPTCHA visuels de Google qui servent à entraîner des drones de guerre montre d’ailleurs très bien l’alliance objective qui peut se nouer entre ces deux catégories d’acteurs et qu’est-ce qui empêcherait au juste à l’Etat américain d’affirmer qu’il utilise ces données fournies via les CAPTCHA au nom de l’intérêt général ?

C’est la raison pour laquelle nous avons aussi critiqué dans nos propositions cette conception « étatiste » des données d’intérêt général pour lui substituer la notion de « données citoyennes » :

il nous semble que le concept de « données d’intérêt général » mérite d’être conservé, mais à condition de l’investir d’un sens complètement nouveau. Le rôle central donné à L’État dans la détermination de ce que seraient des données d’intérêt général vient du fait que cette notion a été forgée en s’inspirant de l’expropriation pour cause d’utilité publique. Mais on pourrait considérer qu’il ne s’agit pas de données dont L’État ou une autorité publique a décidé qu’elles étaient d’intérêt général, mais plutôt que toutes les données relatives aux individus doivent par nature être considérées comme des données d’intérêt général, et pas uniquement comme des données « privées ». Nos données personnelles sont produites dans le cadre de comportements qui, par ailleurs, sont identifiés du point de vue du droit comme appartenant à des espaces de la vie civile, là où nous exprimons notre citoyenneté et où nous vivons ensemble. On pourrait donc considérer que les traces numériques relèvent de l’intérêt général en tant que données « citoyennes ». Il y a bien lieu de parler à leur sujet d’intérêt général, parce que les plateformes ne devraient pas avoir le droit d’utiliser ces données sans nous demander un consentement individuellement, mais aussi et surtout, collectivement.

***

Toute la difficulté pour l’émergence d’un « droit social des données » consistera à trouver des formes institutionnelles pour donner corps à ce pouvoir collectif sur les données et en faire une force opposable à tous les Leviathans, qu’ils soient privés ou publics.

– S.I.Lex –

"Rien ne serait pire que d'abandonner le droit à ceux qui ont profession de l'édicter" (Dardot/Laval)