Les Archives nationales montrent la voie de l’Open Data culturel !

Lentement (mais sûrement), les choses sont en train de bouger dans le monde culturel en faveur de l’ouverture des données. J’ai déjà eu l’occasion d’écrire à ce sujet en avril dernier à propos de l’évolution graduelle des politiques des bibliothèques, mais c’est du côté des archives publiques qu’une excellente nouvelle est tombée cette semaine : les Archives nationales ont adopté un nouveau règlement appliquant un principe de gratuité par défaut pour la réutilisation des informations publiques qu’elles détiennent (voir l’article écrit par Marc Rees sur NextINpact à ce sujet).

Cette décision est loin d’être anodine, à plus d’un titre. Rappelons tout d’abord que si les administrations françaises sont soumises depuis le vote de la loi République numérique l’an dernier à un principe « d’Open Data par défaut », ce n’est pas le cas des institutions culturelles qui relèvent encore d’un régime d’exception. La loi Valter, adoptée quelques mois avant la loi Lemaire, a certes fixé un principe de gratuité, mais en ménageant la possibilité pour les bibliothèques, archives et musées de continuer à percevoir des redevances de réutilisation pour les « informations issues des opérations de numérisation des fonds et des collections […] et, le cas échéant, sur des informations qui y sont associées lorsque ces dernières sont commercialisées conjointement« . Cela signifie que la réutilisation des reproductions numériques produites par ces établissements, ainsi que les métadonnées associées, peut continuer à être monnayée.

Mais les Archives nationales ont précisément fait le choix de ne pas appliquer ce régime dérogatoire et d’abroger leur précédente grille de tarifs datant de 2010. Cela signifie que la libre réutilisation devient la règle pour « les documents librement communicables à tous et sur lesquels des tiers ne détiennent pas des droits de propriété intellectuelle. » Il persistera bien des exceptions à ce principe, mais elles découlent logiquement de la législation en vigueur. Elles concernent : «  les documents qui ne sont pas encore librement communicables au regard du code du patrimoine ou d’autres dispositions législatives, les documents d’origine privée conservés aux Archives nationales mais dont l’accès ou l’exploitation sont soumis à restrictions ainsi que les œuvres de l’esprit qui ne sont pas encore tombées dans le domaine public. » Ce dernier passage est d’ailleurs important, car on en déduit a contrario que la gratuité concernera bien les oeuvres du domaine public. Il ne s’agit donc pas uniquement d’une politique d’Open Data, limitée à des informations, mais aussi d’un Open Content. Les Archives nationales avaient déjà commencé à s’engager dans cette voie grâce à un partenariat conclu avec Wikimedia France pour la libre diffusion de plus de 500 documents numérisés remarquables issus de leurs collections. On devrait logiquement assister à présent à une amplification de cette politique, qui est déjà la norme aux Etats-Unis ou en Allemagne.

Les Archives nationales sont déjà présentes sur Wikimedia Commons.

Les Archives nationales tirent aussi les conséquences du mécanisme d’Open Data « à la demande » mis en place dans la Loi Lemaire. Elles précisent en effet qu’elles seront « tenues de satisfaire les demandes faites au titre du droit d’accès, donc de remettre, le cas échéant, des copies des documents dès lors qu’ils sont librement communicables« . Cela signifie que si des copies numériques de documents existent, les AN seront obligées de les fournir aux demandeurs qui bénéficieront alors « d’un droit non exclusif et gratuit de libre réutilisation à des fins commerciales ou non, dans le monde entier et pour une durée illimitée« . On notera que les AN ont par contre fait le choix de ne pas appliquer de licence particulière à leurs données (comme la Licence Ouverte d’Etalab ou l’ODbL, par exemple). C’est tout à fait possible, les licences de réutilisation étant facultatives lorsque la réutilisation est gratuite. Ce sont les règles de base du Code des Relations entre le Public et l’Administration qui s’appliqueront par défaut, ce qui revient dans les faits à peu près aux mêmes conditions que la Licence Ouverte (libre réutilisation à charge de citer la source des données).

La décision des Archives nationales de passer à un Open Data par défaut a une portée symbolique importante, car le domaine des archives publiques est certainement l’un de ceux pour lesquels la réutilisation a soulevé jusqu’à présent le plus de crispations. Au niveau des archives départementales, un conflit a même éclaté avec la société de généalogie NotreFamille.com (rebaptisée depuis l’an dernier Filae) à propos de la réutilisation des données d’état civil. Cette querelle a même fini par dégénérer en contentieux et elle a encore connu des rebondissements après le vote de la loi Valter. Résultat : rares sont les archives municipales et départementales à s’engager dans des politiques d’Open Data aujourd’hui. En matière d’archives, l’essentiel de l’effort de numérisation au plan national a pourtant été porté par les départements et les Archives nationales, paradoxalement, ne sont pas aussi avancées en la matière que peut l’être la Bibliothèque nationale de France. Mais l’application de la gratuité par défaut aux AN reste un message important envoyé à l’ensemble de la sphère des archives, et même au-delà.

Plusieurs signes ces derniers mois montrent que les mentalités sont lentement en train d’évoluer dans le champ culturel. En mars dernier, le lancement du portail France Archives mis en place par le SIAF avait déjà été l’occasion de faire passer en Open Data les données d’inventaire des Archives nationales et départementales. Les choses avancent aussi en matière d’Open Content, comme le montrent par exemple les Archives des Hauts-de-Seine, qui ont publié ce mois-ci sous Licence Ouverte près de 2000 cartes postales numérisées sur le portail Open Data du département. Mais la nouvelle la plus spectaculaire en matière d’Open Data culturel est venue ces derniers jours de Toulouse. Les Archives municipales de la ville rose s’étaient déjà montrées pionnières en libérant dès 2013 leurs données et leurs contenus numérisés. A la fin du mois de juin, le Conseil municipal a décidé d’étendre cette politique à l’ensemble des établissements culturels de la ville : archives, musées et bibliothèques. Les données produites par ces institutions sont placées sous licence ODbL (avec une clause de partage à l’identique), tandis que les reproductions d’oeuvres du domaine public sont complètement ouvertes. C’est la première fois en France, à ma connaissance, qu’une politique globale d’Open Data culturel est appliquée à l’échelle d’une ville.

Des reproductions 3D d’objets conservés au Musée Saint-Raymond de Toulouse, librement réutilisables sur la plateforme Sketchfab.

Ce que ces exemples montrent, c’est qu’un nombre croissant d’établissements culturels font à présent le choix de ne pas appliquer le régime dérogatoire en matière de réutilisation que la loi Valter avait pourtant aménagé pour eux. J’avais déjà écrit en avril dernier un billet à propos de l’évolution sensible en faveur de l’ouverture que l’on constate du côté des bibliothèques. Près de la moitié d’entre elles pratiquent à présent la libre réutilisation des contenus qu’elles numérisent, notamment les bibliothèques universitaires et de recherche. Le secteur culturel le plus en retard en France en matière d’ouverture reste celui des musées. Cela s’explique en partie à cause de l’influence d’un établissement comme la RMN (Réunion des Musées Nationaux) dont l’agence photographique continue à commercialiser les reproductions des oeuvres du domaine public des musées pour lesquels elles numérisent les collections.

Mais on commence à voir que ce modèle de commercialisation des données arrive à bout de souffle. La ville de Paris a par exemple fait un choix similaire en confiant la gestion de ses fonds numérisés à une institution privée : la Parisienne de photographie. Or cette dernière connaît visiblement des problèmes de rentabilité suffisamment sérieux pour que sa suppression soit envisagée par la ville. Ces difficultés financières n’ont à vrai dire rien de surprenant, car on sait que la RMN est elle aussi lourdement déficitaire et qu’un trou inquiétant se creuse chaque année un peu plus dans son budget…

Le « trou de la RMN » tel que révélé par une question parlementaire en 2015.

Si les établissements culturels renoncent de plus en plus par eux-mêmes à lever des redevances de réutilisation sur leurs données, c’est qu’ils se rendent compte qu’il ne s’agit pas d’une manière pérenne de financer leurs activités de numérisation. La rentabilité n’est tout simplement pas au rendez-vous, tandis que les « dégâts collatéraux » provoqués par ce type de politiques sont importants. On pense notamment à la réutilisation des images par les chercheurs dans les articles publiés dans des revues scientifiques, qui se trouve fortement entravée lorsque le paiement de redevances est imposé.

De ce point de vue, les institutions culturelles doivent se rendre compte qu’elles sont dans une situation absolument identique à toutes les autres administrations : en dehors de quelques exceptions limitées, les données publiques n’ont qu’une faible valeur d’échange, alors qu’elles ont une forte valeur d’usage. Appliquer des redevances revient à neutraliser l’essentiel de cette valeur d’usage, sans être en mesure de dégager des ressources propres suffisantes pour auto-financer les activités des établissements. Et cela peut même s’avérer un piège redoutable, comme le montre ce qui est train d’arriver à la Parisienne de photographie, qui joue à présent sa survie pour avoir défendu ce modèle de marchandisation du patrimoine…

C’est ce constat lucide sur la valeur des données, fait notamment par le rapport Trojette en 2013, qui a conduit à la consécration du principe d’Open Data par défaut dans la loi Lemaire. Le Conseil National du Numérique avait d’ailleurs explicitement recommandé de ne pas faire d’exception pour les données culturelles et de les réintégrer dans le droit commun. La loi Valter en a décidé autrement, mais elle risque à présent de subir une forme d’abrogation par l’usage. C’est à mon sens une fatalité à long terme, car les redevances de réutilisation ne constituent pas en réalité un modèle économique, mais un modèle idéologique, lié à une tradition solidement ancrée dans notre pays de contrôle de la culture en complet décalage avec les réalités de l’économie de l’abondance.

Comme l’atteste la décision des Archives nationales, les établissements culturels peuvent faire le choix de dépasser cette vision passéiste de leur rôle. C’est la première fois qu’une institution de cette envergure adopte une politique générale d’Open Data et cela marque sans doute un jalon. Au niveau national, la Bibliothèque nationale de France (BnF) pratique déjà l’Open Data pour ses données bibliographiques placées sous Licence Ouverte depuis 2014. Mais les reproductions d’oeuvres du domaine public diffusées par la bibliothèque numérique Gallica font toujours l’objet de redevances de réutilisation. Et du côté des musées, force est de constater qu’aucun établissement national ne s’est pour l’instant engagé dans une politique d’ouverture, alors même que les exemples étrangers commencent à devenir significatifs (le Metropolitan Museum en a apporté la preuve en février dernier en libérant 375 000 images). On attend également à présent de voir quelles seront les orientations du nouveau Ministère de la Culture en la matière, car l’Open Data culturel constitue à l’évidence un enjeu national.

***

Les Archives nationales ont été créées à la Révolution française par la loi du 7 messidor de l’An II qui affirmait un principe de libre consultation des documents d’archives reconnu à tous les citoyens. Plus de deux siècles plus tard, une nouvelle page de cette histoire se tourne avec le passage à un principe de libre réutilisation des données, qui constitue le prolongement moderne de cette philosophie républicaine.

Une énorme faille dans la loi Valter sur les données culturelles ?

La loi pour une République numérique (dite Loi Lemaire) va avoir en France un impact important en matière d’ouverture des données publiques, puisqu’elle institue un principe d’Open Data par défaut, dont j’ai déjà eu l’occasion de parler plusieurs fois dans ce blog (ici ou ). Mais ceux qui ont suivi attentivement cette évolution savent qu’il y a un secteur qui a réussi à conserver une position de privilège pour ne pas participer à cette dynamique d’ouverture : celui de la culture et du patrimoine.

Head in Hands
Facepalm pour la politique de réutilisation des données culturelles en France. (Images par Alex E. Proimos. CC-BY. Source : Wikimedia Commons).

C’est notamment l’effet de la loi du 28 décembre 2015 relative à la gratuité et aux modalités de la réutilisation des informations du secteur public (dite aussi loi Valter). Ce texte ainsi que son décret d’application vont permettre aux établissements culturels (bibliothèques, archives, musées) – là où la quasi-integralité des autres administrations sont désormais soumises à un principe de gratuité – de continuer à lever des redevances pour la réutilisation d’informations issues des opérations de numérisation de leurs collections (et des métadonnées associées).

Du côté de SavoirsCom1, nous avons fermement combattu cette politique de maintien d’un statut dérogatoire pour les établissements culturels, notamment parce qu’elle revient à institutionnaliser les pratiques de Copyfraud sur les reproductions fidèles d’oeuvres du domaine public et à neutraliser les libertés qu’il autorise. C’est la raison pour laquelle nous avions poussé pour que la loi Lemaire consacre la notion de « domaine commun informationnel » afin de sanctuariser les oeuvres du domaine public contre les tentatives de réappropriation. Mais les arbitrages politiques ont joué en notre défaveur, malgré le soutien du Conseil National du Numérique et de plusieurs députés.

Aspiration de données pour Filae.com

C’était donc la soupe à la grimace sur le volet culturel de l’ouverture des données publiques, jusqu’à ce qu’un événement survienne la semaine dernière qui montre que la « ligne Maginot » érigée par la loi Valter comporte visiblement une brèche béante dans laquelle certains ont décidé de s’engouffrer. La société genealogie.com a en effet lancé une nouvelle version de son portail, en le rebaptisant pour l’occasion Filae.com. Or un grand changement a eu lieu au niveau du contenu disponible puisque le site contient à présent la quasi-intégralité de l’état civil français, récupéré sur les sites d’archives départementales, soit plus de 100 millions d’images numérisées.

filae
La page d’accueil du nouveau site Filae.com.

Il faut savoir que cette entreprise est restée pendant longtemps en conflit avec plusieurs départements qui refusaient de lui fournir l’état civil numérisé. L’affaire a même dégénéré en contentieux devant les tribunaux administratifs qui ont rendu plusieurs décisions contradictoires, jusqu’à ce la Cour Administrative d’Appel de Bordeaux vienne trancher en mai 2015 en défaveur de la société. Dans cette décision, qui a fait couler beaucoup d’encre, la Cour a estimé que le département de la Vienne pouvait valablement opposer à la société son droit sui generis de producteur de base de données, ce qui revenait à neutraliser en pratique le droit à la réutilisation des informations publiques.

Mais la situation a changé avec les lois Valter et Lemaire. Tout d’abord, le droit des bases de données ne constitue plus un obstacle, y compris dans le champ des institutions culturelles. La loi République numérique contient en effet un article 11 rédigé comme suit :

Sous réserve de droits de propriété intellectuelle détenus par des tiers, les droits des administrations mentionnées au premier alinéa de l’article L. 300-2 du présent code, au titre des articles L. 342-1 et L. 342-2 du code de la propriété intellectuelle, ne peuvent faire obstacle à la réutilisation du contenu des bases de données que ces administrations publient en application du 3° de l’article L. 312-1-1 du présent code.

Cela signifie que les administrations (sauf lorsqu’elles gèrent des SPIC – services publics à caractère industriel et commercial) ne peuvent plus désormais opposer leur droit de producteur de bases de données aux demandes de réutilisation d’informations publiques, et les institutions culturelles ne bénéficient d’aucun privilège en la matière. C’est ce qui explique que la société ait pu aspirer en masse les données d’état civil pour alimenter son site Filae.com (actes constituant des « extractions substantielles » normalement interdites au titre de la protection des bases de données).

Des règlements de réutilisation devenus caducs

Par ailleurs, la majorité des services d’archives départementales avaient mis en place des tarifs de réutilisation, établis sur le fondement de la loi du 17 juillet 1978 relative à la réutilisation des informations publiques (l’ancienne loi CADA, aujourd’hui transposée dans le Code des Relations entre le public et l’administration). Mais la loi Valter a prévu à son article 10 – II une période transitoire au cours de laquelle les établissements doivent mettre en conformité leurs licences avec les nouvelles dispositions de la loi, notamment en ce qui concerne les modalités de calcul des redevances qui ont été modifiées. Or c’est ici que le texte présente une brèche, car visiblement, les départements n’ont pas respecté ces délais pour mettre à jour leurs règlements, ce qui les a rendus… caducs !

C’est la raison que la société avance pour justifier la manière dont elle a agi et ces arguments sont aussi détaillées par l’avocate Virginie Delannoy dans cet intéressant billet :

L’article 10-II de la loi Valter a fixé aux départements un délai transitoire, expirant le 1er décembre 2016, pour mettre leurs règlements et licences de réutilisation en conformité avec les nouvelles règles cardinales de la gratuité ou de la fixation d’une redevance modérée orientée vers les coûts spécifiques engendrés par la numérisation des données (article 15 de la loi du 17 juillet 1978 modifiée).

On peut donc déduire de tout ce qui précède que les services d’archives départementales se sont retrouvées ces derniers jours dans un véritable état d’apesanteur juridique : plus de droit des bases de données opposable et plus de licence de réutilisation valide. Cela ouvrait la voie à une aspiration systématique des fichiers par Filae.com qui ne s’est pas gêné pour le faire. Je ne sais pas exactement ce qui va se passer à présent : on peut s’attendre à ce que les départements adoptent en catastrophe de nouveaux règlements de réutilisation, mais pourront-ils les faire valoir à l’encontre de l’entreprise pour l’obliger à verser une redevance pour les données qu’elle exploite ? Filae.com met les autorités publiques devant le fait accompli et devient le seul acteur à disposer de la quasi-intégralité de l’état civil en un point centralisé. 

Sur son blog, Filae.com soutient que les Lois Valter et Lemaire ont eu pour effet de faire passer les données d’archives en Open Data :

Ce projet a été rendu possible grâce aux travaux de numérisation des registres originaux principalement réalisés par les départements français. En vertu de la loi Valter « relative à la gratuité et aux modalités de la réutilisation des informations du secteur public » et de la loi Lemaire « pour une République Numérique », ces données officielles numérisées sont, depuis le 1er décembre 2016, librement réutilisables en Opendata par tout un chacun : citoyen, startup, associations…

En réalité, c’est faux. La combinaison des lois Valter et Lemaire fait que l’on est certain à présent que les services d’archives ne peuvent plus refuser des demandes de réutilisation commerciale de leurs données, mais ils peuvent encore fixer des redevances et il restera à présent à déterminer si les départements vont pouvoir opposer à la société leurs nouveaux règlements après régularisation. Il n’est d’ailleurs pas impossible que l’affaire suscite de nouveaux contentieux devant la justice administrative et bien malin qui pourra en déterminer l’issue… 

Quelles conséquences au-delà des archives ?

Mais prenons un peu de recul par rapport à cette affaire Filae.com et examinons les conséquences plus larges que pourrait avoir la révélation de cette « brèche » dans la loi Valter. D’autres institutions culturelles vont être (et même sont déjà) affectées par le même problème, bien au-delà des services d’archives. Un certain nombre d’établissements ont en effet établi les conditions d’utilisation de leurs sites sur la loi du 17 juillet 1978. C’est le cas par exemple de Gallica à la Bibliothèque nationale de France :

1/ Les contenus accessibles sur le site Gallica sont pour la plupart des reproductions numériques d’oeuvres tombées dans le domaine public provenant des collections de la BnF.
Leur réutilisation s’inscrit dans le cadre de la loi n°78-753 du 17 juillet 1978 :
– La réutilisation non commerciale de ces contenus est libre et gratuite dans le respect de la législation en vigueur et notamment du maintien de la mention de source.
– La réutilisation commerciale de ces contenus est payante et fait l’objet d’une licence. Est entendue par réutilisation commerciale la revente de contenus sous forme de produits élaborés ou de fourniture de service. Cliquer ici pour accéder aux tarifs et à la licence

[…]

3/ Gallica constitue une base de données, dont la BnF est producteur, protégée au sens des articles L341-1 et suivants du code de la propriété intellectuelle.

[…]

5/ L’utilisateur s’engage à respecter les présentes conditions d’utilisation ainsi que la législation en vigueur. En cas de non respect de ces dispositions, il est notamment passible d’une amende prévue par la loi du 17 juillet 1978.

A l’image de ce qui s’est passé pour les services d’archives départementales, ces CGU ont perdu toute valeur, car le droit des bases de données est devenu inopposable et les licences établies sur le fondement de la loi du 17 juillet 1978 doivent être révisées. Il en résulte que, dans l’intervalle, les contenus de Gallica peuvent être librement employés à toutes fins. Il est donc possible de les réutiliser dans un cadre commercial, mais aussi de les rediffuser sur des sites comme Wikimedia Commons ou Internet Archive, ce qui n’était pas possible jusqu’à présent, en vertu des restrictions imposées à l’usage commercial (non que ces sites fassent eux-mêmes un usage commercial des contenus, mais ils permettent aux tiers d’en effectuer).

De l’urgence à repenser la politique de diffusion des données culturelles

Un nombre important de bibliothèques, archives et musées s’appuient aussi sur la loi du 17 juillet 1978 dans leurs CGU et à défaut d’être en Open Data, leurs sites sont donc passés jusqu’à nouvel ordre en mode Open Bar !  L’incident Filae.com pourrait donc avoir des incidences beaucoup plus fortes sur le secteur et c’est toute la stratégie de « Ligne Maginot » des institutions culturelles françaises qui va peut-être brusquement s’écrouler… Cela fait pourtant à présent des années que des groupes comme SavoirsCom1 disent que ces politiques sont ineptes et plaident pour une autre approche du rapport aux usages commerciaux et aux plateformes de libre diffusion comme Wikimedia Commons et Internet Archive.

Comme j’ai déjà eu l’occasion de le dire à plusieurs reprises, je n’ai aucune sympathie particulière pour des initiatives privées comme Filae.com, qui par leur caractère centralisateur peuvent être génératrices de nouvelles enclosures sur le bien commun que constituent des ressources comme l’Etat civil numérisé. Mais c’est la raison pour laquelle nous étions plusieurs à plaider pour que ces données passent sous un régime de partage à l’identique, n’empêchant pas les réutilisations commerciales, mais imposant aux acteurs privés la libre rediffusion des données. Cette solution, qui a été retenue par certaines institutions minoritaires comme les archives municipales de Toulouse, se serait avérée bien plus protectrice au final que les licences payantes de réutilisation, réduites à présent à l’état de « tigres de papier »…

Au final, cet épisode tragi-comique est révélateur de l’errance des politiques culturelles en matière de réutilisation des données. On  notera par exemple que le 5 décembre dernier le Ministère de la Culture a ouvert un nouveau portail Open Data sur lequel il diffuse une (petite) trentaine de jeux de données. Les pages de présentation du projet nous disent que « Le Ministère de la culture et de la communication est pleinement engagé dans la politique en faveur de l’ouverture et du partage des données publiques, ainsi que dans le développement d’une économie numérique culturelle. » Mais la réalité est hélas différente : le Ministère de la Culture a en effet effectué un travail de lobbying forcené au moment de l’adoption de la loi Valter pour que les établissements culturels conservent le privilège d’échapper à l’Open Data par défaut. Et son portail n’est qu’un arbre masquant la forêt, car les données les plus importantes en matière culturelle ne sont pas au niveau du Ministère, mais chez les opérateurs que sont les services de musées, d’archives et de bibliothèques (au niveau national et au niveau des collectivités locales).

***

Il est piquant de remarquer  que la même semaine où ouvrait cette belle façade d’Open Data ministériel se lançait le site Filae.com alimenté par une opération cavalière d’aspiration massive des données des services d’archives départementales, qui se croyaient pourtant à l’abri derrière leurs licences payantes. C’est un bon résumé de la situation schizophrénique dans laquelle se trouve l’Open Data culturel dans notre pays et on espère que ce fail retentissant révélé par l’affaire Filae.com sera l’occasion de résorber enfin ces contradictions dans le sens de l’ouverture.

Quel statut pour les données de la recherche après la loi numérique ?

Ce billet est le troisième d’une série que j’ai entamée au début de la semaine pour cerner les répercussions de la loi « République numérique » sur le secteur de l’Enseignement supérieur et de la Recherche. Après avoir commencé lundi à passer en revue le volet Open Access de la loi, je me suis penché sur la question de l’ouverture des données publiques et sur la manière dont les universités ont été intégrées dans le principe « d’Open Data par défaut » instauré par le texte. Cela concerne au premier chef les données administratives de ces établissements- celles produites par leurs services centraux et communs -, mais je terminais en posant la question de savoir dans quelle mesure les données de la recherche allaient être impactées (ou non) par ces nouvelles obligations de publication en Open Data.

data

C’est ce sujet que je vais traiter dans ce troisième billet, en élargissant la perspective pour essayer de montrer en quoi la loi « République numérique » a commencé à mettre en place un statut juridique spécifique pour les données de la recherche. Vous allez voir que les répercussions potentielles de la loi sont profondes en la matière, même si le texte contient quelques zones d’ombre qui rendent encore assez imprévisibles ses effets à long terme.

Par « données de la recherche » – notion complexe à définir -, je n’entendrai pas les données sur la recherche (qui cherche sur quoi ? avec quels financements ? etc.), qui relèvent des données administratives et donc du nouveau principe d’Open Data par défaut, mais les données résultant directement des activités de recherche, produites par les chercheurs.

L’ébauche d’un statut spécifique pour les données de recherche

Il faut faire une lecture combinée de plusieurs articles de la loi numérique pour apercevoir dans le texte l’ébauche d’un statut juridique des données de recherche. L’article 38 – celui qui consacre une nouvelle exception au droit d’auteur en faveur du Text et Data Mining – contient à ce propos une précision intéressante. Le texte aborde en effet la question de la conservation des fichiers qui sont produits dans le cadre de ce type d’activités de recherche et il prend la peine d’indiquer la chose suivante :

[…] ces fichiers constituent des données de la recherche.

Cette phrase peut paraître à première vue assez anodine, mais elle signifie en réalité que les « données de la recherche » vont à présent constituer une nouvelle catégorie juridique au sens propre du terme, avec des conséquences en terme de régime applicable. C’est un premier indice  qui nous montre que la loi a introduit un « statut » spécifique pour les données de la recherche, même si comme vous allez le voir, il faut produire un effort d’interprétation conséquent pour cerner exactement en quoi il consiste.

Une protection puissante contre la captation par les éditeurs

A l’article 30 de la loi numérique – celui consacré à l’Open Access -, on trouve les premiers éléments de réponse. C’est là que la loi consacre un nouveau « droit d’exploitation secondaire » au profit des chercheurs leur garantissant la possibilité d’auto-archiver leurs écrits, en dépit des clauses des contrats d’exclusivité qu’ils auraient pu signer avec des éditeurs, au terme d’un délai de 6 à 12 mois selon les disciplines.

 Mais le texte contient aussi un passage sur les données de la recherche, qui instaure un mécanisme de protection contre leur captation par les éditeurs scientifiques :

L’éditeur d’un écrit scientifique mentionné au I ne peut limiter la réutilisation des données de la recherche rendues publiques dans le cadre de sa publication.

Les dispositions du présent article sont d’ordre public et toute clause contraire à celles-ci est réputée non écrite.

Ce passage répond à une inquiétude grandissante dans les milieux académiques face aux pratiques des éditeurs vis-à-vis des données de recherche. Ces derniers – et notamment les plus puissants du secteur, type Elsevier ou Springer – ont commencé à inciter ces dernières années les chercheurs à publier non seulement le texte de leurs publications, mais aussi des matériaux complémentaires (complementary material), constitués en général par les jeux de données brutes ayant permis d’élaborer les résultats faisant l’objet de la publication. Grâce à leur position dominante, ces acteurs étaient donc en mesure d’emmagasiner peu à peu de grands volumes de données de recherche, soumises aux mêmes clauses d’exclusivité que les articles. Dès lors, le même phénomène de privatisation qui a frappé les écrits scientifiques était en train de se reproduire pour les données de recherche, avec à terme le risque pour les universités d’avoir à racheter aux éditeurs l’accès aux données que la communauté des chercheurs avaient produites.

Pour parer à ce danger, la loi numérique a prévu un mécanisme de protection assez similaire à celui du droit d’exploitation secondaire sur les écrits, même si on va voir qu’il est en réalité plus puissant dans ses effets. Le principe sera dorénavant que l’éditeur ne pourra plus « limiter la réutilisation des données de la recherche rendue publiques [accompagnant un écrit] dans le cadre de sa publication« . Cela signifie que, quand bien même des contrats contenant des clauses d’exclusivité seraient signés par les chercheurs, celles-ci seraient privées par la loi de toute validité. Plus encore, si l’éditeur rassemble ces informations fournies par les chercheurs dans une base de données, les Conditions Générales d’Utilisation (CGU) – qui ont une valeur contractuelle – ne pourront pas non plus empêcher la réutilisation des données de recherche. Elles doivent pouvoir en être librement extraites pour réutilisation. Sur ce dernier point, il faudra cependant attendre pour y voir plus clair les dispositions du décret d’application de l’article 38 de la loi sur le Text et Data Mining, qui doit déterminer les « conditions dans lesquelles l’exploration des textes et des données est mise en œuvre« .

On a donc ici un puissant mécanisme contre la captation à titre exclusif des données de la recherche par les éditeurs scientifiques, et on notera que par rapport au droit d’exploitation secondaire sur les écrits, ce dispositif de neutralisation des clauses contractuelles possède un effet immédiat. Il n’y a pas de durée d’embargo destinée à garantir une période d’exploitation commerciale exclusive pour l’éditeur. Les donnés de recherche sont en quelque sorte « immunisées » dès leur publication à toute tentative d’enclosure (pour employer un terme tiré de la théorie des Communs).

Puissante dans ses effets, cette disposition est cependant limitée dans son périmètre d’application. Notamment, elle n’est opposable qu’aux « éditeurs » d’un écrit scientifique auquel des données sont associées. Or on aurait aimé qu’elle puisse l’être également à des acteurs comme les réseaux sociaux numériques, type Academia ou Research Gate qui, déjà avides des données personnelles des chercheurs, pourraient très bien à terme aussi développer un appétit pour les données de la recherche. Et on sait aussi que certaines plateformes de diffusion des données de recherche sont contrôlées en réalité par des éditeurs (comme Figshare par exemple, qui est la propriété de Macmillian Publishers). Il aurait donc mieux valu que la protection conférée par l’article 30 soit formulée de manière plus générale pour être opposable à n’importe quel type d’acteurs, et pas uniquement aux éditeurs.

Mais moyennant ces réserves, on peut considérer que la loi numérique a posé des garde-fous précieux contre ce qui pourrait constituer dans les années à venir un grave problème pour l’écosystème de la recherche. Les éditeurs pourront tout à fait continuer à développer des activités autour des données de la recherche, mais ils devront fonder leurs modèles économiques sur de véritables services à valeur ajoutée. Ils ne pourront pas se contenter d’utiliser leur position dominante pour en revendre l’accès (à condition toutefois que se développe en parallèle une véritable politique publique d’infrastructures pour l’archivage et la diffusion des données scientifiques pour empêcher la constitution d’un monopole de fait. Mais c’est justement ce que la loi rend possible, en interdisant aux éditeurs de s’approprier en amont les données à titre exclusif).

Des données de recherche « libres » dès la publication

Pour revenir à l’article 30, on va voir à présent qu’il va créer une « condition juridique »originale pour les données de recherche et très différente de celle des articles scientifiques.

On sait en effet que les chercheurs constituent des agents publics qui ont la particularité de conserver pleinement leur droit d’auteur sur les œuvres qu’ils produisent dans le cadre de leurs fonctions (contrairement aux autres agents publics, dont les droits patrimoniaux sont exercés par leurs tutelles et dont le droit moral est réduit au droit à la paternité).

Une des conséquences secondaires de cette titularité individuelle des droits pour les chercheurs sur leurs écrits est que ceux-ci ne deviennent pas automatiquement réutilisables lorsqu’ils choisissent de les publier en ligne dans des archives ouvertes ou sur un site personnel. Le droit d’auteur qui s’applique à eux est pleinement maintenu lors de la diffusion sur Internet. C’est le cas par exemple pour un article déposé par un chercheur sur HAL ou dans une archive ouverte institutionnelle : par défaut, si le chercheur ne fait rien d’autre que le déposer, l’article sera librement accessible, mais pas librement réutilisable. Il ne le deviendra que si le chercheur choisit d’opter par un acte positif pour une licence Creative Commons (ce que la plate-forme HAL permet depuis le passage à la v3).

Cet état de fait justifie aux yeux de certains que l’on fasse une distinction entre « l’Accès ouvert »  et « l’Accès libre », les deux expressions renvoyant à deux réalités différentes. C’est notamment une précision que rappelle régulièrement Marin Dacos (et encore récemment dans la préface de la traduction d’un ouvrage de Peter Suber, dont voici un extrait)  :

Le terme open signifie « ouvert », et non « libre ». Il implique donc que le texte d’un article en open access est ouvert en lecture, sans barrière juridique, technique ou commerciale. Mais il ne dit rien des possibilités de réutilisation du document. Par conséquent, stricto sensu, l’open access lève les barrières à l’accès et maintient toutes les protections du droit d’auteur sur les textes, ce qui signifie qu’ils ne peuvent être reproduits ou modifiés qu’après une autorisation explicite, dans le cadre d’un contrat de cession de droit.

Or c’est précisément une distinction qui n’aura à présent plus de sens à propos des données de la recherche : des données publiées par un chercheur ou un établissement deviendront instantanément réutilisables librement, si bien que l’accès ouvert sera aussi synonyme d’accès libre.

C’est ce qui ressort notamment de ce passage de l’article 30 de la loi :

Dès lors que les données issues d’une activité de recherche financée au moins pour moitié par des dotations de l’Etat, des collectivités territoriales, des établissements publics, des subventions d’agences de financement nationales ou par des fonds de l’Union européenne ne sont pas protégées par un droit spécifique ou une réglementation particulière et qu’elles ont été rendues publiques par le chercheur, l’établissement ou l’organisme de recherche, leur réutilisation est libre.

« Leur réutilisation est libre ». La formule peut paraître lapidaire, mais elle n’en a pas moins d’importantes conséquences sur le plan juridique. Ces termes doivent être pris au sens de la lettre : la réutilisation est complètement libre, à toutes fins (y compris commerciales) et sans condition (pas même celle de citer la source). 

On peut en déduire (et c’est assez révolutionnaire) que la loi numérique va rendre inutile le recours aux licences libres pour la diffusion des données de la recherche. On sait que pour encadrer l’ouverture des données publiques en France, l’Etat a créé la Licence ouverte / Open Licence (qui permet la réutilisation des informations  à toutes fins, à condition d’en citer la source). D’autres licences, comme l’ODbL ou les licences Creative Commons, sont également utilisables en matière d’ouverture de bases de données. Or pour les données de recherche, de tels instruments sont à présent inutiles, car c’est la loi directement qui instaure à leur sujet un droit de libre réutilisation dès lors qu’elles sont publiées. 

On peut même aller plus loin en disant qu’il ne faut pas utiliser ces outils pour diffuser des données de recherche, car ces différentes licences comportent des conditions de réutilisation plus restrictives que le droit de libre réutilisation totale prévu par la loi. Or ces clauses (BY/NC/ND/SA) n’auront plus d’effet utile en raison du caractère d’ordre public des dispositions de l’article 30. La seule licence dorénavant compatible avec le régime légal des données de recherche est la CC0 

En cela, ce texte innove réellement, car c’est à ma connaissance un des seuls cas où la loi française va créer du « libre à l’état natif », sans avoir besoin de recourir à des licences pour opérer cette libération. Les dispositions de la loi se déclenchent automatiquement par l’acte de publication (et vous noterez d’ailleurs que le texte ne parle pas de publication « en ligne », mais simplement de publication, ce qui couvre des hypothèses plus larges, comme la diffusion via une base de données commerciale).

Quelles limites à la libre réutilisation ?

Néanmoins, il faut immédiatement préciser que l’article 30 a prévu de limiter son périmètre d’application, en excluant certains types de données de cet effet de « libération immédiate ». Il indique en effet que la réutilisation est libre , sauf si les données « sont protégées par un droit spécifique ou une réglementation particulière« .

Cette précision peut paraître à première vue assez sibylline, mais elle est en réalité parfaitement logique. On peut en effet penser à des données correspondant à des informations à caractère personnel, qui sont protégées par une « réglementation particulière ». Si c’est le cas, alors bien évidement, leur réutilisation ne sera pas libre, mais soumise à ce que prévoit la législation en la matière.

On peut aussi penser également au droit à l’image des personnes, qui constitue un « droit spécifique ». Celui-ci ne cédera pas du fait que des matériaux serait utilisés à des fins de recherche. Il est donc normal que le législateur ait prévu ces restrictions à la libre réutilisation des données de recherche, qui permettent de concilier des principes d’égale valeur.

Quid de l’articulation avec les droits de propriété intellectuelle ?

Mais la question devient plus épineuse si l’on entend par « droits spécifiques » des droits de propriété intellectuelle. Cela entre d’ailleurs manifestement dans l’intention du législateur, puisque ces droits sont visés dans l’exposé des motifs de la loi :

Le II spécifie que la réutilisation de données issues d’activité de recherche financées majoritairement sur des fonds publics est libre, dès lors que ces données ne sont pas protégées par un droit spécifique, comme par exemple un droit de propriété intellectuelle, et qu’elles ont été rendues publiques par le chercheur ou l’organisme de recherche.

Si par droit de propriété intellectuelle, on entend le droit d’auteur, alors les choses sont somme toute logiques encore, notamment afin de préserver les droits des tiers. Imaginons qu’un corpus de recherche contienne des documents protégés par des droits d’auteur (par exemple, un ensemble de textes littéraires). Si ce corpus est publié, alors bien entendu, il ne peut devenir ipso facto librement réutilisable. Pour être plus exact, il sera réutilisable dans une certaine mesure, sur le fondement de l’exception  Text et Data Mining prévue à l’article 38 de la loi, mais pas sur celui du droit de libre réutilisation des données de la recherche figurant à l’article 30.

Le vrai problème que pose l’articulation de cet article 30 avec les droits de propriété intellectuelle se situe en fait au niveau du droit des bases de données. Imaginons qu’un chercheur ou un établissement publie un jeu de données sur lequel porte un droit sui generis de producteur de base de données. On a alors bien affaire à un objet protégé par un « droit spécifique » et dans ce cas, ce jeu ne devrait pas devenir « librement réutilisable », si l’on s’en tient à la seule lecture de l’article 30.

Si l’on admet une telle interprétation,  la portée de ce droit de libre réutilisation des données de la recherche serait en réalité bien limitée, car dès lors que des jeux de données sont un peu conséquents, la protection du droit des bases de données leur sera sans doute applicable. Par ailleurs, l’application de l’article deviendrait aussi très incertaine, car le droit de producteur des bases de données est souvent aléatoire dans sa mise en œuvre. La jurisprudence est en effet  fluctuante sur la question et il n’est pas simple a priori de déterminer si telle ou telle base bénéficie ou non de la protection.

Mais vous allez voir l’obstacle à la libre réutilisation que pourrait constituer le droit des bases de données n’est en réalité pas insurmontable.

Qui est réellement titulaire des droits sur les données de recherche ?

Pour démêler cette question, il faut se demander à qui appartient réellement la propriété sur les données de recherche. Et le raisonnement à suivre pour répondre est là encore complètement différent de celui applicable aux articles.

En effet, pour les écrits scientifiques, les chercheurs sont incontestablement titulaires du droit d’auteur. Ce qui signifie que même si un chercheur produit des écrits sur son temps de travail et avec les moyens fournis par une université, il reste entièrement maître du droit sur ses créations, et c’est lui qui décide où et comment publier ses écrits.

Or pour les bases de données, les choses sont différentes. Même si ce sont les chercheurs qui produisent les données figurant dans ces bases, la titularité des droits peut – et même va dans la plupart des cas – leur échapper. En effet, le Code de propriété intellectuelle prévoit que la notion de producteur d’une base de données ne s’entend pas des personnes physiques qui collectent et traitent les informations, mais de la personne – physique ou morale – qui « prend l’initiative et le risque des investissements correspondants » et en retour « bénéficie d’une protection du contenu de la base lorsque la constitution, la vérification ou la présentation de celui-ci atteste d’un investissement financier, matériel ou humain substantiel« .

C’est donc vers le financeur et le fournisseur de moyens qu’il faut se tourner pour déterminer qui est titulaire des droits sur une base de données de la recherche. Dans la plupart des cas, ce seront donc les établissements auxquels les chercheurs sont rattachés qui bénéficieront de ces droits et non les chercheurs. Contrairement à ce qui prévaut pour les articles et autre écrits scientifiques, les bases de données appartiennent donc en principe aux institutions de recherche.

Sans doute faut-il nuancer quelque peu cette affirmation. Imaginons un chercheur qui publie un article dans une revue et qui lui adjoint un tableau de données brutes lui ayant servi à arriver aux résultats faisant l’objet de la publication. Dans ce cas, il est possible que le chercheur soit la personne qui a réalisé les « investissements » nécessaires –  sur ses propres forces – pour produire ces données. Mais quand bien même, il est fort improbable que de tels investissements individuels soient considérés comme « substantiels » au sens de la jurisprudence et ce tableau ne constituera vraisemblablement pas une base de données protégée. Donc il y a peu de chances qu’un chercheur isolé puisse être considéré comme un « producteur de base de données », au sens juridique du terme.

Imaginons à présent une base de données produite collaborativement et maintenue par les chercheurs d’un laboratoire ou une base de données développée spécifiquement dans le cadre d’un projet de recherche majoritairement financé par de l’argent public. Alors c’est l’employeur des chercheurs qui sera vraisemblablement titulaire des droits de producteur de base de données, car c’est lui qui assure les investissements nécessaires à la production de la base.

Or si c’est l’université qui est titulaire ab initio des droits sur une base de données scientifiques, cela aura d’importantes  conséquences du point de vue de la loi numérique. Pour le comprendre, il faut vous reporter au billet précédent que j’ai écrit sur l’Open Data et les universités, car vous allez voir que cette question rejoint en définitive celle des données de la recherche.

Le droit des bases de données des universités est neutralisé par défaut

En effet, l’article 11 de la loi numérique contient une disposition qui neutralise le droit des bases de données dont pourrait bénéficier les administrations soumises au principe d’Open Data par défaut (ce qui est le cas des universités) :

Sous réserve de droits de propriété intellectuelle détenus par des tiers, les droits des administrations mentionnées au premier alinéa de l’article L. 300-2 du présent code, au titre des articles L. 342-1 et L. 342-2 du code de la propriété intellectuelle, ne peuvent faire obstacle à la réutilisation du contenu des bases de données que ces administrations publient en application du 3° de l’article L. 312-1-1 du présent code.

Donc on peut en déduire que si une université est titulaire d’un droit de producteur de base de données scientifiques, alors elle ne peut opposer ce droit à la réutilisation des informations qu’elle contient. Cela revient dès lors à dire que la réutilisation de ces données de recherche, nonobstant le droit de producteur de base de données, est bien « libre ».

Et nous rebouclons ici avec l’article 30 et son droit de libre réutilisation des données de recherche. De tout ce qui précède, nous pouvons conclure que l’article 30 nous dit bien que le droit de libre réutilisation des données de recherche ne vaut pas lorsque celles-ci sont protégées par un « droit spécifique », mais comme je viens de le montrer, cela ne peut concerner le droit de producteur de base de données qui, de toutes façons, est neutralisé en vertu de l’article 11 et ne peut être opposé à la libre réutilisation.

La conclusion est donc la suivante : des données de la recherche publiées par un chercheur ou un établissement seront donc bien librement réutilisables, sous réserve de respecter la législation sur les données personnelles ou le droit à l’image, ainsi que le droit d’auteur des tiers.

Reste alors une ultime question à considérer, car en définitive le seul moyen pour des chercheurs ou une institution d’empêcher la libre réutilisation de leurs données pourrait consister tout simplement à ne pas les publier. Mais vous allez voir qu’en réalité, ce choix-là n’existe pas non plus en vertu des dispositions combinées de la loi.

L’Open Data par défaut est applicable aux données de la recherche

Pour le comprendre, il faut revenir au principe d’Open Data par défaut que j’ai décrit dans le billet précédent. La loi numérique soumet dorénavant les administrations à l’obligation de publier de manière proactive et de rendre librement réutilisables un ensemble conséquent de documents et de données. C’est l’article 6 de la loi qui liste les informations concernées :

Sous réserve des articles L. 311-5 et L. 311-6 et lorsque ces documents sont disponibles sous forme électronique, les administrations mentionnées au premier alinéa de l’article L. 300-2, à l’exception des personnes morales dont le nombre d’agents ou de salariés est inférieur à un seuil fixé par décret, publient en ligne les documents administratifs suivants :
« 1° Les documents qu’elles communiquent en application des procédures prévues au présent titre, ainsi que leurs versions mises à jour ;
« 2° Les documents qui figurent dans le répertoire mentionné au premier alinéa de l’article L. 322-6 ;
« 3° Les bases de données, mises à jour de façon régulière, qu’elles produisent ou qu’elles reçoivent et qui ne font pas l’objet d’une diffusion publique par ailleurs ;
« 4° Les données, mises à jour de façon régulière, dont la publication présente un intérêt économique, social, sanitaire ou environnemental.

Comme vous le voyez, la loi impose la publication en ligne des « bases de données ». Cela signifie que si l’université est titulaire du droit de producteur de bases de données scientifiques développées en son sein (et nous avons vu dans la partie précédente que ce sera généralement le cas), alors elle devra les mettre en ligne en Open Data (à la seule réserve de la protection des données personnelles).

L’article précise aussi que les données présentant un intérêt « économique, sociétal, sanitaire ou environnemental » entrent dans le principe d’Open Data par défaut. Cela laisse une large marge d’interprétation  pour déterminer ce qui rentre dans ce périmètre. Mais une recherche serait bien insignifiante si les données qu’elle produit ne comportant pas a minima un intérêt « sociétal » et dans certains secteurs, ces informations revêtiront aussi un intérêt économique, environnemental ou sanitaire.

La conclusion de tout ceci – et je pense que les autorités de la recherche sont très loin de l’avoir suffisamment perçu -, c’est que la loi numérique va avoir des effets de levier très puissants sur la diffusion des données de la recherche en France. Là où les chercheurs ont gardé la faculté de décider s’ils publient ou non leur écrits en Open Access, ils l’ont manifestement perdue pour les données la recherche. Les universités dont ils dépendent ont à présent l’obligation de publier en ligne les données de la recherche produites en leur sein, et une fois publiées, ces données deviennent ipso facto librement réutilisables (sous la réserve – importante – de la protection des données personnelles et du respect des autres droits éventuels des tiers).

Dans l’hypothèse où les universités (ou les chercheurs) opposeraient une certaine inertie et ne respecteraient pas ces obligations de publication en Open Data, la loi n’a pas directement prévu de sanctions, mais il existera un mécanisme correctif assez facilement actionnable.

Le texte a en effet instauré un dispositif d’Open Data « à la demande » connecté au droit à la communication des documents administratifs. Si un individu, une association (ou même une entreprise) savent qu’un jeu de données de recherche existe, mais n’a pas encore fait l’objet d’une publication en Open Data, ils peuvent faire une demande de communication sur la base de la loi CADA. Si cette demande est fondée, l’université devra communiquer le document, mais aussi (s’il existe sous forme numérique), le mettre en ligne  et rendre librement réutilisables les informations qu’il contient dans un format ouvert lisible par les machines.

Au cas où les établissements de recherche n’agiraient pas d’eux-mêmes pour se conformer aux obligations de la loi, il existera donc un moyen de faire bouger les lignes par le biais de demandes de communication.

Conclusion : Données de la recherche et Communs de la connaissance

Pour conclure, je voudrais revenir sur la généalogie de la phrase « leur réutilisation est libre » figurant à l’article 30 de la loi numérique, qui joue un rôle central dans ce nouveau statut des données de la recherche créé par le texte.

A l’origine, le gouvernement avait l’ambition  d’introduire en droit français la notion de « domaine commun informationnel », en rattachant un certain  nombre d’informations et de données à la notion de « choses communes » issue de l’article 714 du Code civil :

Il est des choses qui n’appartiennent à personne et dont l’usage est commun à tous.

Il se trouve que les aléas politiques – et une bonne dose de lâcheté gouvernementale – ont entraîné l’abandon de l’article 8 de la loi qui manifestait cette ambition. Mais après la phase de consultation en ligne, le texte a été réécrit et ce sont les données de la recherche que le gouvernement a voulu qualifier de « choses communes » :

Les données de la recherche rendues publiques légalement issues d’une activité de recherche financée au moins pour moitié par des fonds publics et qui ne sont pas protégées par un droit spécifique sont des choses communes, au sens de l’article 714 du code civil.

Le Conseil d’Etat s’est alors prononcé sur cette version et il a émis un avis défavorable à propos de cette rédaction (au motif qu’aucune étude d’impact n’avait été réalisée sur ce point précis…).

L’argument était bien faible, mais il a suffi à ce que le texte du projet de la loi soit encore été remanié, avant l’introduction au Parlement, et c’est là qu’est apparue la rédaction qui y figure encore : « leur réutilisation est libre« .

Le rattachement explicite des données de la recherche aux choses communes a donc été gommé au fil des versions successives, mais si l’on y réfléchit bien, le résultat final est exactement le même du point de vue des conséquences juridiques que cela emporte.

Car en effet, on peut tout à fait dire à présent que les données de la recherche « n’appartiennent à personne » : elles n’appartiennent pas aux chercheurs, car ce sont les universités qui détiennent généralement le droit de producteur de base de données sur elles. Mais celui-ci est neutralisé par l’article 11 de la loi, qui impose par ailleurs la mise en ligne proactive. Donc concrètement, les données ne sont soumises à aucun droit de propriété efficace.

Et j’ai montré que l’article 30 avait pour conséquence qu’une fois les données de la recherche publiées, leur usage devient pleinement libre et donc « commun à tous » (sous réserve de la préoccupation légitime de protéger les données personnelles et les droits des tiers).

Par ailleurs, ces données sont non seulement rendues librement réutilisables par l’effet de la loi, mais aussi protégées contre les phénomènes d’enclosure, comme je l’ai montré dans la première partie du billet à propos des mécanismes de défense vis-à-vis de la captation par les éditeurs. La liberté d’usage donnée par la loi ne peut être reprise par quiconque.

Donc la conclusion à laquelle nous devons aboutir, c’est que la loi numérique a bien créé un statut juridique remarquable pour les données de la recherche : elle en a fait des Communs de la connaissance.

 

Les universités françaises et l’Open Data après la loi numérique

Ce billet est le second d’une série de trois que je vais publier sur ce blog cette semaine pour examiner les répercussions de la loi « République numérique » sur le secteur de l’enseignement supérieur et de la recherche. Après un premier billet publié lundi à propos de l’impact de la loi en matière d’Open Access, je vais à présent me pencher sur le volet « Open Data » et la façon dont il va affecter les universités. Ce n’est pas l’aspect qui a été le plus commenté jusqu’à présent, mais vous allez voir que les changements à attendre pour ces établissements sont substantiels par rapport à la situation antérieure.

opendata
Image par Auregann. CC-BY-SA. Source : Wikimedia Commons.

Pour saisir complètement la portée de cette réforme, il faut prendre en considération, outre la loi « République numérique », la loi du 28 décembre 2015 relative à la gratuité et aux modalités de la réutilisation des informations du secteur public (dite aussi « loi Valter »), ainsi que son décret d’application paru en juillet dernier.

Je colle ci-dessous une présentation qui résume les grandes lignes de la question que je vais développer dans le billet par la suite.

Fin du régime dérogatoire des établissements d’enseignement supérieur et de recherche

Pour comprendre ce qui va changer pour les universités en matière d’ouverture des informations publiques qu’elles produisent, il faut remonter un peu en arrière et rappeler le cadre juridique qui leur était applicable avant l’entrée en vigueur de la loi numérique.

En 2005, la loi CADA (relative à l’accès aux documents administratifs) a été modifiée de manière à consacrer un principe de libre réutilisation des informations publiques des administrations. Néanmoins, la portée de cette règle était assez limitée, car si les administrations ne pouvaient en théorie refuser de faire droit à une demande de réutilisation de leurs données, elles n’étaient pas obligées de les mettre en ligne de manière pro-active et elles avaient aussi la possibilité de rendre la réutilisation payante par le biais de redevances.

A partir de 2011, un mouvement en faveur de l’Open Data a commencé à se dessiner en France, au niveau des administrations centrales, qui ont été obligées par le biais de décrets de mettre en ligne sur la plateforme data.gouv.fr un nombre croissant de jeux de données en les plaçant sous la Licence Ouverte / Open Licence (laquelle autorise la libre réutilisation y compris à des fins commerciales, à la condition de citer la source des données). Les ministères ont été les premières entités concernées par cette nouvelle politique et celui de l’Enseignement Supérieur et de la Recherche a publié à ce jour 55 jeux de données en Open Data.

Cependant les universités et les établissements de recherche sont restés de leur côté en dehors de ce mouvement d’Open Data, dans la mesure où ces administrations bénéficiaient d’un régime dérogatoire dans la loi CADA. Le texte comportait en effet un article 11 contenant les dispositions suivantes :

Par dérogation au présent chapitre, les conditions dans lesquelles les informations peuvent être utilisées sont fixées, le cas échéant, par les administrations […] lorsqu’elles figurent dans des documents produits ou reçus par :

a) des établissements et institutions d’enseignement et de recherche ;

b) des établissements, organismes ou services culturels.

Cet article signifiait que les établissements bénéficiaires (universités et institutions de recherche, mais aussi côté culture, bibliothèques, archives et musées) restaient libre de déterminer les conditions de réutilisation des informations qu’ils produisaient, et donc (pour simplifier) de ne pas autoriser les réutilisations. Cette forme de « privilège » a fait que ces administrations n’ont pas été concernées par les décrets de 2011 ayant initié la politique d’Open Data en France. Pour être exact, il ne leur était pas interdit d’ouvrir leurs données dans le cadre d’une politique d’Open Data, mais elles n’y étaient pas obligées et elles gardaient entièrement la faculté de déterminer quels jeux elles souhaitaient rendre librement réutilisables.

C’est précisément sur ce point que la loi « République numérique » va avoir un fort impact sur les universités, dans la mesure où le régime dérogatoire dont bénéficiaient les établissements d’enseignement supérieur et de recherche est supprimé. Ces derniers seront à présent intégrés au principe « d’Open Data par défaut » instauré par ce texte et qui en constitue une des principales innovations.

Les universités dorénavant incluses dans le principe « d’Open Data par défaut »

Pour comprendre en quoi consiste ce principe d’Open Data par défaut, il faut se reporter à l’article 6 de la loi « République numérique » :

Sous réserve des articles L. 311-5 et L. 311-6 et lorsque ces documents sont disponibles sous forme électronique, les administrations mentionnées au premier alinéa de l’article L. 300-2, à l’exception des personnes morales dont le nombre d’agents ou de salariés est inférieur à un seuil fixé par décret, publient en ligne les documents administratifs suivants :
« 1° Les documents qu’elles communiquent en application des procédures prévues au présent titre, ainsi que leurs versions mises à jour ;
« 2° Les documents qui figurent dans le répertoire mentionné au premier alinéa de l’article L. 322-6 ;
« 3° Les bases de données, mises à jour de façon régulière, qu’elles produisent ou qu’elles reçoivent et qui ne font pas l’objet d’une diffusion publique par ailleurs ;
« 4° Les données, mises à jour de façon régulière, dont la publication présente un intérêt économique, social, sanitaire ou environnemental.

Contrairement à la situation antérieure, les administrations (sauf quelques exceptions maintenues notamment par la loi Valter) sont désormais obligées de publier en ligne et de rendre réutilisables un large ensemble de jeux de données, dont l’article 6 définit plusieurs catégories. Et la nouveauté, c’est que les universités ne bénéficient plus à présent d’un régime dérogatoire qui leur permettraient de se soustraire à cette obligation d’ouverture des informations publiques. Celui a été en effet explicitement supprimé par la loi Valter en octobre 2015.

Parmi la liste figurant à l’article 6, on trouve notamment les « bases de données, mises à jour de façon régulière, qu’elles produisent ou qu’elles reçoivent […] ». Cela concerne notamment les bases de données composant le système d’information de l’administration centrale des universités, qui leur servent à gérer des aspects comme le budget, le personnel, leurs bâtiments et les flux associés, les formations dispensées ou les activités de recherche des laboratoires rattachés à l’établissement.

Le texte impose aussi (alinéa 2) la mise en ligne des documents listés dans un Répertoire des Informations Publiques (RIP), qu’en vertu de l’ancien article 17 de la loi CADA, toutes les administrations sont tenues de mettre en place. Le RIP consiste en un registre mis à disposition des usagers dans lequel figure la liste des « principaux documents » comportant les informations produites par l’établissement. A ma connaissance, aucune université française n’a encore rempli cette obligation légale de mise en place d’un RIP (ce qui pourrait leur être reproché), mais avec la loi numérique, elles seront aussi tenues de rendre réutilisables les documents qu’elles y feront figurer.

La loi numérique est plus floue lorsqu’elle évoque l’obligation de mise en ligne des « données, mises à jour de façon régulière, dont la publication présente un intérêt économique, social, sanitaire ou environnemental« . Les universités garderont ici une marge de manoeuvre pour déterminer quelles informations parmi celles qu’elles produisent présentent un tel intérêt. Mais elles ne pourront cependant pas faire l’économie d’une démarche d’inventaire des jeux qu’elles détiennent et d’une sélection en vue d’une diffusion ouverte. L’idéal serait d’ailleurs que les universités se concertent entre elles pour libérer des jeux similaires.

A noter d’ailleurs qu’un mécanisme « d’Open Data à la demande » a été instauré par la loi république numérique, qui permettra assez facilement de forcer la mise en ligne de jeux de données au cas où une université ne procéderait pas d’elle-même à sa diffusion. L’alinéa 1 de l’article 6 indique en effet que les administrations doivent mettre en ligne « les documents qu’elles communiquent en application des procédures prévues au présent titre« . Cela signifie que les administrations seront obligées de mettre en ligne les documents qui leurs sont demandés par les usagers dans le cadre d’une procédure CADA d’accès aux documents administratifs. Si un document entre dans le périmètre (somme toute assez large) de cette loi, alors l’université ne pourra s’opposer à la communication (sous peine d’un recours à la CADA) et lorsque le document est communiqué, l’administration devra ensuite le mettre en ligne et rendre réutilisable les informations qu’il contient. Tout ceci fait que si une université fait preuve d’inertie dans la mise à disposition de données couvertes par l’article 6, il suffira qu’un citoyen, une association ou même une entreprise en fassent la demande auprès d’elle pour qu’elle soit obligée de les mettre en ligne.

On le voit ce principe « d’Open Data par défaut » est relativement puissant, et s’il n’est pas sans limite, il va sans doute produire des changements considérables dans la manière dont les universités diffusent les documents et les données qu’elles produisent.

Quelles limites à la réutilisation des données des universités ?

Le principe d’Open Data par défaut de la loi « République numérique » a beau être large, il n’est cependant pas sans limite. La première concerne l’impératif de protection des données personnelles et de la vie privée, qui devra naturellement continuer à être respecté et sur lequelle l’article 6 de la loi met l’accent :

Sauf dispositions législatives contraires ou si les personnes intéressées ont donné leur accord, lorsque les documents et les données mentionnés aux articles L. 312-1 ou L. 312-1-1 comportent des données à caractère personnel, ils ne peuvent être rendus publics qu’après avoir fait l’objet d’un traitement permettant de rendre impossible l’identification de ces personnes. Une liste des catégories de documents pouvant être rendus publics sans avoir fait l’objet du traitement susmentionné est fixée par décret pris après avis motivé et publié de la Commission nationale de l’informatique et des libertés.

Ce passage signifie que si des informations correspondent à des données à caractère personnel, alors les administrations ne doivent pas les mettre en ligne et les rendre réutilisables, à moins de rendre impossible l’identification des personnes concernées ou après avoir obtenu leur consentement. On notera qu’il ne suffit pas simplement d’anonymiser les données, mais de « rendre impossible l’identification des personnes« , ce qui va plus loin (notamment pour empêcher les identifications par recoupements de données).

Cet aspect risque d’être très compliqué à gérer pour les administrations en général et pour les universités en particulier. Car les établissements vont se retrouver pris entre deux exigences contradictoires : d’une part une soumission au principe d’Open Data par défaut, qui implique la publication de nombreux documents et jeux de données ; d’autre part l’impératif de protection des données personnelles qui reste toujours aussi fort. Pour prendre un exemple concret, une université sera dorénavant obligée de mettre en ligne les informations relatives au personnel qu’elle emploie ou aux étudiants inscrits, mais à la condition d’anonymiser ces données et de rendre impossible l’identification par recoupement, ce qui peut s’avérer très complexe à réaliser. La CNIL a annoncé qu’elle préparait un « pack de conformité » à destination des acteurs publics pour la mise en oeuvre de la loi République numérique et on attend à présent avec impatience ce document qui permettra sans doute d’y voir plus clair sur la manière de jongler avec ces exigences contradictoires.

Une autre limitation au principe d’Open Data par défaut concerne la protection des droits de propriété intellectuelle détenus par des tiers à l’administration. L’article L. 321-2 du Code des relations entre le public et les administrations prévoit ainsi que :

Ne sont pas considérées comme des informations publiques […] les informations contenues dans des documents […] sur lesquels des tiers détiennent des droits de propriété intellectuelle.

Dans le contexte d’établissements comme des universités, de nombreux documents couverts par des droits de propriété intellectuelle sont produits, que l’on songe par exemple aux cours et aux publications des enseignants-chercheurs, aux diverses productions des étudiants (copies d’examen, travaux, mémoires, etc), aux ressources pédagogiques à distance, etc. Tous ces contenus sont naturellement exclus du périmètre des documents soumis à l’obligation de mise en ligne définie à l’article 6 de la loi. Pour ce qui concerne le cas spécifique des publications des chercheurs, il est traité à l’article 30 de la loi, à travers les dispositions de faveur de l’Open Access dont j’ai parlé dans un précédent billet, mais le principe demeure que les chercheurs restent pleinement titulaires du droit d’auteur sur leurs productions et sont à ce titre libres de décider s’ils souhaitent les publier en ligne ou non.

A propos de cette question de l’articulation entre l’Open Data et les droits de propriété intellectuelle, il faut noter que la loi « République numérique » a cependant apporté une clarification importante relative au droit des bases de données des administrations. Il était arrivé dans le passé que des administrations (notamment des services d’archives) opposent leur droit de producteur de base de données à une demande de réutilisation. Après quelques flottements, la jurisprudence administrative avait fini par leur donner raison, ce qui signifiait que ces établissements pouvaient neutraliser le principe de libre réutilisation des informations publiques en s’appuyant sur le droit des bases de données. Or la loi numérique contient un article 11 qui va complètement changer la donne en la matière :

Sous réserve de droits de propriété intellectuelle détenus par des tiers, les droits des administrations mentionnées au premier alinéa de l’article L. 300-2 du présent code, au titre des articles L. 342-1 et L. 342-2 du code de la propriété intellectuelle, ne peuvent faire obstacle à la réutilisation du contenu des bases de données que ces administrations publient en application du 3° de l’article L. 312-1-1 du présent code.

Cette phrase signifie que les administrations ne peuvent dorénavant plus opposer un droit de producteur de base de données à une demande de réutilisation des informations publiques qu’elles détiennent, et cela s’appliquera aux universités comme aux autres.

Quid de la faculté à fixer des redevances de réutilisation ?

Contrairement à la situation qui prévalait antérieurement dans laquelle les administrations pouvaient discrétionnairement mettre en place des redevances pour la réutilisation de leurs données, la loi Valter a consacré un principe général de gratuité. L’article 15 de la loi prévoit néanmoins une dérogation possible à titre exceptionnel pour les administrations dont le financement est substantiellement assuré par des ressources propres :

La réutilisation d’informations publiques est gratuite. Toutefois, les administrations mentionnées à l’article 1er peuvent établir une redevance de réutilisation lorsqu’elles sont tenues de couvrir par des recettes propres une part substantielle des coûts liés à l’accomplissement de leurs missions de service public.

Un doute pourrait poindre ici à propos des universités, car il s’agit typiquement d’établissements auxquels il est demandé de dégager des ressources propres pour assurer une part d’auto-financement. Néanmoins, le décret d’application de la loi Valter, paru en juillet dernier, a clairement défini un seuil minimal de 25% de ressources propres en dessous duquel les administrations ne sont plus autorisées à exiger des redevances de réutilisation :

Sont seuls autorisés à établir des redevances de réutilisation en application de l’article L. 324-1 les services de l’Etat et les autres personnes mentionnées à l’article L. 300-2 dont l’activité principale consiste en la collecte, la production, la mise à disposition ou la diffusion d’informations publiques, lorsque la couverture des coûts liés à cette activité principale est assurée à moins de 75 % par des recettes fiscales, des dotations ou des subventions.

Or si l’on en croit ces chiffres tirés de l’Observatoire KPMG 2015 des Universités et des Ecoles, les universités en France dégagent en moyenne 18% de ressources propres, ce qui les placent en dessous du seuil fixé par le décret de la loi Valter.

ressources

Ceci étant dit, on pourrait imaginer qu’une université arrive à dépasser ce seuil des 25% et l’étude KPMG précité indique que les Ecoles et Instituts de recherche atteignent en moyenne plutôt des taux d’autofinancement de 32%. Néanmoins, cela ne permettra toujours pas à ces établissements de recherche de lever des redevances de réutilisation sur la réutilisation de leurs données.

Car le décret de la loi Valter précise bien que seuls disposent de cette faculté les administrations dont « l’activité principale consiste en la collecte, la production, la mise à disposition ou la diffusion d’informations publiques » et il faut par ailleurs que les subventions qui leur sont versées servent directement à couvrir les coûts de cette activité principale liée aux données. Or ce n’est pas le cas des universités et établissements de recherche, dont les missions sont bien plus larges que la seule production d’informations publiques.

On en déduit donc que les universités sont strictement astreintes au respect du principe de gratuité et qu’elles ne pourront plus établir de redevances de réutilisation des données, sous peine de se mettre dans l’illégalité.

Conclusion : les universités françaises doivent à présent passer à l’Open Data

On le voit, la loi « République numérique » va avoir un impact important sur les universités en les soumettant, comme les autres administrations au principe d’Open Data par défaut qu’elle instaure. C’est la fin d’une situation dérogatoire qui s’appliquait aux universités et établissements de recherche dans la législation antérieure. Cela signifie qu’un grand nombre de documents et de jeux de données devront être mis en ligne dans les années à venir par les universités, ce qui implique des défis organisationnels non négligeables à surmonter. Il me semble d’ailleurs que les conséquences de ce texte n’ont pas été assez clairement perçus par ces acteurs, qui se sont beaucoup focalisés sur le volet Open Access de la loi sans voir que la partie Open Data les concernait également.

La loi fixe aux administrations plusieurs délais (de 6 mois à deux ans selon les catégories de données) pour se conformer à ces nouvelles obligations, échéances qui vont arriver très rapidement à présent. Il faut cependant noter qu’un décret est encore attendu qui va fixer un seuil d’agents au-delà duquel une administration sera soumise au principe d’Open Data par défaut. Mais les universités étant généralement des établissements employant un nombre conséquent d’employés, il serait surprenant qu’elles ne soient pas comprises dans les administrations concernées.

Dans ce billet, j’ai surtout insisté sur les données produites par les universités en tant qu’établissement administratif. Ce sont les informations produites par les services centraux et les services communs de ces établissements qui sont au premier chef concernées par le passage en Open Data (y compris d’ailleurs celles des Services Communs de la Documentation, c’est-à-dire les bibliothèques universitaires). Néanmoins, une autre question importante est de savoir si les données de la recherche, en tant que telles, sont comprises ou non dans ce principe d’Open Data par défaut. Au cas où la réponse serait positive, cela signifie qu’il y aurait également obligation de les mettre en ligne et de les rendre réutilisables, moyennant la protection des données personnelles.

C’est une interrogation à laquelle j’essaierai de répondre dans le troisième billet de cette série consacrée aux répercussions de la loi numérique sur le secteur de l’enseignement supérieur et de la recherche. J’y étudierai la manière dont le texte met en place un nouveau « statut » des données de la recherche.

En attendant, les commentaires sont ouverts si vous souhaitez poser des questions ou laisser des observations à propos de ce nouveau tournant de l’Open Data qui attend les universités.

Open Law : un modèle exemplaire de partenariat Public-Privé-Communs

L’introduction des « Communs informationnels » en tant que nouvelle catégorie juridique dans la loi française n’a pas été retenue par les députés la semaine dernière, à l’occasion de l’examen de la loi Lemaire. Néanmoins cette loi aura tout de même un effet puissant de promotion des Communs, notamment grâce à ses dispositions instaurant un principe d’Open Data « par défaut ». Aussi bien au niveau national que local, un nombre important de nouveaux jeux de données devraient être libérés en ligne dans les mois qui suivront l’entrée en vigueur du texte. En soi, l’ouverture des informations publiques constitue pour les personnes publiques un manière de « contribuer aux Communs », dans la mesure où cette démarche élargit les droits d’usage sur les données mises en partage.

Cependant, l’existence de jeux de données réutilisables n’est pas en elle-même suffisante pour constituer des Communs, au sens propre du terme. Il n’en sera ainsi que si des communautés réelles apparaissent et se structurent autour des données ouvertes pour les réutiliser effectivement, assurer leur enrichissement et participer à leur gouvernance. Jusqu’à présent, si le mouvement d’ouverture des données publiques a bien progressé en France, on peut dire que ce sont à propos de ces derniers points que la dynamique d’Open Data pêche encore assez largement.

« Open Law – Le droit ouvert » constitue une initiative qui montre une voie pour associer acteurs publics, entreprises privées et  société civile autour de données ouvertes dans le but explicite de produire de nouveaux communs. Elle constitue un modèle de ce que l’on pourrait appeler un « Partenariat Public-Privé-Communs », dont la vidéo ci-dessous vous présente les grandes lignes :

Le secteur de l’information juridique en voie de recomposition

Le champ d’intervention du projet Open Law est celui de l’information juridique. Ce domaine a connu de profonds bouleversements ces dernières années avec l’ouverture en Open Data des grandes bases de données de législation et de jurisprudence. Jusqu’alors ces éléments clés n’étaient réutilisables qu’à la condition de s’acquitter d’une redevance versée à la DILA (Direction de l’Information Légale et Administrative), administration centrale rattachée aux services du Premier Ministre. Cette situation faisait que ces données étaient en pratique réservées à un groupe d’éditeurs juridiques (Lexis Nexis, Dalloz, Lextenso, etc.), qui s’en servaient pour proposer des bases de données sous forme de produits commerciaux.

Avec le passage en Open Data des mêmes jeux de données, les différents acteurs de ce champ doivent se repositionner. Le « coût d’entrée » sur ce secteur de l’information juridique a été fortement abaissé, ce qui permettra à davantage de petits acteurs innovants de l’investir. L’acteur public conserve une position centrale en matière de production des jeux de données essentiels de l’information juridique, mais la possibilité pour des entreprises, des associations ou de simples citoyens de contribuer est dorénavant largement plus ouverte.

Open Law, une démarche de coopération pour la création des « Communs du droit »

Dans ce nouveau contexte, l’initiative Open Law a été lancée sous la forme d’une association pour fédérer ces partenaires publics et privés autour d’une dynamique de coopération. L’originalité principale de la démarche consiste à favoriser la production de « Communs du droit », visant à faciliter la réutilisation des informations juridiques et à exprimer leur plein potentiel :

Rendus possibles par l’ouverture des données juridiques, les communs sont construits, enrichis, gouvernés et maintenus au bénéfice de tous par des communautés d’acteurs.

Ils nourrissent l’innovation et servent de socles au développement de services innovants, par les entreprises et par la société civile.

Open Law Europa a permis l’émergence et la conception de 5 nouveaux communs pour le droit ouvert, dont la construction se poursuivra au fil des prochains mois.

Ces 5 Communs du droit sont les suivants :

  1. HUB : un catalogue des ressources juridiques librement accessibles en France et à l’étranger, placé en Open Access et construits de manière collaborative ;
  2. PARIS : une norme permettant l’identification des sources du droit à l’échelle européenne par le biais d’un standard unique, ouvert et pérenne d’URI ;
  3. CORE : une ontologie visant à permettre le traitement automatisé des données juridiques et leur inscription dans le web de données ;
  4. CROWD : des interfaces web pour l’annotation collaborative des textes juridiques, au moyen de mots-clés et de vocabulaires contrôlés ;
  5. SOCLE : une suite logicielle Open Source pour le droit ouvert.

Comme on le voit, ces Communs constituent en réalité des standards, des normes, des inventaires, des logiciels qui forment les « briques de base » indispensables à la construction d’un « Réseau de données liées ouvertes et exploitables par tous », que ce soit dans un but commercial ou non.

Financer le développement d’une infrastructure commune

Il est clair que l’utilité de cette couche d’enrichissement construite au-dessus des jeux de données en Open Data ne peut être optimale que si elle est elle-même ouverte. Même les acteurs commerciaux ont intérêt par exemple à ce qu’un standard émerge pour pouvoir désigner les ressources juridiques par le biais d’identifiants contrôlés ou à ce qu’une ontologie du droit soit mise en place pour pouvoir investir le web de données.

Mais pour que ces ressources communes existent, il est nécessaire de consentir des investissements financiers, techniques et humains, qui peuvent s’avérer conséquents. L’acteur public n’en a pas forcément les moyens, en plus de la production des données de base qui lui incombe. Les acteurs privés n’ont de leur côté pas naturellement intérêt à le faire, s’ils restent dans leur logique traditionnelle de compétition, car cela reviendrait à produire des ressources utilisables par leurs concurrents. Du coup, il fallait monter une infrastructure permettant à chacun de ces acteurs de dépasser leur approche traditionnelle pour leur faire voir l’intérêt de mutualiser les moyens en vue de la production de ces « briques essentielles » pour tout l’écosystème.

L’association Open Law joue ce rôle. Elle sert d’abord de cadre de rencontre et de discussion entre acteurs publics et privés pour identifier les Communs à faire émerger dans le domaine de l’information juridique. Elle sert ensuite de « pot commun » rassemblant des financements publics et privés pour lancer des appels à contributions visant à la construction de ces Communs. Un peu à la manière de ce qu’est le W3C à l’échelle du web, Open Law joue aussi le rôle d’instance de gouvernance pour cette nouvelle infrastructure.

Ces Communs une fois mis en place, développés et maintenus par Open Law, chacun est libre de les réutiliser pour développer des projets concrets de services construits sur les données juridiques ouvertes. Open Law en signale déjà un certain nombre sur son site comme RIPSA (un répertoire permettant de connaître simplement les procédures administratives pour lesquelles le silence de l’administration vaut accord) ou DroitDirect.fr (une plateforme pour faciliter l’accès des personnes au droit, notamment celles en position précaire comme les étrangers et demandeurs d’asile).

On notera également qu’Open Law innove dans la manière dont le projet souhaite favoriser et récompenser les contributions apportées par les individus à ces Communs identifiés comme essentiels pour l’écosystème du droit ouvert. En effet, Open Law a mis en place un statut de « contributeur rémunéré aux communs ». Les sommes mutualisées par les partenaires servent en partie à verser une rémunération aux contributeurs individuels donnant de leur temps et de leurs compétences pour réaliser les objectifs déterminés par la structure. Open Law implémente ainsi l’idée d’une « réciprocité pour les Communs » ou d’un revenu contributif, sans avoir pour cela à inventer de nouvelles licences.

Pour une généralisation des partenariats Public-Privé-Communs

En 2014, l’italien Tommaso Fattori avait proposé le concept de « Partenariats Public-Communs » (Public-Commons Partnerships) comme une alternative aux partenariats Public-privé classiques, trop souvent à l’origine de formes de privatisation ou d’accaparement de ressources communes. L’initiative Open Law constitue à mon sens à la fois une réalisation et un enrichissement de cette idée, en montrant comment des Partenariats Public-Privé-Communs peuvent être mis en place autour des données ouvertes.

Comme je le disais au début de ce billet, avec la loi numérique de nombreux jeux de données publiques devraient être ouverts dans les mois qui suivront l’entrée en vigueur du texte. On peut dès lors se demander si ce qu’a réalisé Open Law dans le secteur de l’information juridique ne pourrait pas être répliqué dans d’autres domaines. Il existe en effet de nombreux champs où l’on retrouve des écosystèmes similaires, avec un rôle central joué par l’acteur public en matière de production de jeux de données essentiels, un tissu d’entreprises réutilisant ces données pour offrir des produits et une communauté d’utilisateurs capables de contribuer à leur enrichissement. Le secteur de la santé par exemple, celui de l’énergie ou des transports, mais aussi ceux de l’éducation, de l’enseignement supérieur ou de la culture présentent des caractéristiques assez similaires.

Or dans ces domaines, le besoin existe aussi de créer des répertoires des ressources libres, de produire des référentiels et des ontologies partagées, d’élaborer des standards et des normes d’identification ou de produire des solutions logicielles en Open Source. De nombreux « communs informationnelles » essentiels font encore défaut pour que l’Open Data donne la pleine mesure de son potentiel. Cette voie des partenariats Public-Privé-Communs ouverte par Open Law mérite donc sans doute d’être généralisée et approfondie.

Quelle réalité pour le principe d’Open Data « par défaut » de la loi Lemaire ?

C’est l’un des points sur lesquels la secrétaire d’Etat Axelle Lemaire avait le plus insisté lors du processus d’élaboration de la Loi numérique : la volonté d’instaurer en France un « principe d’Open Data par défaut« .

16323834751_0b990c39a9_b

A quelques semaines du début des débats à l’Assemblée nationale sur le texte, Next INpact a consacré hier un article à cette question où le journaliste Xavier Berne examine les dispositions relatives à « l’ouverture par défaut des données publiques« . On peut y lire notamment ceci :

Le Premier ministre s’y était engagé en juin dernier : inscrire dans la loi « le principe d’Open Data par défaut ». Aujourd’hui, le citoyen qui souhaite obtenir un document public (rapport, délibération, étude, correspondance, statistiques…) doit généralement en faire la demande auprès de l’administration. L’objectif du projet de loi « pour une République numérique » est donc de renverser ce paradigme, pour que l’ouverture devienne la règle et la fermeture l’exception.

Concrètement, cela signifie que toutes les données publiques détenues par les ministères ou certains établissements publics devraient être systématiquement mises en ligne par les pouvoirs publics – hormis certains documents relevant par exemple du secret des affaires.

Le problème, c’est que cette affirmation ne se révèle que partiellement vraie à la lecture attentive du texte.

Rappel : ce que l’Open Data veut dire… 

Pour comprendre pourquoi, il faut revenir à la définition de ce qu’est l’Open Data. On peut pour cela reprendre la fameuse « échelle en 5 étoiles » proposée par Tim Berners-Lee :

5-stars

On voit au premier niveau que pour parler d’Open Data au sens propre, les données doivent être publiées en ligne sous une licence ouverte garantissant la libre réutilisation.

C’est pour ainsi dire l’exigence première en matière d’Open Data, les niveaux supérieurs renvoyant davantage à des degrés de qualité des données (données structurées, format ouvert) ou à leur insertion dans le web de données ou Linked Data.

Mise en ligne à géométrie variable

Or c’est sur cette question basique de la mise en ligne des données que la loi Lemaire comporte encore une faiblesse relativement importante. En l’état, l’article 4 de la loi impose aux administrations de plus de 250 agents ou salariés de « rendre publics en ligne, sous un format ouvert aisément réutilisables » quatre type d’éléments (résumés ci-dessous par Xavier Berne) :

  • Les bases de données (et leur contenu).
  • Les documents communiqués à des particuliers suite à des procédures « CADA », ainsi que leurs « mises à jour ».
  • Les « données dont l’administration, qui les détient, estime que leur publication présente un intérêt économique, social ou environnemental ».
  • Les « principaux documents » figurant dans le répertoire d’informations publiques prévu par l’article 17 de la loi CADA.

Certes, l’inclusion des bases de données dans le périmètre de cet article constitue une grande avancée par rapport à la situation légale préexistante (surtout que le projet de loi précise plus loin à l’article 7 que les administrations ne pourront plus opposer leur droit de producteur de base de données à une demande de réutilisation, ce qui s’est déjà produit par le passé). Les bases de données produites par les administrations devront en principe être accessibles en ligne et on peut bien parler à leur sujet d’Open Data « par défaut ».

Par contre, pour ce qui concerne les documents administratifs, qui sont eux-aussi susceptibles de contenir des informations publiques, l’effet de la loi risque d’être plus limité. En effet, les administrations ne sont tenues de mettre en ligne de manière spontanée que les documents « communiqués à des particuliers suite à une procédure CADA« .

On ne sort donc pas vraiment à leur sujet de la situation préexistante, dans laquelle il fallait que les citoyens aillent demander à l’administration communication des données qu’ils souhaitaient réutiliser.

Logique persistante d’Open Data « à la demande » 

Cette lecture est confirmée par ce billet publié à la mi-décembre sur le blog d’Etalab qui analyse les conséquences de la loi Lemaire, dans lequel on peut lire ceci :

  • l’open data se développera sur la demande des citoyens : ainsi, les administrations seront tenues de diffuser en ligne les documents communicables à tous qui auront fait l’objet d’une demande de communication, ainsi que les mises à jour de ces documents;

  • par ailleurs, les administrations seront tenues de publier spontanément en ligne les documents qui figurent dans leurs répertoires d’informations publiques, ainsi que leurs bases de données. Elles diffuseront en outre les données présentant un intérêt économique, social ou environnemental.

Le premier paragraphe montre bien qu’on reste – du moins pour les documents contenant des informations publiques – dans une logique d’Open Data « à la demande », sans aller vers un passage à une logique d’offre systématique par l’administration.

RIP à la carte (et à trous)

Le projet de loi numérique ajoute cependant que les administrations devront aussi mettre en ligne les « principaux documents » figurant dans le répertoire d’informations publiques (RIP) qu’elles doivent tenir en vertu de l’article 17 de la loi CADA (dont voici le texte) :

Les administrations qui produisent ou détiennent des informations publiques tiennent à la disposition des usagers un répertoire des principaux documents dans lesquels ces informations figurent.

Les conditions de réutilisation des informations publiques ainsi que, le cas échéant, le montant des redevances et les bases de calcul retenues pour la fixation de ce montant sont rendus publics, dans un standard ouvert, par les administrations mentionnées à l’article 1er qui les ont produites ou reçues.

D’après la rédaction de cet article 17, la tenue du RIP est une obligation pour les administrations, ce qui devrait garantir en principe la mise en ligne de nombreux documents. Pourtant, si la plupart des Ministères ont établi un RIP, je ne suis pas certain que ce soit encore le cas pour tous. Par ailleurs, la majorité des établissements publics n’ont pas encore mis en place de tels répertoires et c’est pourtant à ce niveau que se situe à présent l’essentiel des données restant à libérer en France. En l’absence de répertoire, l’effet de la loi Lemaire risque d’être limité pour beaucoup d’administrations.

Quand bien même ce serait le cas, la loi ne fait obligation de faire figurer dans le RIP que les « principaux documents » produits par les administrations. Et la loi Lemaire indique de son côté que l’obligation de mise en ligne ne porte que sur les « principaux documents » figurant dans le RIP. Donc en définitive, la mise en ligne ne portera que sur les « principaux documents » parmi « les « principaux documents » produits par les administrations…

Comment arriver à un véritable Open Data « par défaut » ? 

On mesure déjà qu’on est loin en réalité d’un véritable Open Data « par défaut » avec mise en ligne spontanée des informations par l’administration et une large part de sélectivité risque de subsister. Cet état de fait est confirmé par le texte de l’article 4 qui ajoute que les administrations devront aussi mettre en ligne  les « données dont l’administration, qui les détient, estime que leur publication présente un intérêt économique, social ou environnemental ».

On reste encore ici dans une pure faculté discrétionnaire étant donné que l’évaluation de l’intérêt de la publication reste soumis à l’appréciation de l’administration concernée. Est-ce que par exemple les documents relatifs au budget ou au personnel d’un établissement public doivent ou non aller en ligne ? Ce sera aux instances dirigeantes d’en décider, comme c’était déjà le cas auparavant, alors qu’on pourrait penser qu’il s’agit au contraire des premières données qui devraient passer en Open Data.

En réalité pour imposer un véritable « Open Data par défaut », il aurait fallu que l’article 4 de la loi indique que l’obligation de mise en ligne pro-active concerne non seulement les documents « communiqués à des particuliers suite à une procédure CADA« , mais aussi tous ceux qui sont « communicables » en vertu de la loi du 17 juillet 1978.

On aurait eu alors un effet de levier très puissant et on serait sorti une fois pour toute de la logique insatisfaisante d’un Open Data « à la demande ».

Et les collectivités locales ? 

De manière paradoxale, les collectivités locales, qui sont pourtant explicitement exclues du champ de l’article 4 de la loi numérique, risquent d’être soumises à une obligation beaucoup plus forte de mise en ligne spontanée des documents qu’elles produisent.

L’article 106 de la Loi NOTRe adoptée cet été indique en effet que :

Les collectivités territoriales de plus de 3 500 habitants ainsi que les établissements publics de coopération intercommunale à fiscalité propre auxquels elles appartiennent rendent accessibles en ligne les informations publiques mentionnées à l’article 10 de la loi du 17 juillet 1978 […], lorsque ces informations se rapportent à leur territoire et sont disponibles sous forme électronique.

Contrairement aux administrations centrales et aux établissements publics rattachés à l’État, les collectivités locales de plus de 3500 habitants seront donc bien dans l’obligation de mettre en ligne toutes les informations publiques qu’elles produisent, ce qui implique nécessairement qu’elles publient aussi sur Internet l’intégralité des documents qui contiennent de telles informations.

Par contre, l’obligation de la loi NOTRe ne porte que sur l’accès en ligne et pas sur la réutilisation en tant que telle. On est ici davantage dans une logique d’Open Access que dans de l’Open Data au sens propre, les collectivités gardant comme aujourd’hui la faculté de décider de placer ou non leurs données sous licence ouverte.

Au final, on risque d’avoir au niveau de l’État une extension du principe de réutilisation, mais sans mise en ligne spontanée, tandis qu’au niveau des collectivités locales, on risque d’avoir une extension de la mise en ligne sans possibilité de réutilisation…

***

On voit donc qu’en définitive, ni au niveau de l’État, ni au niveau des collectivités locales, les changements législatifs récents ou à venir ne vont parvenir à satisfaire complètement cet objectif d’instauration d’un « Open Data par défaut ».

Pour ce qui concerne la loi Lemaire cependant, il serait assez simple pour les parlementaires qui vont bientôt examiner le texte de corriger ce défaut : il suffirait comme je l’ai dit plus haut d’amender l’article 4 du projet de loi pour faire en sorte que l’obligation de mise en ligne concerne tous les documents communicables au sens de la loi CADA et pas les documents effectivement communiqués.

Un simple mot à changer : c’est la condition pour éviter un Open Data « en trompe-l’oeil » que la loi risque de produire autrement…

 

 

 

Le statut juridique des données de la recherche : entre droit des bases de données et données publiques

Le mois dernier, j’ai été invité à intervenir à la Maison Européenne des Sciences de l’Homme et de la Société (MESHS) de Lille, dans le cadre d’un cycle d’un cycle de conférences sur le « Droit d’auteur dans l’environnement numérique ». J’étais chargé de traiter de le thème du droit des bases de données, mais j’ai élargi un peu le propos pour examiner la question du statut juridique des données de la recherche, de manière générale (voir la présentation ci-dessous).

Lire la suite