Une synthèse sur le nouveau cadre juridique de l’Open Access (et quelques questions en suspens…) 

J’avais déjà produit en octobre dernier sur ce blog une analyse du volet « Open Access » de la loi République numérique, sous la forme d’une FAQ. Cette semaine, l’université Paris Nanterre a mis en ligne la captation vidéo d’une intervention que j’ai donnée sur le même sujet en introduction à une journée sur l’Open Access organisée en décembre dernier à l’occasion de l’inauguration du portail HAL de l’établissement (cliquez sur l’image ci-dessous pour lancer la vidéo).

nanterre

J’y expose en une vingtaine de minutes les principaux mécanismes de mise en oeuvre du nouveau « droit d’exploitation secondaire » introduit par loi au bénéfice des chercheurs. Ce dernier va leur permettre de publier en ligne les manuscrits de leurs écrits acceptés pour publication par des éditeurs et financés majoritairement par des crédits publics, au terme d’un délai de 6 mois pour les sciences exactes et 12 mois pour les SHS.

Je donne des précisions quant à l’application de ces dispositions en suivant le canevas suivant : Qui peut déposer ? Que peut-on déposer ? Quand peut-on déposer ? Où peut-on déposer ? J’essaie aussi d’apporter des éléments sur les points délicats à interpréter de la loi (effet rétroactif ou non ? applicabilité aux éditeurs étrangers ? impacts sur les données de la recherche ?).

Il faut noter qu’une actualité importante est survenue cette semaine à propos de l’interprétation de cette loi. Une question parlementaire a été posée le 14 février par le député Jean-David Ciot à Axelle Lemaire, Secrétaire d’Etat au numérique et à l’innovation. Elle porte sur les points suivants :

  • Le caractère rétroactif ou non de la loi ;
  • L’applicabilité du texte aux éditeurs étrangers ;
  • Les modalités de calcul des 50% de financement public minimum d’une activité de recherche qui ouvrent la possibilité d’utiliser le droit d’exploitation secondaire ;
  • La possibilité pour les auteurs d’exiger de la part de l’éditeur la remise de la version finale acceptée pour publication lorsque celui-ci ne la communique pas de lui-même.

Un secrétaire d’Etat n’est pas un juge et seule une juridiction est habilitée à donner une interprétation authentique de la loi. Mais la réponse à ces questions aura nécessairement une incidence sur l’application du texte, surtout qu’il y ait très improbable qu’un contentieux survienne à son sujet. Car cela nécessiterait qu’un éditeur attaque un chercheur en justice (ou l’inverse…). Difficile aussi de savoir quand il sera apporté réponse à cette question, ni surtout qui le fera en raison des élections présidentielles qui approchent…

***

Je vous recommande de regarder par ailleurs les autres vidéos captées à l’occasion de la journée à Nanterre, car les échanges furent particulièrement riches, notamment dans les tables-rondes où des chercheurs ont pu exprimer leur point de vue et faire état de leurs propres pratiques en matière d’Open Access (qui n’ont heureusement pas attendu la loi pour prospérer).

La table-ronde sur les « nouvelles formes d’édition scientifique » m’a aussi permis de découvrir le projet « Self-Journal of Science » porté par le français Michaël Bon que j’ai trouvé absolument fascinant. Ses propositions se rapprochent de l’horizon d’une « wikification de la Science » et d’un au-delà de l’Open Access à propos duquel j’ai déjà eu l’occasion d’écrire sur ce blog.

Une énorme faille dans la loi Valter sur les données culturelles ?

La loi pour une République numérique (dite Loi Lemaire) va avoir en France un impact important en matière d’ouverture des données publiques, puisqu’elle institue un principe d’Open Data par défaut, dont j’ai déjà eu l’occasion de parler plusieurs fois dans ce blog (ici ou ). Mais ceux qui ont suivi attentivement cette évolution savent qu’il y a un secteur qui a réussi à conserver une position de privilège pour ne pas participer à cette dynamique d’ouverture : celui de la culture et du patrimoine.

Head in Hands
Facepalm pour la politique de réutilisation des données culturelles en France. (Images par Alex E. Proimos. CC-BY. Source : Wikimedia Commons).

C’est notamment l’effet de la loi du 28 décembre 2015 relative à la gratuité et aux modalités de la réutilisation des informations du secteur public (dite aussi loi Valter). Ce texte ainsi que son décret d’application vont permettre aux établissements culturels (bibliothèques, archives, musées) – là où la quasi-integralité des autres administrations sont désormais soumises à un principe de gratuité – de continuer à lever des redevances pour la réutilisation d’informations issues des opérations de numérisation de leurs collections (et des métadonnées associées).

Du côté de SavoirsCom1, nous avons fermement combattu cette politique de maintien d’un statut dérogatoire pour les établissements culturels, notamment parce qu’elle revient à institutionnaliser les pratiques de Copyfraud sur les reproductions fidèles d’oeuvres du domaine public et à neutraliser les libertés qu’il autorise. C’est la raison pour laquelle nous avions poussé pour que la loi Lemaire consacre la notion de « domaine commun informationnel » afin de sanctuariser les oeuvres du domaine public contre les tentatives de réappropriation. Mais les arbitrages politiques ont joué en notre défaveur, malgré le soutien du Conseil National du Numérique et de plusieurs députés.

Aspiration de données pour Filae.com

C’était donc la soupe à la grimace sur le volet culturel de l’ouverture des données publiques, jusqu’à ce qu’un événement survienne la semaine dernière qui montre que la « ligne Maginot » érigée par la loi Valter comporte visiblement une brèche béante dans laquelle certains ont décidé de s’engouffrer. La société genealogie.com a en effet lancé une nouvelle version de son portail, en le rebaptisant pour l’occasion Filae.com. Or un grand changement a eu lieu au niveau du contenu disponible puisque le site contient à présent la quasi-intégralité de l’état civil français, récupéré sur les sites d’archives départementales, soit plus de 100 millions d’images numérisées.

filae
La page d’accueil du nouveau site Filae.com.

Il faut savoir que cette entreprise est restée pendant longtemps en conflit avec plusieurs départements qui refusaient de lui fournir l’état civil numérisé. L’affaire a même dégénéré en contentieux devant les tribunaux administratifs qui ont rendu plusieurs décisions contradictoires, jusqu’à ce la Cour Administrative d’Appel de Bordeaux vienne trancher en mai 2015 en défaveur de la société. Dans cette décision, qui a fait couler beaucoup d’encre, la Cour a estimé que le département de la Vienne pouvait valablement opposer à la société son droit sui generis de producteur de base de données, ce qui revenait à neutraliser en pratique le droit à la réutilisation des informations publiques.

Mais la situation a changé avec les lois Valter et Lemaire. Tout d’abord, le droit des bases de données ne constitue plus un obstacle, y compris dans le champ des institutions culturelles. La loi République numérique contient en effet un article 11 rédigé comme suit :

Sous réserve de droits de propriété intellectuelle détenus par des tiers, les droits des administrations mentionnées au premier alinéa de l’article L. 300-2 du présent code, au titre des articles L. 342-1 et L. 342-2 du code de la propriété intellectuelle, ne peuvent faire obstacle à la réutilisation du contenu des bases de données que ces administrations publient en application du 3° de l’article L. 312-1-1 du présent code.

Cela signifie que les administrations (sauf lorsqu’elles gèrent des SPIC – services publics à caractère industriel et commercial) ne peuvent plus désormais opposer leur droit de producteur de bases de données aux demandes de réutilisation d’informations publiques, et les institutions culturelles ne bénéficient d’aucun privilège en la matière. C’est ce qui explique que la société ait pu aspirer en masse les données d’état civil pour alimenter son site Filae.com (actes constituant des « extractions substantielles » normalement interdites au titre de la protection des bases de données).

Des règlements de réutilisation devenus caducs

Par ailleurs, la majorité des services d’archives départementales avaient mis en place des tarifs de réutilisation, établis sur le fondement de la loi du 17 juillet 1978 relative à la réutilisation des informations publiques (l’ancienne loi CADA, aujourd’hui transposée dans le Code des Relations entre le public et l’administration). Mais la loi Valter a prévu à son article 10 – II une période transitoire au cours de laquelle les établissements doivent mettre en conformité leurs licences avec les nouvelles dispositions de la loi, notamment en ce qui concerne les modalités de calcul des redevances qui ont été modifiées. Or c’est ici que le texte présente une brèche, car visiblement, les départements n’ont pas respecté ces délais pour mettre à jour leurs règlements, ce qui les a rendus… caducs !

C’est la raison que la société avance pour justifier la manière dont elle a agi et ces arguments sont aussi détaillées par l’avocate Virginie Delannoy dans cet intéressant billet :

L’article 10-II de la loi Valter a fixé aux départements un délai transitoire, expirant le 1er décembre 2016, pour mettre leurs règlements et licences de réutilisation en conformité avec les nouvelles règles cardinales de la gratuité ou de la fixation d’une redevance modérée orientée vers les coûts spécifiques engendrés par la numérisation des données (article 15 de la loi du 17 juillet 1978 modifiée).

On peut donc déduire de tout ce qui précède que les services d’archives départementales se sont retrouvées ces derniers jours dans un véritable état d’apesanteur juridique : plus de droit des bases de données opposable et plus de licence de réutilisation valide. Cela ouvrait la voie à une aspiration systématique des fichiers par Filae.com qui ne s’est pas gêné pour le faire. Je ne sais pas exactement ce qui va se passer à présent : on peut s’attendre à ce que les départements adoptent en catastrophe de nouveaux règlements de réutilisation, mais pourront-ils les faire valoir à l’encontre de l’entreprise pour l’obliger à verser une redevance pour les données qu’elle exploite ? Filae.com met les autorités publiques devant le fait accompli et devient le seul acteur à disposer de la quasi-intégralité de l’état civil en un point centralisé. 

Sur son blog, Filae.com soutient que les Lois Valter et Lemaire ont eu pour effet de faire passer les données d’archives en Open Data :

Ce projet a été rendu possible grâce aux travaux de numérisation des registres originaux principalement réalisés par les départements français. En vertu de la loi Valter « relative à la gratuité et aux modalités de la réutilisation des informations du secteur public » et de la loi Lemaire « pour une République Numérique », ces données officielles numérisées sont, depuis le 1er décembre 2016, librement réutilisables en Opendata par tout un chacun : citoyen, startup, associations…

En réalité, c’est faux. La combinaison des lois Valter et Lemaire fait que l’on est certain à présent que les services d’archives ne peuvent plus refuser des demandes de réutilisation commerciale de leurs données, mais ils peuvent encore fixer des redevances et il restera à présent à déterminer si les départements vont pouvoir opposer à la société leurs nouveaux règlements après régularisation. Il n’est d’ailleurs pas impossible que l’affaire suscite de nouveaux contentieux devant la justice administrative et bien malin qui pourra en déterminer l’issue… 

Quelles conséquences au-delà des archives ?

Mais prenons un peu de recul par rapport à cette affaire Filae.com et examinons les conséquences plus larges que pourrait avoir la révélation de cette « brèche » dans la loi Valter. D’autres institutions culturelles vont être (et même sont déjà) affectées par le même problème, bien au-delà des services d’archives. Un certain nombre d’établissements ont en effet établi les conditions d’utilisation de leurs sites sur la loi du 17 juillet 1978. C’est le cas par exemple de Gallica à la Bibliothèque nationale de France :

1/ Les contenus accessibles sur le site Gallica sont pour la plupart des reproductions numériques d’oeuvres tombées dans le domaine public provenant des collections de la BnF.
Leur réutilisation s’inscrit dans le cadre de la loi n°78-753 du 17 juillet 1978 :
– La réutilisation non commerciale de ces contenus est libre et gratuite dans le respect de la législation en vigueur et notamment du maintien de la mention de source.
– La réutilisation commerciale de ces contenus est payante et fait l’objet d’une licence. Est entendue par réutilisation commerciale la revente de contenus sous forme de produits élaborés ou de fourniture de service. Cliquer ici pour accéder aux tarifs et à la licence

[…]

3/ Gallica constitue une base de données, dont la BnF est producteur, protégée au sens des articles L341-1 et suivants du code de la propriété intellectuelle.

[…]

5/ L’utilisateur s’engage à respecter les présentes conditions d’utilisation ainsi que la législation en vigueur. En cas de non respect de ces dispositions, il est notamment passible d’une amende prévue par la loi du 17 juillet 1978.

A l’image de ce qui s’est passé pour les services d’archives départementales, ces CGU ont perdu toute valeur, car le droit des bases de données est devenu inopposable et les licences établies sur le fondement de la loi du 17 juillet 1978 doivent être révisées. Il en résulte que, dans l’intervalle, les contenus de Gallica peuvent être librement employés à toutes fins. Il est donc possible de les réutiliser dans un cadre commercial, mais aussi de les rediffuser sur des sites comme Wikimedia Commons ou Internet Archive, ce qui n’était pas possible jusqu’à présent, en vertu des restrictions imposées à l’usage commercial (non que ces sites fassent eux-mêmes un usage commercial des contenus, mais ils permettent aux tiers d’en effectuer).

De l’urgence à repenser la politique de diffusion des données culturelles

Un nombre important de bibliothèques, archives et musées s’appuient aussi sur la loi du 17 juillet 1978 dans leurs CGU et à défaut d’être en Open Data, leurs sites sont donc passés jusqu’à nouvel ordre en mode Open Bar !  L’incident Filae.com pourrait donc avoir des incidences beaucoup plus fortes sur le secteur et c’est toute la stratégie de « Ligne Maginot » des institutions culturelles françaises qui va peut-être brusquement s’écrouler… Cela fait pourtant à présent des années que des groupes comme SavoirsCom1 disent que ces politiques sont ineptes et plaident pour une autre approche du rapport aux usages commerciaux et aux plateformes de libre diffusion comme Wikimedia Commons et Internet Archive.

Comme j’ai déjà eu l’occasion de le dire à plusieurs reprises, je n’ai aucune sympathie particulière pour des initiatives privées comme Filae.com, qui par leur caractère centralisateur peuvent être génératrices de nouvelles enclosures sur le bien commun que constituent des ressources comme l’Etat civil numérisé. Mais c’est la raison pour laquelle nous étions plusieurs à plaider pour que ces données passent sous un régime de partage à l’identique, n’empêchant pas les réutilisations commerciales, mais imposant aux acteurs privés la libre rediffusion des données. Cette solution, qui a été retenue par certaines institutions minoritaires comme les archives municipales de Toulouse, se serait avérée bien plus protectrice au final que les licences payantes de réutilisation, réduites à présent à l’état de « tigres de papier »…

Au final, cet épisode tragi-comique est révélateur de l’errance des politiques culturelles en matière de réutilisation des données. On  notera par exemple que le 5 décembre dernier le Ministère de la Culture a ouvert un nouveau portail Open Data sur lequel il diffuse une (petite) trentaine de jeux de données. Les pages de présentation du projet nous disent que « Le Ministère de la culture et de la communication est pleinement engagé dans la politique en faveur de l’ouverture et du partage des données publiques, ainsi que dans le développement d’une économie numérique culturelle. » Mais la réalité est hélas différente : le Ministère de la Culture a en effet effectué un travail de lobbying forcené au moment de l’adoption de la loi Valter pour que les établissements culturels conservent le privilège d’échapper à l’Open Data par défaut. Et son portail n’est qu’un arbre masquant la forêt, car les données les plus importantes en matière culturelle ne sont pas au niveau du Ministère, mais chez les opérateurs que sont les services de musées, d’archives et de bibliothèques (au niveau national et au niveau des collectivités locales).

***

Il est piquant de remarquer  que la même semaine où ouvrait cette belle façade d’Open Data ministériel se lançait le site Filae.com alimenté par une opération cavalière d’aspiration massive des données des services d’archives départementales, qui se croyaient pourtant à l’abri derrière leurs licences payantes. C’est un bon résumé de la situation schizophrénique dans laquelle se trouve l’Open Data culturel dans notre pays et on espère que ce fail retentissant révélé par l’affaire Filae.com sera l’occasion de résorber enfin ces contradictions dans le sens de l’ouverture.

Quel statut pour les données de la recherche après la loi numérique ?

Ce billet est le troisième d’une série que j’ai entamée au début de la semaine pour cerner les répercussions de la loi « République numérique » sur le secteur de l’Enseignement supérieur et de la Recherche. Après avoir commencé lundi à passer en revue le volet Open Access de la loi, je me suis penché sur la question de l’ouverture des données publiques et sur la manière dont les universités ont été intégrées dans le principe « d’Open Data par défaut » instauré par le texte. Cela concerne au premier chef les données administratives de ces établissements- celles produites par leurs services centraux et communs -, mais je terminais en posant la question de savoir dans quelle mesure les données de la recherche allaient être impactées (ou non) par ces nouvelles obligations de publication en Open Data.

data

C’est ce sujet que je vais traiter dans ce troisième billet, en élargissant la perspective pour essayer de montrer en quoi la loi « République numérique » a commencé à mettre en place un statut juridique spécifique pour les données de la recherche. Vous allez voir que les répercussions potentielles de la loi sont profondes en la matière, même si le texte contient quelques zones d’ombre qui rendent encore assez imprévisibles ses effets à long terme.

Par « données de la recherche » – notion complexe à définir -, je n’entendrai pas les données sur la recherche (qui cherche sur quoi ? avec quels financements ? etc.), qui relèvent des données administratives et donc du nouveau principe d’Open Data par défaut, mais les données résultant directement des activités de recherche, produites par les chercheurs.

L’ébauche d’un statut spécifique pour les données de recherche

Il faut faire une lecture combinée de plusieurs articles de la loi numérique pour apercevoir dans le texte l’ébauche d’un statut juridique des données de recherche. L’article 38 – celui qui consacre une nouvelle exception au droit d’auteur en faveur du Text et Data Mining – contient à ce propos une précision intéressante. Le texte aborde en effet la question de la conservation des fichiers qui sont produits dans le cadre de ce type d’activités de recherche et il prend la peine d’indiquer la chose suivante :

[…] ces fichiers constituent des données de la recherche.

Cette phrase peut paraître à première vue assez anodine, mais elle signifie en réalité que les « données de la recherche » vont à présent constituer une nouvelle catégorie juridique au sens propre du terme, avec des conséquences en terme de régime applicable. C’est un premier indice  qui nous montre que la loi a introduit un « statut » spécifique pour les données de la recherche, même si comme vous allez le voir, il faut produire un effort d’interprétation conséquent pour cerner exactement en quoi il consiste.

Une protection puissante contre la captation par les éditeurs

A l’article 30 de la loi numérique – celui consacré à l’Open Access -, on trouve les premiers éléments de réponse. C’est là que la loi consacre un nouveau « droit d’exploitation secondaire » au profit des chercheurs leur garantissant la possibilité d’auto-archiver leurs écrits, en dépit des clauses des contrats d’exclusivité qu’ils auraient pu signer avec des éditeurs, au terme d’un délai de 6 à 12 mois selon les disciplines.

 Mais le texte contient aussi un passage sur les données de la recherche, qui instaure un mécanisme de protection contre leur captation par les éditeurs scientifiques :

L’éditeur d’un écrit scientifique mentionné au I ne peut limiter la réutilisation des données de la recherche rendues publiques dans le cadre de sa publication.

Les dispositions du présent article sont d’ordre public et toute clause contraire à celles-ci est réputée non écrite.

Ce passage répond à une inquiétude grandissante dans les milieux académiques face aux pratiques des éditeurs vis-à-vis des données de recherche. Ces derniers – et notamment les plus puissants du secteur, type Elsevier ou Springer – ont commencé à inciter ces dernières années les chercheurs à publier non seulement le texte de leurs publications, mais aussi des matériaux complémentaires (complementary material), constitués en général par les jeux de données brutes ayant permis d’élaborer les résultats faisant l’objet de la publication. Grâce à leur position dominante, ces acteurs étaient donc en mesure d’emmagasiner peu à peu de grands volumes de données de recherche, soumises aux mêmes clauses d’exclusivité que les articles. Dès lors, le même phénomène de privatisation qui a frappé les écrits scientifiques était en train de se reproduire pour les données de recherche, avec à terme le risque pour les universités d’avoir à racheter aux éditeurs l’accès aux données que la communauté des chercheurs avaient produites.

Pour parer à ce danger, la loi numérique a prévu un mécanisme de protection assez similaire à celui du droit d’exploitation secondaire sur les écrits, même si on va voir qu’il est en réalité plus puissant dans ses effets. Le principe sera dorénavant que l’éditeur ne pourra plus « limiter la réutilisation des données de la recherche rendue publiques [accompagnant un écrit] dans le cadre de sa publication« . Cela signifie que, quand bien même des contrats contenant des clauses d’exclusivité seraient signés par les chercheurs, celles-ci seraient privées par la loi de toute validité. Plus encore, si l’éditeur rassemble ces informations fournies par les chercheurs dans une base de données, les Conditions Générales d’Utilisation (CGU) – qui ont une valeur contractuelle – ne pourront pas non plus empêcher la réutilisation des données de recherche. Elles doivent pouvoir en être librement extraites pour réutilisation. Sur ce dernier point, il faudra cependant attendre pour y voir plus clair les dispositions du décret d’application de l’article 38 de la loi sur le Text et Data Mining, qui doit déterminer les « conditions dans lesquelles l’exploration des textes et des données est mise en œuvre« .

On a donc ici un puissant mécanisme contre la captation à titre exclusif des données de la recherche par les éditeurs scientifiques, et on notera que par rapport au droit d’exploitation secondaire sur les écrits, ce dispositif de neutralisation des clauses contractuelles possède un effet immédiat. Il n’y a pas de durée d’embargo destinée à garantir une période d’exploitation commerciale exclusive pour l’éditeur. Les donnés de recherche sont en quelque sorte « immunisées » dès leur publication à toute tentative d’enclosure (pour employer un terme tiré de la théorie des Communs).

Puissante dans ses effets, cette disposition est cependant limitée dans son périmètre d’application. Notamment, elle n’est opposable qu’aux « éditeurs » d’un écrit scientifique auquel des données sont associées. Or on aurait aimé qu’elle puisse l’être également à des acteurs comme les réseaux sociaux numériques, type Academia ou Research Gate qui, déjà avides des données personnelles des chercheurs, pourraient très bien à terme aussi développer un appétit pour les données de la recherche. Et on sait aussi que certaines plateformes de diffusion des données de recherche sont contrôlées en réalité par des éditeurs (comme Figshare par exemple, qui est la propriété de Macmillian Publishers). Il aurait donc mieux valu que la protection conférée par l’article 30 soit formulée de manière plus générale pour être opposable à n’importe quel type d’acteurs, et pas uniquement aux éditeurs.

Mais moyennant ces réserves, on peut considérer que la loi numérique a posé des garde-fous précieux contre ce qui pourrait constituer dans les années à venir un grave problème pour l’écosystème de la recherche. Les éditeurs pourront tout à fait continuer à développer des activités autour des données de la recherche, mais ils devront fonder leurs modèles économiques sur de véritables services à valeur ajoutée. Ils ne pourront pas se contenter d’utiliser leur position dominante pour en revendre l’accès (à condition toutefois que se développe en parallèle une véritable politique publique d’infrastructures pour l’archivage et la diffusion des données scientifiques pour empêcher la constitution d’un monopole de fait. Mais c’est justement ce que la loi rend possible, en interdisant aux éditeurs de s’approprier en amont les données à titre exclusif).

Des données de recherche « libres » dès la publication

Pour revenir à l’article 30, on va voir à présent qu’il va créer une « condition juridique »originale pour les données de recherche et très différente de celle des articles scientifiques.

On sait en effet que les chercheurs constituent des agents publics qui ont la particularité de conserver pleinement leur droit d’auteur sur les œuvres qu’ils produisent dans le cadre de leurs fonctions (contrairement aux autres agents publics, dont les droits patrimoniaux sont exercés par leurs tutelles et dont le droit moral est réduit au droit à la paternité).

Une des conséquences secondaires de cette titularité individuelle des droits pour les chercheurs sur leurs écrits est que ceux-ci ne deviennent pas automatiquement réutilisables lorsqu’ils choisissent de les publier en ligne dans des archives ouvertes ou sur un site personnel. Le droit d’auteur qui s’applique à eux est pleinement maintenu lors de la diffusion sur Internet. C’est le cas par exemple pour un article déposé par un chercheur sur HAL ou dans une archive ouverte institutionnelle : par défaut, si le chercheur ne fait rien d’autre que le déposer, l’article sera librement accessible, mais pas librement réutilisable. Il ne le deviendra que si le chercheur choisit d’opter par un acte positif pour une licence Creative Commons (ce que la plate-forme HAL permet depuis le passage à la v3).

Cet état de fait justifie aux yeux de certains que l’on fasse une distinction entre « l’Accès ouvert »  et « l’Accès libre », les deux expressions renvoyant à deux réalités différentes. C’est notamment une précision que rappelle régulièrement Marin Dacos (et encore récemment dans la préface de la traduction d’un ouvrage de Peter Suber, dont voici un extrait)  :

Le terme open signifie « ouvert », et non « libre ». Il implique donc que le texte d’un article en open access est ouvert en lecture, sans barrière juridique, technique ou commerciale. Mais il ne dit rien des possibilités de réutilisation du document. Par conséquent, stricto sensu, l’open access lève les barrières à l’accès et maintient toutes les protections du droit d’auteur sur les textes, ce qui signifie qu’ils ne peuvent être reproduits ou modifiés qu’après une autorisation explicite, dans le cadre d’un contrat de cession de droit.

Or c’est précisément une distinction qui n’aura à présent plus de sens à propos des données de la recherche : des données publiées par un chercheur ou un établissement deviendront instantanément réutilisables librement, si bien que l’accès ouvert sera aussi synonyme d’accès libre.

C’est ce qui ressort notamment de ce passage de l’article 30 de la loi :

Dès lors que les données issues d’une activité de recherche financée au moins pour moitié par des dotations de l’Etat, des collectivités territoriales, des établissements publics, des subventions d’agences de financement nationales ou par des fonds de l’Union européenne ne sont pas protégées par un droit spécifique ou une réglementation particulière et qu’elles ont été rendues publiques par le chercheur, l’établissement ou l’organisme de recherche, leur réutilisation est libre.

« Leur réutilisation est libre ». La formule peut paraître lapidaire, mais elle n’en a pas moins d’importantes conséquences sur le plan juridique. Ces termes doivent être pris au sens de la lettre : la réutilisation est complètement libre, à toutes fins (y compris commerciales) et sans condition (pas même celle de citer la source). 

On peut en déduire (et c’est assez révolutionnaire) que la loi numérique va rendre inutile le recours aux licences libres pour la diffusion des données de la recherche. On sait que pour encadrer l’ouverture des données publiques en France, l’Etat a créé la Licence ouverte / Open Licence (qui permet la réutilisation des informations  à toutes fins, à condition d’en citer la source). D’autres licences, comme l’ODbL ou les licences Creative Commons, sont également utilisables en matière d’ouverture de bases de données. Or pour les données de recherche, de tels instruments sont à présent inutiles, car c’est la loi directement qui instaure à leur sujet un droit de libre réutilisation dès lors qu’elles sont publiées. 

On peut même aller plus loin en disant qu’il ne faut pas utiliser ces outils pour diffuser des données de recherche, car ces différentes licences comportent des conditions de réutilisation plus restrictives que le droit de libre réutilisation totale prévu par la loi. Or ces clauses (BY/NC/ND/SA) n’auront plus d’effet utile en raison du caractère d’ordre public des dispositions de l’article 30. La seule licence dorénavant compatible avec le régime légal des données de recherche est la CC0 

En cela, ce texte innove réellement, car c’est à ma connaissance un des seuls cas où la loi française va créer du « libre à l’état natif », sans avoir besoin de recourir à des licences pour opérer cette libération. Les dispositions de la loi se déclenchent automatiquement par l’acte de publication (et vous noterez d’ailleurs que le texte ne parle pas de publication « en ligne », mais simplement de publication, ce qui couvre des hypothèses plus larges, comme la diffusion via une base de données commerciale).

Quelles limites à la libre réutilisation ?

Néanmoins, il faut immédiatement préciser que l’article 30 a prévu de limiter son périmètre d’application, en excluant certains types de données de cet effet de « libération immédiate ». Il indique en effet que la réutilisation est libre , sauf si les données « sont protégées par un droit spécifique ou une réglementation particulière« .

Cette précision peut paraître à première vue assez sibylline, mais elle est en réalité parfaitement logique. On peut en effet penser à des données correspondant à des informations à caractère personnel, qui sont protégées par une « réglementation particulière ». Si c’est le cas, alors bien évidement, leur réutilisation ne sera pas libre, mais soumise à ce que prévoit la législation en la matière.

On peut aussi penser également au droit à l’image des personnes, qui constitue un « droit spécifique ». Celui-ci ne cédera pas du fait que des matériaux serait utilisés à des fins de recherche. Il est donc normal que le législateur ait prévu ces restrictions à la libre réutilisation des données de recherche, qui permettent de concilier des principes d’égale valeur.

Quid de l’articulation avec les droits de propriété intellectuelle ?

Mais la question devient plus épineuse si l’on entend par « droits spécifiques » des droits de propriété intellectuelle. Cela entre d’ailleurs manifestement dans l’intention du législateur, puisque ces droits sont visés dans l’exposé des motifs de la loi :

Le II spécifie que la réutilisation de données issues d’activité de recherche financées majoritairement sur des fonds publics est libre, dès lors que ces données ne sont pas protégées par un droit spécifique, comme par exemple un droit de propriété intellectuelle, et qu’elles ont été rendues publiques par le chercheur ou l’organisme de recherche.

Si par droit de propriété intellectuelle, on entend le droit d’auteur, alors les choses sont somme toute logiques encore, notamment afin de préserver les droits des tiers. Imaginons qu’un corpus de recherche contienne des documents protégés par des droits d’auteur (par exemple, un ensemble de textes littéraires). Si ce corpus est publié, alors bien entendu, il ne peut devenir ipso facto librement réutilisable. Pour être plus exact, il sera réutilisable dans une certaine mesure, sur le fondement de l’exception  Text et Data Mining prévue à l’article 38 de la loi, mais pas sur celui du droit de libre réutilisation des données de la recherche figurant à l’article 30.

Le vrai problème que pose l’articulation de cet article 30 avec les droits de propriété intellectuelle se situe en fait au niveau du droit des bases de données. Imaginons qu’un chercheur ou un établissement publie un jeu de données sur lequel porte un droit sui generis de producteur de base de données. On a alors bien affaire à un objet protégé par un « droit spécifique » et dans ce cas, ce jeu ne devrait pas devenir « librement réutilisable », si l’on s’en tient à la seule lecture de l’article 30.

Si l’on admet une telle interprétation,  la portée de ce droit de libre réutilisation des données de la recherche serait en réalité bien limitée, car dès lors que des jeux de données sont un peu conséquents, la protection du droit des bases de données leur sera sans doute applicable. Par ailleurs, l’application de l’article deviendrait aussi très incertaine, car le droit de producteur des bases de données est souvent aléatoire dans sa mise en œuvre. La jurisprudence est en effet  fluctuante sur la question et il n’est pas simple a priori de déterminer si telle ou telle base bénéficie ou non de la protection.

Mais vous allez voir l’obstacle à la libre réutilisation que pourrait constituer le droit des bases de données n’est en réalité pas insurmontable.

Qui est réellement titulaire des droits sur les données de recherche ?

Pour démêler cette question, il faut se demander à qui appartient réellement la propriété sur les données de recherche. Et le raisonnement à suivre pour répondre est là encore complètement différent de celui applicable aux articles.

En effet, pour les écrits scientifiques, les chercheurs sont incontestablement titulaires du droit d’auteur. Ce qui signifie que même si un chercheur produit des écrits sur son temps de travail et avec les moyens fournis par une université, il reste entièrement maître du droit sur ses créations, et c’est lui qui décide où et comment publier ses écrits.

Or pour les bases de données, les choses sont différentes. Même si ce sont les chercheurs qui produisent les données figurant dans ces bases, la titularité des droits peut – et même va dans la plupart des cas – leur échapper. En effet, le Code de propriété intellectuelle prévoit que la notion de producteur d’une base de données ne s’entend pas des personnes physiques qui collectent et traitent les informations, mais de la personne – physique ou morale – qui « prend l’initiative et le risque des investissements correspondants » et en retour « bénéficie d’une protection du contenu de la base lorsque la constitution, la vérification ou la présentation de celui-ci atteste d’un investissement financier, matériel ou humain substantiel« .

C’est donc vers le financeur et le fournisseur de moyens qu’il faut se tourner pour déterminer qui est titulaire des droits sur une base de données de la recherche. Dans la plupart des cas, ce seront donc les établissements auxquels les chercheurs sont rattachés qui bénéficieront de ces droits et non les chercheurs. Contrairement à ce qui prévaut pour les articles et autre écrits scientifiques, les bases de données appartiennent donc en principe aux institutions de recherche.

Sans doute faut-il nuancer quelque peu cette affirmation. Imaginons un chercheur qui publie un article dans une revue et qui lui adjoint un tableau de données brutes lui ayant servi à arriver aux résultats faisant l’objet de la publication. Dans ce cas, il est possible que le chercheur soit la personne qui a réalisé les « investissements » nécessaires –  sur ses propres forces – pour produire ces données. Mais quand bien même, il est fort improbable que de tels investissements individuels soient considérés comme « substantiels » au sens de la jurisprudence et ce tableau ne constituera vraisemblablement pas une base de données protégée. Donc il y a peu de chances qu’un chercheur isolé puisse être considéré comme un « producteur de base de données », au sens juridique du terme.

Imaginons à présent une base de données produite collaborativement et maintenue par les chercheurs d’un laboratoire ou une base de données développée spécifiquement dans le cadre d’un projet de recherche majoritairement financé par de l’argent public. Alors c’est l’employeur des chercheurs qui sera vraisemblablement titulaire des droits de producteur de base de données, car c’est lui qui assure les investissements nécessaires à la production de la base.

Or si c’est l’université qui est titulaire ab initio des droits sur une base de données scientifiques, cela aura d’importantes  conséquences du point de vue de la loi numérique. Pour le comprendre, il faut vous reporter au billet précédent que j’ai écrit sur l’Open Data et les universités, car vous allez voir que cette question rejoint en définitive celle des données de la recherche.

Le droit des bases de données des universités est neutralisé par défaut

En effet, l’article 11 de la loi numérique contient une disposition qui neutralise le droit des bases de données dont pourrait bénéficier les administrations soumises au principe d’Open Data par défaut (ce qui est le cas des universités) :

Sous réserve de droits de propriété intellectuelle détenus par des tiers, les droits des administrations mentionnées au premier alinéa de l’article L. 300-2 du présent code, au titre des articles L. 342-1 et L. 342-2 du code de la propriété intellectuelle, ne peuvent faire obstacle à la réutilisation du contenu des bases de données que ces administrations publient en application du 3° de l’article L. 312-1-1 du présent code.

Donc on peut en déduire que si une université est titulaire d’un droit de producteur de base de données scientifiques, alors elle ne peut opposer ce droit à la réutilisation des informations qu’elle contient. Cela revient dès lors à dire que la réutilisation de ces données de recherche, nonobstant le droit de producteur de base de données, est bien « libre ».

Et nous rebouclons ici avec l’article 30 et son droit de libre réutilisation des données de recherche. De tout ce qui précède, nous pouvons conclure que l’article 30 nous dit bien que le droit de libre réutilisation des données de recherche ne vaut pas lorsque celles-ci sont protégées par un « droit spécifique », mais comme je viens de le montrer, cela ne peut concerner le droit de producteur de base de données qui, de toutes façons, est neutralisé en vertu de l’article 11 et ne peut être opposé à la libre réutilisation.

La conclusion est donc la suivante : des données de la recherche publiées par un chercheur ou un établissement seront donc bien librement réutilisables, sous réserve de respecter la législation sur les données personnelles ou le droit à l’image, ainsi que le droit d’auteur des tiers.

Reste alors une ultime question à considérer, car en définitive le seul moyen pour des chercheurs ou une institution d’empêcher la libre réutilisation de leurs données pourrait consister tout simplement à ne pas les publier. Mais vous allez voir qu’en réalité, ce choix-là n’existe pas non plus en vertu des dispositions combinées de la loi.

L’Open Data par défaut est applicable aux données de la recherche

Pour le comprendre, il faut revenir au principe d’Open Data par défaut que j’ai décrit dans le billet précédent. La loi numérique soumet dorénavant les administrations à l’obligation de publier de manière proactive et de rendre librement réutilisables un ensemble conséquent de documents et de données. C’est l’article 6 de la loi qui liste les informations concernées :

Sous réserve des articles L. 311-5 et L. 311-6 et lorsque ces documents sont disponibles sous forme électronique, les administrations mentionnées au premier alinéa de l’article L. 300-2, à l’exception des personnes morales dont le nombre d’agents ou de salariés est inférieur à un seuil fixé par décret, publient en ligne les documents administratifs suivants :
« 1° Les documents qu’elles communiquent en application des procédures prévues au présent titre, ainsi que leurs versions mises à jour ;
« 2° Les documents qui figurent dans le répertoire mentionné au premier alinéa de l’article L. 322-6 ;
« 3° Les bases de données, mises à jour de façon régulière, qu’elles produisent ou qu’elles reçoivent et qui ne font pas l’objet d’une diffusion publique par ailleurs ;
« 4° Les données, mises à jour de façon régulière, dont la publication présente un intérêt économique, social, sanitaire ou environnemental.

Comme vous le voyez, la loi impose la publication en ligne des « bases de données ». Cela signifie que si l’université est titulaire du droit de producteur de bases de données scientifiques développées en son sein (et nous avons vu dans la partie précédente que ce sera généralement le cas), alors elle devra les mettre en ligne en Open Data (à la seule réserve de la protection des données personnelles).

L’article précise aussi que les données présentant un intérêt « économique, sociétal, sanitaire ou environnemental » entrent dans le principe d’Open Data par défaut. Cela laisse une large marge d’interprétation  pour déterminer ce qui rentre dans ce périmètre. Mais une recherche serait bien insignifiante si les données qu’elle produit ne comportant pas a minima un intérêt « sociétal » et dans certains secteurs, ces informations revêtiront aussi un intérêt économique, environnemental ou sanitaire.

La conclusion de tout ceci – et je pense que les autorités de la recherche sont très loin de l’avoir suffisamment perçu -, c’est que la loi numérique va avoir des effets de levier très puissants sur la diffusion des données de la recherche en France. Là où les chercheurs ont gardé la faculté de décider s’ils publient ou non leur écrits en Open Access, ils l’ont manifestement perdue pour les données la recherche. Les universités dont ils dépendent ont à présent l’obligation de publier en ligne les données de la recherche produites en leur sein, et une fois publiées, ces données deviennent ipso facto librement réutilisables (sous la réserve – importante – de la protection des données personnelles et du respect des autres droits éventuels des tiers).

Dans l’hypothèse où les universités (ou les chercheurs) opposeraient une certaine inertie et ne respecteraient pas ces obligations de publication en Open Data, la loi n’a pas directement prévu de sanctions, mais il existera un mécanisme correctif assez facilement actionnable.

Le texte a en effet instauré un dispositif d’Open Data « à la demande » connecté au droit à la communication des documents administratifs. Si un individu, une association (ou même une entreprise) savent qu’un jeu de données de recherche existe, mais n’a pas encore fait l’objet d’une publication en Open Data, ils peuvent faire une demande de communication sur la base de la loi CADA. Si cette demande est fondée, l’université devra communiquer le document, mais aussi (s’il existe sous forme numérique), le mettre en ligne  et rendre librement réutilisables les informations qu’il contient dans un format ouvert lisible par les machines.

Au cas où les établissements de recherche n’agiraient pas d’eux-mêmes pour se conformer aux obligations de la loi, il existera donc un moyen de faire bouger les lignes par le biais de demandes de communication.

Conclusion : Données de la recherche et Communs de la connaissance

Pour conclure, je voudrais revenir sur la généalogie de la phrase « leur réutilisation est libre » figurant à l’article 30 de la loi numérique, qui joue un rôle central dans ce nouveau statut des données de la recherche créé par le texte.

A l’origine, le gouvernement avait l’ambition  d’introduire en droit français la notion de « domaine commun informationnel », en rattachant un certain  nombre d’informations et de données à la notion de « choses communes » issue de l’article 714 du Code civil :

Il est des choses qui n’appartiennent à personne et dont l’usage est commun à tous.

Il se trouve que les aléas politiques – et une bonne dose de lâcheté gouvernementale – ont entraîné l’abandon de l’article 8 de la loi qui manifestait cette ambition. Mais après la phase de consultation en ligne, le texte a été réécrit et ce sont les données de la recherche que le gouvernement a voulu qualifier de « choses communes » :

Les données de la recherche rendues publiques légalement issues d’une activité de recherche financée au moins pour moitié par des fonds publics et qui ne sont pas protégées par un droit spécifique sont des choses communes, au sens de l’article 714 du code civil.

Le Conseil d’Etat s’est alors prononcé sur cette version et il a émis un avis défavorable à propos de cette rédaction (au motif qu’aucune étude d’impact n’avait été réalisée sur ce point précis…).

L’argument était bien faible, mais il a suffi à ce que le texte du projet de la loi soit encore été remanié, avant l’introduction au Parlement, et c’est là qu’est apparue la rédaction qui y figure encore : « leur réutilisation est libre« .

Le rattachement explicite des données de la recherche aux choses communes a donc été gommé au fil des versions successives, mais si l’on y réfléchit bien, le résultat final est exactement le même du point de vue des conséquences juridiques que cela emporte.

Car en effet, on peut tout à fait dire à présent que les données de la recherche « n’appartiennent à personne » : elles n’appartiennent pas aux chercheurs, car ce sont les universités qui détiennent généralement le droit de producteur de base de données sur elles. Mais celui-ci est neutralisé par l’article 11 de la loi, qui impose par ailleurs la mise en ligne proactive. Donc concrètement, les données ne sont soumises à aucun droit de propriété efficace.

Et j’ai montré que l’article 30 avait pour conséquence qu’une fois les données de la recherche publiées, leur usage devient pleinement libre et donc « commun à tous » (sous réserve de la préoccupation légitime de protéger les données personnelles et les droits des tiers).

Par ailleurs, ces données sont non seulement rendues librement réutilisables par l’effet de la loi, mais aussi protégées contre les phénomènes d’enclosure, comme je l’ai montré dans la première partie du billet à propos des mécanismes de défense vis-à-vis de la captation par les éditeurs. La liberté d’usage donnée par la loi ne peut être reprise par quiconque.

Donc la conclusion à laquelle nous devons aboutir, c’est que la loi numérique a bien créé un statut juridique remarquable pour les données de la recherche : elle en a fait des Communs de la connaissance.

 

Open Access : quelles incidences de la loi « République numérique » ?

La semaine dernière, on célébrait l’Open Access Week et j’ai eu l’occasion de donner plusieurs interventions à propos des incidences de la loi « République numérique » sur le Libre Accès aux publications scientifiques. On sait en effet que la Loi Lemaire, qui est entrée en vigueur le 8 octobre dernier, a consacré un nouveau « droit d’exploitation secondaire » au profit des chercheurs, afin de faciliter notamment le dépôt en archives ouvertes de leurs publications. Mais l’article (30) qui contient ces nouvelles dispositions n’est pas de lecture facile et il contient même plusieurs points assez délicats à interpréter. J’ai reçu ces dernières semaines de nombreuses questions de collègues qui cherchaient à avoir des précisions ou à lever des ambiguïtés, et j’ai profité des interventions à l’Open Access Week pour essayer d’apporter quelques clarifications.

open-access

De manière à ce que cela puisse profiter au plus grand nombre, je publie mon support d’intervention ci-dessous. Par ailleurs, je vais détailler certains des points abordés à travers une FAQ, de manière à mieux faire le tour de la question de manière aussi complète que possible. Si jamais vous avez besoin d’un éclaircissement complémentaire ou si une question ne vous paraît pas traitée, n’hésitez pas à le faire savoir dans les commentaires et j’en profiterai pour compléter ce billet.

Je vais suivre un canevas simple (Qui ? Quoi ? Quand ? Où ?) dans cette FAQ pour aborder les différentes dimensions du nouveau « droit d’exploitation secondaire » consacré par la loi République numérique : Qui peut déposer ? Quels types de publication sont couvertes par le texte ? Quand le dépôt est-il possible ? Où peut-on déposer ?

Lire la suite