Les universités françaises et l’Open Data après la loi numérique

Ce billet est le second d’une série de trois que je vais publier sur ce blog cette semaine pour examiner les répercussions de la loi « République numérique » sur le secteur de l’enseignement supérieur et de la recherche. Après un premier billet publié lundi à propos de l’impact de la loi en matière d’Open Access, je vais à présent me pencher sur le volet « Open Data » et la façon dont il va affecter les universités. Ce n’est pas l’aspect qui a été le plus commenté jusqu’à présent, mais vous allez voir que les changements à attendre pour ces établissements sont substantiels par rapport à la situation antérieure.

opendata
Image par Auregann. CC-BY-SA. Source : Wikimedia Commons.

Pour saisir complètement la portée de cette réforme, il faut prendre en considération, outre la loi « République numérique », la loi du 28 décembre 2015 relative à la gratuité et aux modalités de la réutilisation des informations du secteur public (dite aussi « loi Valter »), ainsi que son décret d’application paru en juillet dernier.

Je colle ci-dessous une présentation qui résume les grandes lignes de la question que je vais développer dans le billet par la suite.

Fin du régime dérogatoire des établissements d’enseignement supérieur et de recherche

Pour comprendre ce qui va changer pour les universités en matière d’ouverture des informations publiques qu’elles produisent, il faut remonter un peu en arrière et rappeler le cadre juridique qui leur était applicable avant l’entrée en vigueur de la loi numérique.

En 2005, la loi CADA (relative à l’accès aux documents administratifs) a été modifiée de manière à consacrer un principe de libre réutilisation des informations publiques des administrations. Néanmoins, la portée de cette règle était assez limitée, car si les administrations ne pouvaient en théorie refuser de faire droit à une demande de réutilisation de leurs données, elles n’étaient pas obligées de les mettre en ligne de manière pro-active et elles avaient aussi la possibilité de rendre la réutilisation payante par le biais de redevances.

A partir de 2011, un mouvement en faveur de l’Open Data a commencé à se dessiner en France, au niveau des administrations centrales, qui ont été obligées par le biais de décrets de mettre en ligne sur la plateforme data.gouv.fr un nombre croissant de jeux de données en les plaçant sous la Licence Ouverte / Open Licence (laquelle autorise la libre réutilisation y compris à des fins commerciales, à la condition de citer la source des données). Les ministères ont été les premières entités concernées par cette nouvelle politique et celui de l’Enseignement Supérieur et de la Recherche a publié à ce jour 55 jeux de données en Open Data.

Cependant les universités et les établissements de recherche sont restés de leur côté en dehors de ce mouvement d’Open Data, dans la mesure où ces administrations bénéficiaient d’un régime dérogatoire dans la loi CADA. Le texte comportait en effet un article 11 contenant les dispositions suivantes :

Par dérogation au présent chapitre, les conditions dans lesquelles les informations peuvent être utilisées sont fixées, le cas échéant, par les administrations […] lorsqu’elles figurent dans des documents produits ou reçus par :

a) des établissements et institutions d’enseignement et de recherche ;

b) des établissements, organismes ou services culturels.

Cet article signifiait que les établissements bénéficiaires (universités et institutions de recherche, mais aussi côté culture, bibliothèques, archives et musées) restaient libre de déterminer les conditions de réutilisation des informations qu’ils produisaient, et donc (pour simplifier) de ne pas autoriser les réutilisations. Cette forme de « privilège » a fait que ces administrations n’ont pas été concernées par les décrets de 2011 ayant initié la politique d’Open Data en France. Pour être exact, il ne leur était pas interdit d’ouvrir leurs données dans le cadre d’une politique d’Open Data, mais elles n’y étaient pas obligées et elles gardaient entièrement la faculté de déterminer quels jeux elles souhaitaient rendre librement réutilisables.

C’est précisément sur ce point que la loi « République numérique » va avoir un fort impact sur les universités, dans la mesure où le régime dérogatoire dont bénéficiaient les établissements d’enseignement supérieur et de recherche est supprimé. Ces derniers seront à présent intégrés au principe « d’Open Data par défaut » instauré par ce texte et qui en constitue une des principales innovations.

Les universités dorénavant incluses dans le principe « d’Open Data par défaut »

Pour comprendre en quoi consiste ce principe d’Open Data par défaut, il faut se reporter à l’article 6 de la loi « République numérique » :

Sous réserve des articles L. 311-5 et L. 311-6 et lorsque ces documents sont disponibles sous forme électronique, les administrations mentionnées au premier alinéa de l’article L. 300-2, à l’exception des personnes morales dont le nombre d’agents ou de salariés est inférieur à un seuil fixé par décret, publient en ligne les documents administratifs suivants :
« 1° Les documents qu’elles communiquent en application des procédures prévues au présent titre, ainsi que leurs versions mises à jour ;
« 2° Les documents qui figurent dans le répertoire mentionné au premier alinéa de l’article L. 322-6 ;
« 3° Les bases de données, mises à jour de façon régulière, qu’elles produisent ou qu’elles reçoivent et qui ne font pas l’objet d’une diffusion publique par ailleurs ;
« 4° Les données, mises à jour de façon régulière, dont la publication présente un intérêt économique, social, sanitaire ou environnemental.

Contrairement à la situation antérieure, les administrations (sauf quelques exceptions maintenues notamment par la loi Valter) sont désormais obligées de publier en ligne et de rendre réutilisables un large ensemble de jeux de données, dont l’article 6 définit plusieurs catégories. Et la nouveauté, c’est que les universités ne bénéficient plus à présent d’un régime dérogatoire qui leur permettraient de se soustraire à cette obligation d’ouverture des informations publiques. Celui a été en effet explicitement supprimé par la loi Valter en octobre 2015.

Parmi la liste figurant à l’article 6, on trouve notamment les « bases de données, mises à jour de façon régulière, qu’elles produisent ou qu’elles reçoivent […] ». Cela concerne notamment les bases de données composant le système d’information de l’administration centrale des universités, qui leur servent à gérer des aspects comme le budget, le personnel, leurs bâtiments et les flux associés, les formations dispensées ou les activités de recherche des laboratoires rattachés à l’établissement.

Le texte impose aussi (alinéa 2) la mise en ligne des documents listés dans un Répertoire des Informations Publiques (RIP), qu’en vertu de l’ancien article 17 de la loi CADA, toutes les administrations sont tenues de mettre en place. Le RIP consiste en un registre mis à disposition des usagers dans lequel figure la liste des « principaux documents » comportant les informations produites par l’établissement. A ma connaissance, aucune université française n’a encore rempli cette obligation légale de mise en place d’un RIP (ce qui pourrait leur être reproché), mais avec la loi numérique, elles seront aussi tenues de rendre réutilisables les documents qu’elles y feront figurer.

La loi numérique est plus floue lorsqu’elle évoque l’obligation de mise en ligne des « données, mises à jour de façon régulière, dont la publication présente un intérêt économique, social, sanitaire ou environnemental« . Les universités garderont ici une marge de manoeuvre pour déterminer quelles informations parmi celles qu’elles produisent présentent un tel intérêt. Mais elles ne pourront cependant pas faire l’économie d’une démarche d’inventaire des jeux qu’elles détiennent et d’une sélection en vue d’une diffusion ouverte. L’idéal serait d’ailleurs que les universités se concertent entre elles pour libérer des jeux similaires.

A noter d’ailleurs qu’un mécanisme « d’Open Data à la demande » a été instauré par la loi république numérique, qui permettra assez facilement de forcer la mise en ligne de jeux de données au cas où une université ne procéderait pas d’elle-même à sa diffusion. L’alinéa 1 de l’article 6 indique en effet que les administrations doivent mettre en ligne « les documents qu’elles communiquent en application des procédures prévues au présent titre« . Cela signifie que les administrations seront obligées de mettre en ligne les documents qui leurs sont demandés par les usagers dans le cadre d’une procédure CADA d’accès aux documents administratifs. Si un document entre dans le périmètre (somme toute assez large) de cette loi, alors l’université ne pourra s’opposer à la communication (sous peine d’un recours à la CADA) et lorsque le document est communiqué, l’administration devra ensuite le mettre en ligne et rendre réutilisable les informations qu’il contient. Tout ceci fait que si une université fait preuve d’inertie dans la mise à disposition de données couvertes par l’article 6, il suffira qu’un citoyen, une association ou même une entreprise en fassent la demande auprès d’elle pour qu’elle soit obligée de les mettre en ligne.

On le voit ce principe « d’Open Data par défaut » est relativement puissant, et s’il n’est pas sans limite, il va sans doute produire des changements considérables dans la manière dont les universités diffusent les documents et les données qu’elles produisent.

Quelles limites à la réutilisation des données des universités ?

Le principe d’Open Data par défaut de la loi « République numérique » a beau être large, il n’est cependant pas sans limite. La première concerne l’impératif de protection des données personnelles et de la vie privée, qui devra naturellement continuer à être respecté et sur lequelle l’article 6 de la loi met l’accent :

Sauf dispositions législatives contraires ou si les personnes intéressées ont donné leur accord, lorsque les documents et les données mentionnés aux articles L. 312-1 ou L. 312-1-1 comportent des données à caractère personnel, ils ne peuvent être rendus publics qu’après avoir fait l’objet d’un traitement permettant de rendre impossible l’identification de ces personnes. Une liste des catégories de documents pouvant être rendus publics sans avoir fait l’objet du traitement susmentionné est fixée par décret pris après avis motivé et publié de la Commission nationale de l’informatique et des libertés.

Ce passage signifie que si des informations correspondent à des données à caractère personnel, alors les administrations ne doivent pas les mettre en ligne et les rendre réutilisables, à moins de rendre impossible l’identification des personnes concernées ou après avoir obtenu leur consentement. On notera qu’il ne suffit pas simplement d’anonymiser les données, mais de « rendre impossible l’identification des personnes« , ce qui va plus loin (notamment pour empêcher les identifications par recoupements de données).

Cet aspect risque d’être très compliqué à gérer pour les administrations en général et pour les universités en particulier. Car les établissements vont se retrouver pris entre deux exigences contradictoires : d’une part une soumission au principe d’Open Data par défaut, qui implique la publication de nombreux documents et jeux de données ; d’autre part l’impératif de protection des données personnelles qui reste toujours aussi fort. Pour prendre un exemple concret, une université sera dorénavant obligée de mettre en ligne les informations relatives au personnel qu’elle emploie ou aux étudiants inscrits, mais à la condition d’anonymiser ces données et de rendre impossible l’identification par recoupement, ce qui peut s’avérer très complexe à réaliser. La CNIL a annoncé qu’elle préparait un « pack de conformité » à destination des acteurs publics pour la mise en oeuvre de la loi République numérique et on attend à présent avec impatience ce document qui permettra sans doute d’y voir plus clair sur la manière de jongler avec ces exigences contradictoires.

Une autre limitation au principe d’Open Data par défaut concerne la protection des droits de propriété intellectuelle détenus par des tiers à l’administration. L’article L. 321-2 du Code des relations entre le public et les administrations prévoit ainsi que :

Ne sont pas considérées comme des informations publiques […] les informations contenues dans des documents […] sur lesquels des tiers détiennent des droits de propriété intellectuelle.

Dans le contexte d’établissements comme des universités, de nombreux documents couverts par des droits de propriété intellectuelle sont produits, que l’on songe par exemple aux cours et aux publications des enseignants-chercheurs, aux diverses productions des étudiants (copies d’examen, travaux, mémoires, etc), aux ressources pédagogiques à distance, etc. Tous ces contenus sont naturellement exclus du périmètre des documents soumis à l’obligation de mise en ligne définie à l’article 6 de la loi. Pour ce qui concerne le cas spécifique des publications des chercheurs, il est traité à l’article 30 de la loi, à travers les dispositions de faveur de l’Open Access dont j’ai parlé dans un précédent billet, mais le principe demeure que les chercheurs restent pleinement titulaires du droit d’auteur sur leurs productions et sont à ce titre libres de décider s’ils souhaitent les publier en ligne ou non.

A propos de cette question de l’articulation entre l’Open Data et les droits de propriété intellectuelle, il faut noter que la loi « République numérique » a cependant apporté une clarification importante relative au droit des bases de données des administrations. Il était arrivé dans le passé que des administrations (notamment des services d’archives) opposent leur droit de producteur de base de données à une demande de réutilisation. Après quelques flottements, la jurisprudence administrative avait fini par leur donner raison, ce qui signifiait que ces établissements pouvaient neutraliser le principe de libre réutilisation des informations publiques en s’appuyant sur le droit des bases de données. Or la loi numérique contient un article 11 qui va complètement changer la donne en la matière :

Sous réserve de droits de propriété intellectuelle détenus par des tiers, les droits des administrations mentionnées au premier alinéa de l’article L. 300-2 du présent code, au titre des articles L. 342-1 et L. 342-2 du code de la propriété intellectuelle, ne peuvent faire obstacle à la réutilisation du contenu des bases de données que ces administrations publient en application du 3° de l’article L. 312-1-1 du présent code.

Cette phrase signifie que les administrations ne peuvent dorénavant plus opposer un droit de producteur de base de données à une demande de réutilisation des informations publiques qu’elles détiennent, et cela s’appliquera aux universités comme aux autres.

Quid de la faculté à fixer des redevances de réutilisation ?

Contrairement à la situation qui prévalait antérieurement dans laquelle les administrations pouvaient discrétionnairement mettre en place des redevances pour la réutilisation de leurs données, la loi Valter a consacré un principe général de gratuité. L’article 15 de la loi prévoit néanmoins une dérogation possible à titre exceptionnel pour les administrations dont le financement est substantiellement assuré par des ressources propres :

La réutilisation d’informations publiques est gratuite. Toutefois, les administrations mentionnées à l’article 1er peuvent établir une redevance de réutilisation lorsqu’elles sont tenues de couvrir par des recettes propres une part substantielle des coûts liés à l’accomplissement de leurs missions de service public.

Un doute pourrait poindre ici à propos des universités, car il s’agit typiquement d’établissements auxquels il est demandé de dégager des ressources propres pour assurer une part d’auto-financement. Néanmoins, le décret d’application de la loi Valter, paru en juillet dernier, a clairement défini un seuil minimal de 25% de ressources propres en dessous duquel les administrations ne sont plus autorisées à exiger des redevances de réutilisation :

Sont seuls autorisés à établir des redevances de réutilisation en application de l’article L. 324-1 les services de l’Etat et les autres personnes mentionnées à l’article L. 300-2 dont l’activité principale consiste en la collecte, la production, la mise à disposition ou la diffusion d’informations publiques, lorsque la couverture des coûts liés à cette activité principale est assurée à moins de 75 % par des recettes fiscales, des dotations ou des subventions.

Or si l’on en croit ces chiffres tirés de l’Observatoire KPMG 2015 des Universités et des Ecoles, les universités en France dégagent en moyenne 18% de ressources propres, ce qui les placent en dessous du seuil fixé par le décret de la loi Valter.

ressources

Ceci étant dit, on pourrait imaginer qu’une université arrive à dépasser ce seuil des 25% et l’étude KPMG précité indique que les Ecoles et Instituts de recherche atteignent en moyenne plutôt des taux d’autofinancement de 32%. Néanmoins, cela ne permettra toujours pas à ces établissements de recherche de lever des redevances de réutilisation sur la réutilisation de leurs données.

Car le décret de la loi Valter précise bien que seuls disposent de cette faculté les administrations dont « l’activité principale consiste en la collecte, la production, la mise à disposition ou la diffusion d’informations publiques » et il faut par ailleurs que les subventions qui leur sont versées servent directement à couvrir les coûts de cette activité principale liée aux données. Or ce n’est pas le cas des universités et établissements de recherche, dont les missions sont bien plus larges que la seule production d’informations publiques.

On en déduit donc que les universités sont strictement astreintes au respect du principe de gratuité et qu’elles ne pourront plus établir de redevances de réutilisation des données, sous peine de se mettre dans l’illégalité.

Conclusion : les universités françaises doivent à présent passer à l’Open Data

On le voit, la loi « République numérique » va avoir un impact important sur les universités en les soumettant, comme les autres administrations au principe d’Open Data par défaut qu’elle instaure. C’est la fin d’une situation dérogatoire qui s’appliquait aux universités et établissements de recherche dans la législation antérieure. Cela signifie qu’un grand nombre de documents et de jeux de données devront être mis en ligne dans les années à venir par les universités, ce qui implique des défis organisationnels non négligeables à surmonter. Il me semble d’ailleurs que les conséquences de ce texte n’ont pas été assez clairement perçus par ces acteurs, qui se sont beaucoup focalisés sur le volet Open Access de la loi sans voir que la partie Open Data les concernait également.

La loi fixe aux administrations plusieurs délais (de 6 mois à deux ans selon les catégories de données) pour se conformer à ces nouvelles obligations, échéances qui vont arriver très rapidement à présent. Il faut cependant noter qu’un décret est encore attendu qui va fixer un seuil d’agents au-delà duquel une administration sera soumise au principe d’Open Data par défaut. Mais les universités étant généralement des établissements employant un nombre conséquent d’employés, il serait surprenant qu’elles ne soient pas comprises dans les administrations concernées.

Dans ce billet, j’ai surtout insisté sur les données produites par les universités en tant qu’établissement administratif. Ce sont les informations produites par les services centraux et les services communs de ces établissements qui sont au premier chef concernées par le passage en Open Data (y compris d’ailleurs celles des Services Communs de la Documentation, c’est-à-dire les bibliothèques universitaires). Néanmoins, une autre question importante est de savoir si les données de la recherche, en tant que telles, sont comprises ou non dans ce principe d’Open Data par défaut. Au cas où la réponse serait positive, cela signifie qu’il y aurait également obligation de les mettre en ligne et de les rendre réutilisables, moyennant la protection des données personnelles.

C’est une interrogation à laquelle j’essaierai de répondre dans le troisième billet de cette série consacrée aux répercussions de la loi numérique sur le secteur de l’enseignement supérieur et de la recherche. J’y étudierai la manière dont le texte met en place un nouveau « statut » des données de la recherche.

En attendant, les commentaires sont ouverts si vous souhaitez poser des questions ou laisser des observations à propos de ce nouveau tournant de l’Open Data qui attend les universités.

Résoudre le casse-tête du financement de la numérisation patrimoniale ?

Lorsque l’on revendique que le produit de la numérisation du patrimoine soit rendu librement réutilisable par les institutions culturelles, le principal argument qui nous est opposé est d’ordre budgétaire : les crédits publics alloués à la numérisation sont – comme les autres – en voie de réduction et le volume des collections restant à convertir au format numérique est immense. Dès lors, il serait indispensable qu’un retour sur investissement demeure possible, sous une forme ou une autre, et cela justifierait que les institutions culturelles continuent à appliquer des redevances pour la réutilisation des fichiers, en s’appuyant sur divers fondements juridiques.

money
Par Angelolucas. CC0. Source : Pixabay

Sur le fond, cette question du modèle économique de la numérisation patrimoniale ne doit pas être niée ou escamotée. Il faut au contraire la regarder en face, car dans le contexte de morosité budgétaire que nous traversons, il s’agit bien d’un problème central. Mais deux séries de contre-arguments (au moins) peuvent être opposés à cette « doctrine » de l’application systématique de redevances de réutilisation :

  1.  Il est extrêmement douteux que ces redevances puissent efficacement contribuer au financement de la numérisation, alors qu’elles provoquent dans le même temps des dommages collatéraux considérables (notamment une destruction de valeur sociale liée à la disparition du domaine public sous forme numérique et des libertés associées) ;
  2. Il est possible d’envisager d’autres modèles économiques que les redevances de réutilisation, mieux à même de concilier une soutenabilité budgétaire à long terme et la libre réutilisation du produit final de la numérisation.

J’ai déjà beaucoup écrit sur à propos du premier volet de ces contre-arguments, notamment les problèmes posés par le copyfraud des institutions culturelles et les atteintes au domaine public. Aussi, je voudrais dans ce billet me consacrer davantage au second volet, en partant d’un exemple de nouveau modèle économique mis en œuvre par une institution culturelle qui me paraît hautement intéressant. Il s’agit du dispositif de numérisation à la demande de documents développé par les Archives Départementales des Hautes-Alpes (AD05) dans le cadre d’une nouvelle politique de services aux publics. Cette stratégie de numérisation a fait l’objet d’une présentation détaillée vendredi dernier par le directeur de cette institution, Gaël Chenard, à laquelle j’ai pu assister à l’occasion du colloque « Consommateurs ou acteurs ? Les publics en ligne des archives et des bibliothèques patrimoniales ».

Articuler numérisation de masse et numérisation à la demande

Actuellement, le modèle économique de la numérisation patrimoniale le plus répandu en France parmi les institutions culturelles repose sur deux présupposés :

  • Il importerait de numériser le volume le plus important possible de collections (numérisation de masse), en « peignant » systématiquement des tranches de cotes complètes pour tendre vers l’exhaustivité ;
  • Comme cette approche est onéreuse, le produit de la numérisation ne doit pas être rendu librement réutilisable et l’institution doit appliquer une redevance sur la réutilisation, en s’appuyant soit sur le droit d’auteur (modèle de la RMN, qui revendique un copyright sur les reproductions des œuvres, y compris lorsque celles-ci appartiennent au domaine public), soit sur la réutilisation des informations publiques (modèle de la BnF, qui autorise les usages non-commerciaux des contenus de Gallica, mais fait payer les réutilisations effectuées dans un cadre commercial).

La présentation de Gaël Chenard a commencé par une remise en cause du premier présupposé, appuyée sur une analyse pointue des statistiques de consultation des documents numérisés mis en ligne par son institution. Celles montrent en effet que certains types de documents font l’objet d’une forte consultation par le public (Etat civil ou Registres matricules, notamment), chaque document numérisé pouvant être consulté plus de 5 fois par an. Mais d’autres pans des collections, comme les actes notariés par exemple, sont au contraire beaucoup moins consultés (parfois moins d’une fois par an en moyenne).

[tweet https://twitter.com/tokenheiser/status/649893284404436992]

Une priorisation paraît dès lors souhaitable dans la numérisation des collections : il semble en effet plus intéressant que les crédits publics aillent en priorité à la numérisation des documents les plus consultées. Mais pour ceux dont l’usage est plus confidentiel, cet investissement public est « moins rentable » en termes d’utilité sociale. Et c’est d’autant plus vrai que les actes notariés aux AD05 représentent un énorme volume à numériser, qui pourrait occuper le service d’archives pendant 10 ans, en monopolisant ses crédits et les ressources humaines pouvant être consacrées à la numérisation.

Sur la base de ce constat, Gaël Chenard explique que le choix a été fait par le département de mettre l’accent sur la numérisation à la demande pour les collections les moins consultées en ligne. L’établissement mobilise ses chaînes internes pour dématérialiser les documents non-disponibles au format numérique demandés par les usagers, en leur fournissant les fichiers à distance à l’issue de l’opération. Pour que ce service soit attractif, les AD des Hautes Alpes ont aussi baissé substantiellement leurs tarifs en les divisant par 4, de 1 euro à 25 centimes d’euros la page, avec un tarif maximum bloqué à un forfait de 20 euros pour inciter les utilisateurs à commander des numérisations intégrales de documents.

Renverser le mode de financement de la numérisation patrimoniale

Le point le plus intéressant dans cette stratégie de numérisation réside sans doute dans le statut juridique des fichiers produits à l’issue de ces opérations de numérisation à la demande. Voici ce que l’on peut lire à ce sujet sur le site des AD05 :

QUE FAITES-VOUS DES IMAGES QUE J’AI PAYÉES ? QUE PUIS-JE EN FAIRE ?

Nous les livrons sur votre espace personnel pour vous permettre de les télécharger librement. Si les documents que vous avez commandés sont susceptibles d’intéresser un public plus large, ils sont ensuite publiés sur notre site internet six mois après votre demande. Vous pouvez également publier librement ces images sur votre propre site : la réutilisation est libre et gratuite dès livraison.

Le « règlement de réutilisation des informations publiques contenues dans les documents des Archives départementales des Hautes Alpes » précise que le produit de la numérisation est placé sous la Licence Ouverte/Open Licence d’Etalab et que le département se refuse à concéder des exclusivités à des tiers :

En dehors du cas des informations comportant des informations personnelles protégées au titre de la loi n°78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés, la réutilisation est libre et gratuite, et placée sous le régime de la « licence ouverte » élaborée par Etalab dans sa version 1.0. La « licence ouverte » est annexée au présent règlement

Le Conseil Général des Hautes-Alpes exclue toute possibilité d’exclusivité d’exploitation des informations publiques produites, reçues et conservées par les Archives départementales des Hautes-Alpes, y compris dans les cas prévus à l’article 14 de la loi n° 78-753 du 17 juillet 1978.

Concrètement, cela signifie que les documents numérisés peuvent être librement réutilisés sans avoir à verser de redevances, y compris à des fins commerciales, à condition de mentionner leur source (condition posée par la licence Etalab). C’est le cas pour les personnes qui commandent des numérisations à la demande pour les fichiers qui leur sont transmis. Mais c’est aussi le cas in fine pour l’ensemble du public, puisque les AD05 indiquent que lorsque les documents commandés sont susceptibles d’intéresser le plus grand nombre, ils sont mis en ligne en accès gratuit sur le site de l’institution à l’issue d’un délai de 6 mois.

Ce modèle aboutit à un renversement de perspective intéressant dans le financement de la numérisation. Plutôt que de lever ex post des redevances sur la réutilisation des documents numérisés, l’établissement fait payer une prestation ex ante pour le service rendu au premier utilisateur. Ce paiement est donc effectué une fois et il s’éteint ensuite. L’avantage réside dans le fait que ce modèle préserve le principe de réutilisation des informations publiques et l’intégrité du domaine public (lorsque la numérisation porte sur des œuvres). Cette formule paraît aussi infiniment supérieure aux partenariats de numérisation public-privé – type Accords Proquest/BnF – qui suppriment la gratuité de l’accès en ligne aux documents numérisés pendant une période d’exclusivité accordée à la société privée, sans pour autant garantir une fois celle-ci achevée que l’institution culturelle ne continuera pas à appliquer une redevance pour la réutilisation des documents (double peine pour les droits du public).

Ce passage d’une forme de « vente des données » à la facturation d’un service rendu correspond à ce que nous préconisons dans le Manifeste de SavoirsCom1 à propos des modèles économiques compatibles avec la préservation des Communs de la connaissance :

9. Placer les communs au cœur des modèles économiques de l’information. 

[…]  Le collectif déclare encourager des modèles qui valorisent économiquement des services, à la différence de ceux qui vendent des données. Il refuse catégoriquement tous les dispositifs techniques (DRM) qui limitent les usages de l’information et, par conséquent, entravent le développement de biens communs de la connaissances.

La question centrale de l’efficacité économique

Visiblement, l’efficacité économique est au rendez-vous avec ce dispositif. Gaël Chenard a indiqué vendredi que son service d’archives se plaçait dans le peloton de tête des établissements qui numérisent le plus de vues chaque année et que l’abaissement des tarifs avait permis d’augmenter suffisamment le volume des demandes pour parvenir à un équilibre budgétaire. Le point de tension réside cependant dans la capacité de la chaîne interne à absorber les demandes, en maintenant des délais de réponse suffisamment courts pour que le service reste attractif. Le site des AD05 annonce qu’il est en mesure de servir les commandes en 2 ou 3 jours en moyenne, mais on imagine qu’il faut consacrer des ressources humaines conséquentes pour arriver à ce résultat et c’est sur ce point que ce dispositif peut s’avérer difficile à implémenter.

Si la question de l’efficacité économique est centrale dans ce débat sur le financement de la numérisation patrimoniale, force est de constater qu’à l’inverse, le modèle de l’application de redevances de réutilisation est très loin d’avoir apporté la preuve de sa capacité à assurer le financement durable de la numérisation patrimoniale. C’est notamment ce qui ressort assez nettement d’un rapport publié – avec une surprenante discrétion – par le Ministère de la Culture en juin dernier, consacré à« l‘Evaluation du développement des ressources propres des établissements culturels de l’Etat ».

On peut notamment y lire ce constat, assez éloquent, sur l’efficacité relatives des différentes sources d’auto-financement utilisées par les institutions culturelles :

Seules trois activités (la location d’espaces, les redevances de concessions et le mécénat, sous réserve de la dépense fiscale et des contreparties offertes aux mécènes qu’il induit) contribuent systématiquement à l’équilibre financier des établissements. L’ensemble des autres activités (les activités annexes telles que la gestion d’un auditorium, les expositions itinérantes, la gestion en direct d’une boutique, l’ingénierie culturelle, les éditions, les activités numériques et la gestion des droits de propriété intellectuelle) présentent, en moyenne sur l’échantillon analysé, un résultat déficitaire. Ces résultats posent la question du maintien et du développement de ces activités à l’équilibre financier fragile lorsqu’il n’apparaît pas qu’elles participent significativement aux missions de service public de l’établissement.

Les redevances (englobées de manière surprenante dans le rapport dans le volet « gestion des droits de propriété intellectuelle) » ne sont donc pas citées comme un moyen de financement efficace et pour cause ! Une série de focus sur diverses institutions (RMN, BnF, Musée d’Orsay, Quai Branly, etc.) figurant dans les annexes le confirme complètement : les recettes tirées des redevances de réutilisation restent marginales pour ces établissements, eu égard aux coûts importants découlant de la numérisation. C’est particulièrement clair à propos de l’agence photographique de la RMN, dont le déficit se creuse chaque année de manière assez inquiétante, alors qu’elle reste la « championne nationale » du modèle des redevances (et donc du copyfraud…). Voir notamment le schéma ci-dessous tiré de l’annexe V du rapport).

Des chiffres encore plus précis avaient été fournis en janvier dernier à la députée Isabelle Attard en réponse à une question parlementaire posée au Ministère de la Culture à propos du bilan économique de l’agence photo de la RMN, montrant un déficit croissant chaque année s’élevant à plus de 3,5 millions d’euros pour 2014.

rmn

Ces constats sur l’inefficacité économique des redevances rejoignent plus largement les conclusions du rapport Trojette rendu à la fin de l’année 2014, qui s’était livré à une évaluation globale du modèle économique des redevances mises en place par les administrations pour la réutilisation des informations publiques. Hormis quelques rares hypothèses où les redevances se justifient encore (temporairement), le rapport Trojette préconise de placer les données publiques en Open Data pour maximiser leur utilité sociale, en abandonnant les tarifs de réutilisation. Le secteur culturel présente certes la spécificité de devoir assumer des coûts importants pour la numérisation des collections. Mais nous avons vu qu’il est loin d’être prouvé que les redevances de réutilisation puissent constituer une solution satisfaisante et des exemples comme celui des Archives Départementales des Hautes Alpes montrent qu’au moins une partie de ces coûts peut être amortie par la facturation de services plutôt que par des entraves à la réutilisation des fichiers.

Quelle équité dans l’appel à contribution du public ?

La numérisation a un coût important et il est clair qu’en l’état des finances publiques, il ne sera pas possible de faire porter l’intégralité de l’effort sur le budget des collectivités. Le public doit prendre sa part dans ce financement, mais il existe plusieurs façons de le mettre à contribution : certaines paraissent équitables, tandis que d’autres ne le sont manifestement pas.

A vrai dire, les services de numérisation à la demande existent depuis longtemps dans les institutions culturelles, qui sont nombreuses à disposer de départements dédiés à la reproduction. Mais en général, le produit de cette numérisation n’est pas libéré sous une licence garantissant les droits d’usage du public et, parfois, il n’est même pas mis en ligne une fois le service rendu. En somme, ce qui est payé directement avec l’argent du public ne respecte pas au final les droits du public. Les individus sont appelés à contribuer pour financer leur propre expropriation du patrimoine commun et sous couvert de « rendre un service », les institutions culturelles alimentent en réalité une véritable machine à enclosures…

Or il devient de plus en plus à la mode dans le champ culturel de faire appel au « mécénat » du public sous diverses formes : formule de parrainage de la numérisation de documents avec le service « Adopte un livre » à la BnF ; financement participatif pour l’achat de pièces rares et précieuses (au Louvre ou à la BnF) couplé à des opérations de numérisation ; appel aux dons pour la restauration d’œuvres emblématique (au Louvre ou au Musée d’Orsay). Ces dispositifs participatifs rencontrent souvent l’enthousiasme d’un public attaché au patrimoine, mais on peut clairement poser la question de l’équité de ces modes de financement quand les droits d’usage ne sont pas respectés. C’est ce qu’a fait par exemple brillamment Hervé Le Crosnier à propos du recours au crowdfunding pour la restauration du tableau « l’Atelier du peintre » de Courbet au Musée d’Orsay :

[…] la moindre des choses serait de rendre au public autre chose que des « cartes pass » à bon prix (une fois déduite la participation de 2/3 de l’État au travers des réductions d’impôts) et l’affichage du nom des donateurs sur Facebook.

Comme ce genre d’opération va se multiplier, ne devrions-nous pas exiger que l’ensemble des droits sur les reproductions de ces œuvres aidées soient directement posées dans le domaine public ?

Dans le dispositif mis en place par les Archives des Hautes Alpes, il me semble au contraire que l’appel à contribution du public est équitable. L’établissement tarifie un service rendu à l’usager (numérisation d’un original non-disponible sous forme numérique dans un délai donné et transmission du fichier), ce qui est entièrement légitime. Par ailleurs, le paiement par l’usager a aussi le sens d’un « micro-mécénat » contribuant à la numérisation globale des collections pour tous. Et au final, il n’y a pas d’enclosure instaurée par l’établissement culturel, puisque la licence ouverte garantit les droits du public à la réutilisation des contenus et la préservation de l’intégrité du domaine public.

La légitimité du système deviendrait contestable si la stratégie des AD05 consistait à substituer intégralement la numérisation de masse, couverte par les crédits publics de la collectivité, à ce service de numérisation à la demande financé par le paiement direct des usagers. Mais tel n’est pas le cas, puisque la numérisation à la demande vise prioritairement à faire passer au format électronique des pans spécifiques des collections que les archives ne seraient pas à même de numériser autrement. Sans doute faudra-t-il rester vigilant pour qu’un phénomène de bascule ne s’opère pas et que ces solutions de numérisation à la demande ne deviennent pas un prétexte au désengagement financier des pouvoirs publics.

Mais tel n’est pas le cas pour les AD05, qui me paraissent avoir trouvé un équilibre satisfaisant. Il ne s’agit pas de dire que la numérisation  à la demande doit devenir LE modèle exclusif de financement de la numérisation du patrimoine, mais il y a là assurément une piste intéressante à creuser, notamment en ce qui concerne l’offre de services à valeur ajoutée autour des données.

La numérisation du patrimoine à la croisée des chemins législatifs

On constate donc que sur le terrain, des institutions culturelles comme les AD05 explorent actuellement de nouveaux modèles économiques pour assurer la pérennité du financement de la numérisation. C’est d’autant plus stimulant que les positions émises sur le sujet par le Ministère de la Culture traduisent en revanche un immobilisme inquiétant, confinant parfois au dogmatisme. La « doctrine de la redevance » et le mépris pour la question du respect du domaine public et du principe de libre réutilisation restent obstinément la règle, alors que le rapport produit par le Ministère lui-même (cité ci-dessus) montre que cette voie constitue une impasse budgétaire.

En août dernier, Fleur Pellerin a répondu à une question parlementaire posée par le député Olivier Falorni qui insistait sur l’importance de libérer la réutilisation des oeuvres numérisées du domaine public et appelait le Ministère à mettre fin aux pratiques de tarification de la RMN. La réponse de la Ministre, non seulement légitime le copyfraud auquel se livre dans leur très grande majorité les musées, mais manifeste également un attachement sans faille à la « doctrine des redevances ».

La numérisation du patrimoine se trouve à présent à la croisée des chemins législatifs. Le projet de loi numérique portée par les services d’Axelle Lemaire du côté du Ministère de l’Economie (et c’est loin d’être innocent…) contient en effet une définition positive du « domaine public informationnel », visant à interdire les pratiques de copyfraud et la réapparition d’exclusivités sur les éléments du patrimoine culturel qui devraient rester communs à tous. Si cette notion venait à être consacrée par la loi, il est clair que les institutions culturelles seraient rapidement obligées de revoir en profondeur leurs pratiques de diffusion des documents numérisés, sauf pour elles à courir le risque d’affronter des recours contentieux que la loi va ouvrir.

 Mais dans le même temps, une autre loi est en train de progresser, portée par Clotilde Valter au secrétariat à la réforme de l’Etat, qui s’appuie sur une logique rigoureusement opposée. Alors que toutes les autres administrations publiques vont être soumises à un principe de gratuité pour la réutilisation des informations publiques, avec des possibilités exceptionnelles d’instaurer des redevances, la loi Valter graverait dans le marbre une faculté discrétionnaire pour les établissements culturel de lever des redevances sur la réutilisation du patrimoine numérisé, ainsi que d’accorder des exclusivités à des partenaires privés de numérisation. Si c’est cette seconde loi qui prévaut, alors une forme de « domaine public payant » sera instaurée en France, au bénéfice des institutions culturelles.

***

Ne nous y trompons pas : cette « doctrine des redevances » a beau se draper – mais de plus en plus difficilement – dans des arguments de rationalité budgétaire, elle traduit surtout une vision idéologique du patrimoine conçu comme « actif immatériel » à valoriser, qui est tout sauf innocente. Le pire, c’est que cette politique sera incapable d’assurer la durabilité de la numérisation à long terme, mais elle conduira immanquablement à une adultération profonde de l’identité des institutions culturelles et de leurs missions de service public.

Heureusement que des services comme celui des Archives départementales des Hautes Alpes montrent concrètement qu’une autre voie est encore possible !

 

 

Le statut juridique des données de la recherche : entre droit des bases de données et données publiques

Le mois dernier, j’ai été invité à intervenir à la Maison Européenne des Sciences de l’Homme et de la Société (MESHS) de Lille, dans le cadre d’un cycle d’un cycle de conférences sur le « Droit d’auteur dans l’environnement numérique ». J’étais chargé de traiter de le thème du droit des bases de données, mais j’ai élargi un peu le propos pour examiner la question du statut juridique des données de la recherche, de manière générale (voir la présentation ci-dessous).

Lire la suite

Données culturelles : alerte rouge pour le principe de réutilisation !

Voilà plusieurs années à présent que j’écris sur ce blog sur le sujet de la réutilisation des données culturelles. Le moins que l’on puisse dire, c’est que cette problématique n’aura pas été un long fleuve tranquille, mais un jugement rendu cette semaine par la Cour d’Appel de Bordeaux dans un litige opposant la société NotreFamille.com aux Archives départementales de la Vienne vient d’allumer sur le tableau de bord un gros voyant rouge, tant il est porteur d’un risque de régression en la matière.

Image par Dieselducy, Andrew R. CC-BY-SA. Source : Wikimedia Commons

Cette décision vient confirmer un jugement de première instance publié l’an dernier par le Tribunal administratif de Poitiers, auquel j’avais consacré une analyse en tirant déjà la sonnette d’alarme. Pour faire simple, le juge avait accepté que les Archives de la Vienne s’opposent à une demande de réutilisation commerciale de documents numérisés d’état civil et de recensement, en invoquant leur droit de producteur de la base de données constituée par leurs soins.

Lire la suite

L’Open Data de l’Elysée est sous licence fantôme…

L’Elysée a annoncé hier par le biais de son fil Twitter qu’il « ouvrait ses données » dans une nouvelle rubrique de son site. Un premier ensemble de données, comme la frise chronologique des activités de la Présidence ou les statistiques de consultation du site Elysée.fr, sont disponibles au téléchargement, dans des formats adaptés (XML ou JSON).

ghost

La réalisation est certes modeste, mais elle a sans doute une valeur symbolique de soutien apporté par l’Élysée à la politique d’ouverture des données publiques, portée par le Premier Ministre s’appuyant sur la mission Etalab. La feuille de route du Gouvernement publiée en février dernier contenait des dispositions ambitieuses en la matière. On se souvient aussi qu’aux Etats-Unis, l’implication du président Barack Obama a été déterminante, et l’est toujours, pour la mise en oeuvre de la politique d’Open Data.

Lire la suite

Guide Data Culture : enfin un pas en avant pour l’ouverture des données culturelles

En matière d’Open Data, les données culturelles accusent un retard conséquent en France, que j’ai eu l’occasion de déplorer à plusieurs reprises sur S.I.Lex, mais la parution récente d’un Guide Data Culture marque enfin un signe encourageant envoyé par le Ministère de la Culture, pour la politique d’ouverture des données.

datalove
Mais que se passe-t-il au Ministère de la Culture ? Son dernier rapport Data Culture relève quasiment de la déclaration de Datalove…

Soumises à un régime particulier « d’exception », la réutilisation des données produites par les institutions culturelles a suscité un certain nombre de blocages et de difficultés ces dernières années, que j’ai résumées dans la présentation ci-dessous, avec un point sur les évolutions en cours au niveau européen. Cette crispation s’est notamment traduite encore le mois dernier par le fait que les données culturelles restent absentes de la nouvelle feuille de route du gouvernement pour la relance de la politique d’Open Data

Mais peut-être les choses sont-elles en train de commencer à évoluer, si l’on en croit ce qu’on lit dans le Guide Data Culture, publié le 22 mars dernier sur le portail Etalab. Ce rapport, signé par Camille Domange, correspondant Open Data du MCC et réalisé au niveau du département des programmes numériques, constitue à mon sens le premier signe clair envoyé par le Ministère de la Culture en faveur d’une politique d’ouverture des données culturelles.

Lire la suite

Open Data RIP ? La réutilisation des informations publiques bientôt dissoute dans le droit des bases de données ?

La nouvelle vient de tomber que le Tribunal Administratif de Poitiers a rejeté le recours de NotreFamille.com dans le contentieux qui l’opposait aux Archives départementales de la Vienne à propos de la réutilisation commerciale de données d’état civil. La décision du tribunal n’est pas encore accessible, mais elle paraît s’appuyer sur des motifs particulièrement surprenants et inquiétants pour le mouvement d’ouverture des données publiques.

En effet, généralement, le débat à propos de la réutilisation des données d’archives se place plutôt sur le terrain de « l’exception culturelle » prévue par l’article 11 de la loi du 17 juillet 1978, qui a donné lieu à de nombreux contentieux. La dernière décision rendue par la Cour d’Appel de Lyon à propos du conflit entre NotreFamille.com et les archives du Cantal paraissait néanmoins avoir apporté des clarifications importantes, dans un sens favorable à la réutilisation des données culturelles moyennant les exigences légitimes de protection des données personnelles qu’elles peuvent contenir.

En faisant prévaloir le droit des bases de données sur la réutilisation des informations publiques, le tribunal administratif de Poitiers risque de mettre tout le mouvement d'ouverture des données publiques en cage...(L'Oiseau bleu_Bird cage_04. Par ajari. Cc-BY. Source : Flickr)
En faisant prévaloir le droit des bases de données sur la réutilisation des informations publiques, le tribunal administratif de Poitiers risque de mettre tout le mouvement d’ouverture des données publiques en cage…(L’Oiseau bleu_Bird cage_04. Par ajari. Cc-BY. Source : Flickr)

Mais cette fois, c’est le droit des bases de données, semble-t-il, qui a été avancé comme fondement juridique pour refuser la réutilisation des données publiques. Guillaume de Morant sur le site de la Revue française de généalogie indique :


Lire la suite

La licence Etalab, un atout pour la diffusion des données culturelles et de recherche

Les données culturelles ou celles qui concernent la recherche occupent une place particulière parmi les données publiques. Elles restent de fait encore en retrait au sein du mouvement d’Open Data qui se développe en France.

Dandelion illustration. Par Thomas Rockstar. CC-BY-NC-SA. Source : Flickr

Pas tout à fait des données comme les autres…

En effet, un statut juridique particulier a été fixée par la loi sur la réutilisation des informations publiques, pour les données produites par « des établissements et institutions d’enseignement ou de recherche » ou par des « établissements, organismes ou services culturels« . Ce régime particulier, dit « exception culturelle », permet à ces établissements de fixer les conditions de la réutilisation de leurs données, tandis que les autres administrations relèvent du régime général de cette loi, qui instaure un droit à la réutilisation des informations publiques au profit des citoyens.

Jusqu’à présent, les institutions culturelles et de recherche se sont plutôt servies de cette exception pour restreindre la réutilisation de leurs données, ce qui a pu faire dire que la culture constituait le « parent pauvre de l’Open Data en France« . Des tensions sont même apparues entre certains services culturels, comme des archives,  et des entreprises à qui  la réutilisation des données a été refusée. Les institutions culturelles (bibliothèques, musées, archives) et les institutions de recherche sont pourtant détentrices de données de grande qualité, dont l’apport pourrait être décisif pour le mouvement de l’Open Data

Lire la suite