Quel modèle économique pour une numérisation patrimoniale respectueuse du domaine public ?

Le mois dernier est paru au Cercle de la Librairie le livre « Communs du savoir et bibliothèques« , pour lequel Lionel Dujol, qui coordonnait l’ouvrage, m’a demandé d’écrire une contribution. La publication de ce livre est un signe de plus de l’importance croissante de la thématique des Communs dans la sphère professionnelle des bibliothèques. On peut également noter que l’éditeur a accepté que les auteurs puissent publier sans délai leurs contributions en Libre Accès, ce qui me permet de poster le chapitre dont j’avais la charge sur ce blog. C’était important pour beaucoup des contributeurs à ce livre, afin qu’il n’y ait pas de contradiction entre le fond et la forme. Et cela montre par ailleurs qu’il y a toujours intérêt à négocier avec un éditeur pour obtenir des conditions de diffusion compatibles avec les principes de l’Open Access, même dans le cas de monographies.

Lionel Dujol m’a demandé de traiter la question (épineuse) de la numérisation du domaine public en bibliothèque, et plus précisément des modèles économiques qui peuvent sous-tendre ce type d’activités. J’examine quatre types de modèles (la numérisation à la demande, le financement participatif, les partenariats public-privé de numérisation et le Freemium) en essayant de voir lesquels sont les mieux à même de garantir la soutenabilité de la numérisation patrimoniale, sans générer de nouvelles enclosures sur la diffusion de la Connaissance.

Retrouvez ci-dessous l’introduction de cet article (et la version intégrale sur la plateforme HAL). Lire la suite

L’Open Data culturel est possible (et les bibliothèques le prouvent !)

C’est sans doute dans le champ de la culture que le développement de l’Open Data s’est jusqu’à présent avéré le plus difficile. Mais il s’est produit cette semaine un événement important qui prouve que la démarche est possible, à condition que la volonté politique soit au rendez-vous. C’est la bibliothèque de l’INHA (Institut National d’Histoire de l’Art) qui en a apporté la preuve, en choisissant de faire passer l’essentiel des contenus de sa bibliothèque numérique sous Licence Ouverte (voir les nouvelles conditions d’utilisation). Cela signifie que la réutilisation des images d’oeuvres numérisées appartenant au domaine public sera dorénavant libre, y compris pour un usage commercial, à la seule condition de citer la source du document.

La page d’accueil de la bibliothèque numérique de l’INHA.

Lire la suite

Cinquante nuances de consentement ou le droit d’auteur revisité par la jurisprudence ReLIRE

En avril 2013, j’avais écrit un billet au moment où la première vague de livres indisponibles a été publiée dans le registre ReLIRE et je le faisais se terminer par ces mots : « tout ce processus ne peut conduire à présent qu’à une catastrophe (…) si cette loi est finalement jetée à terre, que restera-t-il de tous ces efforts déployés ? Ce sera un épouvantable gâchis, qui aurait pu être évité si seulement un véritable débat public avait eu lieu.« 

16-maison-dieu

Un peu de plus de trois ans plus tard, la Cour de Justice de l’Union européenne a rendu sa décision la semaine dernière à propos du dispositif mis en place par la France pour la numérisation des livres indisponibles du 20ème siècle. Et le moins que l’on puisse dire, c’est que la catastrophe est bien survenue ! La Cour estime que la mise en gestion collective obligatoire des droits d’exploitation sur les livres indisponibles n’est pas compatible avec le droit de l’Union européenne, malgré le dispositif d’opt-out permettant aux auteurs de se retirer du système dans un délai de six mois après l’inscription dans le registre.

Le SNE avait laissé entendre par la voix de son directeur général qu’il pourrait ne pas tenir compte du jugement pour maintenir coûte que coûte le dispositif. Mais ces rodomontades risquent d’être difficiles à tenir… Il reste encore à attendre la décision finale du Conseil d’Etat devant laquelle l’affaire va à présent être renvoyée, mais le jugement de la Cour est tellement clair que l’on voit mal comment il pourrait s’en écarter. On a d’ailleurs appris hier que la SOFIA, à qui les droits sur les livres indisponibles sont transférés, a décidé de prendre les devants et de cesser de délivrer des licences d’exploitation jusqu’à nouvel ordre.

L’ampleur du désastre est impressionnante : depuis mars 2013, ce sont quelques 212 000 livres qui sont passés en gestion collective à la SOFIA et le catalogue du principal exploitant, la société FeniXX – filiale du Cercle de la Librairie – comptait déjà 25 000 références. Tous les titres numérisés à partir des collections de la BnF vont devenir à présent inutilisables, à moins que le système ne soit revu en profondeur (dans des proportions telles qu’il ne pourra pas s’en remettre…).

Symboliquement, c’est aussi une immense gifle qui est assénée à la France par la CJUE. Les juges de Luxembourg viennent tout simplement de dire haut et fort que le « pays de Beaumarchais » s’est essuyé les pieds sur les droits des auteurs avec sa loi sur les livres indisponibles. Cela risque à présent de devenir un brin plus compliqué pour le gouvernement d’aller faire la morale à la Commission européenne à propos de la réforme du droit d’auteur ! La condamnation rejaillit aussi sur tous les membres de la belle « Union sacrée » qui a permis à la loi sur les indisponibles de passer en force, malgré les nombreuses mises en garde qu’elle avaient suscitées. Le SNE, le CNL, le Service du Livre et de la Lecture, le Commissariat général à l’investissement, le Conseil Constitutionnel, mais aussi la SGDL et la SCAM, deux sociétés sensées pourtant « défendre » les intérêts des auteurs : tous sont profondément désavoués dans cette affaire. Et je ne parle pas de la BnF, qui a mis d’importants moyens financiers et humains au service de cette opération, en déshabillant au passage la numérisation du domaine public

Plusieurs commentaires de la décision de la CJUE sont déjà parus depuis la semaine dernière, mais je trouve que la plupart ont manqué des aspects importants du jugement. Celui-ci est en effet remarquablement équilibré : certes, il condamne la loi française pour avoir porté atteinte au droit des auteurs – et on peut s’en réjouir -, mais dans le même temps, la Cour procède à une interprétation constructive du droit communautaire qui ouvre aussi des pistes intéressantes en faveur des usages, notamment parce qu’elle admet la notion de « consentement implicite des auteurs ». C’est sur ce dernier aspect que je voudrais surtout insister dans ce billet, en essayant de monter ce qui pourra peut-être changer à l’avenir sur ces nouvelles bases.

L’admission d’un consentement implicite de l’auteur

La CJUE devait se prononcer pour savoir si la France pouvait introduire une nouvelle exception ou limitation au droit d’auteur dans sa législation nationale pour la numérisation des livres indisponibles. Or la Cour commence par constater que cette hypothèse n’est pas prévue à l’article 5 de la directive qui énumère les exceptions pouvant être transposées par les Etats-membres et elle rappelle que cette liste présente un caractère exhaustif.

A vrai dire, la Cour aurait pu s’arrêter là pour déclarer non-conforme au droit de l’Union la loi sur les livres indisponibles. Mais ce n’est pas ce qu’elle fait et c’est un point tout à fait intéressant à relever. En effet, la CJUE rappelle un principe central du droit d’auteur en vertu duquel « tout acte de reproduction ou de communication au public d’une œuvre par un tiers requiert le consentement préalable de son auteur » et que « toute utilisation d’une œuvre effectuée par un tiers sans un tel consentement préalable doit être regardée comme portant atteinte aux droits de l’auteur de cette œuvre« .

Mais elle poursuit en faisant remarquer que la directive ne précise pas « la manière dont le consentement préalable de l’auteur doit se manifester, de sorte que ces dispositions ne sauraient être interprétées comme imposant qu’un tel consentement soit nécessairement exprimé de manière explicite. Il y a lieu de considérer, au contraire, que lesdites dispositions permettent également de l’exprimer de manière implicite. » C’est à mon sens l’apport central de cette jurisprudence, peut-être plus encore que la condamnation de la loi sur les indisponibles.

Car jusqu’à présent, il paraissait inenvisageable que l’auteur puisse admettre « implicitement » un usage de son oeuvre, or c’est bien cette possibilité que la CJUE a décidé d’introduire. Elle rappelle qu’elle avait déjà fait un pas dans cette direction en 2014 dans sa décision Svensson sur les liens hypertexte, dans laquelle elle a estimé qu’un titulaire de droits qui poste volontairement une oeuvre en ligne accorde une autorisation implicite à quiconque de pointer vers elle par le biais d’un lien.

Mais la Cour va ici beaucoup plus loin, car les usages en cause dans l’affaire ReLIRE englobent la numérisation, la diffusion et la commercialisation des livres indisponibles. Aussi prend-t-elle la précaution d’interpréter strictement la notion de « consentement implicite de l’auteur » qu’elle vient d’admettre. Il s’agit notamment de s’assurer que l’auteur ait été « effectivement informé de la future utilisation de son œuvre par un tiers et des moyens mis à sa disposition en vue de l’interdire s’il le souhaite. » Et plus loin, la Cour ajoute que l’effectivité de cette information passe nécessairement par son caractère « individualisé« .

C’est ce dernier mot qui entraîne au final la chute du système des indisponibles. La Cour relève bien qu’une information générale a été faite autour du registre ReLIRE , sur le site mis en place par la BnF et par voie de presse, afin d’inciter les auteurs à manifester leur opposition à l’inclusion de leur oeuvre dans le dispositif. Mais ces moyens ne sont pas suffisants à ses yeux, car il manque une information faite à chaque auteur, par exemple par mail ou par courrier, à propos de la mise en gestion collective de ses droits.

La CJUE finit donc par conclure que la directive de 2001 ne permettait pas à la France de mettre en place ce nouveau système de gestion collective obligatoire, mais il faut bien comprendre ce qu’elle veut dire exactement. On peut en effet affirmer – en raisonnant a contrario –  que si la loi sur les indisponibles avait prévu un système d’information individualisé des auteurs, alors non seulement elle aurait été validée, mais la Cour n’aurait pas considéré que la France avait introduit une nouvelle exception. Elle aurait au contraire admis l’opt-out en considérant qu’un auteur qui garde le silence après avoir été averti en personne est réputé avoir donné implicitement son consentement à l’usage de l’oeuvre.

Et ça, c’est proprement révolutionnaire !

Un droit européen plus ouvert à présent que le copyright américain ?

C’est la raison pour laquelle je dis, qu’en dépit des apparences, cette décision de la CJUE est équilibrée et ouvre de nouvelles perspectives en matière d’usage des oeuvres. Pour bien le comprendre, il est assez utile de faire un parallèle avec le copyright américain, notamment par rapport à l’issue en justice de l’affaire Google Books.

Souvenez-vous : en 2009, Google avait réussi à conclure avec les éditeurs américains un Règlement (Settlement), aux termes duquel ces derniers acceptaient la possibilité pour le moteur de recherche de commercialiser les livres épuisés qu’il avait numérisés à partir des fonds de ses bibliothèques partenaires. Un Book Rights Registry aurait été mis en place pour que les auteurs puissent sortir du système, en manifestant leur opposition (ça ne vous rappelle rien ?).

Mais cet arrangement n’avait pas été accepté par la Guilde des Auteurs et en 2011, le juge Denis Chin, en charge de cette affaire, a choisi de ne pas avaliser le règlement, en considérant qu’il était contraire aux principes fondamentaux du copyright américain. En particulier, il avait mis en avant le fait que l’opt-out renversait les règles classiques du copyright, et notamment celle qui impose de recueillir une autorisation explicite de la part des auteurs. On trouvait par exemple ce passage dans sa décision :

The law of the United States is a copyright owner may sit back, do nothing and enjoy his property rights untrammeled by others exploiting his works without permission. Under the [Settlement], however, if copyright owners sit back and do nothing, they lose their rights.

Traduction : Le droit des Etats-Unis prévoit que le titulaire d’un copyright peut rester assis et ne rien faire, sans que cela le prive de ses droits de propriété vis-à-vis des tiers, qui doivent lui demander une autorisation pour pouvoir exploiter ses oeuvres. Pourtant d’après le Règlement, si les titulaires d’un copyright restent assis sans rien faire, ils vont perdre leurs droits.

Et c’est précisément pour cette raison que le juge Chin a choisi de considérer que la numérisation et la commercialisation des oeuvres épuisées par Google ne pouvaient pas être couvertes par le fair use (usage équitable), mécanisme du droit américain qui permet d’échapper à l’accusation de violation du copyright dans certaines circonstances.

Or si l’on revient à présent à la décision de la CJUE dans l’affaire ReLIRE, on constate qu’elle est incontestablement plus ouverte. La Cour admet au contraire la mise en place d’un opt-out, et donc un consentement implicite de l’auteur, à la condition qu’une information effective et individualisée lui ait été préalablement faite à propos de l’usage projeté de son oeuvre. Et un Etat de l’Union peut choisir de mettre en place un tel dispositif même s’il ne correspond pas à une exception figurant dans la liste de la directive, précisément parce qu’il ne s’agit pas pour la Cour d’une exception, mais d’un simple aménagement du mode d’expression du consentement des auteurs.

Quelle marge de manœuvre ouverte aux usages ?

L’interprétation que je fais de la décision n’est pas forcée, car la Cour dit noir sur blanc que  » la directive ne s’oppose pas à ce qu’une réglementation nationale, telle que celle en cause au principal, poursuive un objectif tel que l’exploitation numérique de livres indisponibles dans l’intérêt culturel des consommateurs et de la société dans son ensemble. » C’est donc admettre qu’au nom de l’intérêt général, on puisse déroger au principe du consentement préalable explicite pour passer à des systèmes plus souples où le consentement des auteurs sera recueilli de manière implicite.

Or qui peut le plus peut le moins : la CJUE va jusqu’à admettre que la mise en gestion collective des droits à des fins de commercialisation des oeuvres peut emprunter cette voie du consentement implicite. On peut donc en déduire que ce sera aussi a fortiori le cas pour des usages qui viseraient par exemple des finalités scientifiques, sans commercialisation. A la condition de prévenir formellement les titulaires de droits par mail ou par courrier individualisés et de leur laisser au moins 6 mois pour exprimer leur refus, on pourra considérer dorénavant que le silence gardé vaut autorisation.

Evidemment, la contrainte de l’information individualisée n’est pas du tout anodine. Elle engendrera des frais de recherche des titulaires de droits et de procédure, qui empêcheront que ce dispositif puisse être employé dans le cadre de projets impliquant de nombreuses oeuvres. C’est d’ailleurs au final ce qui va faire tomber le système ReLIRE en France, car à des échelles de centaines de milliers d’oeuvres, il est impossible de contacter individuellement les auteurs sans que les coûts explosent complètement. Mais pour des projets de recherche plus limités, impliquant des titulaires de droits peu nombreux, la voie du consentement implicite me paraît pouvoir être mobilisée avec bénéfice.

***

On peut donc saluer l’approche audacieuse retenue par la Cour de Justice de l’Union européenne. Sa décision va protéger à l’avenir les auteurs d’opérations brutales et iniques de spoliation de leurs droits, à l’image de ce que ReLIRE a donné l’exemple. Mais pour autant, le jugement procède à une véritable relecture du droit d’auteur au sein de l’Union européenne, qui va ouvrir des marges de manoeuvre au niveau des usages, que même le fair use ne permet pas aux Etats-Unis.

PS : je vous recommande après ce billet d’aller lire celui écrit par Thelonious_moon sur son blog à propos de cette décision. Il montre notamment que les principes posés par la décision de la CJUE vont aussi sonner le glas d’un autre système abusif et absurde mis en place par le législateur français : celui de la « taxe Google Images » votée cet été dans la loi Création. Ce dispositif s’appuie lui aussi sur une mise en gestion collective forcée des droits sur les images (y compris lorsque les créateurs ont choisi de les placer sous licence libre !). Or cette fois, aucun opt-out n’est prévu pour que les auteurs puissent se retirer, ni aucune information personnalisée (impossible de toutes façons, car il faudrait joindre un par un tous les créateurs d’images du monde entier…). Il en résulte que cette nouvelle abomination juridique restera mort-née…

 

La Bibliothèque de Lyon libère le domaine public avec la Licence Ouverte

Je ne sais pas exactement quand ce changement est intervenu, mais il est loin d’être anodin. La Bibliothèque Municipale de Lyon a modifié les conditions d’utilisation de Numelyo, sa bibliothèque numérique lancée en 2012. A l’ouverture, le choix avait été fait d’appliquer une licence Creative Commons CC-BY-NC-ND (Paternité – Pas d’Usage Commercial – Pas de modification), y compris aux fichiers correspondant à des oeuvres appartenant au domaine public. Or on constate que ce n’est plus le cas à présent : les oeuvres diffusées sont accompagnées de la mention « Domaine public. Licence Ouverte – Open Licence ». En témoigne par exemple l’estampe ci-dessous, signée Rembrandt.

rembrandt
Adam et Eve. Par Rembrandt. Source : Bibliothèque Municipale de Lyon. Domaine Public – Licence Ouverte.

Lire la suite

Open Content dans les musées : un retour d’expérience du Getty Museum

Le Getty Museum constitue un grand établissement culturel américain dédié aux Beaux Arts qui a choisi, il y a trois, de rejoindre le mouvement Open GLAM pour embrasser une politique d’Open Content. Cela signifie que l’institution a décidé de rendre librement réutilisables les reproductions numériques des oeuvres produites à partir de ses collections, sans autre contrainte que l’indication de la source. Initié avec 4500 oeuvres, le programme en compte aujourd’hui plus de 100 000 , avec des images en haute résolution correspondant à des peintures, des dessins, des manuscrits ou des photographies appartenant au domaine public.

getty
Le Getty Center à Los Angeles. Image par Jelson25. Domaine public. Source : Wikimedia Commons.

Pour célébrer les trois ans du lancement de cette politique, le Getty a publié sur son blog un billet qui dresse un premier bilan et qui revient sur les difficultés ayant dû être surmontées pour ouvrir les contenus issus de deux projets. On se rend compte à la lecture de cet article que la politique d’Open Content ne concerne plus seulement au Getty les collections numérisées, mais aussi des publications numériques, des ressources pédagogiques, des jeux de données ou des logiciels. Comme ce billet a été placé sous licence Creative Commons BY (CC-BY), je peux vous en proposer ci-dessous une traduction en français.

J’ai trouvé cet article intéressant, car il témoigne de l’acquisition de nouvelles compétences que l’établissement a dû intégrer pour développer ces démarches innovantes d’Open Content. Le contraste est aussi hélas fort avec les établissements culturels français, qui sont toujours dans leur grande majorité retranchés derrière des pratiques de réservation des droits, empêchant la libre réutilisation des contenus qu’ils produisent.

La situation ne s’est hélas guère arrangée d’un point de vue légal. La loi « République Numérique » et la loi Valter vont poser un cadre général, qui va imposer à une grande partie des administrations publiques de passer à une politique d’Open Data par défaut. Mais les institutions culturelles vont conserver un régime dérogatoire, leur permettant de continuer à lever des redevances pour la réutilisation du produit de la numérisation de leurs collections. C’est dire que le copyfraud, à savoir la création de nouvelles couches de droits neutralisant les libertés conférées par le domaine public, va littéralement être légalisé en France…

Les portails récemment mis en ligne par de grandes institutions culturelles, comme celui de la RMN ou celui des musées de la Ville de Paris, témoignent encore d’une approche extrêmement fermée, avec des images certes accessibles en ligne gratuitement, mais en faible résolution et marquées d’un copyright entravant les réutilisations. On est aux antipodes d’une politique d’Open Content innovante comme celle du Getty.

images
A gauche, une image de tableau issue de Wikimedia Commons. A droite, la même oeuvre sur le site Images d’art de la RMN. Cliquez sur l’image pour lire un article de Sylvain Machefert à ce sujet.

Pourtant malgré cette stagnation législative, les démarches d’ouverture restent possibles en France. Il suffit aux institutions culturelles de le décider, et certaines le font déjà, en optant pour des licences ouvertes pour la diffusion des contenus qu’elles produisent. Espérons que l’exemple du Getty puisse inspirer davantage d’entre elles.  Lire la suite

Comment l’affaire Google Books se termine en victoire pour le Text Mining

Google a lancé son projet géant de numérisation des livres en 2004 et dès l’année suivante, un ensemble d’auteurs et d’éditeurs ont attaqué le moteur de recherche devant les tribunaux pour violation du droit d’auteur. Le procès Google Books est certainement l’un des plus importants de ce  début du 21ème siècle, car il va redéfinir profondément les équilibres en matière d’adaptation du droit d’auteur à l’environnement numérique. Dix ans après le début de l’affaire, une Cour d’appel américaine a finalement donné raison à Google en lui reconnaissant la semaine dernière le bénéfice du fair use (usage équitable). Elle confirme la décision rendue en  2013 par le juge Denny Chin et elle pourrait bien marquer le point final de la procédure, même si les auteurs encore en litige face à Google agitent à présent la menace de saisir la Cour suprême.

J’ai déjà beaucoup écrit sur S.I.Lex à propos de cette affaire Google Books (peut-être plus d’ailleurs que sur aucun autre sujet…) en m’efforçant de couvrir ses différentes phases, aussi bien aux Etats-Unis qu’en France. Ce qui me frappe à la lecture de ce nouveau jugement, c’est le déplacement graduel des enjeux sous-jacents qui s’est opéré au fil du temps. En 2005, la question principale portait sur la réutilisation de contenus protégés (la numérisation, puis la revente de livres) ; aujourd’hui, le vrai problème concerne les données contenues dans les ouvrages et l’usage qui peut en être fait. Le procès Google Books rejoint finalement la problématique du Text et Data Mining (fouille de textes et de données), dont on parle aussi beaucoup en ce moment au niveau européen et en France.

La décision Google Books va constituer un formidable vecteur pour les pratiques d’exploration de textes. Mais ces marges de manoeuvre ne seront ouvertes qu’aux Etats-Unis seulement, en creusant au passage encore plus l’écart avec l’Europe en la matière…

Le glissement des contenus aux données

C’est essentiellement à partir de cette question de l’usage des données contenues dans les livres que les juges d’appel ont accordé le bénéfice du fair use à Google, en considérant que le service qu’il offrait à ses utilisateurs était susceptible d’apporter un bénéfice à la société en termes d’accès à la connaissance, justifiant que l’on écarte l’application des droits exclusifs des auteurs.

Mais ce faisant, ce jugement a conjuré une des grandes craintes que l’on pouvait avoir à propos de cette affaire Google Books : il n’a pas accordé une sorte de privilège exclusif sur cette activité au moteur de recherche, bien au contraire. La firme de Mountain View ne sera en effet pas la seule dorénavant aux Etats-Unis à pouvoir numériser des livres protégés pour fournir des services de recherche et de d’exploration de données. Grâce au fair use, cette même faculté a été ouverte à tous ses concurrents commerciaux, aussi bien qu’aux bibliothèques publiques et aux chercheurs académiques. L’issue de l’affaire Google Books va donc créer aux Etats-Unis un véritable écosystème ouvert en faveur de l’exploration de textes, qui libérera le potentiel offert par ces nouvelles technologies d’analyse computationnelle, sans en réserver les bénéfices à un seul acteur.

La situation outre-Atlantique offre un contraste saisissant avec l’Union européenne, où mis à part l’Angleterre qui a introduit en 2014 une exception en faveur du Text Mining à des fins de recherche, le reste de la zone se débat encore avec la difficulté à réformer le cadre du droit d’auteur. C’est particulièrement vrai pour la France, où la conception « propriétariste » étroite du droit d’auteur qui constitue l’idéologie dominante bloque pour l’instant toute possibilité d’évolution dans le sens des usages.

L’intérêt du public avant tout

L’un des aspects les plus intéressants de cette décision d’appel, c’est d’avoir offert aux trois juges qui composaient le tribunal l’opportunité de rappeler la philosophie générale de la loi sur le droit d’auteur aux Etats-Unis. Ils expliquent notamment que le monopole temporaire reconnu légalement aux auteurs n’a été instauré que pour servir une cause plus élevée de diffusion de la connaissance dans un but d’intérêt général :

Le but ultime du droit d’auteur est de favoriser la progression du savoir et de la connaissance, ce que le droit d’auteur s’efforce d’atteindre en donnant aux créateurs potentiels un droit exclusif de contrôle sur les copies de leurs oeuvres, leur offrant par là une incitation à créer des oeuvres enrichissantes intellectuellement à destination du public […] Ainsi, si les auteurs sont sans aucun doute des bénéficiaires importants du droit d’auteur, le bénéficiaire ultime doit être le public et c’est pour favoriser l’accès du public à la connaissance que des récompenses sont accordées aux auteurs.

La Constitution américaine formulait déjà de tels principes, en affirmant que le droit d’auteur existe pour « favoriser le Progrès de la Science », mais jamais encore la jurisprudence n’avait eu l’occasion de dire aussi nettement que le copyright constitue en réalité avant tout un droit du public.

L’exploration de textes au regard de l’usage équitable

Sur la base de telles prémisses, la Cour d’appel s’est donc logiquement tournée vers une appréciation des buts poursuivis par Google dans son projet et de l’utilité sociale procurée par les services mis à disposition du public. Contrairement aux juges français lorsqu’ils ont été saisis de la même affaire lors du procès Google/La Martinière, les trois juges américains ne se sont pas arrêtés au fait que Google a effectué des copies d’oeuvres protégées ; ils ont aussi cherché à savoir pourquoi il avait opéré ces reproductions.

Dans l’état actuel des choses, Google Books propose essentiellement une fonctionnalité de recherche en plein texte au coeur des livres numérisés, indiquant à l’utilisateur la localisation des occurrences des termes recherchés, ainsi que la visualisation de trois brefs extraits (snippets) et non de l’intégralité des ouvrages. Google propose aussi un service d’exploration de textes (Google Ngram Viewer), permettant de visualiser sous forme de graphiques l’évolution des occurrences d’un terme au fil du temps sur l’ensemble des livres numérisés (ou au choix des sous-ensembles ciblés du corpus).

ngram
Visualisation de résultats dans Google Ngram Viewer.

Pour les juges, résoudre l’affaire a consisté à déterminer si ces usages était bien « transformatifs » (un des quatre critères du fair use) ou s’ils constituaient au contraire pour l’utilisateur un « substitut » aux livres originaux. La réponse à cette question a été que les fonctionnalités de recherche et de fouille de textes présentent en elles-mêmes un caractère « hautement transformatif » :

Le but de Google en copiant les livres originaux protégés est de rendre disponible des informations pertinentes à propos de ces livres, permettant à un chercheur d’identifier ceux contenant un mot ou une expression l’intéressant, tout comme ceux n’incluant pas une telle référence. De plus, avec l’outil Ngrams, Google autorise les lecteurs à connaître la fréquence des usages de mots sélectionnés dans le corpus global des livres publiés à différentes périodes historiques. Nous n’avons aucun doute que le but de ces copies correspond au type de but transformatif décrit [dans la jurisprudence sur le fair use].

La question de l’offre de substituts aux livres originaux se posait particulièrement à propos des entrefilets (snippets) affichés par Google en regard des réponses aux requêtes. Mais là encore, les juges admettent sans difficulté leur caractère « transformatif » quand bien même le texte d’origine est présenté à l’utilisateur :

La séparation des pages en courts entrefilets opérée par Google est conçue pour montrer au chercheur une portion suffisante du contexte dans lequel apparaît le terme recherché pour l’aider à évaluer si le livre correspond bien à ses centres d’intérêt (sans révéler suffisamment de contenus pour menacer les intérêts légitimes de l’auteur). Dès lors, les entrefilets contribuent de manière importante au caractère hautement transformatif de l’objectif consistant à identifier des livres correspondants aux centres d’intérêt du chercheur.

Entrefilets (snippets) affichés par Google en fonction d’une requête.

On notera aussi que le fait que Google soit une société commerciale n’a pas été retenu comme un critère pertinent pour écarter le bénéfice du fair use, et ce pour deux raisons : 1) Google ne vend plus de livres protégés sans accord explicite des titulaires de droits, ni n’affiche de publicité dans l’interface même de Google Books, 2) de nombreux usages d’oeuvres protégées couverts par le fair use comme la citation, la critique, le commentaire ou la parodie peuvent tout à fait être réalisés dans un but de profit.

Un droit à l’extraction automatisée des informations

Lorsqu’on lit un livre papier, l’esprit humain est capable d’en extraire les informations pertinentes et c’est de cette manière que s’opère la transmission du savoir que favorise la lecture. Les partisans du Text et Data Mining estiment que ce « Droit de Lire » doit être reconduit dans l’environnement numérique en permettant l’extraction automatisée d’informations à partir de reproductions d’oeuvres, sans interférence du droit d’auteur qui n’a pas à entraver ce type d’usages (voir la déclaration de La Haye et la campagne « The Right To Read Is The Right To Mine »).

C’est exactement ce qu’ont consacré les trois juges d’appel en rappelant que le droit d’auteur sur une oeuvre protégée ne s’applique pas aux informations sous-jacentes qu’elle peut contenir. Le passage ci-dessous est lumineux de ce point de vue :

La faculté d’un entrefilet à satisfaire le besoin d’un chercheur pour un livre protégé donné découle du fait que l’entrefilet contient un fait historique que le chercheur a besoin de vérifier. Par exemple, un étudiant écrivant un travail sur Franklin D. Roosevelt peut avoir besoin de connaître l’année où Roosevlet a été frappé par la polio. En tapant « Roosevelt Polio » dans Google Books, l’étudiant sera conduit (parmi de nombreuses autres sources) vers un entrefilet correspondant à la page 31 du livre « The Making of Franklin D. Roosevelt » écrit par Richard Thayer Goldberg (1981), expliquant que cette attaque de polio est survenue en 1921. Cela répondra au besoin du chercheur, éliminant certes au passage tout besoin d’acheter ce livre ou de l’obtenir par le biais d’une bibliothèque. Mais ce que le chercheur a obtenu par le biais de l’entrefilet est un fait historique. Le droit d’auteur de Goldberg ne s’étend pas aux faits communiqués à travers son livre. Ils ne protègent que la manière dont l’auteur les a exprimés.

Dès lors les informations – même « encapsulées » dans les livres – doivent rester disponibles. Cela allait de soi à propos de l’opération de lecture individuelle, qui est toujours restée un acte entièrement libre et les juges américains n’ont fait que reconduire cette liberté fondamentale à propos de la lecture automatisée. La différence fondamentale est qu’ils admettent ici l’extraction d’informations y compris s’il est nécessaire de réaliser une reproduction intermédiaire pour l’effectuer.

Un horizon qui s’ouvre pour l’exploration de textes… aux Etats-Unis !

Les acquis de cette décision Google Books vont profiter par ricochet à toutes les bibliothèques partenaires ayant reçu des doubles des copies numériques des ouvrages. On a ici confirmation qu’elles peuvent offrir à leur public des services de recherche et de fouille de données à partir de ces corpus. Ce sera notamment le cas pour le grand entrepôt numérique Hathi Trust, né d’un regroupement d’institutions publiques partenaires de Google, qui a aussi été vainement attaqué en justice par des auteurs américains lui contestant la possibilité d’utiliser ces reproductions.

Plus largement, tous les chercheurs aux Etats-Unis se verront désormais ouvrir des possibilités considérables en matière de Text et Data Mining. En vertu de ce jugement, ils pourront en effet :

  1. Numériser des ensembles très larges de contenus protégés par le droit d’auteur dès lors qu’ils sont accessibles à partir d’une source licite ;
  2. Conserver ces corpus sans limite dans le temps et sans obligation de les détruire une fois utilisés ;
  3. Les transmettre à des tiers, comme l’a fait Google avec ses bibliothèques partenaires, les mutualiser au sein d’entrepôts partagés comme le fait Hathi Trust ;
  4. Développer des fonctionnalités d’indexation et de recherche au sein de ces ensembles ;
  5. Effectuer des analyses computationnelles, en soumettant ces contenus à des traitements opérés par des algorithmes ;
  6. Afficher des extraits des contenus – limités à de courts entrefilets pour ne pas constituer un substitut au texte original – , affiché en regard des résultats de recherche pour les contextualiser ;
  7. Et le tout, même si le projet de recherche possède une dimension commerciale, du moment que les contenus en eux-mêmes ne sont pas revendus !

Avec cette jurisprudence Google Books, les États-Unis viennent donc d’ouvrir à leurs chercheurs un champ immense pour pratiquer le Text Mining, leur conférant un avantage significatif sur leurs homologues européens, même par rapport à l’Angleterre où l’exception introduite l’an dernier est beaucoup moins souple que cette application du fair use américain.

Pendant ce temps, en France…

J’avais déjà analysé dans S.I.Lex une étude récente ayant montré que dans les pays dotés d’une exception dédiée ou d’un système de fair use, les recherches s’appuyant sur le Text et Data Mining étaient en moyenne trois fois plus nombreuses que dans les autres.

Trois fois plus de recherches utilisant le TDM dans les pays de fair use…

La France de son côté – comme souvent hélas pour tous les sujets impliquant le droit d’auteur – fait pâle figure. La loi numérique préparée actuellement par Axelle Lemaire contenait bien à l’origine une exception (limitée) en faveur de l’exploration de textes et de données, mais cette disposition a sauté au fil des pressions exercées par les éditeurs. La question est revenue sur le tapis à l’occasion de la consultation ligne sur le texte qui s’est achevée la semaine dernière. Mais il n’est pas assuré que le gouvernement trouve le courage politique de réintroduire cette exception dans le texte qu’il présentera au Parlement… Le projet ReLIRE à propos des livres indisponibles, que l’on présente souvent abusivement comme la réplique française à Google Books est lui-aussi en complet décalage, puisqu’il n’a consisté qu’à mettre en place une grosse librairie numérique, sans se préoccuper des enjeux pourtant essentiels liés au Text Mining.

Le problème qui affecte la France est en réalité très profond. Là où la justice américaine est capable de dire que le droit d’auteur est avant tout un droit du public, nous restons paralysés par une vision « propriétariste » étriquée, qui rend imperméable les juges à la prise en compte de l’intérêt général. Les vieilles notions figurant dans le Code (la reproduction, la représentation, la courte citation et en général, notre conception étroite des exceptions) sont bien trop pauvres pour appréhender la complexité mouvante des réalités numériques par rapport à l’adaptabilité dont fait preuve le fair use.

Mais le droit n’est pas le seul en cause et les œillères idéologiques jouent aussi un rôle puissant. Lorsque le CSPLA – organe rattaché au Ministère de la Culture – a produit par exemple en 2014 un rapport sur le Text et Data Mining, le juriste Jean Martin, à qui était confiée cette mission, commence dès l’introduction à assimiler l’exploration de textes et de données à une forme de « parasitisme » des oeuvres protégées pour recommander au final au gouvernement… de ne rien faire ! De son côté, l’avocat Richard Malka, dans son pamphlet « La gratuité, c’est le vol » commandé par le SNE,  consacre des  développements particulièrement acerbes au Text et Data Mining :

Une possibilité serait donnée aux utilisateurs de reproduire gratuitement, dans des bases de données numériques, des œuvres protégées afin de permettre des recherches sur ces œuvres visant à produire, par extraction, des données nouvelles.

Si de tels investissements pouvaient être légalement pillés, aucun éditeur n’engagerait désormais le moindre financement pour créer de tels outils. Il n’existe, en réalité, aucune activité économique au monde dont les productions peuvent être librement expropriées pour cause d’utilité publique et sans dédommagement.

[…] Cette destruction de valeur ne profiterait en réalité qu’à des acteurs tels que Google, qui ne tirent pas leur rémunération des banques de données elles-mêmes, qu’ils pourraient ainsi «aspirer», mais de la monétarisation publicitaire du contenu qu’ils offrent. Un tel processus reviendrait ainsi à confier un pouvoir exorbitant sur la connaissance à quelques sociétés, ce qui serait l’opposé de l’objectif affiché.

Le problème, c’est que l’issue du procès Google Books contredit complètement ces prédictions quasi-eschatologiques. Par le biais du fair use, les États-Unis ont au contraire redistribué de manière équitable la capacité d’explorer automatiquement les textes et les données à tous les acteurs commerciaux sans discrimination, mais aussi à leurs institutions publiques et à leurs équipes de chercheurs afin de maximiser l’utilité sociale de ces nouvelles technologies. Quelque part, cette issue est l’une des pires possibles pour Google, qui a longtemps cherché dans cette affaire à s’arroger une exclusivité pour rentabiliser les investissements énormes avancés pour la numérisation des livres. Le risque majeur de l’affaire Google Books, c’était que le moteur de recherche acquiert un titre exclusif sur l’utilisation des contenus. Et le moment où on a frôlé une telle catastrophe, c’est précisément lorsque Google a réussi à négocier un règlement avec les homologues américains du SNE, heureusement dénoncé par la justice ! Heureusement l’affaire est repartie ensuite sur le terrain du fair use et dorénavant, la combinaison de deux facteurs – la transmission de doubles des fichiers à des établissements publics et les possibilités d’usage consacrées par le fair use – garantissent l’ouverture du système, en permettant à une pluralité d’acteurs d’opérer à présent dans le champ du Text et Data Mining.

***

Il devient urgent que les pouvoirs publics français se libèrent de l’emprise des maximalistes du droit d’auteur qui leur hurlent des contre-vérités à l’oreille, avant que les dégâts à l’échelle internationale, notamment pour la recherche, ne deviennent irréversibles.

 

 

 

Spare Rib : un projet exemplaire de numérisation d’une revue orpheline

L’an dernier, j’avais consacré dans S.I.Lex un billet à la manière dont le Royaume-Uni a mis en place un système pour traiter le problème particulier des oeuvres orphelines. Ce dispositif découle d’une directive européenne adoptée en 2012, mais il va plus loin en organisant l’octroi de licences pour l’utilisation d’oeuvres toujours protégées par le droit d’auteur, mais dont on ne peut identifier ou localiser les titulaires de droits. L’Angleterre a fait le choix intéressant d’ouvrir une plateforme en ligne pour faciliter l’octroi de ces licences, en prévoyant des sommes modiques à verser pour les usages non-commerciaux, notamment lorsqu’ils sont effectués par des bibliothèques, archives ou musées.

Couverture du magazine féministe anglais Spare Rib de décembre 1972. Source : Wikimedia Commons

Les premiers retours sur l’efficacité de ce dispositif semblent assez concluants. Mais un nouvel exemple d’utilisation me paraît particulièrement intéressant pour montrer les marges de manoeuvre qui s’ouvrent à présent aux institutions culturelles anglaises. Il s’agit du projet de numérisation et de mise en ligne de la revue féministe Spare Rib, conduit par la British Library. Ce magazine paru de 1972 à 1993 soulevait des problèmes particuliers en matière juridique, car plus de 4000 collaborateurs ont participé à sa publication, créant un écheveau de droits particulièrement inextricable. Lire la suite