Révélation : c’est Aaron Swartz qui libérait les livres de Google Books sur Internet Archive !

Le 24 janvier dernier, dans la magnifique église à San Francisco qui tient lieu de siège à Internet Archive, une cérémonie a eu lieu à la mémoire de l’activiste Aaron Swartz, dont le suicide il y a quelque semaines a provoqué un véritable électrochoc. A cette occasion, Brewster Kahle, le fondateur d’Internet Archive, a prononcé un discours au cours duquel il a fait une révélation importante à propos d’Aaron Swartz.

http://www.flickr.com/photos/ari/8413719988/
Aaron Swartz memorial at Internet Archive in San Francisco. Par Steve Rhodes. CC-BY-NC-ND. Source : Flickr


Aaron Swartz était connu pour les actions qu’il a conduites contre des bases de données propriétaires, afin d’en libérer le contenu. En 2008, il s’en était d’abord pris à la base américaine de jurisprudence PACER, qui faisait payer l’accès à ses contenus, en téléchargeant 18 millions de documents, ce qui lui avait valu des ennuis avec le FBI. Fin 2010, Aaron Swartz a aussi utilisé la connexion du MIT pour télécharger près de 5 millions d’articles scientifiques depuis la base JSTOR. C’est cette dernière action qui lui valut les poursuites acharnées de la justice fédérale américaine, qui l’ont poussé au suicide.

Ces faits sont connus, mais il existe un autre coup d’éclat dont Aaron Swartz est à l’origine et sur lequel il me paraît important d’attirer l’attention. Dans son discours, Brewster Kahle explique l’importance que le domaine public revêtait aux yeux d’Aaron Swartz, ce qui l’avait conduit à travailler avec Internet Archive, notamment sur le projet Open Library. Or en 2010, un phénomène étrange est survenu : des centaines de milliers de fichiers en provenance de Google Books ont été chargés dans Internet Archive (908 162 livres exactement). J’avais écrit à l’époque un billet à propos de ces « robins des bois » numériques, dont l’intention était visiblement de libérer le domaine public des restrictions imposées par Google dans la réutilisation des fichiers.

En effet, si le modèle de Google consiste à permettre l’accès en ligne gratuitement aux ouvrages du domaine public qu’il diffuse, il maintient une restriction quant à l’usage commercial des contenus (visible sur une page de garde rajoutée dans les fichiers téléchargés depuis Google Books). Google interdit également les extractions automatisés de fichiers depuis son site, afin d’éviter que de gros volumes ne soient téléchargés.

Selon Brewster Kahle, Aaron Swartz avait trouvé le moyen de contourner les limitations imposées par Google et son geste a permis que ces livres soient transférés sur Internet Archive, avec une simple mention « Domaine public ». Google n’a visiblement jamais agi pour tenté d’empêcher la diffusion de ces fichiers sur Internet Archive et cela lui aurait sans doute été compliqué, car les restrictions qu’il impose sur une base purement contractuelle sont certainement fragiles sur le plan juridique.

Brewster Kahle at Aaron Swartz memorial at Internet Archive in San Francisco. Par Steve Rhodes. CC-BY-NC-ND. Source : Flickr

Ci-dessous, je retranscris et je traduis les propos de Brewster Kahle (à partir de 1:20 dans la vidéo), qui tire de cette histoire des enseignements concernant le domaine public et le devoir des bibliothèques, résonnant tout particulièrement en ce moment, avec la situation très préoccupante que nous connaissons en France :

Nous nous sommes rencontrés pour la première fois en 2002, lors du procès Eldred c. Ashcroft devant la Cour suprême à Washington (NB : procès très important intenté pour contester la constitutionnalité du Mickey Mouse Act, qui a étendu la durée du droit d’auteur aux Etats-Unis et causé de graves dommages au domaine public. Lawrence Lessig, le père des Creative Commons, était l’un des avocats qui a plaidé cette cause. Aaron Swartz avait à peine 15 ans à ce moment. Ce procès fut hélas perdu). Nous avions mis en place une « Bookmobile » pour célébrer le domaine public en distribuant des livres faits par des enfants. Je l’ai ensuite recroisé lors du lancement des licences Creative Commons. Mais j’ai vraiment commencé à le connaître lorsqu’il s’est investi dans le projet Open Library. Il s’agissait d’intégrer les livres directement dans Internet. Il nous avait dit : « j’ai développé Infogami, cette technologie qui a permis de mettre en place Reddit, utilisons-là à nouveau pour Open Library ». Et ce fut fantastique de travailler avec lui […]

Nous avons aussi travaillé ensemble dans d’autres domaines, lorsqu’il devint un champion du libre accès, spécialement à propos du domaine public. Mettre le domaine public en libre accès : beaucoup de personnes pensent que c’est une chose évidente. Que le domaine public signifie que les choses sont effectivement en libre accès. Non ! La réalité ressemble aux parcs nationaux, entourés de murs et protégés par des tours avec des mitrailleuses, prêtes à faire feu si quelqu’un s’approche de trop près…

Aaron fit ce qu’il pensait être juste et il a consacré beaucoup de temps et d’efforts pour rendre accessibles ces contenus. Une des premières actions sur lesquelles nous avons travaillé ensemble consistait à libérer les décisions de justice des tribunaux américains, de manière à ce que tout le monde puisse y avoir accès, sans avoir besoin pour cela de payer ou bénéficier d’un privilège. Il le fit aussi pour qu’on puisse faire du datamining avec ces contenus, afin d’y avoir accès d’une manière différente. Il libéra pour cela un grand nombre de décisions de justice de la base PACER et les téléchargea dans l’Internet Archive. Il y a à présent plus de 4 millions de documents en ligne, qui ont été vues par plus de 6 millions de personnes grâce à ce projet qu’Aaron Swartz et d’autres ont contribué à lancer […] Cette action m’avait vraiment personnellement frappé, car lorsque j’étais à l’université, nous ne disposions pas de collections de recueils de jurisprudence. Le seul moyen pour moi d’accéder à ces décisions était d’utiliser un identifiant que me donnait mon professeur et de m’introduire dans la bibliothèque de droit d’Harvard pour consulter la base des décisions de justice. C’est juste insensé ! Aaron a fait en sorte que cela retrouve du sens et il ne l’a pas fait seulement pour lui-même, mais pour que cela bénéficie à tout le monde.

Photos of Aaron Swartz at memorial at Internet Archive in San Francisco. Par Steve Rhodes. CC-BY-NC-ND. Source : Flickr.

Il y avait aussi d’autres collections du domaine public, celle des livres de Google Books. Google a numérisé et mis en ligne un grand nombre d’ouvrages du domaine public sur son site internet, mais l’accès est vraiment très pénible. Si vous voulez un livre, vous pouvez l’avoir. Mais si vous voulez 100 livres, ils bloquent votre adresse IP et ils vous bannissent pour toujours. Voilà ce qu’ils appellent un accès public au domaine public… Et un jour, on a vu arriver dans l’Internet Archive des chargements de livres, qui sont allés de plus en plus vite. D’où venaient-ils ? C’était Aaron ! Lui et quelques amis avaient imaginé un système où, avec quelques ordinateurs, ils pouvaient déjouer la limite fixée par Google et obtenir des masses de livres de Google Books pour les charger dans l’Internet Archive. Google n’a pas vraiment réagi, mais ses bibliothèques partenaires ont protesté […]

Quand c’est arrivé, nous nous sommes demandés ce qui allait se passer, mais il n’y a rien eu. C’était du domaine public. Nous avons utilisé les données pour faire un lien en retour vers Google. Et tout ça marche bien. C’était encore une fois Aaron, qui avait voulu donner un accès public au domaine public. Ce qui me déchire, c’est qu’Aaron a été poursuivi par la justice fédérale pour avoir fait quelque chose que l’Internet Archive encourage activement et encourage les autres à faire. Et nous pensons que toutes les bibliothèques devraient l’encourager également. Permettre le téléchargement massif pour pouvoir effectuer du data mining et d’autres formes de recherche assistées par ordinateur. C’est tout simplement dans l’ordre des choses.

La première étape pour qu’un ordinateur puisse lire et analyser des contenus est de pouvoir télécharger des ensembles de documents. Quand Aaron a voulu faire cela à partir de JSTOR, ils s’y opposèrent catégoriquement. Ils demandèrent au MIT de trouver et d’arrêter cet utilisateur et le procureur a ensuite utilisé ses pires techniques. Pourquoi n’y a-t-il eu personne pour dire stop et demander si le téléchargement massif était vraiment un crime ? Je dis non ! Le téléchargement massif n’est pas en soi un crime. Arrêtons de décourager le téléchargement massif, car c’est nécessaire pour le développement de projets qui nous permettront d’accéder autrement à la connaissance, en faisant en sorte que les ordinateurs participent au processus de recherche. Ne décourageons pas de jeunes gens d’imaginer de nouvelles façons d’apprendre de nos bibliothèques. Ce qui est arrivé dans cette affaire est tragique et insensé.

Ce que nous voulons, c’est que l’on laisse nos ordinateurs lire. Aaron le savait. Nous contribuons à le rendre possible.

Laissez nos ordinateurs lire !

PS : pour connecter tout ceci à ce qui est en train de se passer en France, le plus simple est d’aller lire le billet de Daniel Bourrion « Le jour où les bisounours mordront les vautours« .

PPS : merci @BlankTextField qui a repéré l’information dans la vidéo et  me l’a signalée.


27 réflexions sur “Révélation : c’est Aaron Swartz qui libérait les livres de Google Books sur Internet Archive !

  1. On voit donc clairement l’une des problématiques se dégager : la prohibition des extractions ou réutilisations massives. Lorsqu’il s’agit d’une base de données privées, composée d’entrées elles aussi protégées, ça peut dépendre. Mais si les bases contiennent des éléments qui sont dans le domaine public, l’extraction massive ne devrait jamais pouvoir être interdite.

    Le droit du producteur de bases de données est un problème très sérieux. S’il peut se comprendre qu’un investissement initial pour constituer une base reçoive une rémunération, ça ne devrait jamais pouvoir aller jusqu’à contredire la domanialité publique, ni jamais permettre la moindre restriction d’accès, qu’elle soit quantitative ou qualitative. La numérisation sert de prétexte pour réapposer des droits réservés, et c’est une illustration permanente du hold-up que constitue la dégénérescence du droit d’auteur en « droit d’éditeur ».

  2. Après la traduction de « Libraries, on the other hand, grunted », il vaudrait mieux mettre […] que « … », ou alors ne pas couper et je me trompe peut-être, mais il me semble que la suite est (1:19:05) « Which is odd… Anyway, they’ll get over it [laughter] » Au moins, les bibliothèques font rire…

    1. Oui, vous avez raison et j’ai modifié.

      Je dois avouer que cela m’a moyennement fait rire et cela rejoint hélas certains travers de la profession auxquels j’ai souvent été confronté…

  3. Merci infiniment pour ce billet qui clos le mystère dont nous avions discuté ici même en 2010. Je suis content de savoir enfin qui se trouvait derrière les sigles « TPB » et qui a orchestré cet acte magistral de libération sur IA de 900’000 livres du domaine public numérisés par Google dans les bibliothèques du monde entier, même si les détails de la façon dont il a contourné les barrières techniques de Google restent encore vagues. Je regrette seulement que cette information ait été partagée publiquement seulement au moment de la disparition de son auteur.

    Cette action géniale (du pur « public domain activism »!) ne fait qu’augmenter mon admiration pour Aaron Scwartz, et ma tristesse pour cette fin tragique du seul et vrai Robin des Bois de l’information. J’ai été très touché par certains témoignages dans cette vidéo, et je ne peux que constater à quel point nous sommes encore loin du but, à quel point les institutions académiques et scientifiques, et ses bibliothèques (merci pour nous avoir aussi ouvert les yeux dans ce blog concernant certaines pratiques très douteuses de ces dernières), moi y compris, commençons à faire partie du problème plutôt que de la solution, en perpétuant des modèles qui ne tiennent plus débout et en sacrifiant des valeurs fondamentaux sous couvert du respect du droit…

    C’est triste qu’il faille que quelqu’un meure pour que d’autres se réveillent mais ce n’est jamais trop tard :
    Aaron Swartz Memorial at the Internet Archive, Part 2

    [minute 20:38 à 23:00]

    1. J’ai pensé à vous dans ce billet, car je me souviens que vous m’aviez laissé un commentaire qui m’avait permis de mieux comprendre cette « fuite » des livres de Google Books vers Internet Archive.

      Cela renforce aussi pour moi l’admiration que je porte à Aaron Swartz, à son ingéniosité et à sa capacité à cibler des actions utiles pour tous.

      Il nous montre qu’il ne faut pas subir passivement, mais chercher dans l’action le moyen de changer les choses.

      Dans la période difficile que nous traversons, c’est une inspiration.

    1. La BnF n’a pas conclu un accord avec Google, mais avec deux sociétés : Proquest pour les livres anciens et Believe/Memnon pour les enregistrements sonores.

      Ceci dit, cela n’en est pas moins amer. La base de Proquest ressemble beaucoup à JSTOR, qu’Aaron Swartz avait hacké, ce qui avait déclenché les funestes poursuites en justice contre lui, avec les conséquences que l’on sait.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.