La numérisation des ressources textuelles nous amènera sans doute à être la civilisation qui aura organisé, avec un zèle et un esprit de collaboration enthousiaste, le plus grand autodafé de l’Histoire de l’Homme. Une numérisation qui aura conduit des bibliothèques entières à sombrer dans l’oubli et dans l’indifférence générale, sans que personne ne se soit jamais interrogé sur la pertinence de cette démarche. Il faut aujourd’hui oublier l’algorithme et les fantasmes de l’IA pour se concentrer sur l’éthique de la ressource.
Qu’est-ce que la ressource ? C’est la base de données mise à disposition de l’algorithme pour le traitement massif de l’information. Ce peut être un dictionnaire, une encyclopédie, ou l’intégralité des données analysables issues de la BNF, métadonnées comprises. L’ensemble des arrêtés des juridictions secondaires mises à disposition d’un algorithme statistique qui rendrait un jugement automatique en fonction «du verdict le plus souvent prononcé» est une ressource, le dictionnaire qui donne un sens aux arrêtés est également une ressource, l’ensemble des posts de Facebook traités par un algorithme genre «Cambridge Analytica» est une ressource, l’oeuvre intégrale de Flaubert est une ressource. L’IA n’est rien d’autre qu’un outil d’exploitation des ressources dont on aurait tout intérêt à saisir maintenant les enjeux d’une éthique de publication.
Que la publication est une question d’espace public, et donc de démocratie
Il faut en revenir aux enseignements de l’école de Francfort, et particulièrement de Jürgen Habermas, pour comprendre que les enjeux de la publication des données relèvent d’une négociation permanente des espaces publics, au coeur des enjeux démocratiques. Dans sa thèse, Habermas prend le modèle de la «publicité» comme contrepoint du secret, qui est le propre de l’état politique. À travers la médiatisation de la publicité se construit une opinion publique, véritable enjeu de démocratie, que de nombreuses institutions tentent en un mot de vassaliser, d’inféoder, à des intérêts subalternes. La littérature, en tant qu’opération silencieuse, est le lieu le plus à même d’incarner, de donner corps, à la notion d’espace public. L’exercice de la pensée, qui chez Habermas est indissociable du dialogue, implique les publics en tant qu’acteurs majeurs de la démocratie, et «l’opinion publique» comme une puissance publique raisonnable, véritable interlocuteur du pouvoir.
La littérature, c’est-à-dire la donnée, comme enjeu de renégociation des espaces publics, c’est l’essence même de la démocratie qui doit être objet d’une éthique renouvelée.
Nancy Fraser, qui fut la discipline d’Habermas, conduit une réflexion plus clivante autour de la nature de la publicité en établissant que la notion de littérature ne saurait en aucun cas se cantonner à la définition bourgeoise dont prend acte Habermas, mais qu’elle doit s’émanciper du silence qui la voit naître pour acter le renouvellement bruyant qui caractérise la contemporanéité. À propos de l’opinion publique, elle écrit ainsi :
«La formation de cette communauté immatérielle et homogène se fonde sur l’exclusion des contre-publics subalternes et justifie la nécessité de substituer à la logique littéraire et silencieuse celle d’un brouhaha qui se situerait donc dans une participation du livre et de l’édition dans la performance et l’investissement de l’espace public[1]».
L’idée d’une littérature-brouhaha[2], par essence contemporaine, ouvre les enjeux des publications de la donnée en permettant de penser de manière totale «l’expérience du contemporain» qui actualise le monde, et au sein duquel se joue la culture de la civilisation occidentale. La donnée numérique, qu’elle soit issue de la numérisation de la littérature brouhaha ayant préexisté, qu’elle soit vidéo de performance, enregistrements sonores, publications textuelles de bibliothèques virtuelles (comme l’université rêve d’en produire à longueur de projets stériles et mal pensés[3]), partage de pensées nativement numériques, données publiées sciemment ou littérature happening comme toute donnée de géolocalisation qui est identifiable à un auteur[4], toutes ces ressources dans leur apparente hétérogénéité doivent interpeller la République sur la mise en danger de la stabilité citoyenne par l’asservissement, l’inféodation des ressources mises à disposition à une restriction de l’espace public et à l’installation d’un confinement.
La publication, nouvel enjeu politique
À travers le brouhaha, Fraser pointe la nécessité pour les politiques contemporains de ne pas abandonner les nouvelles marginalités que la bourgeoisie ne cesse de créer en refoulant sans cesse les nouveaux auteurs des domaines où ils excellent. Partout, la bourgeoisie règne en maître, sur la scène du théâtre comme de la musique, elle s’exhibe à la télévision et ne parle sans cesse que de ce qui l’intéresse, à savoir elle-même. Le vaudeville aura tué la tragédie, TheVoice le chant lyrique, les tableaux de galerie ne sont au mieux que des miroirs tendus aux bourgeois par leurs courtisans qui pullulent de sorte que les nouveaux espaces de publication contemporains ne cessent d’inventer de nouveaux supports. : mobiliers urbains, oeuvres de mode détournées, nouveaux médias numériques, web militant. Le couple livre/auteur est mort quelque part dans les années 1970, cette parenthèse est fermée et il faut oublier que le livre de bibliothèque était le seul enjeu, silencieux, de la culture. Pour autant, il ne faut pas sanctuariser le livre, ce qui reviendrait à l’enterrer une fois pour toute. Notre bibliothèque d’Alexandrie contemporaine est destinée à croître encore, pour peu que nous intégrions les enjeux des nouveaux espaces de données fragmentaires qui sont le corps du Web-bibliothèque.
Si d’un côté donc, il convient d’oublier la publication du livre mort comme scénographie de la littérature de cimetière, il faut en revanche se doter des moyens de construire une publication d’un imaginaire vivant et de folklore qui soit construit en accord, en dialogue, avec la contemporanéité en évitant de reproduire des mécanismes d’édition passéistes fondés sur la modération personnelle, l’uniformisation et la mise aux normes. Il faut au contraire favoriser le partage et se doter des moyens de penser la labellisation des ressources dans des espaces publics, accessibles, maîtrisables.
L’imaginaire de la bibliothèque et ses institutions
Le Web avec Tim Berners Lee a été inventé dès l’origine comme une extension infinie de la bibliothèque d’autrefois. Le livre est le document, le rayonnage le serveur, la cote bibliothécaire l’URL[5]. Mais la métaphore s’arrête là, il n’existe pas de prêt bibliothécaire, une fois un document téléchargé pour consultation, il n’est pas possible de le rendre, plusieurs originaux peuvent coexister sur différents postes simultanément sans qu’il soit possible de les distinguer. Au-delà même des enjeux de publication des données propres aux nouveaux systèmes de communication et aux nouveaux médias, la logique ancienne du web documentaire disparaît progressivement au profit d’une recomposition fragmentaire de la logique de la consultation.
«Le travail documentaire portait le plus souvent, comme son nom l’indique, sur ces objets achevés que sont les documents. On sait qu’une première brèche a été ouverte dès lors que le document, devenu numérique, évoluait vers une structure ouverte, granulaire et recomposable. L’idée du web de données est bien de repérer et de structurer des grains d’information à l’intérieur des structures documentaires pour les exploiter en les reliant entre elles de manière logique et standardisée[6]».
Cette pensée fragmentaire ouverte vers une pensée du «lieu de la donnée[7]» explose au sens propre la question de la ressource, abolit les frontières traditionnelles de l’ouvrage avec sa couverture initiale et sa quatrième et nous fait entrer dans une pensée de l’indexation absolue, où toute expression, quelle que soit sa langue, son idée maîtresse, son éditeur ou son lieu de donnée, abonde au fond commun de «l’opinion publique» selon une ontologie propre, c’est-à-dire un motif de classement, qu’il convient de s’approprier sous peine de voir apparaître des stratégies de réduction de la pensée qu’il faudrait ensuite combattre. Cet enjeu de pensée collective est essentiel pour la modernité et implique de maîtriser non pas la conception des algorithmes, qui est une mécanique sans intelligence ni âme, mais l’exploitation des ressources selon des modalités innovantes.
C’est un enjeu d’autant plus important que la logique du prêt documentaire à travers la bibliothèque du Web est un modèle techniquement dépassé par l’importation de nouvelles technologies dont l’enjeu est de faire disparaître la ressource-fichier, qui ressemble au livre en ce sens qu’il a un début et une fin, au profit de ressources co-construites par le lecteur et son navigateur. Une solution exemplaire de ces nouvelles stratégies est la philosophie client-serveur REST, basée sur un modèle fonctionnel. En un mot : lorsqu’un client demande, par le biais d’une URL, une ressource, le serveur ne «sert» aucun document existant, il le construit en direct en fonction des paramètres de l’URL transformée en requête.
Autrement dit, dans un cadre REST, le client et son navigateur deviennent des co-constructeurs de la ressource (design thinking) et si l’on souhaite par exemple consulter à travers une API REST l’ensemble des occurrences du mot «poisson» dans une phrase de Jules Verne, et bien, sans que l’ouvrage n’ait jamais été écrit auparavant, vous accèderez malgré tout à une présentation tabulaire des résultats de la requête URL dont vous êtes l’auteur-lié désormais. La conséquence d’une telle manipulation est de faire du navigateur et des URL des lieux de publication essentiels, et de faire de chaque lecteur, un auteur productif de la nouvelle industrie éditoriale du web, et à son insu.
Les institutions internationales qui réfléchissent aux enjeux éditoriaux de la publication web, comme le W3C, associent des institutions gouvernementales et des acteurs des grandes industries du web comme Microsoft ou Netscape, Google et Safari. Ces acteurs sont présents pour définir des directives qui sont ensuite traduites en code dans les mécaniques logicielles du Web : Nginx et Apache pour les serveurs entre autres, Firefox, Chromium, IE ou Safari pour les navigateurs. Leurs préconisations portent sur tous les aspects éditoriaux de la ressource : les normes CSS, l’encodage XML, les langages de requête comme XSLT ou XQuery, HTML, HTML5, XHTML, RDF, RDFS, OWL, etc… La France est totalement absente de ces associations : allez comprendre. Lorsque pour ma part j’ai pu me rendre, pour mon logiciel Isilex[8], à l’une des réunions du W3C, j’ai été très surpris de voir que la présentation des normes CSS accordait une place incroyable au Codex, au livre ancien, et à sa représentation numérique. Je n’ai jamais vu autant de gens intéressés par le livre ancien que ces gens honorablement réunis pour parler de la dématérialisation numérique du livre. Ils évoquaient les 16 places marginales de la note, le foliotage, la numérotation des pages, la disposition des en-tête. Je n’ai pas pu m’empêcher de leur faire remarquer ce qui était une évidence pour le littéraire que j’étais : le codex était mort, le rouleau (scroll) régnait en maître. J’étais, visiblement, en décalage par rapport aux attentes des réunions. Mais cette substitution progressive des enjeux du livre aux comités du W3C, composés comme je l’ai dit d’acteurs d’institutions américaines et des majors du web, pose définitivement la question des enjeux de l’éthique de la ressource et d’un nouvel humanisme numérique, qui ne se contente pas d’être client des fragments exploités.
Le risque qui est posé ici est celui de l’inféodation de toute expression, même les plus marginales, même les plus «brouhaha», au service d’une algorithmique privée de conscience, réduite à nouveau à un empan acceptable dont le public se voit confisquer la maîtrise. Cette obfuscation progressive des enjeux de la ressource est un problème majeur occulté par les béats de l’algorithme qui pensent sincèrement que les mécaniciens sont les ingénieurs qui ont inventé l’avion.
C’est pourtant un enjeu fondamental de démocratie et de politique qui consiste à se poser deux questions.
D’abord, la question de la validation et de la labellisation des ressources numériques (livres, textes, blogs, théâtres, films, reportages et que sais-je encore), non pas en termes de marchés éditoriaux, mais plutôt d’édition partagée, à plusieurs degrés de lecture de la moins savante à la plus archéologique.
Ensuite, de l’exploitation des productions brouhaha du web par des moissonneuses des majors de l’indexation, et des données-ressources produites de seconde main par le tri de ces informations.
En sous-main de ces questions, surgissent les notions importantes de maîtrise des enjeux de la chaîne éditoriale du web alors que la 5G pointe doucement le bout de son nez, redoublant les questions liées aux données produites consciemment mais également inconsciemment qui ont le statut de littérature publique au même titre que n’importe quel écrit. Il faut se doter d’une éthique de la ressource qui réponde à la question de l’expression démocratique d’une opinion publique plus raisonnable, émancipée de l’instrumentalisation des sondages. C’est à ce prix, et à ce prix seulement, que nous créerons les conditions d’un humanisme numérique.
Dans le modèle des propositions du rapport Villani révélés à la presse, la question de l’éthique ne se pose que dans le rapport à l’algorithme, faisant peu cas de l’éthique de la ressource. «Machine à exclure», «société de boîte noire» : tout le discours est une transposition de la doctrine de la transparence appliquée à la mécanique des programmes. Comme s’il existait une éthique de la tronçonneuse qui passait par la compréhension par le bûcheron du moteur à soupapes, comme s’il existait une éthique de la clef anglaise passant par la compréhension des mollettes… Mais c’est somme toute normal : tout ce qui concerne la publication du brouhaha de l’opinion publique contredit l’État. Il est normal que l’État ne s’en soucie pas ou en décentre les enjeux au profit de vieilles ritournelles comme la «transparence de l’algorithme», métaphore de la transparence du programme politique. L’exclusion opérée par l’algorithme, comme si la société de demain devenait une société plus intelligente parce que liée à l’algorithme, alors que c’est le contraire en vérité, c’est parce que la société produit et maîtrise des outils sophistiqués comme l’algorithme qu’elle engendre de l’intelligence.
Ces ritournelles sont un écueil pour le collectif. À nous de saisir cette opportunité pour faire émerger une pensée dissonante qui accorde à la ressource, dernière trace des humanités dans la civilisation numérique, la place centrale qu’elle ne doit jamais cesser d’occuper.
[1]Nancy Fraser, «Repenser la sphère publique. Une contribution à la critique de la démocratie telle qu’elle existe réellement», Hermès, n° 31, 2001 [1992].
[2]C’est une allusion à l’ouvrage de Lionel Ruffel, Brouhaha, Les mondes du contemporain, Lagrasse, Éditions Verdier, 2016, 217 p.
[3]http://obvil.sorbonne-universite.site/obvil/presentation
[4]Il peut être étonnant de considérer qu’une donnée collectée sur le dos du citoyen-puceron pourrait lui appartenir. Et pourtant, qui contesterait que les brouillons d’une oeuvre sont attribuables à son auteur ? Or, ont-ils été destinés à la publication ? Bien sûr que non, ils ont été détournés par l’éditeur qui en a fait un objet de publication, et dans l’indifférence générale. La même logique est applicable à toute ressource née de la collecte d’informations à partir d’un individu dont la présence au monde fait littérature au sens du brouhaha.
[5]«The Semantic Web is envisioned as a decentralised world-wide information space for sharing machine-readable data with a minimum of integration costs. Its two core challenges are the distributed modelling of the world with a shared data model, and the infrastructure where data and schemas can be published, found and used» http://www.w3.org/TR/2008/NOTE-cooluris-20081203/
[6]Cotte D. (2011), «Les nouvelles perspectives du web sémantique pour les professionnels de l’information» in Sylvie Dalbin et al., «Approches documentaires : priorité aux contenus», Documentaliste-Sciences de l’Information 2011/4 (Vol. 48), p. 42-59.
[7]Voir sur ce sujet X.-L. Salvador, «Indexer des documents «du dedans» : quels moyens de répondre à la question du lieu de la donnée (XML, OWL, RDF, REST) ?» in Questions de Communication, 31.