Documentarité et données, instrumentation d’un concept

Perret, Arthur

Documentarité et données, instrumentation d’un concept

Arthur Perret, Olivier Le Deuff

2019-10-09

12^e colloque international ISKO-France

https://hal.archives-ouvertes.fr/hal-02307039

Cet article constitue une synthèse sur le concept relativement récent de documentarité et propose un exemple de son application aux données. La synthèse montre que la documentarité ne se confond pas avec la notion de document ni avec la théorie de la documentalité. La documentarité correspond à « ce qui fait document ». Elle contribue à la théorie de notre perception des objets informationnels. Elle éclaire notamment la dimension processuelle et interprétative des données, dans le même esprit que les termes d’obtenues (Latour) et de capta (Drucker). L’exemple d’un portail de données bibliographiques permet d’illustrer dans la pratique des composantes de la documentarité telles que les dispositions et les affordances.

1 Introduction

L’essor du Web avait occasionné en France une vaste réflexion sur l’articulation entre ancien et nouveau régime documentaire, notamment autour de la notion de « redocumentarisation » Pédauque, La redocumentarisation du monde, 2007.
et de ses critiques Courbières, « La question documentaire à l’épreuve du numérique », 2008.
. Une nouvelle période de questionnements s’est ouverte depuis, polarisée par la notion de données, laquelle interroge comme précédemment les fondamentaux de la gestion de connaissances, ainsi que ceux des sciences de l’information et de la communication (SIC) de façon plus globale. De la même façon que se dessinent les contours d’un imprimé post-numérique, au sens d’un paradigme commun aux deux supports, le document résiste épistémologiquement à une certaine forme de discours techno-prophétique qui aurait voulu lui substituer la donnée sans autre forme de procès. C’est ainsi qu’après avoir longuement interrogé ce que devient le document au 21e siècle, un nouveau questionnement émerge : qu’est-ce qui est susceptible de « faire document » dans les données et les mégadonnées ? En réponse à cela, nous proposons d’examiner le concept de documentarité, dont les origines sont multidisciplinaires. Il s’agit de situer ce concept vis-à-vis de la recherche sur les propriétés de la notion de document ainsi que sur l’épistémologie des données, puis d’examiner son instrumentation.

4 Épistémologie des données

La notion de données est plus ancienne que son usage en informatique. Le terme lui-même n’émerge qu’au 17e siècle, dans une phase du développement de l’instrumentation scientifique qui voit se multiplier les objets d’observation systématique. Bien que non formulée comme telle, c’est l’essor d’une pratique de documentation du travail expérimental qui va faire naître la donnée. La logique en est déjà définie dans l’Encyclopédie de Diderot et D’Alembert :

« Données, adj. pris subst. terme de Mathématique, qui signifie certaines choses ou quantités, qu’on suppose être données ou connues, & dont on se sert pour en trouver d’autres qui sont inconnues, & que l’on cherche. Un problème ou une question renferme en général deux sortes de grandeurs, les données & les cherchées, data & quæsita ».

Une certaine catégorie de quæsita procède de la certitude épistémologique, quasiment philosophique, suivant laquelle les données cherchées sont moins inconnues que non encore connues. Le mouvement des sciences sociales prédictives illustre à l’extrême ce positionnement méthodologique. L’autre catégorie correspond aux données inférées, produites par déduction à partir de données existantes. C’est le principe du Web sémantique (Linked Open Data, LOD) : permettre d’interroger des données exposées pour faciliter la production de nouvelles connaissances. La structuration et les métadonnées constituent les principaux leviers d’enrichissement de ces données.

En France, la distinction entre document et données constitue un thème de recherche important au tournant du 20e siècle, que les SIC ont abordé notamment par le concept de redocumentarisation. Ce terme porte à la fois l’idée d’un passage de l’analogique au numérique et d’une atomisation du document dans ses modes de production Pédauque, La redocumentarisation du monde, 2007.
. Le débat sur la pertinence de la notion de document est alors axé sur deux aspects. Le premier, toujours d’actualité, concerne le bouleversement des valeurs documentaires traditionnelles, au premier rang desquelles la preuve. Le second aspect du débat a trait à la granularité ou à l’échelle documentaire. Paul Otlet avait théorisé le dépassement du livre sur la base d’une unité informationnelle abstraite, le biblion, et d’une unité documentaire concrète, la fiche Robert, « Le biblion et les substituts du livre », 2015.
, une vision en partie vérifiée par la généralisation de l’informatique bureautique.

En revanche, la science de l’information anglo-saxonne se focalise plutôt sur la triade donnée-information-connaissance que sur le rapport entre données et documents. Une enquête très complète de Chaim Zins sur les approches conceptuelles de cette triade a montré que les définitions données pour data intègrent souvent le mot record ; celle de Michael Buckland en est un bon exemple : « The word “data” is commonly used to refer to records or recordings, statistical observations, collections of evidence » Cité dans Zins, « Conceptual approaches for defining data, information, and knowledge », 2007.
. On peut y voir un phénomène de repli de l’ancienne bibliothéconomie (américaine notamment) face à l’émergence d’une « science des données » (data science).

Si la promesse du Web sémantique avait incité les chercheurs à se poser de nouveau la question des différents niveaux de documents, l’émergence des mégadonnées (ou big data) rend cette question en partie caduque, ou du moins la déplace. Il est acquis que la donnée est nécessairement plus petite que le document, ce qui facilite une économie de l’information basée sur la raison computationnelle (calcul, recombinaison) avec les outils informatiques classiques développés durant la seconde moitié du 20e siècle. En revanche, l’agrégation de données sous forme de masses volumineuses et hétérogènes remet ces approches en question : les mégadonnées constituent des éléments infra-informationnels (selon l’expression de Bruno Bachimont) qui excèdent les capacités d’analyse à la fois méthodologiques et technologiques existantes. Le débat sur l’articulation entre document et données se déplace alors des questions de granularité — influencées par l’orientation positiviste des premières théories documentaires — à celles d’architecture. De nouvelles technologies sont développées pour monter en charge sur l’analyse brute, dont l’apprentissage profond. Il est intéressant de noter que la logique sous-jacente à l’analyse ne change pas ou peu : l’esprit humain tend à rechercher des motifs réguliers dans des phénomènes désordonnés, nous développons simplement des techniques nouvelles adaptées à la complexification croissante de nos objets d’étude.

À cette terminologie descriptive — données, cherchées, mégadonnées —, est venue s’ajouter une terminologie plus conceptuelle. Dans les années 1990, les sociologues des sciences ont critiqué l’usage du mot « donnée » pour désigner des objets en réalité construits, arrachés au terrain au prix d’un temps et d’efforts parfois considérables. Le mot « obtenue » est notamment suggéré par Bruno Latour comme une alternative souhaitable :

« La tentation de l’idéalisme vient peut-être du mot même de données qui décrit aussi mal que possible ce sur quoi s’appliquent les capacités cognitives ordinaires des érudits, des savants et des intellectuels. Il faudrait remplacer ce terme par celui, beaucoup plus réaliste, d’obtenues et parler par conséquent de bases d’obtenues, de sublata plutôt que de dataLatour, « Pensée retenue, pensée distribuée », 2007, p. 609.
».

Le mot sublata apparaît à diverses reprises dans les travaux de Latour mais il fait une occurrence particulièrement intéressante dans Pandora’s Hope, où il est introduit suite à une remarque sur le rôle de la représentation graphique :

« In order for the botanical and pedological data to be superposed on the same diagram later, these two bodies of reference must be compatible. One should never speak of “data”—what is given—but rather of sublata, that is, of “achievements” ». Latour, Pandora’s hope, 1999, p. 42.

Les termes ne sont pas anodins. Achievement signifie accomplissement et sera traduit dans l’édition française par « obtenues ». Avec ce mot, Latour insiste sur le fait que la connaissance est le fruit d’une construction : pour lui, ce que nous appelons donnée est une information de nature processuelle. Quant à sublata, il découle des verbes latins tollo et suffero, qui signifient tour à tour élever, porter ou supporter. On peut y voir un lien avec la métaphore des nains se tenant sur des épaules de géants, très connue en sciences depuis sa reprise par Newton, et qui illustre la nature cumulative du savoir : nos accomplissements sont tributaires de ceux de nos prédécesseurs. La proposition de Latour sur les données nous semble liée à cette vision.

Plus récemment, Johanna Drucker a également avancé une alternative conceptuelle au mot « data ». Il s’agit des « capta » :

« Co-dépendantes, constituées de manière relationnelle entre l’observateur et les phénomènes observés, fondamentalement différentes du concept de la donnée comme phénomène indépendant de l’observateurDrucker, « Humanities Approaches to Interface Theory », 2011, par. 50.
».

Ceci prolonge son travail sur l’interface, formulé dans des termes similaires :

« Codépendance et contingence, l’expérience performative de la connaissance produite dans la relation entre environnement et sujet, tels sont les termes qui définissent l’interface interprétativeDrucker, « Humanities Approaches to Graphical Display », 2011, p. 18.
»..

Comme Latour mais de façon plus systématique, Drucker s’appuie la représentation graphique des résultats statistiques pour suggérer un glissement terminologique et conceptuel :

« Croire que les données sont intrinsèquement quantitatives — évidentes, neutres sur le plan des valeurs et indépendantes de l’observateur — exclut la possibilité de les concevoir comme qualitatives, co-dépendamment constituées — en d’autres termes, de reconnaître que data sont des captas […] Je suggère que nous repensions fondamentalement les données comme des captas en termes d’ambiguïté plutôt que de certitude, et que nous trouvions des moyens d’exprimer graphiquement la complexité de l’interprétationDrucker, art. cit., par. 49-50.
».

Cette « complexité » dont parle Drucker provient notamment du fait que la représentation graphique hérite elle-même de modes d’interprétation, ainsi que d’expression : elle mobilise une ou plusieurs façons de penser, que nous devons prendre en compte. Les capta de Drucker traduisent le caractère cumulatif de la connaissance et la dimension processuelle de l’information scientifique, tout comme les sublata de Latour.

5 La documentarité des données

Nous avons établi que la documentarité est une qualité perceptible pouvant faire l’objet d’un jugement de valeur et que la donnée est une construction qui porte la trace de modes d’interprétation et d’expression. Afin de croiser les réflexions sur la documentarité d’une part et sur les données d’autre part, nous nous penchons sur un exemple concret de mégadonnées ouvertes (intersection de l’open data et du big data). Le portail Isidore moissonne, enrichit et expose des données bibliographiques issues de la recherche en SHS. Son utilisation nous permet de souligner trois logiques que nous pouvons relier aux éléments théoriques discutés précédemment.

La première logique est celle de la structuration. Elle est fondamentale, en ce que qu’elle conditionne les deux autres. Toute écriture numérique organise sa propre énonciation computationnelle, laquelle fait l’objet d’une textualisation par l’humain. Suite aux travaux de Samuel Goyet De briques et de blocs, 2017.
et Cléo Collomb « Faire compter les machines », 2017.
sur la notion d’architexte, nous définissons celle-ci comme une technologie intellectuelle qui permet une écriture de l’écriture, mobilisant aussi bien la liste que l’algorithme ou le balisage.

La donnée s’inscrit dans ce schéma. Son encodage est la première caractéristique qui constitue l’objet de notre regard interprétatif. Tout jeu de données est structuré suivant des règles syntaxiques spécifiques. L’API d’Isidore fournit des données en XML et en JSON, deux formats pensés pour le stockage et le transport de l’information numérique. Dans les deux cas, les données sont considérablement enrichies par rapport à leur source, grâce au croisement de plusieurs référentiels. Il en résulte des fichiers texte dont le seul volume peut influencer notre appréciation de leur valeur informationnelle. Toutefois leur présentation diffère grandement. Le XML fait un usage classique du « blanc » (retours à la ligne et indentation) qui lui confère un aspect relativement lisible, avec une seule information par ligne. En revanche, le JSON livré par Isidore est « minifié », c’est-à-dire que le blanc en est retiré à des fins d’optimisation. Il en résulte un fichier qui, théoriquement, contient la même information, avec des délimiteurs moins lourds que le XML, mais qui est beaucoup moins lisible.

La deuxième logique observée est celle de l’éditorialisation. Si la structuration est déjà une affaire de ligne éditoriale, l’éditorialisation suppose des choix de médiation de la donnée qui dépassent le simple format de stockage et mobilisent des programmes de conversion (telles les feuilles XSLT) ainsi que des feuilles de style (par exemple en CSS). Lorsque des données sont affichées dans un navigateur Internet, celui-ci propose une mise en forme par défaut. Des langages différents (tel XML et JSON) peuvent être traités différemment. Ainsi, Firefox (Mozilla) n’affiche pas directement le XML fourni par l’API d’Isidore mais une version sans balisage, ni retours à la ligne, ni indentation, au détriment de la lisibilité globale du fichier. En revanche, il propose une interface pour le JSON qui en facilite l’usage (moteur de requêtes, affichage des entêtes, copie rapide). Isidore comprend par ailleurs une interface graphique qui change entièrement l’expérience de la donnée par rapport à un usage « brut » via l’API. Notre perception repose alors en grande partie sur les caractéristiques de l’interface.

La troisième et dernière logique est celle de la réutilisation, qui correspond à la dimension combinatoire de la redocumentarisation, également exprimée par l’idée de raison computationnelle. Toute écriture humaine sur ordinateur entraîne des opérations de lecture, calcul et écriture par la machine. La récupération des données est en partie conditionnée par leur exposition et en partie par les compétences d’écriture du réutilisateur. Isidore propose un SPARQL endpoint, c’est-à-dire une interface vers le jeu de données structurées suivant le principe du Web sémantique. Il permet une plus grande liberté d’interrogation ainsi que l’automatisation des requêtes : un langage de programmation comme Perl ou Python peut combiner SPARQL et expressions régulières pour extraire certains champs d’un jeu de données, puis les inscrire dans un fichier avec une certaine syntaxe en vue d’autres utilisations, par exemple une analyse statistique.

Cet objectif de réutilisation peut rencontrer plusieurs obstacles. Le plus évident est la piètre qualité de certaines sources, que l’enrichissement ne permet pas de combler, et qui a un impact immédiat sur le traitement (absence d’informations, mauvais nommage de champs). On voit ici une limite majeure des services basés sur le moissonnage, fortement dépendants de la qualité de la structuration en amont. Mais il faut également songer à la manipulation volontaire, beaucoup plus aisée via des ordinateurs qu’aux temps de l’imprimerie. L’informatique a en effet généralisé un certain nombre de compétences éditoriales ; ainsi, comparée à celle de la monnaie, la falsification des statistiques apparaît comme triviale.

Dans l’exemple que nous avons développé, les données fonctionnent essentiellement sur le mode de la documentarité « forte » au sens de Ron Day : c’est le mécanisme traditionnel de la référence, qui repose sur la structuration et les métadonnées. Nous en jugeons la qualité en fonction de l’adéquation à nos besoins d’information ou de réutilisation, en référence à des normes (syntaxe, nomenclature). Ce que nous appelons degré de documentarité de ces données procède de leurs pouvoirs d’expressions intrinsèques. Mais cette composante dispositionnelle est fortement contrainte par les affordances du support, en l’occurrence le navigateur. Notre interaction avec les données définit leur capacité à manifester l’évidence ; leur degré de documentarité dépend alors en partie de notre expérience informationnelle.

Par ailleurs, si on a pu dire que la documentarité en régime numérique n’est pas évidente Crozat, « Proposition : principe de documentarité », 2016.
, c’est parce que l’inscription des pouvoirs d’expression se fait par un jeu d’écriture plutôt difficile d’accès. La culture technique n’est pas partagée par tous les acteurs impliqués dans l’exposition des données. En aval, c’est la même chose : le passage par des jeux d’écriture sophistiqués limite fortement la réutilisation. Interfaces, codes sources et algorithmes constituent un codage complexe qui n’appartient pas encore à nos référentiels partagés, contrairement à des supports tels que le livre. La dimension cumulative et processuelle de l’information est d’autant plus complexe à interpréter. La part de documentarité « faible » rentre alors en jeu. Cet aspect transparaît peu dans le cas des données bibliographiques ; on peut imaginer d’autres terrains pertinents pour prolonger ces réflexions, par exemple les portails open data des administrations publiques.

6 Conclusion

Ce qui fait document influence ce que nous faisons avec les documents. Cette logique s’applique à tous les objets info-communicationnels. Les données, dont les problématiques en matière d’épistémologie commencent à être réorientées en direction des questions interprétatives, illustrent particulièrement bien les logiques complexes qui président à leur valeur documentaire. En tentant d’évaluer leur degré de documentarité, nous réalisons que celle-ci s’exprime le plus souvent par des jeux d’écriture qui, des principes de structuration aux possibilités de réutilisation en passant par les modes d’éditorialisation, façonnent leurs contours et leur devenir. Il en résulte un triple enjeu de formation pour les projets liés aux données et mégadonnées en SHS, dont l’appropriation reste suspendue au développement d’une véritable culture technique. À cela, nous pensons que la théorie peut apporter une certaine contribution, notamment lorsque les concepts éclairent les continuités indiscutables entre questionnements anciens et actuels.

Références

Bachimont, Bruno. Arts et sciences du numérique : ingénierie des connaissances et critique de la raison computationnelle. Mémoire d’habilitation à diriger des recherches. Université de technologie de Compiègne, 2004.

Beauparlant, Sophie. « Dieu n’a pas inventé le webdocumentaire ». Sens Public. 2017. http://sens-public.org/article1276.html.

Briet, Suzanne. Qu’est-ce que la documentation ? Éditions documentaires, industrielles et techniques, 1951.

Buckland, Michael. « Before the Antelope: Robert Pagès on Documents ». Proceedings from the Document Academy. 2017, Vol. 4, n° 2. http://ideaexchange.uakron.edu/docam/vol4/iss2/6.

Buckland, Michael. « What is a document? » Journal of the American Society for Information Science. 1997, Vol. 48, n° 9, p. 804‑809. https://doi.org/10.1002/(SICI)1097-4571(199709)48:9<804::AID-ASI5>3.0.CO;2-V.

Collomb, Cléo. « Faire compter les machines ». Communication. 2017, Vol. 34, n° 2. https://doi.org/10.4000/communication.7327.

Courbières, Caroline. « La question documentaire à l’épreuve du numérique : le recours aux fondamentaux ». Sciences de la Société. 2008, n° 75, p. 40‑51.

Crozat, Stéphane. Le document numérique n’existe pas, il faut l’inventer (principe de documentarité). 2019. https://stph.scenari-community.org/pres/20190222-documentarite/co/20190219-documentarite.html.

Crozat, Stéphane. « Proposition : principe de documentarité ». Dans : As we may... 2016. http://aswemay.fr/co/010013.html.

Day, Ronald E. « Auto-Documentality as Rights and Powers ». Proceedings from the Document Academy. 2018, Vol. 5, n° 2. https://ideaexchange.uakron.edu/docam/vol5/iss2/3.

Day, Ronald E. Documentarity: Evidence, Ontology, and Inscription. MIT Press, 2019. 978-0-262-04320-5.

Drucker, Johanna. « Humanities Approaches to Graphical Display ». Digital Humanities Quarterly. 2011, Vol. 5, n° 1. http://digitalhumanities.org/dhq/vol/5/1/000091/000091.html.

Drucker, Johanna. « Humanities Approaches to Interface Theory ». Culture Machine. 2011, Vol. 12. https://culturemachine.net/wp-content/uploads/2019/01/3-Humanities-434-885-1-PB.pdf.

Ferraris, Maurizio. Documentality: why it is necessary to leave traces. Trad. par Richard Davies. Fordham University Press, 2013. 978-0-8232-4968-8.

Frohmann, Bernd. « The documentality of Mme Briet’s antelope ». Dans : Packer, Jeremy et Wiley, Stephen B. Crofts (dir.), Communication Matters: Materialist Approaches to Media, Mobility and Networks. Routledge, 2012, p. 173‑182.

Gaudreault, André et Marion, Philippe. « Dieu est l’auteur des documentaires… ». Cinémas : Revue d’études cinématographiques / Cinémas : Journal of Film Studies. 1994, Vol. 4, n° 2, p. 11‑26. https://doi.org/10.7202/1001020ar.

Goyet, Samuel. De briques et de blocs. La fonction éditoriale des interfaces de programmation (API) web : entre science combinatoire et industrie du texte. Thèse de doctorat. Université Paris-Sorbonne, 2017. https://tel.archives-ouvertes.fr/tel-01665406/.

Latour, Bruno. Pandora’s hope: essays on the reality of science studies. Harvard University Press, 1999. 978-0-674-65335-1.

Latour, Bruno. « Pensée retenue, pensée distribuée ». Dans : Jacob, Christian (dir.), Lieux de savoir. Albin Michel, 2007, p. 605‑615.

Meyriat, Jean. « Document, documentation, documentologie ». Dans : Couzinet, Viviane (dir.), Jean Meyriat, théoricien et praticien de l’information-documentation. ADBS Éditions, 2001 [1981], p. 143‑159.

Otlet, Paul. Traité de documentation. Le livre sur le livre. Les Impressions nouvelles, 2015 [1934]. 978-2-87449-299-0.

Pagès, Robert. « Transformations documentaires et milieu culturel (Essai de documentologie) ». Revue de Documentation. 1948, Vol. 15, n° 3, p. 53‑64.

Pédauque, Roger T. La redocumentarisation du monde. Cépaduès-Éd, 2007. 978-2-85428-728-8.

Robert, Pascal. « Le biblion et les substituts du livre. Théorie et pratique du dépassement du livre chez Paul Otlet ». Communication & langages. 2015, Vol. 2015, n° 184, p. 3‑23. https://doi.org/10.4074/S0336150015012016.

Scopsi, Claire. « The Documentality of Memory in the Post-Truth Era ». Proceedings from the Document Academy. 2018, Vol. 5, n° 2. https://ideaexchange.uakron.edu/docam/vol5/iss2/4.

Zins, Chaim. « Conceptual approaches for defining data, information, and knowledge ». Journal of the American Society for Information Science and Technology. 2007, Vol. 58, n° 4, p. 479‑493. https://doi.org/10.1002/asi.20508.

Documentarité et données, instrumentation d’un concept

1 Introduction

2 Documentation et agentivité

3 Ce qui fait document

4 Épistémologie des données

5 La documentarité des données

6 Conclusion

Références