Écriture scientifique au format texte

Arthur Perret (Université Jean Moulin Lyon 3)

🚧 Page en construction — Dernière mise à jour : 11/12/2022

Cette page donne des arguments en faveur de l’utilisation du format texte pour rédiger des documents scientifiques.

1 Inconvénients des logiciels de traitement de texte

En sciences humaines et sociales, les logiciels de traitement de texte, comme LibreOffice Writer, Microsoft Word et Google Docs, sont utilisés par la majorité des auteurs et des éditeurs. Ce sont des outils polyvalents, puissants, capables de gérer toutes les étapes de la chaîne éditoriale. Mais leurs avantages sont contrebalancés par une série d’inconvénients plus ou moins problématiques.

D’abord, et du fait de leur polyvalence, ces logiciels tendent souvent vers l’usine à gaz. Leur interface est notoirement encombrée, pleine de distractions. Et ils sont gourmands en ressources (énergie, mémoire) ; or malgré cela, ils gèrent mal les documents longs et complexes.

Ensuite, ce sont des logiciels ancrés dans le paradigme de l’imprimé, qui sont donc fondamentalement inadaptés à la communication via le Web. Dans un monde où le papier et le numérique sont appelés à cohabiter durablement, c’est une lacune considérable.

Autre problème : leur modèle économique (en tout cas pour les logiciels propriétaires) est de moins en moins avantageux pour le consommateur. La tendance est à l’abonnement : payer pour accéder à ses propres données, sans aucune garantie sur la longévité du service.

Enfin, leurs formats sont soit complètement fermés (.doc), soit difficiles à utiliser via d’autres outils (.docx). Les logiciels de traitement de texte verrouillent les auteurs dans un écosystème propriétaire dans lesquels les choix sont réduits. Certes, LibreOffice existe ; mais la compatibilité entre formats a des limites, situation entretenue par les éditeurs de logiciels commerciaux car ils en tirent profit.

2 Le format texte comme alternative

Le format texte constitue une alternative possible au traitement de texte. Il constitue un compromis différent, avec ses propres avantages et inconvénients.

J’explique en détail ce qu’est le format texte sur cette page éponyme : Format texte. Pour le définir rapidement, on peut dire qu’un fichier au format texte est un fichier ne contenant que des caractères, et dont le contenu peut suivre des conventions d’écriture qui permettent d’exprimer du texte au sens classique mais aussi toutes sortes de données et de médias.

La page que vous lisez actuellement est un fichier texte rédigé dans le langage HTML, interprété et affiché par votre navigateur. Voici à quoi ressemble le paragraphe précédent en HTML :

<p>J'explique en détail ce qu'est le format texte sur cette page éponyme : <a href="format-texte.html">Format texte</a>. Pour le définir rapidement, on peut dire qu'un fichier au format texte est un fichier ne contenant que des caractères, et dont le contenu peut suivre des conventions d’écriture qui permettent d'exprimer du texte au sens classique mais aussi toutes sortes de données et de médias.</p>

Le format texte a des avantages intrinsèques :

Le format texte a également des avantages plus spécifiques dans la perspective de l’écriture scientifique :

3 Langages utilisés dans le monde scientifique

Le format texte est une technique générique, sur laquelle repose différents langages informatiques. Chaque langage a ses propres fonctionnalités, qui se traduisent par des règles d’écriture, et qui lui donnent une utilité propre.

Voici quelques langages largement répandus dans le domaine scientifique et qui permettent de créer des documents :

HTML
HTML (HyperText Markup Language) est le langage de balisage conçu pour représenter les pages web. Il permet d’écrire de l’hypertexte, de structurer sémantiquement la page, d’inclure des ressources multimédias et de créer des documents interopérables et accessibles. Tout contenu scientifique publié sur le Web est en HTML.
XML
XML (eXtensible Markup Language) est un méta-langage qui permet de créer des langages de balisage ayant des vocabulaires différents mais une grammaire commune. Parmi les langages basés sur XML et utilisés dans le domaine scientifique, on trouve par exemple TEI (Text Encoding Initiative, pour les manuscrits), JATS (Journal Article Tag Suite, pour les périodiques) et DocBook (pour la documentation technique). Certains de ces langages servent d’intermédiaire pour exprimer le document dans un autre langage (comme HTML) ou un autre format (comme PDF).
LaTeX
LaTeX est un langage permettant d’utiliser le système de composition TeX afin de créer des PDF de qualité professionnelle. TeX a été inventé par Donald Knuth, un mathématicien qui désirait retrouver la qualité typographique des ouvrages de mathématiques imprimés à l’époque de la composition au plomb. LaTeX est un ensemble de macros (formes condensées) qui allègent l’écriture des commandes TeX et les rendent ainsi plus accessibles aux auteurs. LaTeX est principalement utilisé en mathématiques et en sciences de la nature.
Markdown
Markdown est un langage de balisage dit « léger », c’est-à-dire dont la syntaxe est plus économe en caractères, donc potentiellement plus facile à écrire et à déchiffrer, que des langages comme HTML, XML ou encore LaTeX. Markdown a été conçu pour faciliter l’écriture de contenus destinés au Web et a depuis été adapté à des processus d’écriture scientifique, à travers différentes variantes comme le Pandoc Markdown.

Il existe également des langages basés sur le format texte et qui servent à exprimer des données : données bibliographiques (ex : BibTeX, CSL JSON), données tabulaires (ex : CSV), métadonnées (ex : YAML), images vectorielles (ex : SVG), etc. On les utilise souvent conjointement avec les langages cités plus haut.

4 La stratégie de l’interopérabilité avec Markdown et Pandoc

L’outil d’écriture idéal, qui fait tout, n’existe pas. Il y a beaucoup de raisons à cela : les besoins, trop divers ; les interfaces, qui deviennent facilement des usines à gaz ; le fait qu’on utilise souvent des outils spécialisés qui sont irremplaçables (par exemple des correcteurs orthographiques comme Antidote ou Grammalecte) ; etc. L’enjeu est donc plutôt de trouver des outils complémentaires et interopérables, c’est-à-dire qu’on peut faire fonctionner ensemble.

Écrire en Pandoc Markdown est une stratégie possible.

Pandoc est un programme de conversion entre formats. Il reconnaît et sait transformer des langages comme HTML, XML et LaTeX mais aussi des formats pour traitement de texte, logiciels de présentation, bibliographies, livres numériques, wikis, et bien d’autres.

Parmi les formats reconnus par Pandoc, Markdown occupe une place particulière. En plus du Markdown classique et de certaines variantes populaires, Pandoc permet d’utiliser une variante de Markdown qui lui est propre et qui ajoute des fonctionnalités liées à l’écriture scientifique : tableaux, références bibliographiques, listes de définitions, formules mathématiques, notes de bas de page…

Il est possible (et encouragé) d’utiliser cette variante scientifique de Markdown comme « format d’entrée universel » pour Pandoc : on écrit au format texte, avec une syntaxe simple, et on utilise Pandoc pour créer à la volée des documents dans d’autres formats. Ceci donne accès à l’essentiel des possibilités des logiciels de traitement de texte, de TeX, du Web (et de tout un tas d’autres formats), sous une forme plus commode à écrire, et avec un seul fichier source.

Comme l’écrit Blair Fix (2020), Markdown a changé la donne :

« Markdown a transformé le paysage de l’écriture au format texte. On peut désormais rédiger des documents complexes avec une syntaxe simple. Et contrairement à des formats plus anciens comme LaTeX, un fichier en Markdown peut être transformé facilement dans n’importe quel autre format. C’est le rêve de tout auteur. »

“Markdown has transformed the landscape of plain-text writing. It allows you to use simple syntax to write complex documents. And unlike older tools like LaTeX, your Markdown document can be rendered seamlessly in any format you want. It’s a writer’s dream.”

Ce rêve devenu réalité repose largement sur Pandoc. On peut l’utiliser directement via son interface en ligne de commande mais il est aussi intégré directement dans des outils d’écriture et d’édition scientifique, comme Zettlr, Stylo et Quarto.

Guide

🚧 À venir

Liens utiles

Mes autres pages :

Bibliographie

FIX, Blair, 2020. Why and How I Write Scientific Documents in Plain Text. In : Economics from the Top Down [en ligne]. 10 décembre 2020. Disponible à l'adresse : https://economicsfromthetopdown.com/2020/12/10/why-and-how-i-write-scientific-documents-in-plain-text/.