Des vertus anxiolytiques des statistiques d’écriture pour la rédaction de la thèse

2023-08-05

Rédiger un mémoire de thèse est une tâche difficile, notamment sur le plan psychologique. Une technique qui m’a été très utile pour garder le cap, c’est de faire des statistiques d’écriture. On voit parfois poindre cette idée dans certains manuels mais elle est rarement précisée. Dans Authoring a PhD par exemple, Patrick Dunleavy écrit ceci :

“Find the starting number of words in your chapter […] and then type it into the beginning or end of your document file. Then update the word count at the end of each session, and perhaps keep a record of the words racked up. Comparing these figures with your target level also guards against overwriting, otherwise an important source of potential extra delay for hard-working people.”« Trouvez le nombre de mots que contient votre chapitre […] et inscrivez-le au début ou à la fin du document. À la fin de chaque session d’écriture, mettez à jour ce décompte, et gardez éventuellement une trace de son évolution. Le fait de comparer ce nombre avec votre objectif vous prémunira contre la sur-écriture, qui risque autrement de vous faire accumuler un retard important »Dunleavy, Authoring a PhD, 2003, p. 153.
.

J’ai mis en gras le passage clé à mes yeux, duquel on peut retirer le mot « éventuellement » : oui, il faut garder l’historique du décompte ! C’est ce qui permet de mesurer l’évolution du manuscrit dans le temps. Ce petit effort permet de s’épargner une grosse source d’anxiété : en effet, ce décompte régulier permet de faire des statistiques qui donnent un aperçu objectif de la progression du travail. Plutôt que s’écrier « Horreur, je n’écris pas assez vite et le rendu est bientôt ! », mieux vaut se dire « Ciel, je n’en suis qu’à 67% et je dois envoyer le mémoire dans 43 jours ! » Quitte à stresser, autant que ce soit sur une base précise. Mieux vaut une pression bien définie qu’une angoisse paralysante.

Je partage donc ici mon expérience à ce sujet. Ce ne sont pas des recommandations, juste un exemple qui peut donner quelques idées.


Pour faire mes statistiques d’écriture, j’ai utilisé trois données. D’abord, l’objectif : le nombre de mots total visé pour le mémoire. Ensuite, le décompte : le nombre total de mots contenus dans le mémoire à la fin de chaque jour. Et enfin, le délai : le nombre de jours d’écriture dont je disposais avant de devoir remettre le mémoire à l’école doctorale.

Au début de la rédaction, j’ai créé un tableur. Chaque soir, j’ajoutais une nouvelle colonne où j’inscrivais le nombre de mots contenus dans chaque chapitre :

jour 1 jour 2 jour 3
nombre de mots chapitre 1 1000 1200 2500
nombre de mots chapitre 2 0 1800 1800
nombre de mots chapitre 3 0 0 500

Ces valeurs alimentaient alors plusieurs cellules dont la valeur était calculée automatiquement :

jour 1 jour 2 jour 3
nombre de mots total 1000 3000 4800
progression (nb de mots) 1000 2000 1800
progression (pourcentage) 1 % 2 % 1,8 %
nombre de jours restants 99 49 53

Ces calculs sont très simples, ce sont juste des sommes, des soustractions et des divisions :

Cette dernière grandeur était la plus importante pour moi : elle constituait une estimation du nombre de jours qu’il me resterait à écrire si je gardais le rythme du jour actuel. En gros, elle me permettait de rapporter ma productivité du jour au délai dont je disposais, lequel était extrêmement serré. Notez dans mon exemple comme cette valeur dégringole entre le jour 1 et le jour 2, puis remonte un peu le jour 3. Pour que l’information saute vraiment aux yeux, j’étais allé un cran plus loin en appliquant un surlignage conditionnel à la cellule, avec une couleur encourageante si le nombre de jours restants estimé est inférieur ou égal au nombre de jours restants réel.

Ce nombre de jours restants à écrire est une information précieuse : si elle me dit que je progresse trop lentement par rapport au délai qui me reste, je sais que je me prépare des nuits blanches… Inversement, si je vois que je progresse plus vite, je peux me permettre de prendre des jours de repos plus régulièrement.

Le problème de cette information, c’est qu’elle peut donner trop de visibilité à la progression quotidienne : il ne faut pas seulement savoir si on est dans un « bon jour » ou un « mauvais jour », il faut replacer tout cela dans un intervalle de temps plus long. J’ai donc aussi créé un graphique de la progression en nombre de mots par jour sur lequel j’ai ajouté la moyenne glissante sur 7 jours :

Progression en nombre de mots par jour, avec moyenne glissante (courbe en trait rouge épais à partir du 22/7).

Cette moyenne glissante vient compléter l’information apportée par les valeurs calculées dans le tableur. Par exemple, je ne suis pas inquiet d’avoir beaucoup moins écrit le 5/8 que la veille, car la pente de la moyenne glissante reste ascendante : ceci indique que mon rythme d’écriture est en augmentation.

Sur le papier, calculer chaque jour le nombre de jours restants à écrire en fonction de ce qu’on a écrit ce jour-là peut paraître un peu masochiste… J’avoue d’ailleurs l’avoir testé comme une blague au début. Mais en pratique, c’est bien cette info (complétée par la moyenne glissante) qui m’a permis d’organiser sereinement ma rédaction et notamment mes temps de repos, en levant mes doutes sur mon avancée au quotidien. Sachant que le délai dont je disposais pour rédiger était restreint, je dois au moins en partie à ces statistiques d’avoir tenu le coup mentalement.

Bonus : compter les mots avec Pandoc

J’ai rédigé ma thèse dans des fichiers texte en Pandoc Markdown, un fichier par chapitre. Mon éditeur de texte (BBEdit) peut indiquer le nombre de mots contenus dans ces fichiers, mais ce nombre ne correspond pas tout à fait à la réalité, parce qu’il inclut des caractères de balisage, des clés de citation, des instructions de mise en forme, des commandes LaTeX, des métadonnées… Bref des choses qui seront absentes ou bien transformées dans le rendu final. Pour connaître le vrai décompte, il faut donc convertir le texte. On peut par exemple le convertir en ODT, puis l’ouvrir dans LibreOffice et relever le nombre de mots. Mais c’est un peu long.

À la place, j’ai utilisé un outil dédié : wordcount.lua. C’est un filtre pour Pandoc, c’est-à-dire un programme qui modifie le comportement de Pandoc au moment de la conversion. En temps normal, ce comportement inclut trois étapes : on donne un fichier en entrée ; Pandoc modélise le contenu du fichier ; enfin il traduit cette modélisation dans le format d’export souhaité, ce qui génère un fichier en sortie. Ici, le filtre supprime la troisième étape, et à la place il indique le nombre de mots.

Pour utiliser ce filtre sur un fichier mon-fichier.md, il faut télécharger le filtre et le placer soit dans le même répertoire, soit dans le répertoire utilisateur de Pandoc, dans un sous-répertoire filters. Puis il faut exécuter la commande suivante :

pandoc mon-fichier.md --lua-filter=wordcount.lua

Comme je relevais le nombre de mots pour plusieurs fichiers, plusieurs fois par jour, je suis allé un cran plus loin afin de gagner du temps. J’ai créé une Action rapide via Automator dans macOS. Une Action rapide est un processus qu’on peut déclencher via un raccourci dédié. Ici, je sélectionne les fichiers texte contenant mes chapitres de thèse, puis je clique sur le raccourci : la commande Pandoc ci-dessus se déclenche et le résultat est copié dans mon presse-papiers ; je n’ai plus qu’à coller le résultat dans mon tableur.

Compter les mots avec Pandoc et macOS.

C’est un bon exemple de la complémentarité entre le shell et l’interface graphique – même si j’ai dû bidouiller un peu avant de trouver le bon enchaînement d’actions.

Référence

Dunleavy, Patrick. Authoring a PhD: how to plan, draft, write, and finish a doctoral thesis or dissertation. Palgrave Macmillan, 2003. Palgrave Study Guides. 978-1-4039-1191-9.