Étiquette : science ouverte

Après work votre flow.

Faire des études supérieures est essentiellement un exercice d’équilibre: vous ne devez pas seulement réussir vos cours, mais vous devez travailler en tant qu’assistant de recherche ou moniteur/correcteur et vous devez faire en sorte de cultiver votre vie sociale afin de rester sain d’esprit. Une manière de réduire la difficulté de cette besogne peut être résumée par les paroles immortelles à Scrouge McDuck:

Une manière de travailler plus smart, non plus dur, c’est d’assurer que vous êtes après user les bons outils technologiques. Pour moi, en particulier, deux difficultés s’ont soulevées pendant que j’étais après écrire mon mémoire de maîtrise:

  1. La recherche d’une manière convenable de collaborer avec les membres de mon comité
  2. La recherche d’une manière d’organiser de nombreuses versions du mémoire

Ça, c’était aussit des difficultés liées. Des fois, j’avais déjà produit d’autres versions équand j’ai reçu des remarques sur une version que j’avais envoyé à un membre du comité par courriel, qui pouvais prêter à confusion ou simplement gaspiller du temps si j’avais déjà reconnu et corrigé un problème qui a été remarqué. Cependant, la franche vérité c’est que ces difficultés sont pertinentes à toute recherche, puisque toute recherche peut (et dans une certaine mesure devrait, probablement) impliquer de la collaboration et des révisions.

Ma solution à ces deux difficultés a été de développer un workflow qui traite l’écriture d’un article comme le développement de logiciels. D’une certaine manière, je le dis littéralement, puisque mon workflow actuel nécessite de la programmation plutôt que Word pour l’écriture ou Excel pour la gestion de données ou quelque chose comme SPSS pour les analyses statistiques. Ces applications sont commodes, parce que vous pouvez facilement les apprendre, mais ça ne s’intègre ni bien ni de manière transparente, l’un à l’autre, ça ne va pas trop bien avec l’internet/les systèmes de cloud et ça entraîne toute qualité de problèmes de compatibilité si vos collaborateurs n’usent pas des outils identiques. L’alternative, c’est d’user des outils qui s’appuient sur les fichiers texte standardisés. Ça implique l’apprentissage du codage. Je comprends que ça a l’air effrayant pour beaucoup de monde, et la courbe d’apprentissage est sûrement plus raide que le repérage du bouton pour les tableaux dans Word, mais la courbe d’apprentissage est, d’après moi, souvent exagérée, et la récompense du travail est joliment grande. Rappelez-vous, travaillez plus smart, non plus dur.

Le premier composant de mon workflow actuel est le site web ShareLaTeX.1 Ce site vous permet de produire des documents .pdf en usant un langage de balisage qui s’appelle LaTeX. Un langage de balisage est un langage de programmation bien simple qui vous permet de formater du texte brut par l’insertion occasionnelle de petites balises équand vous avez besoin de rendre quelque chose en gras ou de créer un en-tête ou n’importe quoi. Vous écrivez votre texte avec vos petites balises dans un fichier source, dans ce cas un fichier .tex, qui génère un document .pdf équand vous le compilez. Par exemple, si j’écrirais le suivant dans mon fichier .tex:

Ça c'est mon excellente première section éoù je cause pour DuckTales.
\section{Venez-en au fait}
Ça c'est ma prochaine section éoù j'en viens au fait et je dis quelque chose d'utile.

Je recevrais un .pdf qui ressemble à quelque chose comme ça:

Ça c’est mon excellente première section éoù je cause pour DuckTales.

Venez-en au fait

Ça c’est ma prochaine section éoù j’en viens au fait et je dis quelque chose d’utile.

Ça c’est plus ou moins tout. Vous pouvez en faire pas mal avec LaTeX (il y a de nombreux packages indépendamment développés qui étendent ses capacités encore au-delà de ce que peut faire le système de base), mais, pour beaucoup de chercheurs, vous pouvez apprendre proche tout ce que vous avez de besoin en juste quelques jours en suivant des tutoriels et/ou pourchassant les balises qui vont vous permettre de créer ce que vous voulez, p. ex. des notes de bas de page, des tableaux, des citations, peut-être des arbres syntagmatiques pour les linguistes, etc. Il y a un tas d’éditeurs de texte hors ligne qui vous permettent d’écrire et compiler les fichiers .tex, mais ShareLaTeX est lui-même un éditeur en ligne, ça fait que vous pouvez éviter la tâche de comprendre comment installer LaTeX et un éditeur sur votre portable en usant le site. Une avantage supplémentaire, itou, c’est que si la phrase «compiler les fichiers .tex» vous intimide, ShareLaTeX vous donne simplement un bouton «Compiler» qui fait tout quelque chose pour vous et vous montre le document .pdf résultant.

ShareLaTeX présente encore beaucoup d’autres avantages, parce que c’est vraiment un outil de collaboration. Vous créez un projet et vous invitez des collaborateurs ou des conseillers qui ont alors accès en temps réel à ce qui se trouve dans le projet ainsi que des changements à mesure qu’on les fait. Pour moi, un projet peut inclure un fichier .tex, un fichier .bib2 qui contient ma liste de références (un format de fichier texte lisible par les humains et standardisé qui gère automatiquement les citations dans les documents .tex), des fichiers .csv pour les données (un format de fichier texte lisible par les humains et standardisé) et des scripts .R qui effectuent les analyses statistiques et génèrent les figures et les tableaux (qui sont encore des fichiers texte lisibles par les humains, non-propriétaires). Les collaborateurs peuvent faire des remarques sur le texte, check les données sur équelles le texte a été basé et voir exactement comment vous les avez analysées, tout ça dans un seul endroit. ShareLaTeX a même une forme de gestion de versions pour que vous pouviez venir back à une ancienne version de votre article si nécessaire et les collaborateurs peuvent voir comment chaque paragraphe s’a déroulé. C’est essentiellement comme un Google Docs super-puissant mais finalement beaucoup plus efficace que d’essayer de créer votre propre système de gestion de version à partir des documents Word que vous devez échanger séparément avec tous vos collaborateurs.

Une autre avantage d’écrire vos articles en LaTeX est que vous pouvez mettre du code en R directement dans un document LaTeX3 via un package de R qui s’appelle knitr. Ce que ça veut dire, c’est que votre article va être automatiquement mis à jour à mesure que vos analyses changent. Vous n’avez plus besoin de chercher minutieusement l’origine d’une figure ou d’un chiffre, puis retourner à cette origine dans un autre programme, changer votre analyse, régénérer la figure ou le chiffre, créer une image ou quelque chose comme ça, switch l’ancienne image avec la nouvelle dans votre document et enfin souhaiter que vous n’aviez pas manqué une de ses références en quelque part d’autre dans l’article. Plutôt, vous pouvez simplement retrouver le paragraphe pertinent dans votre fichier .tex, changer un chiffre ou quoi que ce soit, appuyer sur compiler, puis c’est fini. Rappelez-vous, travaillez plus smart, non plus dur.

Ce qui ça veut également dire, c’est que vous ne voulez apprendre rien que LaTeX, mais R, itou. R est un autre langage de programmation qui a été spécifiquement conçu pour faire les statistiques. Sa courbe d’apprentissage est plus raide que cil de LaTeX, mais R est extrêmement répandu. C’est fort possible que votre université offre des séminaires pour l’apprendre ou que vous aviez un collègue qui le connaît déjà. Au cas improbable éoù rien de ça n’est vrai, il existe un grand nombre de tutoriels en ligne et de cours gratuits pour l’apprendre.4 Comme pour LaTeX, R peut faire beaucoup plus que ce que vous avez de besoin, ça fait que vous devriez apprendre des bases et puis vous concentrer sur l’apprentissage de ce que vous avez de besoin pour le projet que vous êtes après faire. Pour moi, je ai appris par moi-même assez de R pour analyser toutes les données pour mon mémoire en à peu près deux semaines.

Ça fait, ShareLaTeX présente un environnement en ligne éoù vous pouvez resserrer votre article, vos références, vos données et vos analyses. Ça présente également un outil exceptionnel pour la collaboration. Éoù ça manque, c’est l’absence d’options pour partager votre travail avec le monde. Je ne fais pas simplement référence à la publication de l’article, mais le fait de rendre vos données et vos analyses accessibles au public et à d’autres chercheurs gratis, c.-à-d. le fait de participer à la science ouverte. Pour ce faire, il faut un deuxième composant de notre workflow, un autre site web qui s’appelle GitHub. GitHub existe techniquement pour développer les logiciels open source, ça fait, quofaire l’employer pour la science? Parce que ça, c’est le futur, et dans le futur on fait la science ouverte, et on écrit les articles comme si on est après développer des logiciels.

Une autre raison, c’est qu’on peut automatiquement synchroniser nos projets au GitHub depuis ShareLaTeX, et GitHub peut ensuite les synchroniser à plusieurs autres sites. Vous pouvez même synchroniser un projet GitHub avec une version locale sur votre portable en usant Git, qui est simplement le logiciel de gestion de versions qu’emploie GitHub, lui-même. Comme ça, vous pouvez travailler sans accès à l’internet mais garder toujours un système de versions cohérent qui ne deviendra pas confus. En fait, ça c’est vraiment la raison d’être de Git et de GitHub. Ça garde la trace des changements aux fichiers texte (p. ex. les fichiers .tex ou .bib ou .csv ou les scripts .R) pour que vous ne pouviez le faire. Tout ça en combinaison avec la popularité de GitHub le rend l’outil parfait pour jouer le rôle de centre de contrôle pour votre workflow.

Mais GitHub est également bien social. Dès que vous avez un projet sur le site, n’importe qui peut le copier et faire ce qu’on veut avec la copie. Peut-être qu’on a une meilleure idée pour une des analyses statistiques: on peut littéralement la refaire soi-même et puis fusionner ses changements dans votre projet, si vous l’autorisez du moins. Peut-être qu’on veut reproduire votre travail ou appliquer de nouvelles analyses à vos données: c’est tout à fait simple une fois que le projet se retrouve sur GitHub. Ça c’est comment le développement des logiciels open source se déroule depuis longtemps, et la recherche scientifique peut aisément profiter de cette qualité de workflow et d’ouverture.

Pourtant, GitHub n’est pas un site centré sur la science. Ça veut dire que ça manque deux éléments importants: 1) ça ne rend pas trop visible à d’autres chercheurs votre projet, et 2) ça ne facilite pas les processus de la science ouverte comme le pré-enregistrement et la prépublication.5 Une chance que GitHub vous permet de synchroniser votre projet à l’Open Science Framework (OSF), le troisième composant de notre workflow, qui peut gérer tout ça-là. L’OSF n’est pas trop utile pour la collaboration, quand même si ça inclut un système de remarques rudimentaire et un système de gestion de versions rudimentaire, mais c’est la place idéale pour créer les pré-enregistrements, après augmenter la validité et la transparence de votre recherche, qui peuvent être reliés à des prépublications de votre recherche qui peuvent être téléchargées aux serveurs de prépublications que l’OSF héberge, comme arXiv ou, si vous travaillez dans les sciences sociales comme moi, SocArXiv. En fait, ShareLaTeX, une fois que ça aura fusionné avec Overleaf, supportera probablement le dépôt direct aux serveurs de prépublications, y compris la mise en forme et tout ça, puisque Overleaf offre actuellement cette fonctionnalité.

Ça fait, pour résumer, le workflow dépeint là a quatre composants:

  1. ShareLaTeX (votre lieu de travail principal pour vous et vos collaborateurs reconnus)
  2. GitHub (centre de contrôle qui rend accessible votre travail et invite les collaborateurs anonymes)
  3. L’OSF (remplit toutes les fonctions de la science ouverte et vous aide à augmenter la validité de vos plans d’étude)
  4. Git (votre outil hors ligne pour travailler sans accès à l’internet)

Après user ces outils implique une courbe d’apprentissage plus raide que les méthodes démodées comme l’usage de Word + courriel (vous devrez apprendre un peu de LaTeX, de R et comment Git et GitHub fonctionnent, et on peut en vérité apprendre ces deux derniers en quelques heures), mais après vous aurez surmonté cette courbe-là, votre vie serez beaucoup plus simple. Vous pourrez passer votre temps après jongler pour votre recherche au lieu d’après jongler pour comment gérer votre recherche et comment tiendre tout quelqu’un au courant. Ça, c’est l’essence de travailler plus smart, non plus dur: si vous exercez un peu plus d’effort d’avance, vous rattraperez et prendrez beaucoup d’avantage.


  1. À l’heure de cette écriture, ShareLaTeX est en train de fusionner avec un site similaire qui s’appelle Overleaf, qui deviendra Overleaf v2, à la longue. Je l’ai bêta-testé, cependant, et ça me ressemble proche pareil à ShareLaTeX, heureusement.
  2. Ça, c’est vraiment un concept important si vous voulez travailler plus smart, non plus dur: ne faites jamais les références et les citations à la main. Personnellement, moi je recommande Zotero pour la gestion bibliographique. Zotero vous permet d’importer les sources, les .pdf inclus, en appuyant simplement sur un bouton dans votre navigateur, et ça synchronise ces sources à son site web et à n’importe quels autres ordinateurs sur équels vous usez l’application. Vous pouvez ensuite créer des fichiers .bib directement à partir de Zotero, qui vous permet de créer des citations et de générer automatiquement vos bibliographies dans votre document .tex.
  3. Sur ShareLaTeX, vous renommez votre fichier .tex à .Rtex pour ce faire. À part de ça, rien ne change.
  4. Peut-être dans une moindre mesure, tout ça s’applique à LaTeX, itou. LaTeX existe depuis des décennies et c’est la méthode de choix pour l’écriture des articles dans un tas de domaines centrés sur les maths.
  5. Je n’exposerai pas les avantages de l’usage des pré-enregistrements et des prépublications en ce moment, puisque là je ne m’intéresse rien que résumer un workflow efficace, mais je vous recommander fortement d’en apprendre plus.

Interpréter les valeurs-P impossibles à interpréter.

Dernièrement, j’ai essayé d’apprendre davantage de la science ouverte et les liens que ça a avec la recherche que j’ai faite, la recherche que j’aimerais faire et la sociolinguistique en général. Un thème qui se soulève régulièrement quand on cause pour la science ouverte est la pre-registration. Pour ceux qui ne connaissent pas ce processus, la pre-registration réfère à la publication d’une description détaillée et horodatée de vos méthodes de recherche et vos analyses dans un dépôt avant de regarder vos données. Ce processus renforce la transparence de la recherche et aide au chercheur d’éviter le dragage de données. Évidemment, il existe des arguments contre la pre-registration de la recherche, mais moi je n’en ai pas vu encore qui n’interprètent pas mal ce qu’est la pre-registration premièrement, ça fait que son emploi me ressemble sans désavantage.

Cependant, en examinant les mécaniques de la production d’une pre-registration, j’ai fini par regarder le webinaire suivant du Center for Open Science (COS) pour l’usage de son Open Science Framework (OSF) pour publier des pre-registrations, qui a inclus cette description curieuse de comment interpréter les valeurs-P dans différentes qualités de recherche1:

Dans le fond, ça clame que la pre-registration rend bien clair quelles analyses sont confirmatoires2 et équelles sont exploratoires, qui est un bon avantage, mais ça clame également que les valeurs-P ne peuvent pas être interprétées dans la recherche exploratoire. En d’autres termes, une valeur-P générée à partir des analyses qui n’ont pas été documentées dans une pre-registration n’a aucune signification.

Je peux comprendre la raison que ce point s’a soulevé, mais je crois que c’est un mauvais point. La pre-registration ressemble bien créer un autre niveau dans la hiérarchie des genres de recherche — c.-à-d. exploratoire (observationnelle, pas de pre-registration) > confirmatoire (observationnelle, avec une pre-registration) > causale (expérimentale) — mais moi je ne vois aucune raison de dire que les valeurs-P sont impossibles à interpréter au niveau exploratoire. Les valeurs-P me ressemblent tout à fait valides à tout niveau, et tout ce qui change c’est la manière que ça devrait être interprété, non si ça peut être interprété du tout. D’après moi, dans la recherche expérimentale, une valeur-P aide à avancer qu’il existe une relation de causalité, tandis que dans les études observationnelles confirmatoires, une valeur-P aide à avancer qu’il existe une relation, mais pas forcément de causalité, et dans la recherche observationnelle exploratoire, une valeur-P suggère simplement qu’il se peut qu’une relation existe et que cette relation potentielle devrait être davantage examinée dans la recherche future.

Dans le cas de mon mémoire, j’ai en fait employé les valeurs-P par le test exact d’indépendance à Fisher, mais je n’ai pas produit une pre-registration pour les analyses. Ça ne veut pas dire que les analyses étaient exploratoires, mais que j’ai pas de preuves que je n’ai pas empoloyé le dragage de données. En effet, j’ai inclus des variables qu’on pourrait qualifier comme non-pertinentes3, telles que le codeur des occurrences de la variable linguistique, (lol). Au début, le webinaire m’a fait paniquer un peu et me demander si l’inclusion des valeurs-P dans les analyses était irréfléchie, mais après avoir jonglé davantage pour cette question, je crois que c’était complètement justifié. La majorité des analyses étaient confirmatoires en tout cas, quand même si je n’en ai pas de preuves, et c’était toujours plus utiles de constater les valeurs-P pour ceux qui étaient peut-être exploratoires, tant qu’une explication de comment interpréter ces valeurs-P étaient également incluse, et c’est là éoù j’aurais pu faire mieux.

À la fin, bien que je comprenne la raison qu’il y a un focus sur le dragage de données comme une mauvaise affaire, je crois que c’est important de ne pas dépasser le but. Les valeurs-P peuvent certainement être mal employées, mais ce mauvais emploi me ressemble plus d’une question de fournir au lecteur assez d’informations pour en interpréter bien que de les inclure équand on n’aurait pas dû les inclure.


1. Le webinaire est beaucoup bien, en fait. Je suggère qu’on le regarde en entier si on ne connaît pas bien la science ouverte.
2. Dans ce cas, la personne qui est après causer ressemble user le terme «recherche confirmatoire» pour faire référence à quelque chose à part de la recherche causale, sinon sa description ne fait pas de rime.
3. En fait, le directeur de mon mémoire n’a pas arrivé à voir le point de l’inclusion de ces variables du tout.

© 2024 Josh McNeill

Theme by Anders NorenUp ↑