Dernièrement, j’ai essayé d’apprendre davantage de la science ouverte et les liens que ça a avec la recherche que j’ai faite, la recherche que j’aimerais faire et la sociolinguistique en général. Un thème qui se soulève régulièrement quand on cause pour la science ouverte est la pre-registration. Pour ceux qui ne connaissent pas ce processus, la pre-registration réfère à la publication d’une description détaillée et horodatée de vos méthodes de recherche et vos analyses dans un dépôt avant de regarder vos données. Ce processus renforce la transparence de la recherche et aide au chercheur d’éviter le dragage de données. Évidemment, il existe des arguments contre la pre-registration de la recherche, mais moi je n’en ai pas vu encore qui n’interprètent pas mal ce qu’est la pre-registration premièrement, ça fait que son emploi me ressemble sans désavantage.

Cependant, en examinant les mécaniques de la production d’une pre-registration, j’ai fini par regarder le webinaire suivant du Center for Open Science (COS) pour l’usage de son Open Science Framework (OSF) pour publier des pre-registrations, qui a inclus cette description curieuse de comment interpréter les valeurs-P dans différentes qualités de recherche1:

Dans le fond, ça clame que la pre-registration rend bien clair quelles analyses sont confirmatoires2 et équelles sont exploratoires, qui est un bon avantage, mais ça clame également que les valeurs-P ne peuvent pas être interprétées dans la recherche exploratoire. En d’autres termes, une valeur-P générée à partir des analyses qui n’ont pas été documentées dans une pre-registration n’a aucune signification.

Je peux comprendre la raison que ce point s’a soulevé, mais je crois que c’est un mauvais point. La pre-registration ressemble bien créer un autre niveau dans la hiérarchie des genres de recherche — c.-à-d. exploratoire (observationnelle, pas de pre-registration) > confirmatoire (observationnelle, avec une pre-registration) > causale (expérimentale) — mais moi je ne vois aucune raison de dire que les valeurs-P sont impossibles à interpréter au niveau exploratoire. Les valeurs-P me ressemblent tout à fait valides à tout niveau, et tout ce qui change c’est la manière que ça devrait être interprété, non si ça peut être interprété du tout. D’après moi, dans la recherche expérimentale, une valeur-P aide à avancer qu’il existe une relation de causalité, tandis que dans les études observationnelles confirmatoires, une valeur-P aide à avancer qu’il existe une relation, mais pas forcément de causalité, et dans la recherche observationnelle exploratoire, une valeur-P suggère simplement qu’il se peut qu’une relation existe et que cette relation potentielle devrait être davantage examinée dans la recherche future.

Dans le cas de mon mémoire, j’ai en fait employé les valeurs-P par le test exact d’indépendance à Fisher, mais je n’ai pas produit une pre-registration pour les analyses. Ça ne veut pas dire que les analyses étaient exploratoires, mais que j’ai pas de preuves que je n’ai pas empoloyé le dragage de données. En effet, j’ai inclus des variables qu’on pourrait qualifier comme non-pertinentes3, telles que le codeur des occurrences de la variable linguistique, (lol). Au début, le webinaire m’a fait paniquer un peu et me demander si l’inclusion des valeurs-P dans les analyses était irréfléchie, mais après avoir jonglé davantage pour cette question, je crois que c’était complètement justifié. La majorité des analyses étaient confirmatoires en tout cas, quand même si je n’en ai pas de preuves, et c’était toujours plus utiles de constater les valeurs-P pour ceux qui étaient peut-être exploratoires, tant qu’une explication de comment interpréter ces valeurs-P étaient également incluse, et c’est là éoù j’aurais pu faire mieux.

À la fin, bien que je comprenne la raison qu’il y a un focus sur le dragage de données comme une mauvaise affaire, je crois que c’est important de ne pas dépasser le but. Les valeurs-P peuvent certainement être mal employées, mais ce mauvais emploi me ressemble plus d’une question de fournir au lecteur assez d’informations pour en interpréter bien que de les inclure équand on n’aurait pas dû les inclure.


1. Le webinaire est beaucoup bien, en fait. Je suggère qu’on le regarde en entier si on ne connaît pas bien la science ouverte.
2. Dans ce cas, la personne qui est après causer ressemble user le terme «recherche confirmatoire» pour faire référence à quelque chose à part de la recherche causale, sinon sa description ne fait pas de rime.
3. En fait, le directeur de mon mémoire n’a pas arrivé à voir le point de l’inclusion de ces variables du tout.