Page 2 of 26

Comment la confusion de terminologie aide les racistes à valider leur racisme.

Plus ou moins lié à un post récent à moi, j’ai arrivé sur cet article troublant dans le NY Times par David Reich, généticien à Harvard qui ressemble être régulièrement dépeint comme «éminent», dans équel il avance l’idée que «il n’est simplement plus possible d’ignorer les différences génétiques moyennes entre ‘les races.’»1 Il ressemble avoir des motivations positives — il commence même par admettre que la race est une construction sociale — et je n’ai aucun doute que sa connaissance de la génétique est beaucoup plus profonde que la mienne, qui n’existe pas, mais malgré ses motivations et sa connaissance dans ce domaine-là, il ressemble ne pas du tout avoir consulté des spécialistes en sciences sociales. Le nœud du problème est qu’il confond «la race» et «la population». En effet, tout de suite après son admission que la race est une construction sociale, il déclare le suivant:

L’orthodoxie va plus loin en maintenant que nous devrions craindre la recherche sur les différences parmi les populations.2

Il ressemble être après user les deux termes comme synonymes, ou pour le moins, il est suffisamment négligent avec son usage des deux qu’on diserait qu’il est après les user comme synonymes. Je doute sérieusement qu’il y ait des généticiens qui avanceraient l’idée que les différences génétiques parmi les populations n’existent pas, mais ça, ce n’est pas du tout équivalent à un argument pour ou contre l’idée que les différences génétiques entre les races existent.

Il y a déjà de bonnes réponses à l’article, une sur BuzzFeed, cosignée par quelque 67 scientistes, et une autre par une la sociologue Ann Morning, qui a également cosigné l’article sur BuzzFeed. Ces réponses réussissent joliment bien à expliquer le problème avec l’article à Reich — bien que je pense que l’article sur BuzzFeed aurait mieux été si ça n’aurait pas tenté de remarquer si tant sur les trouves génétiques — ça fait, je veux juste causer pour l’exemple à Reich de sa propre recherche qui est supposé de démontrer comment la race peut être bien mise en œuvre pour l’étude de la génétique. Voilà la citation pertinente de l’article:

Pour comprendre comment on fait la recherche génétique sur les différences biologiques moyennes à travers les populations, examinons un exemple de mon propre travail. À partir de 2003 environ, j’ai commencé à explorer si le mélange des populations qui a eu lieu au cours des derniers siècles passés aux Amériques pourrait être exploité pour découvrir des facteurs de risque pour le cancer de la prostate, une maladie qui affecte 1,7 fois plus de personnes auto-identifiées comme afro-américaines qu’euro-américaines. On n’était arrivé à expliquer cet écart à partir des différences ni alimentaires ni environnementales, ce qui suggère que des facteurs génétiques peuvent jouer un rôle.

Justement, l’ascendance génétique d’environ 80% des personnes qui s’auto-identifient comme afro-américaines provient en moyenne des Africains réduits à l’esclavage et amenés aux États-Unis entre le 16e siècle et le 19e siècle. Mes collègues et moi avons cherché dans 1597 hommes afro-américains qui souffrent du cancer de la prostate les endroits dans le génome où la fraction des gènes fournis des ancêtres de l’Afrique de l’Ouest était plus grande qu’elle l’était ailleurs dans le génome. En 2006, nous avons trouvé exactement ce que nous cherchions: un endroit dans le génome avec plus de 2,8% plus d’ascendance africaine que le moyen.

Dès que nous l’avons examiné plus en détail, nous avons trouvé que cette région contenait au moins sept facteurs de risque indépendants pour le cancer de la prostate, tous plus fréquents en Afrique de l’Ouest. Nos découvertes ont pu complètement rendre compte des taux plus élevés du cancer de la prostate dans les Afro-Américains que dans les Euro-Américains. Nous avons pu conclure cela car les Afro-Américains qui ont justement une ascendance entièrement européenne dans cette petite partie de leur génome avaient plus ou moins le même risque pour le cancer de la prostate que des Européens pris au hasard.3

Reich présente ça comme un exemple de la manière que l’usage de la race comme une variable peut être fructueux, mais moi je pense que ça qu’il fait vraiment, c’est qu’il affaiblit son propre argument. Ça qu’il cause pour, finalement, ce n’est pas les Afro-Américains, mais les personnes qui ont une section de leur génome qui correspond à ça qui était souvent trouvé dans les personnes qui restaient dans l’Afrique de l’Ouest. Ça ressemble être la population qui est pertinente à son étude, mais il insiste sur le fait de causer pour ses résultats en termes de race quand même, après référer à des Afro-Américains à tout moment, un groupe culturellement divers qui est trop souvent traité comme monolithique et qui n’a pas tout à fait cette ascendance, un fait que Reich admet dans ce même extrait.

L’usage de l’étiquette afro-américain dans son explication ne sert à rien d’explanatoire et en fait n’est même pas bien précis. Ça qui vient de l’étiquette, c’est que ça permet plus facilement aux racistes de clamer qu’un généticien de Harvard a validé leur racisme, et présente des idées confondues aux personnes moyennes qui ne sont pas versées dans les subtilités des distinctions de terminologie pour référer à des groupes de personnes, dans équelles Reich, lui-même, ne ressemble même pas versé. Il dépeint ces sujets comme «auto-identifiés» plusieurs fois, ce que je suppose qu’il faise pour s’exonérer de la responsibilité pour l’usage de l’étiquette, mais comme j’ai expliqué dans un post antérieur, cette stratégie n’offre aucune protection aux gens qui seraient heurtées par les stéréotypes qui sont générées équand on use des variables sociales comme la race.

En effet, c’est vrai que ce n’est pas scientifique, mais mon sondage de Twitter m’a conduit à ça qui ressemble être trois espèces de réaction à cet article: 1) des chercheurs des sciences sociales après indiquer que l’article est irresponsable, 2) des généticiens après se moquer des scientistes doux et/ou après extoler le traitement délicat d’un thème difficile dans l’article et 3) des racistes inconditionnels et flagrants après citer l’article pour valider leur racisme. (3) devrait tracasser suffisamment ceux dans (2) pour leur faire accroire que ça devrait aller causer avec ceux dans (1) pour des meilleures méthodes pour traiter le côté social de leurs recherches.


1. «it is simply no longer possible to ignore average genetic differences among ‘races.’»
2. «The orthodoxy goes further, holding that we should be anxious about any research into genetic differences among populations.»
3. «To get a sense of what modern genetic research into average biological differences across populations looks like, consider an example from my own work. Beginning around 2003, I began exploring whether the population mixture that has occurred in the last few hundred years in the Americas could be leveraged to find risk factors for prostate cancer, a disease that occurs 1.7 times more often in self-identified African-Americans than in self-identified European-Americans. This disparity had not been possible to explain based on dietary and environmental differences, suggesting that genetic factors might play a role.

Self-identified African-Americans turn out to derive, on average, about 80 percent of their genetic ancestry from enslaved Africans brought to America between the 16th and 19th centuries. My colleagues and I searched, in 1,597 African-American men with prostate cancer, for locations in the genome where the fraction of genes contributed by West African ancestors was larger than it was elsewhere in the genome. In 2006, we found exactly what we were looking for: a location in the genome with about 2.8 percent more African ancestry than the average.

When we looked in more detail, we found that this region contained at least seven independent risk factors for prostate cancer, all more common in West Africans. Our findings could fully account for the higher rate of prostate cancer in African-Americans than in European-Americans. We could conclude this because African-Americans who happen to have entirely European ancestry in this small section of their genomes had about the same risk for prostate cancer as random Europeans.»

How conflating terminology helps racists validate their racism.

Somewhat related to a recent post of mine, I came across this troubling article in the NY Times by David Reich, a Harvard geneticist who seems to regularly be described as « eminent », in which he argues that « it is simply no longer possible to ignore average genetic differences among ‘races.' » He seems to have positive intentions — he even begins the article by acknowledging that race is a social construct — and I have no doubt that his knowledge of genetics is lightyears beyond my own non-existent knowledge of that subject, but despite his intentions and knowledge in that field, he seems to not have consulted with social scientists at all. The crux of the issue is that he conflates « race » with « population ». Indeed, immediately after acknowledging that race is a social construct, he states the following:

The orthodoxy goes further, holding that we should be anxious about any research into genetic differences among populations.

He seems to be using the two terms as synonyms, or at the very least, he’s being careless enough with his use of the two that it appears that he’s using them as synonyms. I seriously doubt that there are any respected geneticists who would argue that genetic differences among populations do not exist, but that’s not at all the same as making an argument about whether genetic differences between races exist.

There are already two good responses to the article, one in BuzzFeed, co-signed by some 67 scientists, and another by sociologist Ann Morning, who also co-signed the BuzzFeed article. These do a pretty good job of explaining the problem with Reich’s article — although I think the BuzzFeed article would have been better if they had not attempted to comment on genetic findings as much — so I just want to talk about Reich’s example from his own research supposedly showing how race can be used productively to study genetics. Here’s the relevant quote from his article:

To get a sense of what modern genetic research into average biological differences across populations looks like, consider an example from my own work. Beginning around 2003, I began exploring whether the population mixture that has occurred in the last few hundred years in the Americas could be leveraged to find risk factors for prostate cancer, a disease that occurs 1.7 times more often in self-identified African-Americans than in self-identified European-Americans. This disparity had not been possible to explain based on dietary and environmental differences, suggesting that genetic factors might play a role.

Self-identified African-Americans turn out to derive, on average, about 80 percent of their genetic ancestry from enslaved Africans brought to America between the 16th and 19th centuries. My colleagues and I searched, in 1,597 African-American men with prostate cancer, for locations in the genome where the fraction of genes contributed by West African ancestors was larger than it was elsewhere in the genome. In 2006, we found exactly what we were looking for: a location in the genome with about 2.8 percent more African ancestry than the average.

When we looked in more detail, we found that this region contained at least seven independent risk factors for prostate cancer, all more common in West Africans. Our findings could fully account for the higher rate of prostate cancer in African-Americans than in European-Americans. We could conclude this because African-Americans who happen to have entirely European ancestry in this small section of their genomes had about the same risk for prostate cancer as random Europeans.

Reich offers this as an example of how using race as a variable can be fruitful, but I think what he really does is undermine his own argument. What he’s ultimately talking about here is not African-Americans, but people with a section of their genome matching that which was commonly found in people who lived in West Africa. This appears to be the population that’s relevant to his study, yet he insists on talking about his results in terms of a race instead, repeatedly referring to African-Americans, a culturally diverse group that’s too often treated as monolithic and who don’t even necessarily have this ancestry, a fact that Reich admits in this very passage.

The use of the label African-American in his explanation serves no explanatory purpose and in fact is not even very precise. What it does do is make it easy for racists to claim that some Harvard geneticist has validated their racism, and confuse laymen who aren’t versed in subtle terminology distinctions for referring to groups of people, which Reich himself doesn’t even seem to be versed in. He repeatedly describes these subjects as « self-identified », which I assume he does in order to take responsibility for using the label out of his own hands, but as I explained in my previous post, this strategy offers no protection at all for people who would be hurt by the stereotypes that are generated when using social variables like race.

Indeed, my admittedly unscientific survey of Twitter has led me to what appear to be three types of reactions to the piece: 1) social scientists pointing out how irresponsible the article is, 2) geneticists mocking « soft scientists » and/or praising the article as a fantastically delicate treatment of a difficult topic, and 3) blatant, hardcore racists using the article as validation for their racism. (3) should be troubling enough to those in (2) to convince them to go talk to those in (1) about how to better deal with the social side of their research.

Interpréter les valeurs-P impossibles à interpréter.

Dernièrement, j’ai essayé d’apprendre davantage de la science ouverte et les liens que ça a avec la recherche que j’ai faite, la recherche que j’aimerais faire et la sociolinguistique en général. Un thème qui se soulève régulièrement quand on cause pour la science ouverte est la pre-registration. Pour ceux qui ne connaissent pas ce processus, la pre-registration réfère à la publication d’une description détaillée et horodatée de vos méthodes de recherche et vos analyses dans un dépôt avant de regarder vos données. Ce processus renforce la transparence de la recherche et aide au chercheur d’éviter le dragage de données. Évidemment, il existe des arguments contre la pre-registration de la recherche, mais moi je n’en ai pas vu encore qui n’interprètent pas mal ce qu’est la pre-registration premièrement, ça fait que son emploi me ressemble sans désavantage.

Cependant, en examinant les mécaniques de la production d’une pre-registration, j’ai fini par regarder le webinaire suivant du Center for Open Science (COS) pour l’usage de son Open Science Framework (OSF) pour publier des pre-registrations, qui a inclus cette description curieuse de comment interpréter les valeurs-P dans différentes qualités de recherche1:

Dans le fond, ça clame que la pre-registration rend bien clair quelles analyses sont confirmatoires2 et équelles sont exploratoires, qui est un bon avantage, mais ça clame également que les valeurs-P ne peuvent pas être interprétées dans la recherche exploratoire. En d’autres termes, une valeur-P générée à partir des analyses qui n’ont pas été documentées dans une pre-registration n’a aucune signification.

Je peux comprendre la raison que ce point s’a soulevé, mais je crois que c’est un mauvais point. La pre-registration ressemble bien créer un autre niveau dans la hiérarchie des genres de recherche — c.-à-d. exploratoire (observationnelle, pas de pre-registration) > confirmatoire (observationnelle, avec une pre-registration) > causale (expérimentale) — mais moi je ne vois aucune raison de dire que les valeurs-P sont impossibles à interpréter au niveau exploratoire. Les valeurs-P me ressemblent tout à fait valides à tout niveau, et tout ce qui change c’est la manière que ça devrait être interprété, non si ça peut être interprété du tout. D’après moi, dans la recherche expérimentale, une valeur-P aide à avancer qu’il existe une relation de causalité, tandis que dans les études observationnelles confirmatoires, une valeur-P aide à avancer qu’il existe une relation, mais pas forcément de causalité, et dans la recherche observationnelle exploratoire, une valeur-P suggère simplement qu’il se peut qu’une relation existe et que cette relation potentielle devrait être davantage examinée dans la recherche future.

Dans le cas de mon mémoire, j’ai en fait employé les valeurs-P par le test exact d’indépendance à Fisher, mais je n’ai pas produit une pre-registration pour les analyses. Ça ne veut pas dire que les analyses étaient exploratoires, mais que j’ai pas de preuves que je n’ai pas empoloyé le dragage de données. En effet, j’ai inclus des variables qu’on pourrait qualifier comme non-pertinentes3, telles que le codeur des occurrences de la variable linguistique, (lol). Au début, le webinaire m’a fait paniquer un peu et me demander si l’inclusion des valeurs-P dans les analyses était irréfléchie, mais après avoir jonglé davantage pour cette question, je crois que c’était complètement justifié. La majorité des analyses étaient confirmatoires en tout cas, quand même si je n’en ai pas de preuves, et c’était toujours plus utiles de constater les valeurs-P pour ceux qui étaient peut-être exploratoires, tant qu’une explication de comment interpréter ces valeurs-P étaient également incluse, et c’est là éoù j’aurais pu faire mieux.

À la fin, bien que je comprenne la raison qu’il y a un focus sur le dragage de données comme une mauvaise affaire, je crois que c’est important de ne pas dépasser le but. Les valeurs-P peuvent certainement être mal employées, mais ce mauvais emploi me ressemble plus d’une question de fournir au lecteur assez d’informations pour en interpréter bien que de les inclure équand on n’aurait pas dû les inclure.


1. Le webinaire est beaucoup bien, en fait. Je suggère qu’on le regarde en entier si on ne connaît pas bien la science ouverte.
2. Dans ce cas, la personne qui est après causer ressemble user le terme «recherche confirmatoire» pour faire référence à quelque chose à part de la recherche causale, sinon sa description ne fait pas de rime.
3. En fait, le directeur de mon mémoire n’a pas arrivé à voir le point de l’inclusion de ces variables du tout.

Interpreting uninterpretable P-values.

Lately, I’ve been trying to learn more about open science and how it relates to research I’ve done, research I’d like to do, and how it relates to sociolinguistics in general. One topic that comes up regularly when talking about open science is pre-registration. For those who aren’t familiar with this process, pre-registration refers to publishing a detailed, time-stamped description of your research methods and analyses on some repository before ever actually looking at your data. Doing so increases transparency for the research and helps the researcher avoid P-hacking, aka data fishing1. There are apparently some arguments against pre-registering research, but I’ve yet to see any that don’t mischaracterize what pre-registration actually is, so it seems like a no brainer to do it.

But in looking into the actual mechanics behind producing a pre-registration, I ended up watching the following webinar from the Center for Open Science (COS) about using their Open Science Framework (OSF) to publish pre-registrations, which included this curious description of how to interpret P-values in different kinds of research2:

Basically, the claim is that pre-registration makes it clear which analyses are confirmatory3 and which are exploratory, which is great, but the other part of the claim is that P-values are uninterpretable in exploratory research. In other words, any P-values that are generated through analyses that weren’t pre-registered, i.e. through data fishing, are meaningless.

I can understand why this point is made, but I think it’s a bad point. Pre-registration does seem to create another level in the hierarchy of types of research — i.e. exploratory (observational, not pre-registered) > confirmatory (observational, pre-registered) > causal (experimental) — but I see no reason why P-values are uninterpretable at the exploratory level. It would seem that P-values are perfectly valid at all levels, and all that changes is how they should be interpreted, not whether they can be interpreted at all. To me, in experimental research, a P-value helps one argue for a causal relationship, whereas in confirmatory observational studies, a P-value helps one argue that some relationship exists, though not necessarily a causal one, and in exploratory observational research, a P-value simply suggests that there might be a relationship and so that potential relationship should be explored further in future research.

In the case of my thesis, I did employ P-values via Fisher’s exact test of independence, but I didn’t pre-register my analyses. That’s not to say that all my analyses were exploratory, just that I have no proof that I wasn’t data fishing. Indeed, I included variables that didn’t make any sense to include at all4, but still somehow turned out to be statistically significant, such as whether there was a relationship between the person who coded each token of my linguistic variable, (lol), and how that variable was realized. The webinar initially made me panic a bit, asking myself if it was irresponsible to have included P-values in my analyses, but after further reflection, I think it was completely justified. Most of my analyses were confirmatory anyway, even though I don’t have proof of that, and those that were arguably exploratory were still more useful to report with P-values as long as an explanation for how to interpret those P-values was also included, which is perhaps the one place where I could’ve done better.

Ultimately, while I can understand why there’s so much focus on data fishing as a negative thing, I think it’s important to not overshoot the mark. P-values can certainly be misused, but that misuse seems to come down to not providing enough information to allow the reader to properly interpret them, not to whether they were included when they shouldn’t have been.


1. I prefer the term data fishing, which can be more easily taken in both a negative and a positive way, whereas P-hacking sounds like it’s always negative to me. The Wikipedia article on data fishing gives a pretty clear explanation of what it is, for those who are unaware.
2. The webinar is really good, actually. I would suggest that anyone who’s new to open science watch the whole thing.
3. In this case, the speaker seems to be using the term « confirmatory research » as something different from « causal research », otherwise their description doesn’t make any sense.
4. In fact, my thesis advisor didn’t see the point in me including these variables at all.

L’Importance de l’anonymisation des groupes à l’étude.

Ça fait longtemps que j’écris un post là, mais je vous promets, il y a une bonne raison: j’étais après finir mon mémoire de maîtrise. Cependant, asteur que c’est déposé, je peux parler un peu pour ça que j’ai fait.1

Parce que j’ai mis en œuvre l’analyse des réseaux sociaux pour détecter des communautés dans l’étude, j’avais peu de motivation à trier les sujets selon des variables sociales comme l’ethnie, la race, la religion, etc. En fait, je n’aurais pas pu le faire si je le voulais, parce que j’ai recueilli un corpus de quelque 200 mille personnes. Finalement, la seule variable que je peux appeler une variable sociale que j’ai usée, c’était le numéro de la communauté à équelle appartenait le sujet.

L’avantage de cette situation, c’est que j’ai complètement évité d’imposer des stéréotypes aux sujets ou de minimiser les différences entre leurs identités en évitant de les classer parmi d’autres personnes d’ailleurs. Un exemple typique du problème dans la sociolinguistique est la variable de race. Des études célèbres, comme celles à Labov (1966) et à Wolfram (1969), ont classé leurs sujets selon leurs races, ça fait qu’on arrive à en identifier comme afro-américains, par exemple. Quand même si ces sujets ne restent pas ensemble ni n’interagissent, eux devient forcément considérés comme constituant un même groupe. À partir de ce regroupement, les diverses identités de ces groupes sont minimisées.

Ce problème a déjà été reconnu dans la sociolinguistique, et plusieurs solutions ont été proposées, principalement la mise en œuvre du concept des communautés de pratique et plus de dépendance à l’auto-identification. Par exemple, dans l’étude à Bucholtz (1999), elle a étudié un groupe que ses membres elle a identifié à partir d’une activité: le fait d’être membre d’un club. Malheureusement, elle a appliqué une étiquette aux membres de ce club; elle les a appelés des «nerds». Ce nom les relie à des nerds d’ailleurs, peu importe les différences entre ce groupe et les autres groupes de nerds. Elle n’a pas pu éviter de minimiser l’identité du groupe qu’elle a étudié par la simple mise en œuvre du concept des communautés de pratique. Également, Eckert (2000) a dépendu de l’auto-identification de ses sujets comme «jock» ou «burnout», mais on arrive au même problème: quand même si les sujets s’identifient, ça peut choisir des étiquettes qui les relient à des groupes lointains. Il existe sûrement des jocks ailleurs, mais ces autres jocks peuvent différer fortement des jocks dans l’étude à Eckert. Ça fait qu’on ne peut pas éviter de minimiser les identités par la simple dépendance à l’auto-identification, non plus.

Dans mon mémoire, j’ai identifié les communautés simplement par des numéros, ça fait que je n’ai jamais classé les sujets parmi des groupes à équels ça n’appartenait pas. Le fait que j’ai usé l’analyse des réseaux sociaux pour détecter automatiquement ces communautés m’a permis d’éviter plus facilement d’appliquer des étiquettes aux sujets qui pourraient minimiser leurs identités, mais c’est possible dans n’importe quelle étude, quand même si les chercheurs emploient les variables sociales classiques. De la même manière qu’on anonymise les identités des individus, on peut anonymiser les identités des groupes à l’étude. Quoifaire il faut connaître que les races dans une étude sont «noir» et «blanc» ou que les religions sont «juif» et «catholique»? Si un chercheur s’intéresse à la manière que ses sujets font face aux stéréotypes qui sont pertinents à leurs vies, ça c’est une affaire, mais la plupart des études variationnistes ne s’occupent pas de cette question, ça fait que la plupart des études peuvent faire davantage pour protéger les peuples défavorisés.


1. Pour ceux qui ne connaissent pas le thème de mon mémoire, j’ai effectué une analyse de l’usage de la variable linguistique (lol), constituée de lol, mdr, etc., sur Twitter.


Bucholtz, M. (1999). «Why Be Normal?»: Language and Identity Practices in a Community of Nerd Girls. Language in Society, 28(2), 203–223. https://doi.org/10.1017/s0047404599002043

Eckert, P. (2000). Linguistic Variation as Social Practice: The Linguistic Construction of Identity in Belten High. Madlen, MA: Blackwell Publishers, Inc.

Labov, W. (2006). The Social Stratification of English in New York City (2e éd.). Cambridge, Angleterre: Cambridge University Press. (Publié pour la première fois en 1966)

Wolfram, W. (1969). A sociolinguistic description of Detroit negro speech. Washington, D.C: Center for Applied Linguistics.

The importance of anonymizing groups under study.

It’s been a long time since I’ve written a post here, but I promise, there’s a good reason: I was finishing up my master’s thesis. However, now that it’s submitted, I can talk a bit about what I did.1

Because I made use of social network analysis to detect communities in the study, there was little motivation to class subjects by social variables like ethnic group, race, religion, etc. In fact, I wouldn’t have been able to do so if I wanted to, because I assembled the corpus from tweets sent by some 200k people. Ultimately, the only variable that I can call a social variable that I used was the number for the community to which the subject belonged.

The advantage of this situation is that I completed avoided imposing stereotypes on the subjects or minimizing the differences between their identities by avoiding classifying them with people from elsewhere. A typical example of the problem in sociolinguistics is the variable of race. Some celebrated studies, like Labov’s (1966) and Wolfram’s (1969), classified their subjects according to their races, so that one ends up identifying some as African-American, for example. Even if these subjects don’t live together nor interact, they inevitably end up being viewed as constituting a single group. From there, these groups’ diverse identities are minimized.

This problem has already been recognized in sociolinguistics, and several solutions have been proposed, mainly the implementation of the concept of communities of practice and more reliance on self-identification. For example, in Bucholtz’ (1999) study, she studied a group whose members she identified according to an activity: being a member of a club. Unfortunately, she applied a label to the member of this club; she called them « nerds ». This name links them to nerds from elsewhere, regardless of the differences between this group and other groups of nerds. She wasn’t able to avoid minimizing the identity of the group that she studied by the simple implementation of the concept of communities of practice. Likewise, Eckert (2000) relied on self-identification of her subjects as either « jock » or « burnout », but one ends up with the same problem: even if the subjects self-identify, they can choose labels that link them to distant groups. Jocks surely exist elsewhere, but these others jocks can be exceptionally different from the jocks in Eckert’s study. So, one cannot avoid minimizing identities by the simple reliance on self-identification, either.

In my thesis, I identified communities simply with ID numbers, so I never classified the subjects with other groups to which they didn’t belong. The fact that I used social network analysis to automatically detect these communities allowed me to more easily avoid applying labels to the subjects that could minimize their identities, but this is possible in any study, even if the researcher employs classic social variables. In the same way that one anonymizes the identities of individuals, one can anonymize the identities of the groups under study. Why is it necessary to know that the races in a study are « black » and « white or that the religions are « Jewish » and « Catholic »? If a researcher is interested in the way that their subjects navigate stereotypes that are relevant to their lives, that’s one thing, but most variationist studies don’t take up this question, so most studies can do more to protect marginalized people.


1. For those who don’t know the topic of my thesis, I analyzed the use of the linguistic variable (lol), made up of lol, mdr, etc., on Twitter.


Bucholtz, M. (1999). « Why Be Normal? »: Language and Identity Practices in a Community of Nerd Girls. Language in Society, 28(2), 203–223. https://doi.org/10.1017/s0047404599002043

Eckert, P. (2000). Linguistic Variation as Social Practice: The Linguistic Construction of Identity in Belten High. Madlen, MA: Blackwell Publishers, Inc.

Labov, W. (2006). The Social Stratification of English in New York City (2nd ed.). Cambridge, England: Cambridge University Press. (Originally published in 1966)

Wolfram, W. (1969). A sociolinguistic description of Detroit negro speech. Washington, D.C: Center for Applied Linguistics.

Pluarlistic globalism and endangered languages.

I finally finished watching this over breakfast this morning. Something interesting from a linguistic perspective is that they don’t seem to use any English words in their Cherokee despite heavy contact, perhaps because they go to lengths to create new words for new things (see 35:00). This is not the strategy taken elsewhere, such as in Louisiana and the Maritimes (although Quebec tries to do this at least officially).

First Language, The Race to Save Cherokee by Neal Hutcheson on Vimeo.

Also, I think the quote at the end is particular fitting given the current social and political climate throughout the West. He positions the idea of a strong local culture within a broader context that doesn’t necessarily need to reject larger over-arching cultures or even global interconnectedness:

« If we consider what it actually means to be a pluralistic society, then that means we’re gonna have to make space for people who speak different languages, who think different ways, who have different cultures, inside of a national culture or a global culture, and so all the movement has been in the opposite direction towards globalization, towards homogenization, you know? What does it mean to change the process and open up space for a plurality of different small cultures working together? How can we truly accept and respect those people and allow them some measure of autonomy with their educational system and the language that they speak? » –Hartwelll Francis de West Carolina University, ma traduction

La mondialisation pluarliste et les langues en danger.

Enfin, j’ai fini de regarder First Language, The Race to Save Cherokee, à matin durant le déjeuner. Quelque chose d’intéressant d’un point de vue linguistique, c’est qu’eux ne semble pas user des mots anglais dans leur cherokee malgré le contact considérable, peut-être parce qu’eux déploie beaucoup d’efforts pour créer de nouveaux mots pour les nouvelles affaires (voir 35:00). Ça, ce n’est pas la stratégie employée ailleurs, tel que dans la Louisiane ou aux provinces maritimes (bien que le Québec en essaie au moins officiellement).

First Language, The Race to Save Cherokee par Neal Hutcheson sur Vimeo.

De plus, je pense que la citation à la fin est particulièrement pertinente par rapport au climat social et politique actuel à travers l’Occident. Il situe l’idée d’une forte culture locale dans un contexte plus large qui ne rejette nécessairement pas les plus grosses cultures qui l’englobent ni même les interconnexions mondiales:

«Si nous autres, on jongle après ce que ça veut dire d’être une société pluraliste, ça veut dire qu’on aura pour fournir de l’espace pour le monde qui parle d’autres langues, qui pense différemment, qui ont des cultures différentes, en dedans d’une culture nationale ou une culture mondiale, et ça fait que tout le mouvement avait été à la direction opposée vers la mondialisation, vers l’homogénéisation, tu connais? Quoi ça veut dire de changer le processus et d’ouverre un espace pour une pluralité de différent de cultures après travailler ensemble? Comment on peut vraiment accepter et respecter ce monde et l’accorde un degré d’autonomie avec son système scolaire et sa langue que ça parle?» –Hartwelll Francis de West Carolina University, ma traduction

An interesting cup of coffee.

I’m transcribing some broadcasts from Louisiana in French for a class on language change. For the recents broadcasts, I chose the show La Tasse de café on KVPI, and for the old broadcasts, the series En français, which was broadcast by Louisiana Public Broadcasting, a public TV station, in the 80s and 90s. I’m analyzing the variation between third person plural subject pronouns, meaning ils, ils -ont, ça, eux and eux-autres, but something that I immediately noticed in relation to the speech of Ms. Ledet, who was born in 1919, is that she employs many constructions that make her speech sound like that of the French in formal contexts. You don’t hear these constructions in the speech of Mr. Soileau and Mr. Manuel on KVPI (the former being born in 1941, the latter, I don’t know):

Ms. Ledet on En français

It’s not clear if this stems from a difference in region, in age, in interlocutor (the interviewer on En français seems rather France French), in interaction with francophones from elsewhere, or something else, but it’s interesting nonetheless. The corpus I’m constructing is small, because it’s just for a term paper, but I intend to extend it and possible perform other analyses.

Une tasse de café intéressante.

Je suis après transcrire des émissions de la Louisiane en français pour un cours de changement linguistique. Pour les émissions récentes, j’ai choisi le show La Tasse de café sur KVPI, et pour les vieilles émissions, la série En français, qui a été publiée par Louisiana Public Broadcasting, une chaîne publique, dans les années 80 et 90. Je suis après analyser la variation entre les pronoms sujets de la troisième personne du pluriel, c’est-à-dire ils, ils -ont, ça, eux et eux-autres, mais quelque chose que j’ai tout de suite noté par rapport au parler de Mme Ledet, qui a été née en 1919, c’est qu’elle emploie beaucoup de constructions qui font ressembler son parler à cil des Français dans des contextes formels. Tu n’entends pas ces constructions dans le parler de MM. Soileau et Manuel à KVPI (ce premier étant né en 1941, ce dernier, moi je ne connais pas):

Mme Ledet sur En français

Ce n’est pas clair que ça provienne d’une différence de territoire, d’âge, d’interlocuteur (l’intervieweur sur En français semble plutôt français de la France), d’interaction avec des francophones d’ailleurs, ou autre chose, mais c’est intéressant quand même. Le corpus que moi, je suis après construire est petit, parce que c’est rien que pour un travail de cours, mais j’ai idée de l’étendre et peut-être de faire d’autres analyses.

« Older posts Newer posts »

© 2024 Josh McNeill

Theme by Anders NorenUp ↑