Category: Uncategorized (Page 1 of 26)

LAVIS5 / SECOL91

I had a good time at LAVIS5 / SECOL91 this weekend, a linguistics conference about the southern United States. Louisiana was well represented. Here’s my contribution.

LAVIS5 / SECOL91

J’ai passé un bon temps à LAVIS5 / SECOL91 cette fin de semaine, une conférence linguistique au sujet du sud des États-Unis. La Louisiane était bien représentée. Voici ma contribution.

The dive into open science.

Finally, I decided to do a project following open science guidelines. I’ve spoken about this in a rather old post no. Then, I was describing a workflow that resembling software development. Unfortunately, even though I’ve implemented this workflow since, I’ve always felt too rushed to do any preregistrations or even submit my projects to the IRB, but for my first qualifying paper, I want to do it right. You can follow the progress on the OSF.

La plongée dans la science ouverte

Enfin, j’ai décidé de bien faire un projet selon les recommandations de science ouverte. J’ai parlé pour ça dans un post qui est plutôt vieux asteur. Là, c’était une description d’un work flow semblable au développement de logiciel. Malheureusement, quand même si je mets en œuvre ce work flow depuis, je me sentais toujours trop pressé pour faire des pré-enregistrements ou même soumettre mes projets a l’IRB, mais pour mon premier qualifying paper, je veux bien le faire. Vous pouvez suivre comment ça s’avance sur l’OSF.

Master’s thesis now available.

I’m very happy to be able to say that my master’s thesis, entitled LOL sur Twitter: une approche du contact de langues et de la variation par l’analyse des réseaux sociaux, has been published to the digital library website at UQAM. If you’re interested in linguistic variation, French on Twitter, social network analysis as it applies to language contact, or simply internet abbreviations like lol, please download it and read it. You can find it in the following locations:

Mémoire de maîtrise asteur disponible.

Je suis bien heureux d’être en mesure de dire que mon mémoire de maîtrise, intitulé LOL sur Twitter: une approche du contact de langues et de la variation par l’analyse des réseaux sociaux, a été publié sur le site web de la bibliothèque numérique à l’UQÀM. Si vous vous intéressez à la variation linguistique, le français sur Twitter, l’analyse des réseaux sociaux telle que ça s’applique au contact de langues, ou tout simplement les abréviations sur internet comme lol, veuillez le télécharger et le lire. Vous pouvez le retrouver aux emplacements suivants:

Working your flow.

Grad school is essentially a juggling act: you not only have to perform in your classes, but you have to work as a TA or RA, do your own research, and make sure that you nurture your social life so that you don’t go insane. One way to make this task much more manageable can be summed up in the immortal words of Scrouge McDuck:

One way to work smarter, not harder, is to make sure you’re using the right technological tools. For me, in particular, two issues stuck out while writing my master’s thesis:

  1. Finding a way to easily collaborate with my committee members
  2. Finding a way to deal with numerous drafts

These were sort of interrelated issues, too. At times, I had already written several more drafts by the time I got comments back on a draft I had e-mailed to a committee member, which could lead to a bit of confusion or simply waste time if I had already spotted and corrected an issue that was commented on. These issues really apply to all research, though, as all research can (and to some degree probably should) involve collaboration and numerous rewrites.

My solution to these two issues has been to develop a workflow that treats writing a paper more like writing software. In a way, I mean this literally, as my current workflow involves programming rather than using Word to write papers or Excel to manage data or something like SPSS to perform statistical analyses. These programs are nice in that they’re pretty easy to learn, but they also don’t integrate very smoothly and transparently with each other, don’t play well with the internet/cloud systems, and create all sorts of compatibility issues if your collaborators aren’t using the same exact tools. The alternative is using tools that involve only standardized, text-based file types. This means learning how to code. I know that sounds scary for many people, and the learning curve is certainly higher than figuring out where the table button is in Word, but the learning curve is in my opinion often overstated, and the payoff of overcoming that curve is pretty great. Remember, work smarter, not harder.

The first component of my current workflow is the website ShareLaTeX.1 This site allows you to produce .pdf documents using a markup language called LaTeX. A markup language is a very simple programming language that lets you format plain text by occasionally inserting little tags when you need to make something bold or create a header or whatever. You write your text up with your little tags in an input file, in this case a .tex file, which then spits out a .pdf document when you compile it. For instance, if I wrote the following in my .tex file:

This is my super cool first section where I talk about DuckTales.
\section{Get to the point}
This is my next section where I get to the point and say something useful.

I would get a .pdf that looks something like this:

This is my super cool first section where I talk about DuckTales.

Get to the point

This is my next section where I get to the point and say something useful.

That’s more or less it. You can do quite a bit with LaTeX (there are numerous independently developed packages that extend its capabilities even beyond what the base system can do), but, for many researchers, you can learn almost all you’ll need to know to use it with just a few days of running through tutorials and/or hunting down the tags that will allow you to create whatever you need, e.g. footnotes, tables, citations, perhaps syntax trees for linguists, etc. There are many offline editors that allow you to write and compile .tex files, but ShareLaTeX itself is an online editor, so you can avoid figuring out how to install LaTeX and an editor on your laptop by using the site. One added bonus, too, is that if the phrase “compiling a .tex file” sounds intimidating to you, ShareLaTeX simply gives you a “Compile” button that does it all for you and shows you the resulting .pdf document.

ShareLaTeX has many other bonuses, though, because it’s really a collaboration tool. You create a project and invite collaborators or advisors who then have real time access to anything that’s in that project and any changes that are being made. In my case, a project might include a .tex file, a .bib file2 containing my list of references (a standardized, human-readable text file format for automatically handling citations in .tex documents), .csv files for data (again, a standardized, human-readable text file format), and .R scripts that perform statistical analyses and produce figures and tables (which are again non-proprietary, human-readable text files). Collaborators can comment on the text, check out the data that text was based on, and see exactly how you analyzed it, all in one place. ShareLaTeX even has a form of version control so that you can get back to an earlier draft of your paper if necessary and collaborators can see how each paragraph has been changed. It’s basically like a super-powered Google Docs and ultimately far more efficient than trying to create your own version control system out of a bunch of Word documents that you then have to e-mail back and forth to each collaborator separately.

Another big advantage of writing your papers in LaTeX is that you can add R code directly into a LaTeX document3 via an R package called knitr. What this means is that when your analyses change or your data changes, your write-up will automatically be updated, as well. No longer do you need to tediously figure out how you generated a figure or a number, go back to another program, change your analysis, regenerate the figure or number, create an image or something of that sort, switch the old image with the new one in your document, and then hope that you didn’t miss a reference to it somewhere else in your paper. Instead, find the relevent paragraph in your .tex file, change a number or whatever, press compile, and you’re done. Remember, work smarter, not harder.

What this also means is that you don’t want to just learn LaTeX, you want to learn R, too. R is another programming language that’s specifically designed for doing statistics. There’s more of a learning curve for R than for LaTeX, but R is also extremely popular. There’s a very good chance that your university offers seminars for learning it or that you have a colleague who knows it already. In the unlikely chance that neither of these things are true, there are also a huge number of online tutorials and free courses for learning it.4 As with LaTeX, R can do far more than what you need it to do for you, so the trick is to learn some basics and then focus on learning what you need for whatever project you’re doing. In my case, I taught myself enough R to analyze all the data for my thesis in about two weeks.

So ShareLaTeX provides an online environment to store your write-up, your references, your data, and your analyses. It also provides exceptional tools for collaborating. What it’s not so great for is sharing your work with the world. I don’t just mean publishing a paper, but making your data and analyses available to the public and other researchers for free, i.e. partaking in open science. To accomplish this, we need a second component for our workflow, a website called GitHub. GitHub technically exists for developing open source software, so why use it for science? Because this is the future, and in the future we do open science, and we write papers as if we’re writing software.

Another reason is because we can automatically sync our projects to GitHub from ShareLaTeX, and GitHub can then sync them to numerous other sites. You can can even sync a GitHub project with a local version on your laptop using Git, which is simply the version control software that GitHub itself uses. In this way, you can work without internet access but still maintain a consistent system of drafts and rewrites that don’t get confusing. In fact, that’s really the whole purpose of Git and GitHub. They keep track of changes to text files (e.g. .tex files or .bib files or .csv files or .R script files) so that you don’t have to. This combined with GitHub’s popularity make it the perfect tool to act as the hub for your workflow.

But GitHub is also very social. Once you have a project on the site, anyone can make their own copy of it and do what they want with it. Perhaps they had a better idea for how you could have done a statistical analysis: they can literally redo it themselves and then merge their changes back into your project, with your approval of course. Perhaps they want to replicate your study or apply new analyses to your data: this is all perfectly simple once the project is on GitHub. This is how open source software development has worked for a while, and scientific research can just as easily benefit from this sort of workflow and openness.

Still, GitHub is not a science-centric site. This means that it’s missing two important elements: 1) it doesn’t make your project super-visible to other researchers, and 2) it doesn’t facilitate open science processes like preregistrations and publishing preprints.5 Luckily, GitHub allows you to sync your project to the Open Science Framework (OSF), the third component of our workflow, which can handle all of the above. The OSF is not so great for collaboration, even though it has a rudimentary commenting system and a rudimentary version control system, but it’s an ideal place to create preregistrations, increasing validity and transparency for your research, which can then all be linked to preprint versions of your research that can be uploaded to preprint servers that the OSF also hosts, like arXiv or, if you’re in the social sciences like me, SocArXiv. In fact, ShareLaTeX, once merged with Overleaf, will most likely support direct submission to preprint servers, which includes formatting and all, since Overleaf currently has this feature.

So, to summarize, the workflow described here has four components:

  1. ShareLaTeX (your main work area for you and your named collaborators)
  2. GitHub (a central hub that makes your work public and allows for anonymous collaboration)
  3. The OSF (fulfills all your open science and study design validity needs)
  4. Git (your offline tool for working without internet access)

Using these tools involves more of a learning curve than the old-fashioned Word + e-mail methods (you’ll need to learn some LaTeX, some R, and how Git and GitHub work, though these latter two can really be learned in just a couple hours), but once you get over that curve, your life will be significantly easier. You’ll be able to spend your time thinking about your research instead of thinking about how to manage your research and how to keep everyone in the loop. This is the essence of working smarter, not harder: if you put a little more effort in on the front end, you’ll catch up and get far ahead on the back end.


  1. At the time of this writing, ShareLaTeX is in the processing of merging with a similar site called Overleaf, which will eventually yield Overleaf v2. I’ve been beta testing v2, however, and it appears, thankfully, to be almost identical to ShareLaTeX.
  2. This is a really important concept for working smarter, not harder, as well: do not ever deal with references and citations by hand. Personally, I recommend using Zotero for reference management. Zotero allows you to import sources, complete with .pdf’s, with the push of a button in your web browser, and it syncs these sources to its website as well as any other computers that you’re running the application on. You can then create .bib files directly from Zotero, which allows you to create in-text citations and automatically generate bibliographies in your .tex LaTeX document.
  3. On ShareLaTeX, you rename your file from .tex to .Rtex to accomplish this. Otherwise, nothing changes.
  4. To maybe a lesser extent, this is all true of LaTeX, as well. LaTeX has been around for decades and has been the method of choice for writing papers in many math-heavy fields.
  5. I won’t get into the benefits of using registrations and preprints here, as I’m just trying to outline an effective workflow, but I highly recommend looking into them.

Après work votre flow.

Faire des études supérieures est essentiellement un exercice d’équilibre: vous ne devez pas seulement réussir vos cours, mais vous devez travailler en tant qu’assistant de recherche ou moniteur/correcteur et vous devez faire en sorte de cultiver votre vie sociale afin de rester sain d’esprit. Une manière de réduire la difficulté de cette besogne peut être résumée par les paroles immortelles à Scrouge McDuck:

Une manière de travailler plus smart, non plus dur, c’est d’assurer que vous êtes après user les bons outils technologiques. Pour moi, en particulier, deux difficultés s’ont soulevées pendant que j’étais après écrire mon mémoire de maîtrise:

  1. La recherche d’une manière convenable de collaborer avec les membres de mon comité
  2. La recherche d’une manière d’organiser de nombreuses versions du mémoire

Ça, c’était aussit des difficultés liées. Des fois, j’avais déjà produit d’autres versions équand j’ai reçu des remarques sur une version que j’avais envoyé à un membre du comité par courriel, qui pouvais prêter à confusion ou simplement gaspiller du temps si j’avais déjà reconnu et corrigé un problème qui a été remarqué. Cependant, la franche vérité c’est que ces difficultés sont pertinentes à toute recherche, puisque toute recherche peut (et dans une certaine mesure devrait, probablement) impliquer de la collaboration et des révisions.

Ma solution à ces deux difficultés a été de développer un workflow qui traite l’écriture d’un article comme le développement de logiciels. D’une certaine manière, je le dis littéralement, puisque mon workflow actuel nécessite de la programmation plutôt que Word pour l’écriture ou Excel pour la gestion de données ou quelque chose comme SPSS pour les analyses statistiques. Ces applications sont commodes, parce que vous pouvez facilement les apprendre, mais ça ne s’intègre ni bien ni de manière transparente, l’un à l’autre, ça ne va pas trop bien avec l’internet/les systèmes de cloud et ça entraîne toute qualité de problèmes de compatibilité si vos collaborateurs n’usent pas des outils identiques. L’alternative, c’est d’user des outils qui s’appuient sur les fichiers texte standardisés. Ça implique l’apprentissage du codage. Je comprends que ça a l’air effrayant pour beaucoup de monde, et la courbe d’apprentissage est sûrement plus raide que le repérage du bouton pour les tableaux dans Word, mais la courbe d’apprentissage est, d’après moi, souvent exagérée, et la récompense du travail est joliment grande. Rappelez-vous, travaillez plus smart, non plus dur.

Le premier composant de mon workflow actuel est le site web ShareLaTeX.1 Ce site vous permet de produire des documents .pdf en usant un langage de balisage qui s’appelle LaTeX. Un langage de balisage est un langage de programmation bien simple qui vous permet de formater du texte brut par l’insertion occasionnelle de petites balises équand vous avez besoin de rendre quelque chose en gras ou de créer un en-tête ou n’importe quoi. Vous écrivez votre texte avec vos petites balises dans un fichier source, dans ce cas un fichier .tex, qui génère un document .pdf équand vous le compilez. Par exemple, si j’écrirais le suivant dans mon fichier .tex:

Ça c'est mon excellente première section éoù je cause pour DuckTales.
\section{Venez-en au fait}
Ça c'est ma prochaine section éoù j'en viens au fait et je dis quelque chose d'utile.

Je recevrais un .pdf qui ressemble à quelque chose comme ça:

Ça c’est mon excellente première section éoù je cause pour DuckTales.

Venez-en au fait

Ça c’est ma prochaine section éoù j’en viens au fait et je dis quelque chose d’utile.

Ça c’est plus ou moins tout. Vous pouvez en faire pas mal avec LaTeX (il y a de nombreux packages indépendamment développés qui étendent ses capacités encore au-delà de ce que peut faire le système de base), mais, pour beaucoup de chercheurs, vous pouvez apprendre proche tout ce que vous avez de besoin en juste quelques jours en suivant des tutoriels et/ou pourchassant les balises qui vont vous permettre de créer ce que vous voulez, p. ex. des notes de bas de page, des tableaux, des citations, peut-être des arbres syntagmatiques pour les linguistes, etc. Il y a un tas d’éditeurs de texte hors ligne qui vous permettent d’écrire et compiler les fichiers .tex, mais ShareLaTeX est lui-même un éditeur en ligne, ça fait que vous pouvez éviter la tâche de comprendre comment installer LaTeX et un éditeur sur votre portable en usant le site. Une avantage supplémentaire, itou, c’est que si la phrase «compiler les fichiers .tex» vous intimide, ShareLaTeX vous donne simplement un bouton «Compiler» qui fait tout quelque chose pour vous et vous montre le document .pdf résultant.

ShareLaTeX présente encore beaucoup d’autres avantages, parce que c’est vraiment un outil de collaboration. Vous créez un projet et vous invitez des collaborateurs ou des conseillers qui ont alors accès en temps réel à ce qui se trouve dans le projet ainsi que des changements à mesure qu’on les fait. Pour moi, un projet peut inclure un fichier .tex, un fichier .bib2 qui contient ma liste de références (un format de fichier texte lisible par les humains et standardisé qui gère automatiquement les citations dans les documents .tex), des fichiers .csv pour les données (un format de fichier texte lisible par les humains et standardisé) et des scripts .R qui effectuent les analyses statistiques et génèrent les figures et les tableaux (qui sont encore des fichiers texte lisibles par les humains, non-propriétaires). Les collaborateurs peuvent faire des remarques sur le texte, check les données sur équelles le texte a été basé et voir exactement comment vous les avez analysées, tout ça dans un seul endroit. ShareLaTeX a même une forme de gestion de versions pour que vous pouviez venir back à une ancienne version de votre article si nécessaire et les collaborateurs peuvent voir comment chaque paragraphe s’a déroulé. C’est essentiellement comme un Google Docs super-puissant mais finalement beaucoup plus efficace que d’essayer de créer votre propre système de gestion de version à partir des documents Word que vous devez échanger séparément avec tous vos collaborateurs.

Une autre avantage d’écrire vos articles en LaTeX est que vous pouvez mettre du code en R directement dans un document LaTeX3 via un package de R qui s’appelle knitr. Ce que ça veut dire, c’est que votre article va être automatiquement mis à jour à mesure que vos analyses changent. Vous n’avez plus besoin de chercher minutieusement l’origine d’une figure ou d’un chiffre, puis retourner à cette origine dans un autre programme, changer votre analyse, régénérer la figure ou le chiffre, créer une image ou quelque chose comme ça, switch l’ancienne image avec la nouvelle dans votre document et enfin souhaiter que vous n’aviez pas manqué une de ses références en quelque part d’autre dans l’article. Plutôt, vous pouvez simplement retrouver le paragraphe pertinent dans votre fichier .tex, changer un chiffre ou quoi que ce soit, appuyer sur compiler, puis c’est fini. Rappelez-vous, travaillez plus smart, non plus dur.

Ce qui ça veut également dire, c’est que vous ne voulez apprendre rien que LaTeX, mais R, itou. R est un autre langage de programmation qui a été spécifiquement conçu pour faire les statistiques. Sa courbe d’apprentissage est plus raide que cil de LaTeX, mais R est extrêmement répandu. C’est fort possible que votre université offre des séminaires pour l’apprendre ou que vous aviez un collègue qui le connaît déjà. Au cas improbable éoù rien de ça n’est vrai, il existe un grand nombre de tutoriels en ligne et de cours gratuits pour l’apprendre.4 Comme pour LaTeX, R peut faire beaucoup plus que ce que vous avez de besoin, ça fait que vous devriez apprendre des bases et puis vous concentrer sur l’apprentissage de ce que vous avez de besoin pour le projet que vous êtes après faire. Pour moi, je ai appris par moi-même assez de R pour analyser toutes les données pour mon mémoire en à peu près deux semaines.

Ça fait, ShareLaTeX présente un environnement en ligne éoù vous pouvez resserrer votre article, vos références, vos données et vos analyses. Ça présente également un outil exceptionnel pour la collaboration. Éoù ça manque, c’est l’absence d’options pour partager votre travail avec le monde. Je ne fais pas simplement référence à la publication de l’article, mais le fait de rendre vos données et vos analyses accessibles au public et à d’autres chercheurs gratis, c.-à-d. le fait de participer à la science ouverte. Pour ce faire, il faut un deuxième composant de notre workflow, un autre site web qui s’appelle GitHub. GitHub existe techniquement pour développer les logiciels open source, ça fait, quofaire l’employer pour la science? Parce que ça, c’est le futur, et dans le futur on fait la science ouverte, et on écrit les articles comme si on est après développer des logiciels.

Une autre raison, c’est qu’on peut automatiquement synchroniser nos projets au GitHub depuis ShareLaTeX, et GitHub peut ensuite les synchroniser à plusieurs autres sites. Vous pouvez même synchroniser un projet GitHub avec une version locale sur votre portable en usant Git, qui est simplement le logiciel de gestion de versions qu’emploie GitHub, lui-même. Comme ça, vous pouvez travailler sans accès à l’internet mais garder toujours un système de versions cohérent qui ne deviendra pas confus. En fait, ça c’est vraiment la raison d’être de Git et de GitHub. Ça garde la trace des changements aux fichiers texte (p. ex. les fichiers .tex ou .bib ou .csv ou les scripts .R) pour que vous ne pouviez le faire. Tout ça en combinaison avec la popularité de GitHub le rend l’outil parfait pour jouer le rôle de centre de contrôle pour votre workflow.

Mais GitHub est également bien social. Dès que vous avez un projet sur le site, n’importe qui peut le copier et faire ce qu’on veut avec la copie. Peut-être qu’on a une meilleure idée pour une des analyses statistiques: on peut littéralement la refaire soi-même et puis fusionner ses changements dans votre projet, si vous l’autorisez du moins. Peut-être qu’on veut reproduire votre travail ou appliquer de nouvelles analyses à vos données: c’est tout à fait simple une fois que le projet se retrouve sur GitHub. Ça c’est comment le développement des logiciels open source se déroule depuis longtemps, et la recherche scientifique peut aisément profiter de cette qualité de workflow et d’ouverture.

Pourtant, GitHub n’est pas un site centré sur la science. Ça veut dire que ça manque deux éléments importants: 1) ça ne rend pas trop visible à d’autres chercheurs votre projet, et 2) ça ne facilite pas les processus de la science ouverte comme le pré-enregistrement et la prépublication.5 Une chance que GitHub vous permet de synchroniser votre projet à l’Open Science Framework (OSF), le troisième composant de notre workflow, qui peut gérer tout ça-là. L’OSF n’est pas trop utile pour la collaboration, quand même si ça inclut un système de remarques rudimentaire et un système de gestion de versions rudimentaire, mais c’est la place idéale pour créer les pré-enregistrements, après augmenter la validité et la transparence de votre recherche, qui peuvent être reliés à des prépublications de votre recherche qui peuvent être téléchargées aux serveurs de prépublications que l’OSF héberge, comme arXiv ou, si vous travaillez dans les sciences sociales comme moi, SocArXiv. En fait, ShareLaTeX, une fois que ça aura fusionné avec Overleaf, supportera probablement le dépôt direct aux serveurs de prépublications, y compris la mise en forme et tout ça, puisque Overleaf offre actuellement cette fonctionnalité.

Ça fait, pour résumer, le workflow dépeint là a quatre composants:

  1. ShareLaTeX (votre lieu de travail principal pour vous et vos collaborateurs reconnus)
  2. GitHub (centre de contrôle qui rend accessible votre travail et invite les collaborateurs anonymes)
  3. L’OSF (remplit toutes les fonctions de la science ouverte et vous aide à augmenter la validité de vos plans d’étude)
  4. Git (votre outil hors ligne pour travailler sans accès à l’internet)

Après user ces outils implique une courbe d’apprentissage plus raide que les méthodes démodées comme l’usage de Word + courriel (vous devrez apprendre un peu de LaTeX, de R et comment Git et GitHub fonctionnent, et on peut en vérité apprendre ces deux derniers en quelques heures), mais après vous aurez surmonté cette courbe-là, votre vie serez beaucoup plus simple. Vous pourrez passer votre temps après jongler pour votre recherche au lieu d’après jongler pour comment gérer votre recherche et comment tiendre tout quelqu’un au courant. Ça, c’est l’essence de travailler plus smart, non plus dur: si vous exercez un peu plus d’effort d’avance, vous rattraperez et prendrez beaucoup d’avantage.


  1. À l’heure de cette écriture, ShareLaTeX est en train de fusionner avec un site similaire qui s’appelle Overleaf, qui deviendra Overleaf v2, à la longue. Je l’ai bêta-testé, cependant, et ça me ressemble proche pareil à ShareLaTeX, heureusement.
  2. Ça, c’est vraiment un concept important si vous voulez travailler plus smart, non plus dur: ne faites jamais les références et les citations à la main. Personnellement, moi je recommande Zotero pour la gestion bibliographique. Zotero vous permet d’importer les sources, les .pdf inclus, en appuyant simplement sur un bouton dans votre navigateur, et ça synchronise ces sources à son site web et à n’importe quels autres ordinateurs sur équels vous usez l’application. Vous pouvez ensuite créer des fichiers .bib directement à partir de Zotero, qui vous permet de créer des citations et de générer automatiquement vos bibliographies dans votre document .tex.
  3. Sur ShareLaTeX, vous renommez votre fichier .tex à .Rtex pour ce faire. À part de ça, rien ne change.
  4. Peut-être dans une moindre mesure, tout ça s’applique à LaTeX, itou. LaTeX existe depuis des décennies et c’est la méthode de choix pour l’écriture des articles dans un tas de domaines centrés sur les maths.
  5. Je n’exposerai pas les avantages de l’usage des pré-enregistrements et des prépublications en ce moment, puisque là je ne m’intéresse rien que résumer un workflow efficace, mais je vous recommander fortement d’en apprendre plus.

Linguistics as engineering.

I’ve never liked Chomsky, despite never reading anything by him. His ideas are so prevalent in linguistics, at least in American universities, that you don’t really have to read his work to be exposed to his ideas. However, it’s important to me to have a good idea of the context within which ideas have been proposed and developed, so I finally read Syntactic Structures (Chomsky, 1957/2002), which I think encapsulates everything I dislike about Chomsky and the sort of theoretical linguistics that his ideas have led to.

First of all, though, let me say that I do not think Syntactic Structures is a worthless book. Even though I disagree with much of what Chomsky wrote, he did pose some interesting questions, and even that alone gives it value. For instance, Chomsky argued that grammars should be developed using nothing but formal means, disregarding semantics completely (pp. 93-94). There are several reasons why I don’t think this is correct, which I won’t get into here, as my point is simply that this is an interesting question to consider.

What I don’t like about Chomsky and the sort of theoretical linguistics that he spawned is the near complete disregard for empirical evidence for anything. Theoretical linguistics has relied almost entirely on intuitions for its “data”, often the intuitions of linguists themselves, not of informants. Despite Syntactic Structures often being credited as a foundational work for cognitive science, it never once suggests that linguists use things like experimentation to validate their theories as those in other scientific fields dealing with cognition would do, such as psychologists and neuroscientists.

There are two things in Syntactic Structures that I think have given linguists cover to approach their “science” this way:

  1. Chomsky argued that grammars have nothing to do with synthesis or analysis (p. 48)
  2. Chomsky argued that the goal of linguist theory is to develop an evaluation procedure (pp. 50-52)

By synthesis and analysis, Chomsky meant how humans produce language and how they understand language, respectively. He didn’t think that grammars address these questions, which is patently bizarre. What exactly do grammars describe if not one or both of these things? It seems that one is instead engineering how a grammar could work for some imagined artificial being, in which case we don’t need to consider empirical evidence generated by observing or experimenting on real human beings.

As for the evaluation procedure, Chomsky meant that developing a linguistic theory that could tell us if a given grammar is the correct grammar for a given language is too hard, and developing a linguistic theory that could generate a grammar from a corpus is even harder, so we’re better off developing a linguistic theory that simply tells us if one grammar is better than another for describing a given language. And what is the criteria? Simplicity.

The problem with focusing on an evaluation procedure, though, is that this downplays the importance of empirical evidence once again. There’s no need to test human beings to figure out if they employ transformations, for instance; we just need to show that transformations simplify the grammar more than some other proposal would, that other proposal also having been developed without any regard for testing if it actually represents what happens in the heads of human beings.

Ultimately, the direction that Chomsky set out for linguistics in Syntactic Structures seemed to be about how best to engineer an efficient grammar, not how to understand how humans do language. If Chomskyan linguistics actually does explain what humans do, that result is purely accidental, as there’s nothing about how its done that would be able to establish that connection.

Unsurprisingly, what the results of Chomsky’s approach to linguistics seem most useful for is developing speech synthesis and speech analysis software, i.e. engineering. There’s no need for AIs to do language in the same way that humans do language; they simply have to work. And I’m very much happy that they do. I use Google Assistant all the time, and I can’t wait to be able to speak to my house like the crew of the USS Enterprise speaks to their spaceship.

However, as far as advancing linguistics as a science, I think Chomsky’s approach, as set out in Syntactic Structures, has led to a monumental waste of time and resources. Numerous very intelligent and creative linguists have now spent some 60 years essentially playing a puzzle game that has not shed any light whatsoever on how exactly humans do language, and I don’t think it’s going too far to say that Chomsky’s ideas, combined with his enormous influence in the field, are to blame.


Chomsky, N. (2002). Syntactic Structures (2nd ed.). Berlin; New York: Mouton de Gruyter. (Original work published 1957)

La linguistique comme de l’ingénierie.

Je n’ai jamais aimé Chomsky, malgré le fait que je n’ai jamais rien lu de lui. Ses idées sont aussi répandues dans la linguistique, du moins aux universités américaines, qu’il ne faut pas vraiment lire ses œuvres pour être exposé à ses idées. Cependant, pour moi, c’est important d’avoir une bonne idée du context dans équel des idées ont été proposées et développées, ça fait que j’ai enfin lu Syntactic Structures (Chomsky, 1957/2002), équel résume, je crois, tout quelque chose que je n’aime pas par rapport à Chomsky et l’espèce de linguistique théorique à équelle ses idées ont mené.

Mais premièrement, quittez-moi dire que je ne pense pas que Syntactic Structures est un livre sans valeur. Quand même si je ne suis pas d’accord avec un tas de ce que Chomsky a écrit, il a bien posé des questions intéressantes, et ça lui donne une value en soi. Par exemple, Chomsky a avancé que les grammaires ne devraient être développées qu’à partir des moyens formels, en mettant complètement de côté la sémantique (pp. 93-94). J’ai plusieurs arguments contre cette idée, équels je n’exposerai pas là, parce que mon point est simplement que c’est une question intéressante à considérer.

Ce que je n’aime pas par rapport à Chomsky et l’espèce de linguistique théorique qu’il a engendrée, c’est le mépris quasiment complet des preuves empiriques de quoi que ce soit. La linguistique théorique s’est proche entièrement appuyée sur les intuitions comme «données», souvent les intuitions des linguistes mêmes, non des informateurs. Malgré le fait que Syntactic Structures est souvent dépeint comme un œuvre fondateur des sciences cognitives, ça n’a jamais suggéré que les linguistes usent des méthodes comme l’expérimentation pour valider leurs théories tout comme ceux dans d’autres domaines scientifiques qui s’intéressent à la cognition feraient, tels que les psychologues et les neuroscientistes.

Il y a deux affaires dans Syntactic Structures qui ont permis aux linguistes d’aborder leur «science» comme ça, je crois:

  1. Chomsky a avancé que les grammaires n’ont pas rien à voir avec ni la synthèse ni l’analyse (p. 48)
  2. Chomsky a avancé que l’objectif de la linguistique théorique est de développer une procédure d’évaluation (pp. 50-52)

Équand il dit la synthèse et l’analyse, Chomsky veut dire la manière que les humains produisent le langage et la manière qu’eux comprend le langage, respectivement. Il ne pensait pas que les grammaires expliquent ces phénomènes, qui est absolument bizarre. Exactement quoi les grammaires expliquent sinon l’un de ces phénomènes ou les deux? On diserait qu’on est plutôt après concevoir la manière qu’une grammaire pourrait fonctionner pour ce qui est d’un être artificiel imaginé, à équel cas on n’a pas besoin de considérer des preuves empiriques générées par l’observation de ou l’expérimentation sur les êtres humains réels.

Quant à la procédure d’évaluation, Chomsky voulait dire que le développement d’une théorie linguistique qui pourrait nous dire si une grammaire donnée est la bonne grammaire pour une langue donnée est trop dur, et le développement d’une théorie linguistique qui pourrait générer une grammaire d’un corpus est encore plus dur, ça fait qu’on ferait mieux développer une théorie linguistique qui nous dit simplement si une grammaire dépeint mieux une langue donnée qu’une autre grammaire. Et selon quel critère on juge équelle la dépeint mieux? Selon la simplicité.

Mais le problème avec le focus sur une procédure d’évaluation est que ça minimise encore l’importance des preuves empiriques. Il n’y a pas de besoin de tester les êtres humains pour savoir si ça emploie des transformations, par exemple; on a juste besoin de démontrer que les transformations simplifient la grammaire plus qu’une autre proposition ferait, cette autre proposition ayant été également développée sans tester que ça s’applique à ce qui se passe dans les esprits des êtres humains.

Finalement, la direction que Chomsky a établie pour la linguistique dans Syntactic Structures ressemble s’intéresser à la meilleure manière de concevoir une grammaire efficace, non à une manière de comprendre comment les humains font le langage. Si la linguistique chomskyenne explique en définitive ce que les humains font, ce résultat est tout à fait accidentel, puisqu’il n’y a pas rien dans l’approche qui est capable d’établir ce lien.

Sans surprise, les résultats de l’approche de la linguistique à Chomsky s’applique le mieux au développement des logiciels qui traitent la synthèse vocale et la reconnaissance vocale, c’est-à-dire l’ingénierie. Les IA n’ont pas besoin de faire le langage de la même manière que les humains font le langage; ça doit simplement fonctionner. Et moi, je suis bien content que ça fonctionne. Moi j’use Google Assistant tout le temps, et j’ai hâte de pouvoir causer à ma maison comme le personnel de l’USS Enterprise cause à son vaisseau spatial.

Cependant, quant à l’avancement de la linguistique comme une science, je crois que l’approche à Chomsky, comme il l’a établie dans Syntactic Structures, a mené à une perte de temps et de ressources monumentale. De nombreux linguistes créatifs et intelligents ont passé quelques 60 années effectivement après jouer un casse-tête qui n’a pas du tout éclairé comment les humains font exactement le langage, et moi je ne pense pas que je vais trop loin si je dis que les idées à Chomsky, en combinaison avec son énorme influence dans le domaine, sont responsables.


Chomsky, N. (2002). Syntactic Structures (2e éd.). Berlin; New York: Mouton de Gruyter. (Œuvre original publié en 1957)

« Older posts

© 2024 Josh McNeill

Theme by Anders NorenUp ↑