Article extrait du Plein droit n° 145, juin 2025
« Migrations, pourquoi tant de discours ? »
L’immigration dans les Cahiers de doléances
Sabine Ploux et Catherine Dominguès
CAMS, EHESS-CNRS ; Université Gustave Eiffel, ENSG, IGN, Lastig
Le 8 décembre 2018, suite au mouvement des Gilets jaunes, l’Association des maires ruraux de France lance l’opération « Mairies ouvertes ». Des Cahiers de doléances et de propositions sont ouverts dans les mairies pour recevoir la parole des personnes qui le souhaitent. Cette opération tente ainsi de répondre à la crise que traverse le pays. À une moindre échelle, d’autres Cahiers sont aussi ouverts sur les ronds-points, lieux investis par les Gilets jaunes, mais également dans des hôpitaux, des prisons, etc. Le 15 janvier 2019, le président de la République lance le Grand débat national (GDN), qui prend la forme de réunions publiques locales, de conférences nationales thématiques et également d’une plateforme numérique. Celle-ci, organisée autour de 4 thèmes et de 82 questions, recueille les contributions de personnes ou de groupes de personnes. À l’occasion de ce lancement, les Cahiers de doléances sont renommés Cahiers citoyens. Plateforme et Cahiers diffèrent quant à leur modalité. La plateforme est le support d’une consultation dématérialisée et dirigée par des questions. Les Cahiers, d’expression libre, sont localisés à la commune, lieu d’organisation locale. Les contributions sont manuscrites et rédigées sur place, ou bien collées et peuvent alors être tapuscrites. Le 15 mars 2019, la phase de recueil des contributions sur la plateforme et sur les cahiers se termine. Les Cahiers sont, pour la majeure partie, numérisés et retranscrits. Ces opérations sont réalisées en quelques semaines. Les Cahiers remontent dans les préfectures qui les numérisent au format image. Ensuite, sous l’égide de la Bibliothèque nationale de France (BnF), une reconnaissance optique de caractères (OCR, transcription des images en textes) est réalisée. Cette transcription des contributions manuscrites étant de mauvaise qualité, trois opérateurs privés sont chargés par la BnF de corriger l’étape précédente et, si nécessaire, de procéder à une retranscription réalisée par des personnes. Cette séquence aboutit à une version numérique textuelle de l’ensemble des contributions [1] indispensable pour des analyses linguistiques et statistiques utilisant des outils informatiques. Les Archives nationales sont dépositaires de l’ensemble du corpus numérisé (reproduction des Cahiers sous forme d’images et version numérique textuelle). Les Archives départementales conservent les originaux.
Cahiers de doléances, Cahiers citoyens et autres contributions écrites
L’ensemble des contributions numérisées représente un corpus considérable : environ 20 000 Cahiers pour 17 000 communes (sur les près de 35 000 communes du territoire français) et 225 225 contributions (la plateforme du GDN en recueille plus de 560 000). Cependant, d’autres plateformes sont aussi ouvertes. Celle du Vrai Débat, lancée par un collectif de Gilets jaunes, recueille 25 400 contributions entre le 30 janvier et le 3 mars 2019 ; elle vise à promouvoir un débat en ligne entre contributeurs. Celle d’Entendre la France, à l’attention d’un public jeune trop absent du débat (54 700 contributions), reprend les thèmes du GDN tout en simplifiant et en réduisant le nombre de questions.
Des synthèses ont été réalisées à la demande de la Mission du GDN par des cabinets de conseil : OpinionWay pour la plateforme, le consortium Roland Berger, Bluenove et Cognito pour les Cahiers citoyens et les comptes rendus de réunions locales, Res publica et Missions publiques pour les conférences citoyennes. Ces synthèses s’attachent, par l’utilisation de méthodes de traitement automatique des langues (TAL), à déterminer les récurrences fortes dans les contributions afin d’en extraire les propositions ou objections principales. Cependant, pour des raisons liées à la nature des données, sensibles et personnelles, et à leur protection régie par le règlement général sur la protection des données (RGPD), la diffusion des Cahiers citoyens a été limitée. En effet, la protection des participant·es nécessite que les contributions soient anonymisées pour empêcher leur identification directe ou leur réidentification (par des informations contenues dans les contributions elles-mêmes). D’autre part, la mauvaise qualité de la transcription rend plus délicate le repérage automatique de ces informations d’identification et de réidentification. Du fait de ces difficultés, les contributions des Cahiers ont été moins étudiées que celles des plateformes. La localisation à la commune de chaque Cahier offre la possibilité de spatialiser la participation et de faire le lien entre le contenu des doléances et leur lieu d’expression. Ainsi, il a été montré que les communes rurales ont proportionnellement plus participé que les grands centres urbains [2]. Il a aussi été mis en évidence, en exploitant la récurrence des thèmes abordés sur les plateformes ou dans les Cahiers, que chaque média recrute des profils de contributeurs et de contributrices distincts.
Il est important, quand on aborde l’étude d’un thème dans les Cahiers, de garder à l’esprit la spécificité du corpus, tant du point de vue de son empreinte géographique que du profil des participant·es. Car le volume des Cahiers a pu faire oublier que la représentativité des contributeurs et des contributrices reste à préciser. Nous tenions à le rappeler.
L’immigration dans le corpus numérisé des Cahiers
Les méthodes de TAL et de linguistique computationnelle permettent de traiter l’ensemble des contributions ; ces méthodes décrivent une notion ou un phénomène au travers de son champ lexical, organisé en réseaux de mots liés à leurs co-occurrents réguliers dans les textes [3]. Appliqué aux Cahiers, ce type d’analyse [4] met en évidence des thèmes et propositions prédominants comme celui des retraites (abordé dans 38,3% des contributions) et de leur revalorisation, de l’impôt de solidarité sur la fortune (ISF, abordé dans 17,0% des contributions) et de son rétablissement, ou encore de la baisse de la TVA sur les produits de première nécessité. Le thème de l’immigration figure dans 14,6% de l’ensemble des contributions, ce qui le situe très en deçà de celui des retraites et, dans une moindre mesure, de celui de l’ISF. À titre de comparaison, ce même thème n’est pas abordé sur la plateforme de manière significativement plus fréquente que dans les Cahiers.
La localisation des contributions permet d’observer l’empreinte géographique de la participation à la consultation. Pour étudier l’empreinte géographique de l’immigration, les contributions contenant des mots de son champ lexical ont été réparties selon la grille communale de densité [5] qui permet de classer les communes selon leur population et la concentration de leur population en sept catégories. Si le nombre de ces contributions est rapporté au nombre total de contributions, ce sont les communes densément peuplées (catégorie 1) qui évoquent le plus le thème. En revanche, si ce même nombre est ramené à la population de la commune, ce sont les communes rurales à habitat dispersé et très dispersé (catégories 6 et 7) qui ont le plus traité du thème de l’immigration [6]. On peut donc conclure que le thème de l’immigration a été dilué dans la participation de ces communes puisqu’elles ont proportionnellement plus participé, mais il a été évoqué par une proportion plus importante de personnes dans ces communes que dans les grands centres urbains [7].
Figure 1 – Répartition des lemmes du champ lexical de l’immigration dans les Cahiers

L’axe verticale indique le nombre d’occurrence de chaque lemme.
Le choix des mots, un marqueur de distanciation
La figure 1 montre la répartition des lemmes formant le champ lexical de l’immigration dans les Cahiers (le lemme désigne la forme canonique d’un mot, c’est-à-dire l’entrée du dictionnaire correspondant à ce mot ; par exemple, le lemme du nom migrant correspond aux termes migrant, migrants, migrante et migrantes). Les lemmes les plus fréquents sont immigration (qui désigne le phénomène) et étranger (ici ne sont comptées que les occurrences d’étranger qui qualifient une personne). Les autres lemmes désignant soit le phénomène (émigration, migration et migratoire – celui de remigration est quasi-inexistant), soit des personnes (migrant, immigré, émigré, immigrant) sont moins fréquents. Notons que dans les contributions, les termes désignant des personnes sont majoritairement employés au pluriel (78,3 à 79,6% suivant les termes), ou au singulier mais de façon générique, et au masculin. Les deux phrases suivantes extraites du corpus illustrent cette remarque : « Tout immigré doit comprendre clairement qu’il entre dans un état laïc » ; « Tenir compte de la situation de l’immigré dans son pays d’origine ». Le déséquilibre entre masculin et féminin est aussi notable : 98,1% des occurrences du lemme migrant sont au masculin, 92,2% pour le lemme immigré. À titre de comparaison, les occurrences du lemme femme représentent 43% de l’ensemble des occurrences des lemmes homme et femme. L’ensemble de ces caractéristiques lexicales et morphologiques soulignent que les termes du champ lexical de l’immigration désignent le phénomène et le groupe plutôt que la personne ; elles soulignent également la construction collective d’un prototype masculin de l’immigré et invisibilisent les femmes migrantes.
En outre, on observe à la marge quelques exemples de néologismes, eux-mêmes plus représentés sur la plateforme que dans les Cahiers : immigriste, migrance, racialisable, racialisante, racialisation, racialisé (alors que racialisme, racialiste, racisation, racisé figurent dans les deux corpus), racialiser, remigré, remigrer (alors que remigration figure dans les deux corpus). Cette créativité lexicale signe la prégnance et l’appropriation sociétale du thème. Elle reflète aussi un phénomène connu et étudié à la suite des travaux d’Antoine Meillet [8] : des groupes sociaux peuvent créer leur propre jargon, jargon qui participe à la construction du groupe. Les exemples ici cités, bien que peu nombreux dans les Cahiers, sont pour la plupart des traces de ce type de créations, certaines dérivées d’emprunts anglo-saxons comme remigrate (équivalent à regagner son pays natal) ou racialization attesté dès 1918 par l’Oxford English Dictionary (le terme est présent à l’oral et dans la presse dans sa forme francisée racialisation mais n’est toujours pas entré dans les dictionnaires français de référence).
Chaque mot a un profil d’emploi spécifique. Ainsi, les mots émigration et émigré sont à la fois bien moins fréquents que leur similaire en im- mais également employés dans un registre de langue plus négatif. Les lemmes violenter, fiché, expulsion, criminel leur sont fréquemment associés. Ceux associés à immigration couvrent des éléments du discours de politique migratoire (maîtrisé, irrégulier, choisi, illégal, massif, quota, asile, intégration, clandestin, expulsion), ceux associés à migrant sont relatifs à l’accueil (accueillir, accueil), au logement (loger, hébergement). Concernant le qualificatif migratoire, les noms associés objectivent l’immigration comme politique ou question, ou réemploient des métaphores pour décrire un phénomène subi, d’origine humaine (invasion, colonisation, crise) ou surtout maritime (flux, vague, submersion, tsunami) et, dans une bien moindre mesure, tellurique (poussée). Les noms positifs (apport) ou compassionnels (accueil) qualifiés par migratoire sont très minoritaires.
D’une manière générale, pour l’ensemble du champ lexical étudié, ces profils d’emploi dessinent deux grandes tendances : en premier, la question de l’accueil avec les lemmes accueil et intégration ; en second, celle du renvoi avec les lemmes expulsion, expulser, renvoi, renvoyer. Chacune recrute des nébuleuses d’arguments et d’avis souvent tranchés. Pour la première, il peut s’agir de conditions à l’accueil comme la maîtrise de la langue, l’acceptation de la « culture [9] », la recherche d’un emploi, la situation dans le pays d’origine, etc. La question de l’immigration choisie et des quotas est également évoquée. Pour la seconde, on trouve le plus souvent la question de l’illégalité et de la délinquance.
L’immigration à la mesure du contributeur ou de la contributrice
Dans les doléances, les différents thèmes sont souvent abordés à l’aune de l’(in)justice, qu’elle soit sociale ou fiscale, et les contrastes qui sous-tendent ces considérations morales peuvent prendre pour repère la situation personnelle des contributeurs et des contributrices. Le thème de l’immigration se conforme à cette grande tendance structurant le discours. Ainsi, nombre de contributrices et de contributeurs opposent à l’aide qui serait apportée aux immigrés en matière de logement ou de santé, par exemple l’aide médicale d’État (AME), les difficultés qu’eux-mêmes rencontrent : pauvreté, pension de retraite modeste, etc.
Cependant, cette opposition ne s’appuie pas sur une expérience vécue du contributeur ou de la contributrice, mais vise à objectiver l’immigration qui est décrite comme un processus externe, dans lequel il ou elle n’est pas impliquée. Ainsi, alors qu’il y a dans les Cahiers beaucoup de références à une situation propre (retraité, etc.) et à des parcours de vie (déroulé de la vie professionnelle avec l’âge au premier emploi) ou personnelle (veuf/veuve, femme et mère seule), il n’y a presque aucune mention de contributeurs qui se présenteraient eux-mêmes comme immigrés et très peu se réclament d’une filiation d’immigrés (sur les 225 225 contributions, on trouve 29 mentions, en tant que parent, grand-parent ou conjoint d’immigré·e).
En outre, comme nous l’avons souligné, les immigrés et les étrangers sont désignés comme un groupe sans diversité intrinsèque. De même, les causes de la migration citées, comme celles des conflits ou guerres, sont génériques et ne sont pas rapportées à une situation géographique précise.
Ainsi, contrairement à d’autres thèmes abordés au travers de leur ancrage dans l’expérience des personnes et à des propositions s’appuyant sur des parcours de vie, le thème de l’immigration – bien que présent – semble plus faire écho à un débat global qui surplombe d’autres thèmes plus manifestes (revalorisation des retraites, déserts médicaux, mobilité et coût du carburant, etc.), sans être directement liés, comme le sont ces derniers, à des situations vécues.
Notes
[1] La vérification humaine de la transcription automatique n’a été que partielle, et des erreurs demeurent en très grand nombre dans la retranscription finale qui a été livrée aux prestataires pour réaliser les synthèses (des détails figurent dans Dominguès Catherine et Laurence Jolivet, « Analyse textométrique et spatialisée des Cahiers citoyens », in JADT 2024, 17th International Conference on Statistical Analysis of Textual Data, 2024). Plus précisément, trois types d’erreurs ont été repérés dans les contributions retranscrites : les mots qui sont inconnus des dictionnaires à cause d’erreur de graphie ou de transcription (par exemple rénumération pour rémunération) ; des mots illisibles, chacun remplacés par la mention « [illisible] » lors de l’étape de vérification manuelle et de retranscription ; des mots échangés (par exemple, niche remplacé par miche ou par riche dans l’expression niche fiscale pour donner riche fiscale et miche fiscale), et dont l’échange ne peut être repéré que par des outils sémantiques puisque les mots échangés figurent dans les dictionnaires.
[2] Voir la référence indiquée en note 1.
[3] Il s’agit, à partir de mots qui apparaissent régulièrement dans les mêmes phrases ou contributions que les mots du champ lexical étudié, de calculer des motifs représentatifs du corpus. En voici quelques exemples « endiguer (la) désertification », « lutter contre (la/le/l’) [évasion, fraude, optimisation, milliard, paradis] fiscal(e) », « [large concertation, stratégie] (pour) lutter contre (la/le)[pauvreté, chômage] ». Une cartographie est ensuite produite : elle met en évidence l’organisation de ces motifs dans le discours.
[4] La méthode d’analyse est détaillée dans Sabine Ploux et al., « Les mots du Grand Débat national : les réseaux lexicaux des contributions déposées sur trois plateformes », Humanités numériques, n° 4, 2021. On trouvera également une introduction à la méthode des réseaux de co-occurrence appliquée à l’analyse des Cahiers dans le billet de Sabine Ploux, « Pour une étude géo-sémantique des réseaux lexicaux issus du corpus des Cahiers citoyens », Les Cahiers citoyens : approches croisées, hypotheses.org, 11 janvier 2024. Enfin, la séance du 16 mai 2025 du séminaire « Sciences sociales et intelligence artificielle », qui est organisé par Valérie Beaudouin, Jérôme Malois et Camille Roth à l’EHESS, intitulée « Les Cahiers citoyens et l’analyse de corpus issus du débat public. Que (ne) peut-on (pas) attendre des modèles de langues génératifs ? », contenait des éléments ici exposés.
[5] Simon Beck et al., « La grille communale de densité à 7 niveaux », Insee Document de travail, n° 2022-18, 2023.
[6] Pour les catégories 6 (communes rurales à habitat dispersé) et 7 (communes rurales à habitat très dispersé) : 11 à 18,9 contributions pour 10 000 habitants, pour les catégories 1 (grands centres urbains) et 2 (centres urbains intermédiaires) : 4,4 à 5,4 contributions pour 10 000 habitants ont abordé le thème de l’immigration. Ces chiffres sont à rapporter au nombre global de 33,5 contributions dans les Cahiers pour 10 000 habitants sur l’ensemble du territoire.
[7] Pour des détails sur la relation entre l’évocation du thème de l’immigration et le type de la commune, voir Hervé Le Bras, « Des mots et des bulletins de vote », Les grands dossiers des Sciences humaines, n° 78, 2025.
[8] Pour des travaux récents sur l’usage de la néologie dans les discours politiques, voir les interventions du colloque Lutter avec des mots : néologisme et militantisme, 16 et 17 novembre 2023, Université de Strasbourg.
[9] Ce terme est celui utilisé dans les contributions.
Partager cette page ?