Humanités numériques (cours)
Jeanne Vermeirsche
"Chaque semaine, chaque groupe remet une note de synthèse critique à l’écrit portant sur l’atelier auquel il a participé la semaine précédente"
"vous devrez inclure les textes de chaque séance dans les notes à rendre"
étudier les transformations induites par le web et les données massives
"en humanités numériques, on n'utilise pas les mêmes termes que les autres, il faut trouver quels mots employer pour être compris par tout le monde"
"pour la 1ère note de synthèse critique, il va falloir poser le cadre général de ce sur quoi vous aller travailler dans les séances suivantes", "quel cadre théorique mis en relation avec le cours, premières questions de recherche que vous allez définir par groupe, et des intentions pour travailler ces questions ; à quelle méthodologie, à quels outils, à quelle forme de collaboration vous pensez"
humanités numériques = champ interdisciplinaire qui explore l'intersection entre les sciences humaines et sociales (SHS) et les technologies numériques
s'intéressent tout à la fois aux outils, aux méthodes, et aux approches numériques, et surtout à la façon dont ils vont transformer l'analyse, mais aussi la production et la diffusion des savoirs dans les SHS
"il y a quand même une injonction à travailler avec le numérique et sur le numérique surtout pour obtenir des financements", "vous savez dans quel état est la recherche en France en ce moment"
les humanités numériques permettent d'aborder plusieurs dimensions :
le Web va structurer les échanges et les publications, mais aussi collecter et produire les données en quantité beaucoup plus importantes qu'auparavant
de quelle façon les outils qu'on décide d'utiliser influencent la façon dont on va mener notre recherche et produire des résultats ? "ça aussi c'est très important dans votre note de synthèse, si ce n'est le plus important : tous les choix que vous allez faire vont produire des conséquences sur votre recherche qu'il faut absolument questionner"
pourquoi travailler sur les terrains numériques ? "ça fait longtemps que les SHS travaillent sur le numérique, ce qui est nouveau c'est une accélération de leurs usages et leurs impacts sur la pratique scientifique"
Patrick Svensson : les humanités numériques constituent une "zone d'échange" qui favorise le dialogue entre différentes disciplines : décloisonnement du dialogue interdisciplinaire ("marginal-sécant")
c'est dans ces terrains numériques qu'on dialogue entre des disciplines scientifiques qui à la base ne se parlent pas, ou très peu, ne se comprennent pas toujours, "et on verra que ce n'est pas grave" ; elles vont être amenées à produire de la recherche ensemble
"on est souvent sur une pluridisciplinarité, mais on a peu de réelle interdisciplinarité"
le numérique n'est plus seulement un outil, c'est à la fois un terrain, une méthode, et un objet de recherche à part entière
Ce numéro se donne alors pour ambition d’envisager quelques pistes pour dépasser la question de l’ancillarisation d’un champ disciplinaire par rapport à un autre, qui transformerait les informaticiens en simples techniciens, ou les chercheurs en SHS en pourvoyeurs de corpus assujettis à l’usage d’outils qu’ils ne maîtrisent pas.
Les quatre articles réunis dans ce dossier s’attachent à différents types de terrains où se manifeste le Web politique et mobilisent pour les analyser différents outils de la science des données :
- Julliard et Bottini (Twitter et théorie du genre / "méthode articulant sémiotique et informatique")
- Marchand et Ratinaud (sites de partis politiques / approche textométrique)
- Contamin, Léonard et Soubiran (lapetition.be / "en se fondant non sur son interface, mais sur sa base de données")
- Neihouser (blogs politiques / statistiques de fréquentation)
Une posture de recherche pertinente pour entrevoir les croyances génératrices de l’illusio politique est constituée par l’analyse des gaffes produites dans un champ. (...) Elles disent, a contrario, ce sur quoi tous les entrants en politique doivent être d’accord, le consensus fondateur du champ politique.
C’est que, si les big data intéressent, elles font aussi débat. L’enthousiasme des partisans de ces techniques n’est en effet pas toujours partagé.
Près d’une décennie après son commencement, le débat sur la pertinence des big data pour les sciences sociales se poursuit. C’est, nous semble t il, parce que les termes du débat sont mal posés.
De fait, il est urgent de réaliser que nous travaillons tous, et de plus en plus, avec des ordinateurs, et le parti que nous pouvons en tirer, quel que soit le type de recherche que nous menons.
Revenant sur l’histoire mouvementée des sciences sociales avec cette pratique, l’article montre que ces dernières ont fait, toutes ces années, de la data science sans le savoir. Ainsi, les chercheurs en sciences sociales se retrouvent (tout) contre celle-ci, à la fois proches et rivaux.
corpus de données : "vous pouvez collecter beaucoup plus de données qu'avant"
certains "et c'est mon cas" voient la possibilité de récolter des données hybrides : quantitatives du fait de leur nombre important, mais aussi qualitatives du fait de leur précision
qu'est-ce que ça induit de travailler avec des informaticiens ?
"il faut arrêter de penser que parce qu'on a 15 millions de tweets, on fait de la recherche", "ça ce n'est que de l'analyse descriptive"
"un des gros écueils des humanités numériques, c'est de croire qu'il suffit d'avoir des millions de données pour en faire quelque chose"
"il ne faut pas croire qu'avec le numérique, tout est disponible tout le temps et partout : même quand on travaille avec des chercheurs en informatique, il faut sans cesse faire des choix et restreindre ce qu'on va analyser : on décide de travailler sur certaines choses et pas d'autres"
"les données ne vont pas parler d'elles-mêmes" : "c'est un des travers de beaucoup de projets en humanités numériques, où on se dit que quand on a beaucoup de données, ça suffit à faire un travail interdisciplinaire"
Abordé par Bordère dans son séminaire :
mais rien de tout ceci n'a de sens à proprement parler, toutes ces statistiques ne parlent pas d'elles-mêmes, ce n'est pas le résultat de ma thèse mais un socle qui permet de dégager des hypothèses d'analyse du discours
Internet a permis de diffuser sa recherche sur des nouveaux supports (blogs, hypotheses.org, revues uniquement en ligne), "mais ce n'est pas ce qui compte dans la légitimé de nos travaux"
qu'est-ce que permet ce changement dans la diffusion des travaux de recherche ?
"il y a cette croyance selon laquelle grâce aux humanités numériques et la quantité de données, les sciences sociales sortent de ce terme péjoratif de sciences "molles" et réintègrent le champ scientifique"
"nous, les chercheurs en SHS, on ne sait pas aller chercher la donnée, et eux, les chercheurs en informatique, ne savent pas l'expliquer"
"c'est ce que dit Mayaffre dans son article, il faut arrêter d'arriver avec des hypothèses préconçues"
le corpus ne peut pas être dissocié des questions de recherche, "je vais vous donner une définition et vous allez la commenter"
recueil réunissant ou se proposant de réunir, en vue de leur étude scientifique, la totalité des documents disponibles d'un genre donné (Pierrel et al. 2014)
"constituer le corpus, ce n'est pas simple, on voit encore trop de chercheurs en SHS qui pensent savoir comment vérifier leur hypothèse et demandent aux informaticiens de leur faire une méthode sur mesure"
"les partis politiques publient de moins en moins de communiqués de presse, LREM a arrêté en 2021, pourtant c'est la seule communication officielle des partis politiques"
Qualifier corpus par politique, c'est indiquer que le matériel linguistique qui a été rassemblé pour être traité a été choisi pour sa valeur extra-linguistique
La signification se construit en langue, mais il n'y a de sens – et à fortiori de sens politique – qu'en contexte
A défaut de résoudre un jour le problème visiblement insoluble de l'interdisciplinarité en général et de l'interdisciplinarité des sciences du langage en particulier [...], il faut s'appliquer à soulager ces tensions en définissant la place de chacun et le rôle essentiel, primordial, nécessaire (quoique non-suffisant) de la linguistique dans l'analyse des corpus textuels.
En cela, le traitement linguistique n'est pas négociable même pour les disciplines qui défient la linguistique. A moins de prétendre connaître le sens des textes avant de les avoir dûment – i.e. linguistiquement – analysés, à moins de croire que les textes sont transparents et que le sens est immédiat, l'historien, le sociologue, le psychologue ne peut faire l'économie de la linguistique comme science des textes, dans l'appréhension du corpus.
[...]
Ainsi, dans ce numéro, tous les contributeurs, quels que soient leur rattachement institutionnel et leur appartenance disciplinaire, prennent une posture de linguiste face à l'intérieur du corpus, et ont recours aux sciences du langage dans le protocole méthodologique qu'ils mettent en place face aux textes.
immersion "invisible", "en prenant notamment comme terrain Facebook" => "Comment arbitrer entre les enjeux de la propriété intellectuelle et ceux de la préservation de la vie privée [...] ?"
Dans cette optique, nous sommes devenue « amie » sur Facebook avec 2169 adhérents à l’UMP et 2352 adhérents au PS [...] L’idée est d’observer les pratiques militantes effectives sur Facebook et de les comparer à celles déclarées dans le questionnaire
espaces semi-privés :
l’ébranlement des lignes de partage entre espace public et espace privé dans les dispositifs d’enquête en ligne ne devrait-il pas conduire à repenser les règles du jeu en matière d’éthique de la recherche ?
"dévoiler les coulisses des choix méthodologiques opérés pour notre enquête" :
"De la netnographie au voyeurisme"
Certains proposent d’aller chercher du côté de la perception des internautes afin de leur faire qualifier eux-mêmes ce qui relève du public et du privé dans leurs publications (Sveningsson, 2008). Bien que pertinente, cette solution s’avère irréalisable concrètement et doit donc être écartée. Cela reviendrait pour chaque message archivé à contacter individuellement son auteur pour lui demander d’une part son consentement et d’autre part de spécifier la nature de ses propos.
La question de l’anonymat est à considérer sous un jour nouveau avec le numérique puisqu’il est possible, via les moteurs de recherche, de retrouver à qui appartiennent les propos, cités pourtant de façon anonyme dans un article académique.
Notre article invite à recourir à une combinaison de méthodes pour saisir les pratiques des internautes : que ce soit des méthodes hors ligne (entretiens, etc.) ou en ligne (recueil des traces numériques, constitution de corpus en ligne, etc.). Opter pour un florilège de méthodes ne va pas forcément de soi.
Dans un débat politique ainsi polarisé, les termes ont souvent des significations différentes ou des références cachées qui ne peuvent être comprises que dans le contexte politique. Le durcissement des discours et leur polarisation nous a conduit à expérimenter une modélisation multinomiale afin de pouvoir extraire automatiquement les associations de termes caractéristiques d’un parti ou d’une personnalité politique sur une période donnée.
"objectiver des associations entre notions participant au débat politique" : "modéliser les termes du débat comme des distributions de probabilités d’apparition des mots"
relire Le Bart et Charaudeau
"saisir et les éléments de langage empruntés à l’extrême-droite, et leur évolution, dans le discours politique des partis étudiés"
premier corpus : communiqués de presse (CPs) de cinq partis politiques français
"cueillette" automatisée par la Wayback Machine : "ces archives sont trop incomplètes"
"modèles linguistiques par parti ou leader politique" : "aucune liste de mots vides"
"Bourdieu s'est intéressé très tôt à la statistique et à l'ordinateur pour l'analyse textuelle des grands corpus de données" : "il défendait très tôt l'idée que les méthodes quantitatives allaient permettre d'objectiver les structures sociales, et que ces méthodes ne seraient complètes qu'avec une analyse qualitative", "on ne prend pas les chiffres uniquement pour les chiffres"
Jean-Paul Benzécri
"ça a forcément impliqué une transformation quantitative des outils"
"on attend une démarche critique de votre part, la méthode que vous choisirez ne produira pas des résultats neutres, ce sera une méthode choisie parmi plein d'autres, donc ça va influencer votre manière d'interpréter ces résultats"
Max Reinert (2000) : les méthodes quantitatives ne sont pas des instruments de validation, l'interprétation nécessite une démarche active du chercheur qu'il ne faut pas laisser à l'outil informatique
l'ADT repose forcément sur un dialogue entre statisticiens, chercheurs en sciences sociales et linguistes
elle requiert une connaissance approfondie de son corpus pour garantir la pertinence des résultats obtenus -> le retour au texte pour récupérer le contexte d'utilisation permet l'extraction du sens, "et ça aujourd'hui c'est l'humain qui est le plus doué à le faire"
"on revient au double intérêt de la collaboration interdisciplinaire" : l'analyse humaine permet d'améliorer les outils informatiques
"pour LDApol, on est allés chercher des association de termes" (= corrélations)
"et on analyse aussi des thématiques"
LDA = méthode de statistique textuelle / modèle probabiliste conçu pour analyser des corpus textuels
va au-delà de l'analyse de la fréquence des mots : il va venir exploiter des relation entre les mots et les thèmes qui les sous-tendent
"c'est quand même une méthode dont on doit discuter : qu'est-ce que ce modèle ne permet pas d'analyser ?"
évolution du discours dans le temps : comment certains termes vont émerger, ou disparaître, selon le contexte
sujets dominants/non-dominants
le retour au texte vient valider (ou invalider) les résultats
contrairement à BERT, LDA n'est pas pré-entraîné sur de grands jeux de données
"par ailleurs on travaille sur des discours sensibles, on ne sait pas toujours les données d'entraînement des méthodes comme BERT, ça pourrait introduire des biais"
les résultats dépendent très fortement des paramètres qu'on a choisi : "les phases de test sont centrales, ça nécessite des ajustements sur plusieurs mois"
les résultats dépendent aussi de la représentativité et de la qualité des données, "il faut que les données soient stables, qu'il ait une cohérence dans leur forme"
"et l'interprétation générée par le LDA peut être très subjective : il ignore l'ordre des mots, on perd le contexte", "d'où l'importance du retour au texte"
choix du test de Kendall, "il y a toute une histoire derrière"
plongements lexicaux : représenter les mots sous forme de vecteurs, "comme c'est neuronal vous n'avez pas moyen de revenir au texte qui explique pourquoi il a mis ces 2 mots ensemble, vous perdez le contexte contrairement au LDA"
word2vec
cherche des paires de mots dans une partie de texte (colocation), sans notion de document
"la lemmatisation fait perdre des informations, le masculin/féminin, le singulier/pluriel, or ça peut nous intéresser"
"ne fuyez pas le code, détectez les mots-clés"
estimation du nombre de dimensions : "c'est le cœur du sujet"
"essayez de prendre en main ce modèle sur Rstudio, regardez l'article JADT, regardez cette sortie, et essayez d'avoir une réflexion critique sur ces méthodes et ce qu'elles engagent de la part des chercheurs", "vous avez le droit de venir pointer des limites, des biais ; c'est ce qui m'intéresse"
d'après Dazibao le podcast :
Le repérage, la description ou l’établissement des thèmes (topics) des discours sont un objectif majeur pour les analystes qui étudient le langage politique. [...] à la fois l’enjeu le plus évident de l’analyse du discours et son enjeu, au-delà des examens naïfs, le plus complexe.
"un problème non résolu"
Les études littéraires y ont certes apporté des solutions érudites et artistiques mais ce dossier ne pourra s’en revendiquer [...] Les études linguistiques balisent quant à elles plus concrètement le programme mais apparaissent dans l’état de l’art insatisfaisantes [...] Ce dossier [...] entend contribuer simplement au débat méthodologique qu’engagent ces questions générales et élémentaires : de quoi parlent nos discours ?
"un thème se construit – donc se repère – par la saillance et l’agrégation d’unités linguistiques (classiquement des mots) qui s’organisent sémantiquement"
"deux impératifs" :
"Un thème, c’est un « contenu » graphique ou lexical, certes, mais qui s’anime (au sens fort) sémantiquement ou prend sens à la faveur de parcours de lecture" (François Rastier)
les thèmes, pas plus que le sens, ne sont déjà-là [...] Cette posture herméneutique fondamentale [...] nous semble nécessaire [...]
"quelles méthodes pour encadrer, au sein du corpus, les parcours interprétatifs qui performent ou construisent les thèmes du discours ?"
"Il est vrai que la lexicométrie politique dont la revue Mots fut pionnière s’est largement attachée à la question depuis les origines" (Maurice Tournier en 1980)
si le thème [...] est, comme semblent l’indiquer les définitions les plus anciennes et les mieux établies, « itération » (Roland Barthes, cité par Collot, 1988, p. 79), « répétition » (Jean-Pierre Richard, cité par Collot, 1988, p. 79), « récurrence » (Rastier éd., 1995, p. 224), c’est-à-dire redondance au sein du corpus d’un même trait sémantique, alors l’approche systématique, sérielle, quantitative, statistique n’est pas la moins légitime pour assurer la démarche.
"postulat cooccurrentiel", "méthode Alceste (Reinert, 1983)"
"la recherche des thèmes, si elle ne saurait aujourd’hui plus faire l’économie de l’outil statistique et du traitement informatique, ne saurait non plus négliger le retour au texte et l’acte de lecture" (Baider)
"montrer comment la textométrie permet de mettre en évidence des phénomènes réguliers à travers trois niveaux de questionnement correspondant à des problématiques classiques en matière d’exploration linguistique de corpus"
D’abord connue sous le nom de lexicométrie, la démarche a été renommée textométrie (ou logométrie) au début des années 2000 pour rendre compte du fait qu’elle allait au-delà de la seule analyse du lexique, en considérant aussi la morphosyntaxe, l’enchaînement des mots, les structures textuelles et intertextuelles, etc.
Constater l’occurrence de France chez un locuteur ne nous apprend rien. Constater la cooccurrence statistique de France avec grandeur, nation ou indépendance, nous apprend immédiatement sur le patriotisme du locuteur.
"la cooccurrence peut être définie comme la forme minimale et calculable du contexte"