Humanités numériques (cours)

Jeanne Vermeirsche

Ressources

relire la bibliographie du cours de Hamzaoui
Épisode 32 : Jeanne – Wikipédia & Politique(s) (Dazibao le podcast, 22 octobre 2024)
Jérémi Sauvage et Déborah Nourrit, "Humanités numériques et pensée complexe" (LHUMAINE, 2022)

Notes de cours

Moodle : https://e-uapv2024.univ-avignon.fr/course/view.php?id=2597

"Chaque semaine, chaque groupe remet une note de synthèse critique à l’écrit portant sur l’atelier auquel il a participé la semaine précédente"
"vous devrez inclure les textes de chaque séance dans les notes à rendre"

étudier les transformations induites par le web et les données massives

objets d'étude
méthodes quantitatives et qualitatives
outils et modes de diffusion de la connaissance
limites rencontrées
les humanités numériques sont par essence interdisciplinaires, "on va étudier ce que fait cette injonction à l'interdisciplinarité"

"en humanités numériques, on n'utilise pas les mêmes termes que les autres, il faut trouver quels mots employer pour être compris par tout le monde"

Séance 1 : Introduction aux Humanités numériques et digital methods

"pour la 1ère note de synthèse critique, il va falloir poser le cadre général de ce sur quoi vous aller travailler dans les séances suivantes", "quel cadre théorique mis en relation avec le cours, premières questions de recherche que vous allez définir par groupe, et des intentions pour travailler ces questions ; à quelle méthodologie, à quels outils, à quelle forme de collaboration vous pensez"

humanités numériques = champ interdisciplinaire qui explore l'intersection entre les sciences humaines et sociales (SHS) et les technologies numériques
s'intéressent tout à la fois aux outils, aux méthodes, et aux approches numériques, et surtout à la façon dont ils vont transformer l'analyse, mais aussi la production et la diffusion des savoirs dans les SHS
"il y a quand même une injonction à travailler avec le numérique et sur le numérique surtout pour obtenir des financements", "vous savez dans quel état est la recherche en France en ce moment"

les humanités numériques permettent d'aborder plusieurs dimensions :

utilisation des outils numériques, "on a parlé de l'IA", "tout à l'heure sur Rstudio vous avez pris en main une base de données" : analyse de texte, d'images, d'archives, "les objets traditionnels des SHS"
transformation des méthodes de recherche : comment on collecte, traite et interprète des données "en l'occurrence politiques"
réflexivité critique, "et ça c'est vraiment super important dans vos notes de synthèse, il faut absolument que vous questionnez ces technologies numériques"
impact quant à la façon dont on produit et diffuse de la recherche

le Web va structurer les échanges et les publications, mais aussi collecter et produire les données en quantité beaucoup plus importantes qu'auparavant

de quelle façon les outils qu'on décide d'utiliser influencent la façon dont on va mener notre recherche et produire des résultats ? "ça aussi c'est très important dans votre note de synthèse, si ce n'est le plus important : tous les choix que vous allez faire vont produire des conséquences sur votre recherche qu'il faut absolument questionner"

pourquoi travailler sur les terrains numériques ? "ça fait longtemps que les SHS travaillent sur le numérique, ce qui est nouveau c'est une accélération de leurs usages et leurs impacts sur la pratique scientifique"

Patrick Svensson : les humanités numériques constituent une "zone d'échange" qui favorise le dialogue entre différentes disciplines : décloisonnement du dialogue interdisciplinaire ("marginal-sécant")
c'est dans ces terrains numériques qu'on dialogue entre des disciplines scientifiques qui à la base ne se parlent pas, ou très peu, ne se comprennent pas toujours, "et on verra que ce n'est pas grave" ; elles vont être amenées à produire de la recherche ensemble

"on est souvent sur une pluridisciplinarité, mais on a peu de réelle interdisciplinarité"
le numérique n'est plus seulement un outil, c'est à la fois un terrain, une méthode, et un objet de recherche à part entière

Bibliographie de la séance

Le web politique au prisme de la science des données (Boyadjian, Olivesi et Velcin)

Article en ligne

Ce numéro se donne alors pour ambition d’envisager quelques pistes pour dépasser la question de l’ancillarisation d’un champ disciplinaire par rapport à un autre, qui transformerait les informaticiens en simples techniciens, ou les chercheurs en SHS en pourvoyeurs de corpus assujettis à l’usage d’outils qu’ils ne maîtrisent pas.

Les quatre articles réunis dans ce dossier s’attachent à différents types de terrains où se manifeste le Web politique et mobilisent pour les analyser différents outils de la science des données :

Julliard et Bottini (Twitter et théorie du genre / "méthode articulant sémiotique et informatique")

Marchand et Ratinaud (sites de partis politiques / approche textométrique)

Contamin, Léonard et Soubiran (lapetition.be / "en se fondant non sur son interface, mais sur sa base de données")

Neihouser (blogs politiques / statistiques de fréquentation)

Réflexions pour l’analyse du discours populiste (Charaudeau)

Article en ligne

L’analyse du discours politique : de la théorie des champs à la sociologie de la grandeur (Le Bart)

Article en ligne

Une posture de recherche pertinente pour entrevoir les croyances génératrices de l’illusio politique est constituée par l’analyse des gaffes produites dans un champ. (...) Elles disent, a contrario, ce sur quoi tous les entrants en politique doivent être d’accord, le consensus fondateur du champ politique.

Au delà des big data. Les sciences sociales et la multiplication des données numériques (Ollion et Boelaert)

Article en ligne

C’est que, si les big data intéressent, elles font aussi débat. L’enthousiasme des partisans de ces techniques n’est en effet pas toujours partagé.

Près d’une décennie après son commencement, le débat sur la pertinence des big data pour les sciences sociales se poursuit. C’est, nous semble t il, parce que les termes du débat sont mal posés.

De fait, il est urgent de réaliser que nous travaillons tous, et de plus en plus, avec des ordinateurs, et le parti que nous pouvons en tirer, quel que soit le type de recherche que nous menons.

Les sciences sociales, contre la data science ? (Ollion)

Article en ligne

Revenant sur l’histoire mouvementée des sciences sociales avec cette pratique, l’article montre que ces dernières ont fait, toutes ces années, de la data science sans le savoir. Ainsi, les chercheurs en sciences sociales se retrouvent (tout) contre celle-ci, à la fois proches et rivaux.

Séance 2 : collecte et structuration des données

corpus de données : "vous pouvez collecter beaucoup plus de données qu'avant"
certains "et c'est mon cas" voient la possibilité de récolter des données hybrides : quantitatives du fait de leur nombre important, mais aussi qualitatives du fait de leur précision
qu'est-ce que ça induit de travailler avec des informaticiens ?
"il faut arrêter de penser que parce qu'on a 15 millions de tweets, on fait de la recherche", "ça ce n'est que de l'analyse descriptive"
"un des gros écueils des humanités numériques, c'est de croire qu'il suffit d'avoir des millions de données pour en faire quelque chose"

Info

ça m'évoque forcément Le tout plutôt que la partie. Big data et pluralité des mesures de l’opinion sur le web (Kotras)

"il ne faut pas croire qu'avec le numérique, tout est disponible tout le temps et partout : même quand on travaille avec des chercheurs en informatique, il faut sans cesse faire des choix et restreindre ce qu'on va analyser : on décide de travailler sur certaines choses et pas d'autres"
"les données ne vont pas parler d'elles-mêmes" : "c'est un des travers de beaucoup de projets en humanités numériques, où on se dit que quand on a beaucoup de données, ça suffit à faire un travail interdisciplinaire"

hors cours

Abordé par Bordère dans son séminaire :

mais rien de tout ceci n'a de sens à proprement parler, toutes ces statistiques ne parlent pas d'elles-mêmes, ce n'est pas le résultat de ma thèse mais un socle qui permet de dégager des hypothèses d'analyse du discours

Internet a permis de diffuser sa recherche sur des nouveaux supports (blogs, hypotheses.org, revues uniquement en ligne), "mais ce n'est pas ce qui compte dans la légitimé de nos travaux"
qu'est-ce que permet ce changement dans la diffusion des travaux de recherche ?

public plus large -> libre accès
recherche immédiate et instantanée, "plus besoin d'aller à la bibliothèque"
Mounier : travaux sur les émeutes de Londres et réseaux sociaux
"très rapidement, d'autres chercheurs vont proposer une réponse" : Casilli et Tubaro

"il y a cette croyance selon laquelle grâce aux humanités numériques et la quantité de données, les sciences sociales sortent de ce terme péjoratif de sciences "molles" et réintègrent le champ scientifique"

"nous, les chercheurs en SHS, on ne sait pas aller chercher la donnée, et eux, les chercheurs en informatique, ne savent pas l'expliquer"

"c'est ce que dit Mayaffre dans son article, il faut arrêter d'arriver avec des hypothèses préconçues"

le corpus ne peut pas être dissocié des questions de recherche, "je vais vous donner une définition et vous allez la commenter"
recueil réunissant ou se proposant de réunir, en vue de leur étude scientifique, la totalité des documents disponibles d'un genre donné (Pierrel et al. 2014)

"on a l'impression qu'on est capables de réunir tous les textes d'un genre donné, or cette exhaustivité est difficile voire impossible à atteindre"
"la définition la plus juste" : ensemble de documents centrés sur un même thème, même sujet ou même domaine, et destiné à une exploitation spécifique (Bonnafous et Korieg-Planque 2014)
"Mayaffre nous dit qu'il va falloir analyser les textes les uns par rapport aux autres, et que tout corpus doit être vu comme une construction scientifique du chercheur" : "la contextualisation est extrêmement importante"
"et c'est autour de la contextualisation que la question pluridisciplinaire devient importante : analyser 30 000 discours politiques, ce n'est plus le boulot de l'informaticien, c'est le nôtre"

"constituer le corpus, ce n'est pas simple, on voit encore trop de chercheurs en SHS qui pensent savoir comment vérifier leur hypothèse et demandent aux informaticiens de leur faire une méthode sur mesure"

"les partis politiques publient de moins en moins de communiqués de presse, LREM a arrêté en 2021, pourtant c'est la seule communication officielle des partis politiques"

https://pol.termwatch.eu/

Bibliographie de la séance

Les corpus politiques : objet, méthode et contenu. Introduction (Mayaffre)

Article en ligne

Qualifier corpus par politique, c'est indiquer que le matériel linguistique qui a été rassemblé pour être traité a été choisi pour sa valeur extra-linguistique

La signification se construit en langue, mais il n'y a de sens – et à fortiori de sens politique – qu'en contexte

A défaut de résoudre un jour le problème visiblement insoluble de l'interdisciplinarité en général et de l'interdisciplinarité des sciences du langage en particulier [...], il faut s'appliquer à soulager ces tensions en définissant la place de chacun et le rôle essentiel, primordial, nécessaire (quoique non-suffisant) de la linguistique dans l'analyse des corpus textuels.

En cela, le traitement linguistique n'est pas négociable même pour les disciplines qui défient la linguistique. A moins de prétendre connaître le sens des textes avant de les avoir dûment – i.e. linguistiquement – analysés, à moins de croire que les textes sont transparents et que le sens est immédiat, l'historien, le sociologue, le psychologue ne peut faire l'économie de la linguistique comme science des textes, dans l'appréhension du corpus.
[...]
Ainsi, dans ce numéro, tous les contributeurs, quels que soient leur rattachement institutionnel et leur appartenance disciplinaire, prennent une posture de linguiste face à l'intérieur du corpus, et ont recours aux sciences du langage dans le protocole méthodologique qu'ils mettent en place face aux textes.

Devenir ” ami ” avec 4500 enquêtés. Les enjeux éthiques de l’analyse d’interfaces semi-privées (Theviot)

Article en ligne

immersion "invisible", "en prenant notamment comme terrain Facebook" => "Comment arbitrer entre les enjeux de la propriété intellectuelle et ceux de la préservation de la vie privée [...] ?"

Dans cette optique, nous sommes devenue « amie » sur Facebook avec 2169 adhérents à l’UMP et 2352 adhérents au PS [...] L’idée est d’observer les pratiques militantes effectives sur Facebook et de les comparer à celles déclarées dans le questionnaire

espaces semi-privés :

l’ébranlement des lignes de partage entre espace public et espace privé dans les dispositifs d’enquête en ligne ne devrait-il pas conduire à repenser les règles du jeu en matière d’éthique de la recherche ?

"dévoiler les coulisses des choix méthodologiques opérés pour notre enquête" :

"nous avons diffusé un questionnaire, à la fois « hors ligne » (version papier diffusée de main à main) et « en ligne » (sur Facebook notamment)" ; "Face aux difficultés de diffusion du questionnaire sous format papier, proposer une version numérique est apparue indispensable"
"sur le mur d’une « ex-amie », un message public déconseillait vivement aux adhérents de l’UMP de répondre à nos demandes d’amitié en ligne en raison de notre double compte"
"Aussi avons-nous demandé en amie les amis de nos amis qui affichaient sur leur profil une adhésion à l’un des partis étudiés" ; "La période de mise en place de ces « amitiés virtuelles » s’est avérée très chronophage"
"Une fois la diffusion du questionnaire achevée, ce cumul « d’amitiés virtuelles » partisanes est apparu comme une opportunité pour notre recherche sur le militantisme en ligne en période de campagne présidentielle" : "suivi quotidien du fil d’actualités", "tous les messages privés [...] ont été archivés"
"identifier s’il existe des stratégies mises en place en ligne par les adhérents pour militer sur Facebook" + "analyser ce qui se dit en ligne pendant la période de « silence numérique »"

"De la netnographie au voyeurisme"

Certains proposent d’aller chercher du côté de la perception des internautes afin de leur faire qualifier eux-mêmes ce qui relève du public et du privé dans leurs publications (Sveningsson, 2008). Bien que pertinente, cette solution s’avère irréalisable concrètement et doit donc être écartée. Cela reviendrait pour chaque message archivé à contacter individuellement son auteur pour lui demander d’une part son consentement et d’autre part de spécifier la nature de ses propos.

La question de l’anonymat est à considérer sous un jour nouveau avec le numérique puisqu’il est possible, via les moteurs de recherche, de retrouver à qui appartiennent les propos, cités pourtant de façon anonyme dans un article académique.

Notre article invite à recourir à une combinaison de méthodes pour saisir les pratiques des internautes : que ce soit des méthodes hors ligne (entretiens, etc.) ou en ligne (recueil des traces numériques, constitution de corpus en ligne, etc.). Opter pour un florilège de méthodes ne va pas forcément de soi.

LDApol : vers une méthodologie de contextualisation des discours politiques (Vermeirsche, Sanjuan et Jiménez)

Article en ligne

Dans un débat politique ainsi polarisé, les termes ont souvent des significations différentes ou des références cachées qui ne peuvent être comprises que dans le contexte politique. Le durcissement des discours et leur polarisation nous a conduit à expérimenter une modélisation multinomiale afin de pouvoir extraire automatiquement les associations de termes caractéristiques d’un parti ou d’une personnalité politique sur une période donnée.

https://fr.wikipedia.org/wiki/Allocation_de_Dirichlet_latente

"objectiver des associations entre notions participant au débat politique" : "modéliser les termes du débat comme des distributions de probabilités d’apparition des mots"

relire Le Bart et Charaudeau
"saisir et les éléments de langage empruntés à l’extrême-droite, et leur évolution, dans le discours politique des partis étudiés"

premier corpus : communiqués de presse (CPs) de cinq partis politiques français
"cueillette" automatisée par la Wayback Machine : "ces archives sont trop incomplètes"

"modèles linguistiques par parti ou leader politique" : "aucune liste de mots vides"

Séance 3 : analyse et visualisation des données numériques

"Bourdieu s'est intéressé très tôt à la statistique et à l'ordinateur pour l'analyse textuelle des grands corpus de données" : "il défendait très tôt l'idée que les méthodes quantitatives allaient permettre d'objectiver les structures sociales, et que ces méthodes ne seraient complètes qu'avec une analyse qualitative", "on ne prend pas les chiffres uniquement pour les chiffres"
Jean-Paul Benzécri

"ça a forcément impliqué une transformation quantitative des outils"
"on attend une démarche critique de votre part, la méthode que vous choisirez ne produira pas des résultats neutres, ce sera une méthode choisie parmi plein d'autres, donc ça va influencer votre manière d'interpréter ces résultats"
Max Reinert (2000) : les méthodes quantitatives ne sont pas des instruments de validation, l'interprétation nécessite une démarche active du chercheur qu'il ne faut pas laisser à l'outil informatique

l'ADT repose forcément sur un dialogue entre statisticiens, chercheurs en sciences sociales et linguistes
elle requiert une connaissance approfondie de son corpus pour garantir la pertinence des résultats obtenus -> le retour au texte pour récupérer le contexte d'utilisation permet l'extraction du sens, "et ça aujourd'hui c'est l'humain qui est le plus doué à le faire"
"on revient au double intérêt de la collaboration interdisciplinaire" : l'analyse humaine permet d'améliorer les outils informatiques

"pour LDApol, on est allés chercher des association de termes" (= corrélations)
"et on analyse aussi des thématiques"

LDA = méthode de statistique textuelle / modèle probabiliste conçu pour analyser des corpus textuels
va au-delà de l'analyse de la fréquence des mots : il va venir exploiter des relations entre les mots et les thèmes qui les sous-tendent
"c'est quand même une méthode dont on doit discuter : qu'est-ce que ce modèle ne permet pas d'analyser ?"

évolution du discours dans le temps : comment certains termes vont émerger, ou disparaître, selon le contexte
sujets dominants/non-dominants
le retour au texte vient valider (ou invalider) les résultats

contrairement à BERT, LDA n'est pas pré-entraîné sur de grands jeux de données
"par ailleurs on travaille sur des discours sensibles, on ne sait pas toujours les données d'entraînement des méthodes comme BERT, ça pourrait introduire des biais"
les résultats dépendent très fortement des paramètres qu'on a choisi : "les phases de test sont centrales, ça nécessite des ajustements sur plusieurs mois"
les résultats dépendent aussi de la représentativité et de la qualité des données, "il faut que les données soient stables, qu'il ait une cohérence dans leur forme"
"et l'interprétation générée par le LDA peut être très subjective : il ignore l'ordre des mots, on perd le contexte", "d'où l'importance du retour au texte"

choix du test de Kendall, "il y a toute une histoire derrière"

plongements lexicaux : représenter les mots sous forme de vecteurs, "comme c'est neuronal vous n'avez pas moyen de revenir au texte qui explique pourquoi il a mis ces 2 mots ensemble, vous perdez le contexte contrairement au LDA"
word2vec cherche des paires de mots dans une partie de texte (colocation), sans notion de document
"la lemmatisation fait perdre des informations, le masculin/féminin, le singulier/pluriel, or ça peut nous intéresser"
"ne fuyez pas le code, détectez les mots-clés"

estimation du nombre de dimensions : "c'est le cœur du sujet"

"essayez de prendre en main ce modèle sur Rstudio, regardez l'article JADT, regardez cette sortie, et essayez d'avoir une réflexion critique sur ces méthodes et ce qu'elles engagent de la part des chercheurs", "vous avez le droit de venir pointer des limites, des biais ; c'est ce qui m'intéresse"

Hors cours

d'après Dazibao le podcast :

comparer si on retrouve les mêmes associations de termes (dans des contexte similaire) dans les communiqués de presse et dans le corpus (de 3000 articles) Wikipédia, ex. "français" et "drapeau" est-il utilisé de la même manière (ça ne veut pas dire utilisés ensemble)
il y a tout un travail derrière de retourner au texte pour vérifier si l'outil probabiliste ne s'est pas trompé, "c'est comme ça qu'on calibre l'outil sur 3 ans jusqu'à ce qu'ils ne se trompe presque plus"
"5000 communiqués de presse c'est tout petit comme corpus, dans la recherche en science politique c'est des millions de tweets, etc."
"sur Wikipédia on fait des séquences temporelles"
LDA : "c'est quelque chose qui existait déjà, qui n'était pas utilisé pour les discours politiques et que M. Sanjuan a voulu développer", "pour la stabiliser ça a pris 2 ans de travail ensemble"
pourquoi celle-là ? "on l'a évaluée avec d'autres méthodes, dont les plongements lexicaux et BERT", "pour BERT on ne sait pas exactement ce qu'il y a dedans, alors que LDA n'apprend que sur ce qu'on lui a fourni", "c'est un choix scientifique d'étudier cette méthode-là précisément"
"il y a une vraie porosité", "une vraie tentative de faire passer des idées", "ce n'est pas du tout seulement le nationalisme, il doit y avoir ce genre de tentatives sur l'écologie"

Bibliographie

Les thèmes du discours. Du concept à la méthode (Ben Ahmed et Mayaffre)

Texte intégral

Le repérage, la description ou l’établissement des thèmes (topics) des discours sont un objectif majeur pour les analystes qui étudient le langage politique. [...] à la fois l’enjeu le plus évident de l’analyse du discours et son enjeu, au-delà des examens naïfs, le plus complexe.

"un problème non résolu"

Les études littéraires y ont certes apporté des solutions érudites et artistiques mais ce dossier ne pourra s’en revendiquer [...] Les études linguistiques balisent quant à elles plus concrètement le programme mais apparaissent dans l’état de l’art insatisfaisantes [...] Ce dossier [...] entend contribuer simplement au débat méthodologique qu’engagent ces questions générales et élémentaires : de quoi parlent nos discours ?

"un thème se construit – donc se repère – par la saillance et l’agrégation d’unités linguistiques (classiquement des mots) qui s’organisent sémantiquement"
"deux impératifs" :

repérage du matériau linguistique
repérage de l’organisation sémantique de ce matériau brut
"l’analyse du discours, nécessairement assistée par ordinateur aujourd’hui, a toujours affiché une autre prétention que l’analyse de contenu"

"Un thème, c’est un « contenu » graphique ou lexical, certes, mais qui s’anime (au sens fort) sémantiquement ou prend sens à la faveur de parcours de lecture" (François Rastier)

les thèmes, pas plus que le sens, ne sont déjà-là [...] Cette posture herméneutique fondamentale [...] nous semble nécessaire [...]

"quelles méthodes pour encadrer, au sein du corpus, les parcours interprétatifs qui performent ou construisent les thèmes du discours ?"

lexicométrie/textométrie/logométrie ("outillage informatique")
"les rapports statistiques et distributifs entre deux ou plusieurs mots dans le corpus, autrement appelés, de manière générique, calcul des cooccurrences"
"passer de la coprésence statistique et matérielle (au niveau du signifiant) à la corrélation sémantique ou thématique (au niveau du signifié)"
"rechercher des systèmes « de ressemblance (et donc d’opposition) entre les unités souvent très distantes » dans le corpus" (Ducrot et Schaeffer 1995)

"Il est vrai que la lexicométrie politique dont la revue Mots fut pionnière s’est largement attachée à la question depuis les origines" (Maurice Tournier en 1980)

si le thème [...] est, comme semblent l’indiquer les définitions les plus anciennes et les mieux établies, « itération » (Roland Barthes, cité par Collot, 1988, p. 79), « répétition » (Jean-Pierre Richard, cité par Collot, 1988, p. 79), « récurrence » (Rastier éd., 1995, p. 224), c’est-à-dire redondance au sein du corpus d’un même trait sémantique, alors l’approche systématique, sérielle, quantitative, statistique n’est pas la moins légitime pour assurer la démarche.

"postulat cooccurrentiel", "méthode Alceste (Reinert, 1983)"

"la recherche des thèmes, si elle ne saurait aujourd’hui plus faire l’économie de l’outil statistique et du traitement informatique, ne saurait non plus négliger le retour au texte et l’acte de lecture" (Baider)

Latent Dirichlet Allocation (Blei, NG et Morgan)

Texte intégral

Explorer, mesurer, contextualiser. Quelques apports de la textométrie à l’analyse de discours (Mayaffre, Pincemin et Boudat)

Texte intégral

"montrer comment la textométrie permet de mettre en évidence des phénomènes réguliers à travers trois niveaux de questionnement correspondant à des problématiques classiques en matière d’exploration linguistique de corpus"

affinités contextuelles (via le calcul des spécificités)
contextualisation (via la cooccurence)
dévoilement de la structure (via l'analyse des correspondances)

D’abord connue sous le nom de lexicométrie, la démarche a été renommée textométrie (ou logométrie) au début des années 2000 pour rendre compte du fait qu’elle allait au-delà de la seule analyse du lexique, en considérant aussi la morphosyntaxe, l’enchaînement des mots, les structures textuelles et intertextuelles, etc.

Constater l’occurrence de France chez un locuteur ne nous apprend rien. Constater la cooccurrence statistique de France avec grandeur, nation ou indépendance, nous apprend immédiatement sur le patriotisme du locuteur.

"la cooccurrence peut être définie comme la forme minimale et calculable du contexte"

Distributed Representations of Words and Phrases and their Compositionality (Mikolov, Sutskever, Chen, Corrado et Dean)

Texte intégral

développeurs de word2vec

Comparison of Latent Dirichlet Modeling and Factor Analysis for Topic Extraction : A Lesson of History (Peladeau et Davoodi)

Texte intégral

Investigating the Image of Entities in Social Media : Dataset Design and First Results (Velcin et al.)

Texte intégral

Another illustration is given when selecting the aspect (sub-aspect) targeted by the opinion. For instance, a tweet related to the case Sarkozy-Kadhafi has been correctly tagged as ethic by the two annotators, but the chosen sub-aspect differs (ethic:honesty vs. ethic:case). This disagreement happens several times; we think that it is due to the fact that different aspects (or sub-aspects) can be selected depending on the individual point of view.

Analyse thématique comparative des discours politiques et de leur diffusion dans le Wikipédia francophone (Vermeirsche, Sanjuan, Jiménez et Lagier)

Texte intégral (pp. 445-454)

Nous appliquons l’approche présentée en (Vermeirsche et al., 2022). Cette approche répond aux contraintes :

Ne pas projeter de ressources d’apprentissages extérieures qui pourraient introduire des biais. Cela est d’autant plus important dans le cadre de discours politiques ici étudiés, qui nous paraissent des données sensibles.

Tenir compte de la graphie des mots, le choix précis des mots étant une caractéristique du discours politique.

Mettre en évidence des rapprochements aussi bien que des oppositions.

1er temps : LDA = occurrences dans les discours (contexte large)

projection de lexique pour extraire 300 (ou moins) éléments « pertinents » des 3 corpus (CP RN/CP LFI/3000 articles WP) = constitution du sous-corpus
calcul de 18 thématiques sur le sous-corpus RN -> recouvrement du lexique sur les 18 thématiques
même chose avec le sous-corpus LFI
ACP pour modéliser les corrélations (cercle de corrélation)
2e temps : PL = collocations entre mots (contexte proche)
révéler des paires de termes qui apparaissent fréquemment ensemble sur des fenêtres de 10 mots parmi les sous-corpus RN et LFI (cercle de similarité ?)
comparaisons de ces similarités avec les corrélations (LDA)
même chose avec le sous-corpus Wikipédia

Séance 4 : Faire du terrain en numérique - Réflexion sur l’interdisciplinarité

Les HN renvoient aujourd'hui à des pratiques, des approches informatisées qu'on applique à des disciplines "traditionnelles"
tous les domaines de l'activité humaine sont concernés : le numérique va se proposer d'améliorer l'efficacité de la recherche en SHS, et aussi les manières de l'enseigner et de l'apprendre
"le terme est à la mode, preuve en est vous avez un cours qui porte ce nom"

"on a vu dans les 3 premières séances que le numérique ne va pas concerner uniquement les méthodes et les outils de chercheurs en SHS" : il devient lui aussi un objet de recherche et un outil pour communiquer

méthode/objet/terrain : "c'est de cette triple dimension dont les HN vont se saisir"

approche critique et réflexive des méthodes qu'on va engager pour l'analyse des données
plus largement, les HN se proposent d'approcher une rapproche réflexive sur ce que le numérique fait aux interactions humaines, "et donc politiques"

"une des grandes limites de l'opinion mining, c'est la décontextualisation"
biais d'échantillonnage : "tout le monde n'est pas sur Twitter"
"tout ce que le chercheur fait à son terrain, il faut savoir l'analyser et l'objectiver"

Bibliographie

Les aléas de l’interdisciplinarité. "Genèses" et l’espace des sciences sociales françaises (Boelaert, Mariot, Ollion et Pagis)

Texte intégral

"Le « discours omniprésent et incantatoire sur l’interdisciplinarité » (Heilbron et Gingras 2015) fait que les pratiques sont moins souvent étudiées qu’objet de vœux pieux."

"(...) Genèses semble être typique d’une situation plus générale : la revue
porte la trace d’une domination masculine longtemps généralisée dans l’ensemble
des supports de publication."

Que peuvent apporter le numérique et les « big data » à la politique comparée ? (Boyadjian)

Texte intégral

L’analyse quantitative des médias sociaux, une alternative aux enquêtes déclaratives ? (Boyadjian et Velcin)

Texte intégral

Proposition d’analyse de la conflictualité numérique : les commentaires sur les pages Facebook de deux candidats à la présidentielle française de 2017 (Wojcik)

Texte intégral