Le tout plutôt que la partie. Big data et pluralité des mesures de l’opinion sur le web (Kotras)
Baptiste Kotras, Revue française de sociologie, 2018/3 (Vol. 59)
Abordé au cours de Hamzaoui
le résume me rappelle ce passage de Salvaggio :
At the height of this social-data fetishism, we believed that if statisticians could only average enough polls, they could predict elections.
les internautes s'expriment de manière massive et spontanée ("ils n’ont été sollicités par personne"), mais souvent anonyme : les méthodes anciennes de mesure d'opinion ne fonctionnent plus
partant de là, comment mesurer les opinions des internautes ?
les chercheurs sont sur le coup (Boullier dit même que ça va tout changer aux sciences sociales), mais les start-ups aussi (agences de réputation) et ça leur fait engranger des milliards
elles ont plusieurs façons de traiter ce big data des opinions :
sur le Web, à cause de "l’indétermination sociale et démographique des traces collectées en ligne", il est "impossible de rattacher systématiquement les énoncés produits par les internautes aux catégories habituelles"
il faut donc "reconstruire des conventions" qui "rompent avec l'approche des enquêtes par sondage"
et ces deux approches apportent chacune des solutions différentes
spoiler : c'est l'approche extensive qui gagne ("triomphe progressivement") ?
Linkfluence a été rachetée en 2021 par Meltwater, historiquement suédoise mais basée à San Francisco. La marque Linkfluence a disparu début 2023
Les start-ups de l'opinion ne viennent pas des mêmes milieux, ce qui expliquent les différences d'approche
échantillonnage ("la partie") : étudie des sources
extensivité ("le tout") : surveille "les plus grandes quantités de données possibles"
En important dans la mesure des opinions des savoirs et des instruments qui lui étaient jusqu’ici radicalement étrangers, tels que le traitement automatique du langage, la science des données ou encore le format du tableau de bord, les start-ups de SMA bâtissent une approche bien distincte des modèles échantillonnés.
- | Échantillonneurs | Social media analysis |
---|---|---|
Savoirs mobilisés | Marketing, communication, science des réseaux | Traitement automatique du langage, science des données, outils de gestion |
Produit commercialisé | Études et conseil | Logiciels de veille |
Épreuve de référence | Pertinence et qualité des données | Exhaustivité des données |
Mode de connaissance | Échantillonage et représentativité | Recherche de corrélations |
Valeur de l’opinion mesurée | Opinion autorisée des prescripteurs | Veille continue sur des signaux faibles |
"la plupart des adeptes de l’échantillonnage ont fermé leurs portes ou se reconvertissent"
les deux méthodes ont été mises à l'épreuve "technique et épistémique" de l'avènement des plateformes (= les RSN) : "un choc exogène" qui "met en crise" le modèle de la partie mais est adapté au modèle du tout
à propose des épreuves que les conventions de quantification doivent supporter, cf. Hamzaoui, diapo "De quoi se constitue la quantification" (Desrosières ?)
défaite de "la partie" :
victoire du "tout" :
Linkfluence, "rare cas" de reconversion réussie, car fondée par des informaticiens
"on met tout et n’importe quoi dans le moteur"
l'article dit que "la présence d’un flux RSS" indique "une activité de publication régulière" : ce n'est (hélas 🙁) plus vrai aujourd'hui, la plupart des sites même non-statiques ne proposent plus de RSS du tout
"Entre 2012 et 2017, les bases de données de Linkfluence passent de 15 000 à plusieurs dizaines de millions de sites indexés."
industrialisation : Linkfluence doit développer son propre logiciel et acheter son propre cluster
l'article précise que la transition de OVH vers cluster proprio était toujours en cours en 2013 : depuis, je ne serais pas étonné que Linkfluence soit passé du cluster proprio vers le Cloud
EDIT : d'après ce lien ils sont passés sur AWS
conclusion :
L’abondance des traces numériques de l’activité humaine ne constitue donc pas une condition ni nécessaire ni suffisante des ruptures épistémologiques souvent promises par les promoteurs des big data.
ce n'est pas l'abondance de la parole des internautes qui a mis en échec "la partie" : c'est le changement de format, comme l'expliquent Dagiral et Parasie
le modèle échantillonné était "original et hybride", entre tradition et modernité, qui s'intéressait à l'état des opinions ; le modèle SMA s'intéresse à leur évolution (et à leur impact sur l'image de marque de ses clients)
je me demande si Kotras n'est pas un peu salé avec cette dernière phrase