Le tout plutôt que la partie. Big data et pluralité des mesures de l’opinion sur le web (Kotras)

Baptiste Kotras, Revue française de sociologie, 2018/3 (Vol. 59)

Info

le résume me rappelle ce passage de Salvaggio :

At the height of this social-data fetishism, we believed that if statisticians could only average enough polls, they could predict elections.

les internautes s'expriment de manière massive et spontanée ("ils n’ont été sollicités par personne"), mais souvent anonyme : les méthodes anciennes de mesure d'opinion ne fonctionnent plus

partant de là, comment mesurer les opinions des internautes ?
les chercheurs sont sur le coup (Boullier dit même que ça va tout changer aux sciences sociales), mais les start-ups aussi (agences de réputation) et ça leur fait engranger des milliards

elles ont plusieurs façons de traiter ce big data des opinions :

celles qui scannent un maximum : approche extensive ("le tout")
celles qui ne scannent que des échantillons : approche échantillonnée ("la partie")

sur le Web, à cause de "l’indétermination sociale et démographique des traces collectées en ligne", il est "impossible de rattacher systématiquement les énoncés produits par les internautes aux catégories habituelles"
il faut donc "reconstruire des conventions" qui "rompent avec l'approche des enquêtes par sondage"
et ces deux approches apportent chacune des solutions différentes
spoiler : c'est l'approche extensive qui gagne ("triomphe progressivement") ?

"format aujourd’hui dominant de la veille extensive, dit du « social media analysis » (SMA)"
exemple de Linkfluence, passée de l'échantillonnage à l'extensif
Info

Linkfluence a été rachetée en 2021 par Meltwater, historiquement suédoise mais basée à San Francisco. La marque Linkfluence a disparu début 2023

Histoire de la mesure d'opinion sur le web

Les start-ups de l'opinion ne viennent pas des mêmes milieux, ce qui expliquent les différences d'approche

les échantillonneurs viennent plutôt du marketing et des SHS, ils sont "relativement peu dotés en compétences informatiques" : ils doivent "limiter les volumes de données"
les extensifs viennent plutôt des sciences de l'informatique

échantillonnage ("la partie") : étudie des sources

selon leur autorité : "leaders d'opinion", blogs bien référencés sur Google/entre eux ("15 000 sites les plus influents du web français") ; rupture avec la règle d'or traditionnel "un homme une voix"
selon leur ligne éditoriale : cartographie de la blogosphère (d'il y a 10 ans) par thématique
"la mesure des opinions est alors une mesure de réputation" : ça marche bien avec la blogosphère de cette époque ("web documentaire"), mais pas avec ce qui va lui succéder ("web des personnes")

extensivité ("le tout") : surveille "les plus grandes quantités de données possibles"

les clients interprètent eux-mêmes les données via des tableaux de bord à la recherche de "corrélations significatives" : veille, monitoring
"culture défensive" : détecter les "signes avant-coureurs" d'un bad buzz
les résultats sont classés par ton (positif/neutre/négatif) plutôt que réputation
"Il n’est plus question de lire, classer et analyser humainement" => il faut des algorithmes

En important dans la mesure des opinions des savoirs et des instruments qui lui étaient jusqu’ici radicalement étrangers, tels que le traitement automatique du langage, la science des données ou encore le format du tableau de bord, les start-ups de SMA bâtissent une approche bien distincte des modèles échantillonnés.

-	Échantillonneurs	Social media analysis
Savoirs mobilisés	Marketing, communication, science des réseaux	Traitement automatique du langage, science des données, outils de gestion
Produit commercialisé	Études et conseil	Logiciels de veille
Épreuve de référence	Pertinence et qualité des données	Exhaustivité des données
Mode de connaissance	Échantillonage et représentativité	Recherche de corrélations
Valeur de l’opinion mesurée	Opinion autorisée des prescripteurs	Veille continue sur des signaux faibles

Défaite de la "partie" et victoire du "tout"

"la plupart des adeptes de l’échantillonnage ont fermé leurs portes ou se reconvertissent"

les deux méthodes ont été mises à l'épreuve "technique et épistémique" de l'avènement des plateformes (= les RSN) : "un choc exogène" qui "met en crise" le modèle de la partie mais est adapté au modèle du tout

Info

à propose des épreuves que les conventions de quantification doivent supporter, cf. Hamzaoui, diapo "De quoi se constitue la quantification" (Desrosières ?)

défaite de "la partie" :

on ne peut plus classer par autorité
Cardon : le like/RT a remplacé le PageRank => la mesure de réputation basée sur les liens entrants des blogs ("économie de la rareté") ne fonctionne plus (ni le "RSS et autres outils gratuits" : il faut passer par les API des RSN ou des data brokers)
on ne peut plus classer par ligne éditoriale
"déséditorialisation" : sur les RSN, on ne se consacre "pas spécifiquement à un sujet donné" (ce qui a causé l'échec de l'outil Twitter de Linkfluence)

victoire du "tout" :

pas de remise en cause des méthodes des SMA
"un « simple » défi technique" : il faut monter en charge pour supporter "l'accroissement considérable des volumes de données" (=> montée des coûts => rachats et fusions => concentration en monopoles)

Linkfluence, "rare cas" de reconversion réussie, car fondée par des informaticiens
"on met tout et n’importe quoi dans le moteur"

Info

l'article dit que "la présence d’un flux RSS" indique "une activité de publication régulière" : ce n'est (hélas 🙁) plus vrai aujourd'hui, la plupart des sites même non-statiques ne proposent plus de RSS du tout

"Entre 2012 et 2017, les bases de données de Linkfluence passent de 15 000 à plusieurs dizaines de millions de sites indexés."
industrialisation : Linkfluence doit développer son propre logiciel et acheter son propre cluster

Info

l'article précise que la transition de OVH vers cluster proprio était toujours en cours en 2013 : depuis, je ne serais pas étonné que Linkfluence soit passé du cluster proprio vers le Cloud
EDIT : d'après ce lien ils sont passés sur AWS

conclusion :

L’abondance des traces numériques de l’activité humaine ne constitue donc pas une condition ni nécessaire ni suffisante des ruptures épistémologiques souvent promises par les promoteurs des big data.

ce n'est pas l'abondance de la parole des internautes qui a mis en échec "la partie" : c'est le changement de format, comme l'expliquent Dagiral et Parasie

le modèle échantillonné était "original et hybride", entre tradition et modernité, qui s'intéressait à l'état des opinions ; le modèle SMA s'intéresse à leur évolution (et à leur impact sur l'image de marque de ses clients)

Info

je me demande si Kotras n'est pas un peu salé avec cette dernière phrase