La ‘science des données’ à la conquête des mondes sociaux - ce que le ‘Big Data’ doit aux épistémologies locales (Dagiral & Parasie)

Eric Dagiral & Sylvain Parasie (2017)

https://e-uapv2023.univ-avignon.fr/pluginfile.php/40553/mod_folder/content/0/Ce%20que%20le%20Big%20data%20doit%20aux%20%C3%A9pist%C3%A9mologies%20locales.pdf?forcedownload=1

Comment expliquer que des technologies de calcul élaborées par des statisticiens et des informaticiens en viennent à « coïncider » avec les préoccupations de médecins, de marketers, d’industriels, de journalistes et même d’entraîneurs sportifs ?

en d'autres termes, y'a t-il eu une "rupture épistémologique" ?

  • "connaissance plus inductive" portée par le big data ? => "Les chercheurs en sciences sociales ont accueilli ces arguments avec un intérêt teinté d’un certain scepticisme" ("cela fait bien longtemps", "traditions scientifiques bien établies")
    mais "Quoique pertinentes, ces critiques échouent pourtant à rendre compte de l’extension du phénomène" : "la question reste entière"
  • "plasticité des objets technologiques et scientifiques" : ex. de la méthode de Monte-Carlo pour décrire la réalité
    Info

    à propos de la méthode de Monte-Carlo : vidéo de vulgarisation et cours du MIT

"Pour être en mesure de trancher cette question, il est impératif, croyons-nous, de déplacer notre regard" : parler de science des données plutôt que de big data

"relative ouverture aux épistémologies propres aux différents monde sociaux concernés" :

  • En premier lieu, nous avons analysé la littérature académique dans le domaine des statistiques et de l’informatique depuis le début des années 1960. Nous avons ainsi pu reconstituer l’émergence progressive d’un domaine associé à la « science des données ».

le mouvement pour l’analyse de données : les statistiques doivent s’ouvrir bien au-delà de leur dimension strictement mathématique (Tukey, "Le futur de l'analyse des données", 1962)
analyse confirmatory/exploratory

En pratique, c’est la diffusion de logiciels statistiques qui étend le traitement de données en dehors du monde de la statistique universitaire. À partir de la fin des années 1960 apparaît en effet une offre commerciale qui s’adresse à des personnes qui ne maîtrisent pas nécessairement le contenu mathématique des modèles statistiques.

BDMP (santé), SPSS (sciences sociales), SAS (entreprises)
"répertoire standard de techniques statistiques" + "méthodes spécialisées qui étaient importantes dans chaque domaine" (De Leeuw, 2011)

"R était le logiciel le plus utilisé dans le monde académique, les entreprises, l’administration et les ONG" (enquête de 2011 auprès de 1000 analystes)

Info

Entendu au boulot : "dans la vraie vie, personne n'utilise R", que voulait-on dire par-là ?

crise des statistiques dans les années 2000 : "la conception des systèmes est presque entièrement dans les mains des firmes" (Cleveland, 2001)
C'est Cleveland qui invente la notion de data sciences en 2001
"fusionner les connaissances provenant des statistiques et celles issues de l’informatique"

  • En deuxième lieu, nous avons étudié une partie des éléments logiciels constitués dans le cadre du projet open source R (...)

"un quart des packages (de R) font explicitement référence à des mondes sociaux extérieurs aux statistiques et à l’informatique"
"forte intrication des perspectives scientifiques et industrielles"

"il est indispensable de se fonder sur un ensemble de connaissances propres au monde social concerné" pour ne pas tomber dans la "zone de danger" (O’Neil et Schutt, manuel de data science, 2013)
"la nécessité d’intégrer les épistémologies locales dans la mise en œuvre de cette « science des données »"

  • Enfin, nous avons conduit une enquête par entretiens auprès d’une dizaine de data scientists nord-américains engagés dans les mondes du journalisme d’une part, du corps, de la santé et du bien-être d’autre part.

"mise à l'épreuve" (cf. Hamzaoui) des mondes sociaux

data-journalisme :

  • mauvaise qualité des données
  • absence ou minimisation de contextualisation

santé (Quantified Self) :

  • pratiques d'analyse "très discutées et souvent critiquées", "descriptions
    très contrastées"
  • épreuve d'échelle : individuelle/collective

conclusion : "aller au-delà de la seule discussion sur le Big Data et ses enjeux"