Eric Dagiral & Sylvain Parasie (2017)
Comment expliquer que des technologies de calcul élaborées par des statisticiens et des informaticiens en viennent à « coïncider » avec les préoccupations de médecins, de marketers, d’industriels, de journalistes et même d’entraîneurs sportifs ?
en d'autres termes, y'a t-il eu une "rupture épistémologique" ?
à propos de la méthode de Monte-Carlo : vidéo de vulgarisation et cours du MIT
"Pour être en mesure de trancher cette question, il est impératif, croyons-nous, de déplacer
notre regard" : parler de science des données plutôt que de big data
"relative ouverture aux épistémologies propres aux différents monde sociaux concernés" :
le mouvement pour l’analyse de données : les statistiques doivent s’ouvrir bien au-delà de leur dimension strictement mathématique (Tukey, "Le futur de l'analyse des données", 1962)
analyse confirmatory/exploratory
En pratique, c’est la diffusion de logiciels statistiques qui étend le traitement de données en dehors du monde de la statistique universitaire. À partir de la fin des années 1960 apparaît en effet une offre commerciale qui s’adresse à des personnes qui ne maîtrisent pas nécessairement le contenu mathématique des modèles statistiques.
BDMP (santé), SPSS (sciences sociales), SAS (entreprises)
"répertoire standard de techniques statistiques" + "méthodes spécialisées qui étaient importantes dans chaque domaine" (De Leeuw, 2011)
"R était le logiciel le plus utilisé dans le monde académique, les entreprises, l’administration et les ONG" (enquête de 2011 auprès de 1000 analystes)
Entendu au boulot : "dans la vraie vie, personne n'utilise R", que voulait-on dire par-là ?
crise des statistiques dans les années 2000 : "la conception des systèmes est presque entièrement dans les mains des firmes" (Cleveland, 2001)
C'est Cleveland qui invente la notion de data sciences en 2001
"fusionner les connaissances provenant des statistiques et celles issues de l’informatique"
"un quart des packages (de R) font explicitement référence à des mondes sociaux extérieurs aux statistiques et à l’informatique"
"forte intrication des perspectives scientifiques et industrielles"
"il est indispensable de se fonder sur un ensemble de connaissances propres au monde social concerné" pour ne pas tomber dans la "zone de danger" (O’Neil et Schutt, 2013)
"la nécessité d’intégrer les épistémologies locales dans la mise en œuvre de cette « science des données »"
data-journalisme :
santé (Quantified Self) :