Données massives, statistique publique et mesure de l’économie (Blanchet & Givord)

Didier Blanchet et Pauline Givord (2017?)

https://e-uapv2023.univ-avignon.fr/pluginfile.php/40553/mod_folder/content/0/Blanchet%20et%20Givord_Donn%C3%A9es%20massives%2C%20statistique%20publique%20et%20mesure%20de%20l%C3%A9conomie.pdf?forcedownload=1

les informations obtenues ne correspondent jamais directement au concept que l’on souhaite mesurer, comme peuvent l’être celles fournies par une enquête, dont les questions sont conçues pour s’approcher au plus près de la définition du phénomène auquel on s’intéresse, tels que le secteur d’activité de l’entreprise ou la situation d’un individu par rapport à l’emploi

Suivi conjoncturel

"Réduire les délais de publication des principaux indicateurs économiques"

On tend vers ce qu’on qualifie de nowcasting, c’est-à-dire l’utilisation de données indicatives pour « prévoir » un présent qui ne sera connu dans tous ses détails que bien plus tardivement. (...) C’est à ce nowcasting que certains types de big data peuvent prétendre contribuer.

Utiliser les requêtes des internautes

les recherches sur le terme d’allocation chômage peuvent refléter d’autres mouvements que ceux du seul chômage BIT (...) Pour analyser plus précisément le pouvoir prédictif de telles séries, il faut les insérer dans des modèles explicatifs de la variable qu’on cherche à prévoir et les tester en prévision.

"Il n’y a donc pas de gain décisif à attendre pour le conjoncturiste."

Cependant, malgré ces débuts prometteurs, Google Flu s’est révélé à l’usage peu performant en prévision : il conduisait à surestimer très souvent les pics épidémiques par rapport à ce qui était finalement observé.

Fonder un modèle de prévision sur une source dont la construction n’est pas contrôlable ni traçable expose à un risque important d’obtenir des estimations peu fiables.

Analyse prédictive de la presse en ligne

L’utilisation de données issues de la presse économique répond en partie à cette critique, en se recentrant sur des sources plus directement en lien avec ce que l’on souhaite mesurer. Elle permet aussi de reprendre la main sur l’ensemble du processus de construction des données.

En pratique, un important travail de traitement des données est nécessaire à l’aide de méthodes d’analyse textuelle ou « textmining ».

risque de "prophétie auto-réalisatrice"

Mesure des prix

Actuellement, la majorité du suivi des prix se fait par collecte directe sur les lieux de vente. (...) Ce mode de recueil a l’avantage d’être applicable à tous les types de biens mais il est lourd et coûteux.

webscraping (BPP) :

Si le projet initial a bien confirmé une défaillance de la statistique officielle argentine, son extension à d’autres pays montre que cette défaillance est l’exception plutôt que la règle

données de caisse : "projet démarré en 2015 et devant aboutir d’ici à 2020"

Moins onéreuses que la collecte traditionnelle par enquêteur, les données de caisse permettront également de produire à terme de nouvelles statistiques grâce au détail et au volume des informations collectées : indices pour des segments particuliers de la consommation, indices régionaux, etc.

Mesure de l'économie numérique

C’est la problématique dite du « mismeasurement » selon laquelle les difficultés actuelles à retrouver les rythmes de croissance d’avant-crise seraient plus apparentes que réelles et découleraient avant tout du fait que les outils traditionnels ne sont pas en mesure de repérer que la croissance est en train de changer de nature.

-> place de l'économie numérique dans l'activité des entreprises

L’étude du NIESR s’intéresse aux produits digitaux, l’étude néerlandaise à l’utilisation d’outils digitaux pour la commercialisation de biens qui peuvent ne rien avoir de digital. Les deux définitions débouchent donc sur des chiffres qui ne sont pas plus comparables entre eux qu’ils ne le sont avec la définition des classifications usuelles

-> l'économie numérique "du point de vue des individus et des ménages"

Une alternative est de mobiliser les informations enregistrées par les opérateurs de ce type de service (Airbnb et eBay, ndlr)

-> "la valeur qui est créée par ces nouveaux services" pour le consommateur

"la question de l’apport des mégadonnées à la statistique publique doit être
examinée au cas par cas"