Statistique et qualité de la donnée

Jimmy Merlet

Notes de cours

"je mets rien sur Moodle, à vous de prendre vos notes"
Moodle : https://e-uapv2023.univ-avignon.fr/course/view.php?id=4118

2 écrits de 1h, en octobre et novembre

transformation économique et RSE

Concepts fondamentaux en statistiques

Intro

économétrie : un "outil d'analyse quantitative"
prédire ou mesurer d'après des caractéristiques pouvant influer sur des résultantes
modéliser la réalité

établir une relation, une corrélation
entre des variables explicatives ou covariables (x = âge, x₂ = niveau de revenu, x_i, etc.)
et une variable à expliquer (y = taux de réussite aux examens)

pour vérifier une relation linéaire entre y et x :
y = β₀ + β₁x₁
β₀ = constante ("on l'appellera α")
β₁ = coefficient directeur
y = f(x_i,...,x_n;β_i,...,β_n)
x_n = variable pour 1 individu (n = nombre d'observations) avec x les variables ∀ i = 1

linéarisation

Présentation de l'application

(TD sur Moodle)

Année	x (consommation)	y (revenu)
1	102	114
...	...	...
12	154	178

Diagramme de dispersion

le diagramme de dispersion/de corrélation (scatter diagram) est un outil de contrôle et d'aide à la décision pour vérifier l'existence d'une relation/corrélation entre variables quantitatives

tester des hypothèses pour :

trouver l'origine d'un problème
améliorer la performance
etc.

Régression linéaire

Ici (sur le tableau du TD), la relation n'a pas une forme linéaire exacte (prédication précise de y)
y_i = βx_i + α
y ne dépend pas uniquement de x₁, x₂, etc.
il faut introduire de l'aléatoire : μ₁
y_i = βx_i + α + μ₁ (= terme d'erreur aléatoire avec E(μ₁) = α)
E = l'espérance ("c'est la moyenne en gros")
i = 1, 2, ... n avec n = le nombre de données
plus la valeur de μ est grande, moins le modèle est précis (et plus il est mauvais)
même chose pour la somme des carrés des résidus : si la SCR du modèle n°1 est inférieure à la SCR du modèle n°2, alors le modèle n°1 est plus précis que le n°2

si ces 5 hypothèses ne sont pas respectées, le modèle va être biaisé :

E(μ_i) = 0 / l'espérance mathématique du terme aléatoire est nulle (en moyenne, modèle bien spécifié = erreur moyenne nulle)
variance de l'erreur constante (hypothèse d'homoscédasticité de la variance de l'erreur)
erreurs non corrélées ou indépendantes : une erreur à l'instant t n'a pas d'influence sur les erreurs à l'instant suivant
erreur indépendante de la variable explicative (hypothèse d'absence d'endogénéité)
"l'endogénéité est quelque chose d'extrêmement problématique en économétrie, elle ne peut jamais être réglée à 100%"
si X_i différent de X_j, la covariance est nulle entre les variables exogènes (elles ne sont pas liées) = hypothèse d'absence de multicolinéarité entre les variables exogènes

Hors cours

je comprenais pas ce que c'était les "points de combat", et en fait c'est parce que ça n'existait pas dans les Pokémon traditionnels : https://bulbapedia.bulbagarden.net/wiki/Stat_(GO)#CP

différentes méthodes statistiques pour pouvoir calculer une probabilité d'un modèle linéaire :

"nous ce qu'on fera, c'est ça :" la méthode des moindres carrés (MCO), pour minimiser la SCR
dans les situations où la variable n'est pas continue, on va maximiser la vraisemblance ("ça on ne le développera pas")
inférence bayésienne, "gardez ça à l'esprit mais on va explorer la chose différemment"

Paramètres de la régression linéaire

le critère des moindre carrés vise à minimiser la SCR :
résidu e_i : écart entre y_i (valeur réelle) et ȳ_i (valeur estimée)

erreurs (ou aléas) (μ_i) = déviation des valeurs observées par rapport aux valeurs issues de la vraie fonction (non observable)
résidus (e_i) = différence entre les valeurs observées et les valeurs issues de la fonction estimée

Variance et covariance

la covariance (Cov, ou 𝜎²_xy) sert à quantifier la liaison entre 2 variables 𝑋 et 𝑌, de manière à mettre en évidence le sens de la liaison et son intensité
-> mesure la tendance de x et y à être simultanément au-dessous ou en-dessous de leurs espérances respectives

si Cov (𝑋,𝑌) > 0 : relation positive (lorsque 𝑋 est plus grand que son espérance, 𝑌 a tendance à être plus grand que sa propre espérance)
si Cov (𝑋,𝑌) = 0 : absence de relation
si Cov (𝑋,𝑌) < 0 : relation négative (lorsque 𝑋 est plus grand que son espérance, 𝑌 a tendance à être plus petit que sa propre espérance)

Correction de Bessel : en économétrie, il faut toujours diviser par n-1 (S_xy)
"on ne va pas revenir sur le pourquoi du comment, c'est chiant et laborieux"

la variance (S²_x ou S²_y)
permet de distinguer entre deux échantillons en moyenne identiques

écart-type (S_x ou S_y) : mesure la dispersion des valeurs d'un échantillon autour de sa moyenne
écart-type faible = valeurs regroupées autour de la moyenne

Coefficient de corrélation linéaire

Corrélation de Pearson (𝑅) : mesurer la liaison linéaire existante entre deux variables quantitatives aléatoires
𝑅 = 𝜎²_xy ÷ (𝜎_x𝜎_y)

Intervalles de confiance

pour une répartition en courbe de Gauss :

répartition à peu près symétrique autour de la moyenne (= loi normale)
la majorité (95%) des valeurs sont dans un intervalle de confiance entre (moyenne de x moins deux écarts-type) et (moyenne de x + 2 écarts-types)
65% des valeurs sont dans l'intervalle (moyenne de x moins un écart-type) et (moyenne + un écart-type)

Signification d'un modèle

coefficient de détermination 𝑅² : pour le calculer, il faut utiliser la SCR

somme des carrés expliquée (SCE) = somme des carrés totaux (SCT) - SCR
plus SCR est petit, moins on a de problèmes => plus SCE sera grand

𝑅² = SCE divisé par SCT = 1 moins (SCR divisé par SCT)
permet d'expliquer dans quelle mesure la variance d'une variable explique la variance de la seconde variable : c'est la proportion de la variance des erreurs sur celle de la variable dépendante (y)

si les résidus représentent 100% de la valeur de l'écart entre y réel et y moyen, alors mon 𝑅 vaut 0%

Significativité des coefficients du modèle

hypothèse zéro (H0) = est-ce que β=0 ?

Statistique de Student : "on ne l'utilisera pas"
Intervalle de confiance : "c'est automatiquement calculé à 95%"
p-value (calculée par le tableur) : si elle est < 5%, on rejette H0 (si > 5%, on accepte H0)

plus la p-value est proche de 1, plus le résultat est dû au hasard
plus la p-value est proche de 0, moins le résultat est dû au hasard (plus le pouvoir prédictif de la variable explicative est élevé)

en économétrie, les seuils sont de 1% (1 chance sur 100 de se tromper)/5%/10% (1 fois sur 10)