Statistique et qualité de la donnée
Jimmy Merlet
"je mets rien sur Moodle, à vous de prendre vos notes"
Moodle : https://e-uapv2023.univ-avignon.fr/course/view.php?id=4118
2 écrits de 1h, en octobre et novembre
transformation économique et RSE
économétrie : un "outil d'analyse quantitative"
prédire ou mesurer d'après des caractéristiques pouvant influer sur des résultantes
modéliser la réalité
établir une relation, une corrélation
entre des variables explicatives ou covariables (x = âge, x2 = niveau de revenu, xi, etc.)
et une variable à expliquer (y = taux de réussite aux examens)
pour vérifier une relation linéaire entre y et x :
y = β0 + β1x1
β0 = constante ("on l'appellera α")
β1 = coefficient directeur
y = f(xi,...,xn;βi,...,βn)
xn = variable pour 1 individu (n = nombre d'observations) avec x les variables ∀ i = 1
linéarisation
(TD sur Moodle)
Année | x (consommation) | y (revenu) |
---|---|---|
1 | 102 | 114 |
... | ... | ... |
12 | 154 | 178 |
le diagramme de dispersion/de corrélation (scatter diagram) est un outil de contrôle et d'aide à la décision pour vérifier l'existence d'une relation/corrélation entre variables quantitatives
tester des hypothèses pour :
Ici (sur le tableau du TD), la relation n'a pas une forme linéaire exacte (prédication précise de y)
yi = βxi + α
y ne dépend pas uniquement de x1, x2, etc.
il faut introduire de l'aléatoire : μ1
yi = βxi + α + μ1 (= terme d'erreur aléatoire avec E(μ1) = α)
E = l'espérance ("c'est la moyenne en gros")
i = 1, 2, ... n avec n = le nombre de données
plus la valeur de μ est grande, moins le modèle est précis (et plus il est mauvais)
même chose pour la somme des carrés des résidus : si la SCR du modèle n°1 est inférieure à la SCR du modèle n°2, alors le modèle n°1 est plus précis que le n°2
si ces 5 hypothèses ne sont pas respectées, le modèle va être biaisé :
je comprenais pas ce que c'était les "points de combat", et en fait c'est parce que ça n'existait pas dans les Pokémon traditionnels : https://bulbapedia.bulbagarden.net/wiki/Stat_(GO)#CP
différentes méthodes statistiques pour pouvoir calculer une probabilité d'un modèle linéaire :
le critère des moindre carrés vise à minimiser la SCR :
résidu ei : écart entre yi (valeur réelle) et ȳi (valeur estimée)
erreurs (ou aléas) (μi) = déviation des valeurs observées par rapport aux valeurs issues de la vraie fonction (non observable)
résidus (ei) = différence entre les valeurs observées et les valeurs issues de la fonction estimée
la covariance (Cov, ou 𝜎²xy) sert à quantifier la liaison entre 2 variables 𝑋 et 𝑌, de manière à mettre en évidence le sens de la liaison et son intensité
-> mesure la tendance de x et y à être simultanément au-dessous ou en-dessous de leurs espérances respectives
Correction de Bessel : en économétrie, il faut toujours diviser par n-1 (Sxy)
"on ne va pas revenir sur le pourquoi du comment, c'est chiant et laborieux"
la variance (S²x ou S²y)
permet de distinguer entre deux échantillons en moyenne identiques
écart-type (Sx ou Sy) : mesure la dispersion des valeurs d'un échantillon autour de sa moyenne
écart-type faible = valeurs regroupées autour de la moyenne
Corrélation de Pearson (𝑅) : mesurer la liaison linéaire existante entre deux variables quantitatives aléatoires
𝑅 = 𝜎²xy ÷ (𝜎x𝜎y)
pour une répartition en courbe de Gauss :
coefficient de détermination 𝑅² : pour le calculer, il faut utiliser la SCR
somme des carrés expliquée (SCE) = somme des carrés totaux (SCT) - SCR
plus SCR est petit, moins on a de problèmes => plus SCE sera grand
𝑅² = SCE divisé par SCT = 1 moins (SCR divisé par SCT)
permet d'expliquer dans quelle mesure la variance d'une variable explique la variance de la seconde variable : c'est la proportion de la variance des erreurs sur celle de la variable dépendante (y)
si les résidus représentent 100% de la valeur de l'écart entre y réel et y moyen, alors mon 𝑅 vaut 0%
hypothèse zéro (H0) = est-ce que β=0 ?
Statistique de Student : "on ne l'utilisera pas"
Intervalle de confiance : "c'est automatiquement calculé à 95%"
p-value (calculée par le tableur) : si elle est < 5%, on rejette H0 (si > 5%, on accepte H0)
plus la p-value est proche de 1, plus le résultat est dû au hasard
plus la p-value est proche de 0, moins le résultat est dû au hasard (plus le pouvoir prédictif de la variable explicative est élevé)
en économétrie, les seuils sont de 1% (1 chance sur 100 de se tromper)/5%/10% (1 fois sur 10)