[Econométrie] La régression linéaire simple

Bloc_appartement_du_Vieux-Limoilou

Aujourd'hui je vais parler de la régression linéaire simple (abrégée en RLS). Pour ceux qui ont un peu de connaissances en maths cela va vous sembler simple. Pour les autres, pas de panique je vais revenir sur les bases et vous montrer qu'en fait, derrière ce terme un peu barbare, il n'y a rien de méchant. Aujourd'hui j'utilise une base de données issues des fichiers d'exemples de Gretl et que je vous mets à disposition appartement.xls. Cette base se compose d'une variable relative au prix des appartements en milliers de dollars et d'une variable relative à la surface de l'appartement en pied carré (1 m² = 10,8 pieds carrés).  


Supposons que vous souhaitez acheter un appartement. Il y a des chances pour que vous vous posiez deux questions :

  1. Je souhaite avoir un appartement de quelle surface ?
  2. Et pour quel prix ?

Votre objectif est de trouver l'appartement le plus grand possible tout en respectant votre budget (on parle de contrainte budgétaire, et plus précisément de maximisation du bien-être / utilité sous contrainte). Jusque là rien de compliqué ! Ce qui vous intéresse c'est de savoir si la surface augmente de 1m², 5m², 10m² etc de combien va augmenter, en moyenne, le prix de l'appartement que vous souhaitez acheter ? Dans la mesure où en général, plus la surface d'un appartement est grande, plus le prix de l'appartement en question est important, il y a fort à parier qu'entre la surface et le prix il y ait une relation linéaire. Plus précisément, entre ces deux variables (le prix et la surface) il y a sûrement une corrélation (à vérifier).

Maintenant que nous avons "défini" le problème, lançons nous dans la RLS. Elle a pour but de :

  1. Mettre en évidence l'existence (ou non) d'une relation linéaire (= affine) entre deux (et seulement deux !) variables, à savoir :
    • Y : ma variable dépendante que je souhaite expliquer (le prix).
    • X : ma variable explicative, qui à priori explique les variations de Y, (la surface). 
  2. S'il existe un lien statistique entre ces deux variable, la RLS permet de mesurer / chiffrer le lien entre la variable dépendante et la variable explicative
  3. Elle permet de faire de la prédiction (ex : "pour un appartement de 100 m² le prix est de ... et si je souhaite acheter un appartement de 150 m² ça me coûtera ...").

Pour savoir s'il existe une relation fonctionnelle linéaire entre mes deux variables (x et y) cela revient résoudre une équation de type y = f(x) (cf Eq 1).

Équation 1 : 
Y = a X + b

La RLS revient à supposer que la variable (aléatoire) Y que je cherche à expliquer est une fonction affine (linéaire) de ma variable dépendante X. L'équation suivante n'est autre que la réécriture de la première en langage "économétrique" (Eq 2).

Équation 2 : 

Y = \beta_{0} + \beta_{1} X + \epsilon  

Y est ma variable dépendante (ou variable endogène, réponse), X est ma variable explicative  \beta_{{0}}  correspond à ma constante et  \beta_{{1}}  correspond au coefficient associé à la variable X.

A partir des observations de la base de données (BDD), la RLS permet de prédire la valeur de Y, autrement dit prédire la "réalité" par l'intermédiaire de la variable explicative X. La technique économétrique utilisée pour les modèles linéaires simples s'appelle la méthode des Moindres Carrés Ordinaires (MCO) ou Ordinary Least Squares Regression (OLS in english). En gros, lorsque je lance mon modèle l'ordinateur minimise la somme des carrés des écarts entre mes observations et mon modèle (d'où le moindres carrés). Graphiquement, l'objectif est de minimiser la distance (au carré) entre les points et la droite de régression (cf graphique 1).

Nuage de points des observations de la BDD appartement.xls
Graphique 1 : Nuage de points des observations de la BDD appartement.xls (Gretl)

Sur ce graphique la droite correspond aux couples de valeurs (X ; Y) estimés à partir du modèle. Les points quant à eux correspondent aux observations issues de la BDD (base de données). Ainsi, vous pouvez voir que les points semblent suivre la droite, ce qui laisse supposer qu'entre les deux variables il existe une relation affine (= linéaire). Plus la surface est importante (sqft en abscisse), plus le prix est important en moyenne (price en ordonnée). Cependant, si nous nous arrêtons ici nous ne pouvons pas chiffrer cette relation, ni même dire si elle est significative (c'est-à-dire qu'elle n'est pas le fruit du hasard). Pour cela, nous devons lancer le logiciel d'économétrie (Stata, Gretl, SAS, SPSS, Excel, R, Eviews etc). Pour ma part j'utiliserai le logiciel open source (libre) Gretl.

 Modèle 1 : MCO, utilisant les observations 1-14                         Source : paulveyronnet.fr    Variable dépendante: price

Coefficient

Erreur
Std

t
de Student

p.
critique

 

const

52,3509

37,2855

1,4041

0,18565

 

sqft

0,13875

0,0187329

7,4068

<0,00001 ***

Moy. var. dép.

317,4929

 

Éc. type var. dép.

88,49816

Somme carrés résidus

18273,57

 

Éc. type de régression

39,02304

R2

0,820522

 

R2 ajusté

0,805565

F(1, 12)

54,86051

 

p. critique (F)

8,20e-06

Log de
vraisemblance

−70,08421

 

Critère d'Akaike

144,1684

Critère de
Schwarz

145,4465

 

Hannan-Quinn

144,0501

 

 

 

 

 Votre but était d'estimer la valeur des coefficients \beta_{0} et \beta_{1}. Pour rappel : \beta_{0} (noté const pour "constante") correspond à l'ordonnée à l'origine et \beta_{1} (pour la variable price) correspond à la pente de la droite de régression. Sur le tableau ci-dessus vous avez le \beta_{0} surligné en vert (const), soit 52,35 et le \beta_{1} surligné en jaune (sqft), soit 0,139. Le modèle s'écrit alors :

price = 52,35 + 0.139 sqft

Ainsi, en moyenne en se basant sur un appartement de 150 m² (= 1614 pieds carrés), son prix estimé sera de :

price = 52,35 + 0.139\times 1614 = 276,696

Ainsi un appartement de 150 m² (1600 pieds carrés) coûte en moyenne 276 700 $.

Nuage de points des observations de la BDD appartement.xls

C'est ce que nous retrouvons graphiquement (la droite bleue correspond aux estimations du modèle.

Pour autant, est-ce que cette relation est significative (c'est-à-dire qu'elle n'est pas le fruit du hasard) ? Si nous souhaitons savoir si la relation est significative c'est parce qu'il est nécessaire, pour pouvoir faire des conclusions, de déterminer si X (sqft) explique réellement Y (price). Nous faisons donc deux hypothèses :

  • H_{0} : le coefficient est nul (= 0)
  • H_{1} : le coefficient est non nul (différent de 0)

La première hypothèse revient à considérer que le coefficient estimé n'est pas significatif dans la mesure où il n'est pas différent de zéro. L'objectif est donc de savoir s'il est possible de rejeter l'hypothèse de nullité du coefficient (rejeter H_{0}). Pour cela il convient de s'intéresser à la valeur de la probabilité critique (p-value) par rapport à des seuils usuels. Lorsque la valeur de la probabilité critique est inférieure au seuil de 1% (ou 5% voire 10%), alors nous pouvons rejeter l'hypothèse de nullité des coefficients. Dans notre exemple, elle est inférieure à 0,001, soit inférieure à 1%. Nous pouvons rejeter H_{0}. La variable sqft est significative au seuil de 1%.

C'est cool tout ça mais vous avez sûrement remarqué que certains points sont très éloignés de la droite de régression (celui en haut à droite par exemple). Pourquoi sont-ils si éloignés de la droite ? Encore une fois la réponse est (tout comme la régression linéaire) assez simple. Le modèle de RLS permet d'expliquer la variable Y à partir d'une variable, notée X. Cependant, le prix d'un appartement dépend-t-il seulement de sa surface ? La réponse évidente est non. Le choix du quartier, le nombre de pièces, si c'est un appartement neuf ou ancien, une place de parking etc sont des éléments qui agissent sur le prix. Autrement dit, l'une des limites de la RLS est, qu'en général, une seule variable ne peut tout expliquer ! C'est ce que nous observons grâce au  (R carré) qui mesure le pouvoir explicatif du modèle. Ici la variable sqft (ou surface ou X) explique à hauteur de 82% le prix d'un appartement. Les 18% restants représentent l'ensemble des variables qui ne sont pas dans le modèle car non-observées mais qui ont un impact sur le prix. C'est ce qui est représenté dans l'équation 1 par le petit \epsilon. Je ne vais pas non plus rentrer dans les détails. L'objectif de cet article était de présenter simplement le concept de régression linéaire simple (RLS).

Enfin, puisque notre variable X est significative amusons nous à faire quelques calculs d'effets marginaux.

  • Je souhaite acheter un appartement de 150 m² combien va-t-il me coûter ?
    • Réponse : 276 700$ (cf ci-dessus)
  • Je souhaite acheter un appartement de 200 m² combien vont me coûter les 50 m² supplémentaires ?
    • Réponseplus50m = (52,35 + 0,139 \times 2152) - (52,35 + 0,139 \times 1614) = 74,782 (milliers de $)

50 m² carré supplémentaire augmente le prix d'un appartement de 74 782 $ (vous pouvez facilement calculer le prix au mètre carré).

Conclusion : La RLS est outil statistique puissant, permettant de mettre en évidence l'existence de relation linéaire entre deux variables. Elle permet aussi de faire des calculs d'effets marginaux de façon simple et claire (une soustraction toute bête). Cependant, pour réaliser une bonne RLS il convient de réfléchir un peu avant de se lancer. N'essayez pas d'expliquer la surface d'un appartement grâce au prix. Il n'y a pas de corrélation significative entre ces deux variables. Pour autant dans l'autre sens, oui il y a une corrélation. Pour éviter ce genre de problème, calculez le coefficient de corrélation, estimez votre modèle, déterminez la significativité du modèle, interprétez, regardez le R², et ensuite concluez ! Pas de conclusion hâtives dans la mesure où, généralement, elles sont sources d'erreurs (impardonnables).


Ce premier article est une introduction au concept de régression linéaire. J'espère avoir été clair et ne pas vous avoir perdu en cours de route. Il n'est pas parfait ! Si vous trouvez qu'il y a un certain nombre d'erreurs n'hésitez pas à me le faire savoir via le formulaire de contact ou les commentaires (vous pouvez aussi me dire qu'il est génial). Bref, c'est en forgeant qu'on devient forgeron ! Le prochain article sera encore meilleur !

PS: j'ai regardé la significativité de mon modèle après avoir calculé la surface d'un logement de 150 m². Il est préférable de faire l'inverse : significativité -> calculs et interprétations des résultats. Cependant, parce que pour des non-initiés le concept de RLS n'est pas forcément facile, j'ai préféré faire ce choix.

Le partage c'est la vie !


Warning: count(): Parameter must be an array or an object that implements Countable in /var/www/legtux.org/users/paulveyronnet/www/paulveyronnet/wp-includes/class-wp-comment-query.php on line 405

2 commentaires

Leave a Comment