[Econométrie] La régression linéaire multiple

http://www.caranddriver.com/photo-gallery/1967-ford-mustang-shelby-gt500-road-test

Après avoir présenté dans un premier article ce qu'est la régression linéaire simple, je m'intéresse aujourd'hui à la régression linéaire multiple. Pour illustrer cette article je vais utiliser une  nouvelle base de données fournie avec le logiciel d'économétrie Stata. Elle porte sur le prix de vente de 74 voitures aux Etats-Unis (américaines et étrangères) en 1978. Pour cet article je prends exemple sur l'excellent article de Captain' Economics (Thomas Renault, enseignant-chercheur à l'Université Paris 1 Panthéon-Sorbonne). 

La régression linéaire multiple

1 - Premier modèle 

Dans mon précédent article j'ai montré qu'un modèle linéaire simple se décompose en 3 éléments :

  1. Une variable dépendante notée Y
  2. Une variable explicative notée X
  3. Un terme d'erreur ou résidu,qui n'est autre que l'impact statistique de toutes les variables non-observées sur la dépendante, noté CodeCogsEqn

Dans un modèle linéaire multiple au lieu d'avoir une variable explicative nous avons plusieurs variables explicatives, l'objectif étant de prédire au mieux la réalité que nous observons. Prenons trois variables, notre nouveau modèle peut alors s'écrire sous la forme (Eq 1) :

CodeCogsEqn (1)

Y : prix de la voiture,

CodeCogsEqn (2) : poids de la voiture (en livre soit 1 lbs = 0.45kg),

CodeCogsEqn (3) : la longueur de la voiture et

CodeCogsEqn (4) : la consommation de carburant.

CodeCogsEqn : terme d'erreur

A priori, entre le prix et le poids de la voiture il y a fort à parier qu'il existe une relation linéaire. Pour valider mon propos je fais un graphique en nuage de points avec en abscisses le poids et en ordonnées le prix (graphique 1). Chaque point correspond à une voiture.

Graphique 1

Bon notre intuition de départ semble bonne. Faisons pareil avec la longueur (graph 2) et la consommation de carburant (graph 3).

Graphique 2

Graphique 2 

Encore une fois entre les deux variables (prix et longueur) il semble qu'il existe une relation linéaire.

Graphique 3

Graphique 3

Par contre entre la consommation de carburant et le prix, il ne semble pas exister de relation linéaire (ou affine). Supprimer cette variable du modèle est-ce problématique ? Oui ! Dans la mesure où nous avons seulement regardé avec les graphiques les relations entre les variables, la supprimer du modèle risquerait de nous faire supprimer une variable peut-être significative.

Effectuons notre première régression (1) multiple avec notre logiciel préféré (pour ma part Stata).

                                        (1)
VARIABLES                  price

weight                        4.365***
(1.167)
length                       -104.9**
(39.72)
mpg                          -86.79
(83.94)
Constant                   14,542**
(5,891)

Observations            74
R-squared                0.357
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1

Interprétations :

La significativité des variables

  1. La significativité de la variable weight est bonne (les 3 *** indique que la variable est significative au seuil de 1% = p<0.001). Elle est bien corrélée avec la variable price. Autrement dit le poids de la voiture agit sur le prix.
  2. La significativité de la variable length est bonne (significative au seuil de 5% = p<0.05). Elle est bien corrélée avec la variable price. Autrement dit la longueur de la voiture agit sur le prix.
  3. La variable mpg n'est pas significative aux seuils usuels de 1%, 5% ou 10%. Autrement dit la consommation de carburant n'a pas d'impact sur le prix. Cela confirme notre intuition (cf graph 3).

Nous pourrions nous lancer dans les interprétations. Cependant, dans la mesure où nous avons une variable non-significative il n'est pas nécessaire de la garder dans notre modèle. L'objectif de tout économètre est de trouver le meilleur modèle. C'est la raison pour laquelle j'effectue une seconde régression (2).

2 - Second modèle

                                          (1)                                   (2)
VARIABLES                    price                              price

weight                           4.365***                        4.699***
(1.167)                             (1.122)
length                          -104.9**                        -97.96**
(39.72)                           (39.17)
mpg                             -86.79
(83.94)
Constant                       14,542**                      10,387**
(5,891)                          (4,308)

Observations               74                                     74
R-squared                    0.357                             0.348
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1

Interprétations :

Dans ce second modèle nous pouvons voir que nos deux variables restent significatives (et heureusement). Les signes des coefficients sont inchangés (positif pour weight et négatif pour length). Concernant la valeur des coefficients nous pouvons nous lancer dans les interprétations :

  • Le coefficient de weight est positif. Autrement dit, cette variable agit positivement sur le prix de vente des voitures. Plus le poids de la voiture est important, plus son prix de vente l'est aussi.

Toutes choses égales par ailleurs, avec un coefficient égal à 4.7, nous pouvons conclure qu'une augmentation de 1 livre du poids de la voiture engendre une augmentation du prix de vente de 4.7$ en moyenne.

  • Le coefficient de length est négatif. Autrement dit, cette variable agit négativement sur le prix de vente des voitures. Plus la longueur de la voiture est importante, moins son prix de vente l'est.

Toutes choses égales par ailleurs, avec un coefficient égal à -98, une augmentation de 1 inche (ndlr la taille est donnée en inche) engendre une diminution du prix de vente de 98$.

  • Le R² (R-carré) indique le pouvoir prédictif du modèle. Compris en 0 et 1 celui-ci est égal à 0.348 pour ce modèle. Cela veut dire que nos deux variables expliquent à hauteur de 34.8% le prix de vente des voitures de notre base de données américaines. Attention : il n'y a pas règle sur le niveau à partir duquel nous pouvons dire que le R² est bon. Cela dépend des données, des variables etc. Ici, nous pouvons quand même dire que celui-ci est bon.

Conclusions :

Que pouvons-nous conclure ? Tout d'abord la consommation de carburant n'a pas d'influence sur le prix. Ensuite, le poids est une variable significative. Plus la voiture est lourde, plus elle coûte cher.  A contrario, l'effet de la longueur de la voiture est négatif sur le prix de vente. Si vous souhaitez acheter une voiture, à vous de trouver quelle est la bonne combinaison entre poids et longueur pour pas payer trop cher sa voiture ! Sinon, si vous souhaitez la vendre, vous avez tout intérêt à mettre un bon paquet de parpaings dans le coffre pour en retirer le maximum de sous.

Avec ces deux premiers articles sur la régression linéaire simple et la régression linéaire multiple vous devriez être capable de faire vos premiers modèles économétriques ainsi que de les interpréter. La prochaine étape consistera à intégrer de nouvelles variables dans notre modèle sur le prix des voitures telles qu'une variable discrète (prenant comme valeur 0 ou 1). Plus tard, je posterai des articles sur les modèles économétriques discrets (où la variable dépendante est une variable discrète). Vous verrez, c'est super intéressant !

 

Le partage c'est la vie !


Warning: count(): Parameter must be an array or an object that implements Countable in /var/www/legtux.org/users/paulveyronnet/www/paulveyronnet/wp-includes/class-wp-comment-query.php on line 405

Leave a Comment