Mathématiques Finances Economie : Logiciels statistiques
« En ce qui concerne la lutte contre la spéculation sur les marchés de la dette souveraine, trois mesures sont prioritaires :
- l'interdiction des ventes à découvert [...]
- la fermeture des marchés de gré à gré de produits dérivés [...]
- l'application de règles strictes aux agences de notation et la création d'une agence publique européenne [...] »
20 ans d'aveuglement, les économistes atterrés
Editions LLL (les liens qui libèrent), 2011.
Qu'est-ce qu'une étude statistique ? Quels logiciels aujourd'hui permettent de réaliser des études statistiques dans le domaine de l'économie et de la finance ? Quels sont leurs avantages et leurs inconvénients ? Pour des chercheurs ? Des industriels ?
Le premier but de ce cours est de fournir les connaissances et les compétences pour être capable de savoir répondre à de telles questions, ce qui amène tout naturellement aux logiciels généraux Sas, R, Statistica et Spss. Le second but est de savoir utiliser le logiciel R pour réaliser de telles analyses statistiques. Un projet dont les consignes sont détaillées ici compléte les cours, TD et TP.
Table des matières cliquable
1. Introduction : qu'est-ce qu'une analyse statistique ?
2. R comme calculatrice statistique et graphique
3. Statistiques descriptives : analyses univariées, bivariées, multivariées
4. Statistiques inférentielles paramétriques et non paramétriques
5. Régressions linéaires et non linéaires
6. Le logiciel R et les autres «grands» logiciels statistiques
1. Introduction : qu'est-ce qu'une analyse statistique ?
Une étude statistique est un travail d'ampleur, qui ne se réduit pas à un simple calcul de résumés numériques. C'est une tâche complexe, qui débute par la réflexion sur les données et l'écriture d'un plan d'étude statistique, qui se conclut (sans jamais vraiment se terminer) par la rédaction d'un ou plusieurs rapports, voire d'un ou plusieurs articles.
Réaliser une étude statistique demande donc de la culture et de la technique, une bonne dose de rigueur et de clarté. Comme le point d'entrée de toute étude statistique est constitué par les données, il faut absolument savoir lire les données aux différents formats et savoir vérifier leur validité.
2. R comme calculatrice statistique et graphique
Les outils de base du statisticien sont les logiciels statistiques. Ces dernières années, le logiciel R a gagné ses lettres de noblesse, tant dans le monde universitaire que dans le monde professionnel. Il est gratuit, simple à utiliser, même s'il est un peu plus délicat de programmer en R. Maitriser les structures de données et les fonctions élémentaires est donc un minimum qui doit être acquis rapidement.
3. Statistiques descriptives : analyses univariées, bivariées, multivariées
Décrire et résumer, tels sont les buts des statistiques descriptives. Qu'on présente les variables séparément les unes des autres ou conjointement, il faut savoir combiner valeurs numériques et productions graphiques pour transmettre l'essentiel de l'information, après avoir vérifié la qualité des données.
4. Statistiques inférentielles paramétriques et non paramétriques
Les statistiques inférentielles viennent trouver les modèles sous-jacents aux données et permettent ainsi de comparer des données ou leurs résumés, de prédire de nouvelles valeurs. Là encore, il faut savoir vérifier la qualité et l'adéquation des modèles aux données avant de pouvoir utiliser ces modèles. A coté de certains modèles qui utilisent des hypothèses paramétriques, les tests qui ne supposent aucune distribution sous-jacente sont nommés non paramétriques.
5. Régressions linéaires et non linéaires
La régression est un modèle très général qui s'applique à de nombreuses situations : linéaire, logistique binaire ou ordinale, etc. La théorie du modéle linéaire généralisé permet ainsi de modéliser tous les cas de figure où Y = f(X1,X2...)
6. Le logiciel R et les autres «grands» logiciels statistiques
Si les cours précédents ont utilisé le logiciel R, il y a d'autres grands logiciels standards comme SAS, Statistica, SPSS... qu'il faut tout de même connaitre un peu, ne serait-ce que par leurs caractéristiques générales qui sont différentes.
7. Bibliographie minimale
Cornillon, Guyader et al (15 euros)
Bertrand, Maumy-Bertrand (25 euros)
Muenchen (65 euros)
8. Bibliographie complémentaire
Marques de Sa (69 euros)
Malhotra (59 euros)
Cameron (80 euros)
9. Fichiers des données utilisées
Il est beaucoup plus pédagogique d'utiliser des données réelles que des données simulées. Pour illustrer ce cours, nous utilisons principalement les données que nous mettons en ligne à l'adresse DATASETS mais on trouvera sous les deux liens suivants une archive zip de la plupart des données utilisées, au format .DAR, et volontairement sans explication sur les unités ou les codages utilisés.
quelques fichiers de données utilisées
Les étudiants et étudiantes qui suivent ce cours seront certainement intéressé(e)s par les sujets d'examens des années précédentes :
Avant d'utiliser R à la Faculté des Sciences d'Angers, consultez la note locale sur R.
Informations pratiques
Voir celcat/g5464 pour les emplois du temps, les cours ont lieu en salle G101.
Actualité 2013
L'austérité est une erreur mathématique selon france-culture, 20 minutes online, the wall street journal, bloomberg et IMF. Le PDF de Blanhard et Leigh est ici.
Retour à la page principale de (gH)