Adhérer ou faire un don

Probabilités, analyse des données et statistique

par Gilbert SAPORTA, Éditions TECHNIP, Paris 2006, 622 p. ISBN 10 : 2-7108-0814-5, ISBN 13 : 978-2-7108-0814-5

La première édition de ce traité, parue en 1990, comportait 485 pages ; c’est dire, qu’en particulier par les progrès de l’informatique, la statistique s’est transformée en développant des calculs intensifs et en prenant en compte des données de masse. Ceci a conduit l’auteur à rédiger un nouveau chapitre sur les modèles d’apprentissage et une nouvelle partie sur le recueil des données.

Pour qui veut connaître la statistique, ce monumental traité prend la théorie à ses débuts :

- La première partie (100 p.) donne les outils probabilistes : modèle probabiliste (espace probabilisé, probas conditionnelles, indépendances, …), variables aléatoires (loi et moments, lois discrètes et continues usuelles, processus de Poisson, fonctions caractéristiques, convergences), couples et conditionnement, vecteurs aléatoires et lois associées (vecteurs gaussiens, formes quadratiques, loi multinomiale, tests du chi2, lois diverses).

- La seconde (160 p.) est consacrée à la statistique exploratoire : description unidimensionnelle de données numériques (tableaux, graphiques, résumés), description bidimensionnelle (corrélations, variables qualitatives), analyse en composantes principales (résumés numériques, l’analyse, l’interprétation, analyse sur tableaux de distance et dissimilarités, extensions non linéaires), analyse canonique, analyse des correspondances (tableau de contingence et nuages associés, ACP des deux nuages de profils, analyse canonique de deux variables qualitatives), analyse de correspondances multiples, méthodes de classification (partitionnement, hiérarchiques, …, exemples).

- La troisième (110 p.) nous plonge dans la statistique inférentielle : caractéristiques d’un échantillon (statistique d’ordre et quantiles, distribution de moments, cas gaussien, méthode « delta »), estimation (exhaustivité, sans biais de variance minimale, maximum de vraisemblance, par intervalles, bayésienne, robuste, de densité), tests statistiques (théorie classique, sur un paramètre, de comparaison d’échantillons, analyse de variance, d’ajustement), méthodes de Monte-Carlo et rééchantillonnage (générations de variables aléatoires, applications).

- La quatrième (120 p.) concerne les modèles prédictifs : régression simple (modèle théorique, ajustement, tests dans le modèle linéaire, applications, régression non paramétrique), régression multiple et modèle linéaire (estimation et tests des paramètres du modèle, analyse des résultats, sélection des variables, multicolinéarité, exemple, prédicteurs qualitatifs), analyse discriminante et régression logistique (méthodes géométriques, fonction de Fisher et distance de Mahalanobis, séparateurs à vaste marge, discrimination sur variables qualitatives, analyse discriminante probabiliste, régression logistique binaire, validation), méthodes algorithmiques et principes d’apprentissage (arbres de régression et de discrimination, réseaux de neurones, combinaison de modèles, choix, apports de V. Vapnik, prédire ou comprendre ?).

- La cinquième (30 p.) est relative au recueil des données : sondages (aléatoire simple, à probas inégales, stratification, en grappes, redressement), plans d’expériences (modèle linéaire, réponse du second degré, facteurs qualititatifs, optimaux).

On trouvera en annexe :

- 44 pages de tables, la plupart très classiques, dont on peut se demander si elles ont encore leur place ici, compte tenu des progrès de l’informatique,
- un formulaire sur les lois les plus usuelles,
- des rappels sur les fonctions eulériennes et l’algèbre linéaire
- puis une bibliographie d’environ 120 ouvrages publiés entre 1960 et 25/07/2006,
- et enfin un index des noms et un des notions qui permettront de trouver rapidement une définition ou une méthode portant un nom propre.

Comme on vient de le voir ce traité recouvre toute la statistique, tout en laissant de côté les développements récents du calcul des probabilités et en particulier la théorie des processus et ses applications à la statistique.

Très pédagogique, l’ouvrage donne de nombreux exemples, mais ceux qui voudront l’utiliser pour une formation complète en statistique devront y adjoindre un recueil d’exercices.

Il rendra de grands services aux enseignants de mathématiques de trois points de vue au moins :
- pour ceux qui ont un ou des paragraphes de statistique au programme de leur classe, y trouver des exemples et des applications et se remémorer une définition, une démonstration, un outil classique.
- pour se cultiver : comprendre comment la statistique n’est pas seulement un chapitre des mathématiques mais une discipline ouverte aux problèmes des sciences expérimentales et humaines dont elles influencent fortement le développement.
- pour les étudiants, ou des élèves travaillant sur un TPE, apprendre les bonnes méthodes et les concepts efficaces, ainsi que la manipulation des logiciels les plus performants

En conclusion un traité de référence pour de nombreuses années.

P.-L. HENNEQUIN