Accueil » Publications » Le Bulletin Vert » Matériaux pour une documentation » Exploration de données et méthodes (...)
  APMEP   Exploration de données et méthodes statistiques,

Article du bulletin 511

Adhérer ou faire un don

Data analysis & Data mining avec le logiciel R

Paul Louis Hennequin

- 30 novembre 2014 -

par Lise Bellanger et Richard Tomassone.

Ellipses, février 2014.

480 pages en 19x 24. Prix : 45,00 €.

ISBN 978-2-7298-84864.

Constituer des bases de données est une préoccupation des états qui remonte à l’antiquité en Chine, en Égypte ou dans l’empire romain, mais le développement de la capacité et de la rapidité des moyens de communication est si prodigieux que certains voient les données d’aujourd’hui jouer le rôle économique et social du carburant d’hier tout en risquant de fragiliser la confidentialité de notre vie privée.

Ce monumental traité se propose de faire le point des techniques les plus récentes d’exploration de données ( data mining aussi traduit par Fouille de données ). Il est divisé en cinq parties :

  • 1) Préalables à un traitement statistique (Une démarche scientifique. Les outils de représentation d’un échantillon. Pratiques utiles avant traitement).
  • 2) Étude d’un échantillon (Représentation d’un échantillon par des cartes : ACP, AFC et AFCM ; analyse Factorielle ; représentation d’un échantillon par des classes).
  • 3) Étude de deux groupes de variables (Régression : les bases et les limites ; la colinéarité  : du diagnostic aux remèdes ; relations entre deux groupes de variables).
  • 4) Étude de plusieurs échantillons (Discrimination et classement : décrire la séparation de classes, affecter des observations à des classes). 5) Autres méthodes (Arbres binaires. Conclusions et perspectives).

Les fichiers de données sont empruntés aux domaines les plus divers : familles de puces, amphores crétoises, pollution atmosphérique, rendement de blé dur, calcium dans le sol et dans du navet, distance entre villes, datation, mensurations, charolais/zébus, maladie coronarienne, races de chiens, recettes de cuisine, cures thermales, mucoviscidose, diabète, sol/végétation, eaux minérales, Bête du Gévaudan, questionnaires, soins intensifs, jumeaux, facteur de croissante, squelettes de kangourous, sol/blé, chien/loup, malaria, nématodes, ozone, iode, exoplanètes, consommateurs, processionnaire du pin, fromages, avancement d’une charrue, spores, tabac, tâches ménagères, drogue, espérance de vie, voix, … Les fichiers de données sont disponibles sur : h t t p : / / w w w.ma t h . s c i e n c e s . u n i v - nantes.fr/ bellanger/

Chacun des 14 chapitres se conclut par un bilan de ce qu’il faut retenir et par cinq ou six exercices qui proposent au lecteur de reprendre les mêmes données en leur appliquant d’autres méthodes. Le texte est agrémenté de portraits des philosophes et statisticiens cités et de photographies qui ajoutent une pointe d’humour aux données traitées et montrent la diversité des applications.

L’ouvrage utilise le logiciel statistique libre R. Ce choix est justifié par sa simplicité d’apprentissage, sa très large diffusion et l’abondance des bibliothèques de programmes et de la documentation rassemblée sur le site : http://www.r-project.org

Douze pages d’une copieuse bibliographie donnée chapitre par chapitre permettent de mesurer le chemin parcouru en analyse des données depuis les années cinquante, grâce au développement fulgurant de la capacité et de la rapidité des moyens de calcul.

Dans leur conclusion, les auteurs précisent les champs non abordés, les méthodes et les environnements nouveaux. Appliquer la statistique associe le plus souvent dans un travail commun le spécialiste d’un domaine particulier et un statisticien. Le statisticien peut proposer des outils, quantifier les risques, comparer les approches mais c’est au spécialiste de prendre, après réflexion et doute, les décisions correspondant à l’objectif de son étude.

L’ouvrage est destiné aux étudiants de masters ou d’écoles d’ingénieurs qui y trouveront rassemblée et ordonnée une vaste documentation, aux professionnels soucieux d’utiliser la statistique de manière réfléchie, mais aussi à tous les enseignants qui cherchent des exemples variés de questionnements et d’études.

 Accueil   Plan du site   Haut de la page   Page précédente