Brochure « Traiter des données statistiques au lycée avec la bibliothèque pandas pour Python »

 

Cette brochure de 53 pages, accompagnée de fichiers numériques, a pour objectif d’illustrer l’utilisation possible au lycée du langage Python pour explorer des données statistiques réelles à la façon d’un « data scientist ».

Un article de 2012 du Harvard Business Revue titrait : « Data Scientist : The Sexiest Job of the 21st Century ». On y décrit un data scientist comme une personne ayant une solide formation en mathématiques, statistique, probabilités et informatique, dotée d’un grand esprit de curiosité. « Quelles sont les compétences qui font un bon data scientist ?

Depuis quelques années, la visualisation de données (dataviz en anglais), portée par le phénomène du big data, a pris une importance économique considérable (20 % des entreprises européennes utilisent le data storytelling pour acquérir un avantage concurrentiel). C’est ce type de compétences, porteuses d’avenir, que l’on souhaite développer chez les élèves, par le biais d’activités motivantes, telles que celles présentées dans cette brochure, utilisant les possibilités offertes par les outils numériques et notamment la bibliothèque pandas de Python.

La bibliothèque pandas fait en effet de Python un langage très puissant pour l’exploration de données.

Six activités de classe, avec leur corrigé, sont présentées dans cette brochure, avec les contenus des programmes 2019 correspondants :

  • « Titanic », niveau Seconde GT ou Première technologique, propose une exploration des données du célèbre naufrage et peut constituer une initiation aux requêtes effectuées dans une base de données (programme de SNT) ;
  • « Inégalités de salaires en France », niveau Seconde GT, utilise un fichier de plus de 5 000 lignes de l’INSEE et permet d’analyser les inégalités de salaires sous différents angles et peut constituer un travail de groupe de type « data challenge » ;
  • « Sécurité routière », niveau Première technologique, permet de travailler les tableaux croisés à partir d’un fichier de plus de 136 000 lignes et 12 variables ;
  • « Data journalisme », niveau Première générale, permet de mettre en œuvre des listes et des simulations de variables aléatoires dans un contexte motivant et formateur pour le futur citoyen où des fraudes dans le monde du tennis sont détectées grâce à une analyse statistique des paris en lignes ;
  • – « Galton, Pearson et régression en Python », niveau Terminale enseignement scientifique ou Terminale technologique, propose de revenir sur le sens historique du mot « régression » en revisitant, en Python, les données de Galton et K. Pearson ;
  • « Mélanomes aux USA 1950-1959 », niveau Terminale enseignement scientifique ou Terminale technologique, permet de « faire parler les données » dans un contexte épidémiologique par différentes régressions.

Cliquez ici pour télécharger la brochure
ainsi que l’ensemble des ressources associées.

Les auteurs
Frédéric BRO Professeur au lycée Henri Moissan de Meaux
Philippe DUTARTE IA-IPR de mathématiques – académie de Nice