Fouille de données orientée motifs : méthodes et usages

François RIOULT
Doctorant en informatique à l’Université de Caen Basse Normandie
Laboratoire GREYC (Groupe de Recherche en Informatique, Image, Automatique et Instrumentation de Caen)

Didier Trotoux

PDF - 116.8 ko
Conférence de François Rioult

Depuis la démocratisation de l’informatique, les bases de données permettent de stocker de grandes quantités d’information structurée. Dans le domaine médical, on collectionne les caractéristiques des patients, les spectres d’éléments chimiques ou les séquences d’ADN. En marketing, ce sont les résultats de sondages ou les collections de tickets de caisse qui renseignent sur les habitudes des consommateurs. L’un des défis actuels consiste à extraire des connaissances intéressantes depuis ces nombreuses données. L’intelligence artificielle cherche à faire reproduire par un ordinateur des comportements cognitifs humains, et se démarque en cela de la statistique. C’est alors que sont apparus les systèmes experts dans les années 80, où les connaissances d’un expert humain permettaient d’inférer des conclusions à partir d’hypothèses. Cependant, la formalisation de cette connaissance humaine étant très complexe, nous préférons aujourd’hui extraire automatiquement l’information présente dans les données. La fouille de données orientée motifs s’attache plus particulièrement à découvrir des associations entre les différentes caractéristiques des objets de la base. A l’aide de ces motifs, il est alors possible de procéder aux tâches classiques de l’apprentissage artificiel : proposer une classification pour un objet inconnu, regrouper ensemble des objets similaires, caractériser des classes d’objets. Dans cet exposé, nous détaillons les méthodes de fouille de données sous l’angle des algorithmes de recherche : il s’agit de parcourir un espace (ici le treillis des parties) à la recherche d’éléments intéressants. Nous utilisons également la notion d’hypergraphe et d’opérateur de fermeture. Enfin nous montrons les usages des motifs découverts à l’aide de plusieurs applications : classification supervisée ou non supervisée, motifs émergents, fouille de données génomiques et traitement des valeurs manquantes.