Fouille de données floue et motifs


La fouille de données connaît un essor très important. La définition même de ce terme n'est pas aisée, tant elle a connu ces dernières années, et aujourd'hui encore, des acceptions diverses au sein des communautés. Embrassant maintenant un ensemble très large de méthodes et d'approches, le terme est pourtant issu d'une communauté assez resserrée, jeune et atypique dans le monde de l'analyse des données au sens large. Apparu dans les années 1990 dans la communauté des bases de données, le terme Data Mining (Fouille de données en franais) a rapidement alimenté de nombreuses publications. Initialement lié à des applications commerciales et des éditeurs de logiciels de bases de données, le terme a d'abord été opposé au machine learning et aux méthodes d'apprentissage statistique et d'intelligence artificielle. Visant à extraire des motifs dans des données très volumineuses, les méthodes mises en oeuvre ont évolué avec le souci d'optimiser leur performance en temps de calcul et en mémoire. Les algorithmes étaient alors conçus pour parcourir efficacement de grands espaces de recherche et découvrir de manière exhaustive les motifs émergeant des bases de données. Assez rapidement, l'imperfection des données a été un frein pour les applications réelles : imprécisions, incertitudes et autres données manquantes ont empêché les méthodes d'obtenir des résultats pertinents. Pour autant, la communauté a longtemps refusé les apports des chercheurs en logique floue qui ont même parfois dû déguiser les mots clés de leurs travaux pour publier dans les principales conférences de bases de données leurs méthodes issues de la communauté floue. Plus récemment, le rapprochement des communautés d'intelligence artificielle et de bases de données a contribué largement à l'essor des recherches en fouille de données floue. Dans cet exposé, nous nous focalisons sur l'extraction de motifs flous, non pour en détailler tous les travaux associés, mais plutôt pour dresser un panorama des liens entre communautés et des nombreuses fertilisations croisées. Nous verrons en particulier comment les motifs graduels bénéficient aujourd'hui de cet enrichissement mutuel. Data mining is a popular research topic whose definition is not easy as many fields contribute to it. Initially born from the specific area of commercial decisional applications and databases in the nineties, the field has first been opposed to the machine learning and artificial intelligence fields. Aiming at extracting patterns from huge volumes of data, methods and algorithms have been developed with the goal of optimising time- and memory-consumption by proposing several methods for navigating through the large and combinatory search space to retrieve all the frequent patterns. These methods have rapidly suffered from being non relevant and efficient when facing imperfect real data. However, fuzzy logic has not been accepted as a solution for a very long time among the data mining community. More recently, researchers have become closer and fuzzy pattern mining has benefited from the very various approaches of these many fields. In this presentation, we are focusing on fuzzy pattern mining and are showing how cross fertilisation over the research communities allow relevant and promising contributions. In particular, we focus on fuzzy gradual patterns to show this mutual enrichment.