Fouille de données floue et motifs
La fouille de données connaît un essor très important.
La définition même de ce terme n'est pas aisée, tant elle
a connu ces dernières années, et aujourd'hui encore, des
acceptions diverses au sein des communautés.
Embrassant maintenant un ensemble très large de
méthodes et d'approches, le terme est pourtant issu d'une
communauté assez resserrée, jeune et atypique dans le
monde de l'analyse des données au sens large. Apparu
dans les années 1990 dans la communauté des bases de
données, le terme Data Mining (Fouille de données en
franais) a rapidement alimenté de nombreuses publications.
Initialement lié à des applications commerciales et
des éditeurs de logiciels de bases de données, le terme a
d'abord été opposé au machine learning et aux méthodes
d'apprentissage statistique et d'intelligence artificielle.
Visant à extraire des motifs dans des données très volumineuses,
les méthodes mises en oeuvre ont évolué avec
le souci d'optimiser leur performance en temps de calcul
et en mémoire. Les algorithmes étaient alors conçus pour
parcourir efficacement de grands espaces de recherche et
découvrir de manière exhaustive les motifs émergeant des
bases de données.
Assez rapidement, l'imperfection des données a été un
frein pour les applications réelles : imprécisions, incertitudes
et autres données manquantes ont empêché les
méthodes d'obtenir des résultats pertinents. Pour autant,
la communauté a longtemps refusé les apports des chercheurs
en logique floue qui ont même parfois dû déguiser
les mots clés de leurs travaux pour publier dans les principales
conférences de bases de données leurs méthodes
issues de la communauté floue.
Plus récemment, le rapprochement des communautés
d'intelligence artificielle et de bases de données a
contribué largement à l'essor des recherches en fouille
de données floue.
Dans cet exposé, nous nous focalisons sur l'extraction
de motifs flous, non pour en détailler tous les travaux
associés, mais plutôt pour dresser un panorama des
liens entre communautés et des nombreuses fertilisations
croisées. Nous verrons en particulier comment les motifs
graduels bénéficient aujourd'hui de cet enrichissement
mutuel.
Data mining is a popular research topic whose definition
is not easy as many fields contribute to it. Initially
born from the specific area of commercial decisional applications
and databases in the nineties, the field has first
been opposed to the machine learning and artificial intelligence
fields.
Aiming at extracting patterns from huge volumes of data,
methods and algorithms have been developed with the
goal of optimising time- and memory-consumption by
proposing several methods for navigating through the
large and combinatory search space to retrieve all the
frequent patterns.
These methods have rapidly suffered from being non relevant
and efficient when facing imperfect real data. However,
fuzzy logic has not been accepted as a solution for
a very long time among the data mining community.
More recently, researchers have become closer and fuzzy
pattern mining has benefited from the very various approaches
of these many fields.
In this presentation, we are focusing on fuzzy pattern mining
and are showing how cross fertilisation over the research
communities allow relevant and promising contributions.
In particular, we focus on fuzzy gradual patterns
to show this mutual enrichment.