Les objets connectés de l'Internet des objets (IoT) prolifèrent dans tous les domaines, menant à de nombreuses séries temporelles. Dans cet article, nous proposons une approche de croisement de ces sources (par exemple au sein d'un lac de données) pour en comprendre la dynamique temporelle. Dans ce but, nous visons à extraire des motifs temporels flous. Notre approche est conçue pour être parallélisée, et nous mesurons quelques performances de calcul pour en démontrer la faisabilité sur des données réelles.
Les résumés linguistiques flous permettent de décrire des caractéristiques des données. Ils peuvent être de plusieurs natures, à la fois en raison des protoformes différents, et en raison des formats des données sources. Il a par exemple été proposé dans des travaux précédents d'extraire des résumés flous à partir de graphes de propriétés. Ces bases de données sont structurées sous la forme de graphes dont les nœuds et les arcs sont porteurs de propriétés sous le format (clé ;valeur). On peut alors retrouver des résumés flous du type “la plupart des étudiants habitent dans un petit appartement”. Dans cet article, nous explorons la recherche et la caractérisation des exceptions à ces résumés, par exemple pour retrouver des résumés étendus du type “la plupart des jeunes habitent dans un petit appartement, sauf quand ils ont un haut salaire”. Pour ce faire, nous nous appuyons sur Cypherf qui est le langage de requêtes floues sur les graphes de propriété des bases Neo4j (extension de Cypher) et sur le DSL (Domain Specific Language) Fuzzy4S permettant d'exprimer l'ensemble des fonctions nécessaires.
Les motifs graduels permettent de retrouver les corrélations entre attributs au moyen de règles telles que “plus l'entrainement sportif augmente, plus le stress physique diminue”. Cependant, un décalage dans le temps peut exister entre les modifications de certains attributs et leur impact sur d'autres. Les méthodes actuelles ne prennent pas cela en compte. Dans cet article, nous étendons les méthodes existantes pour gérer ces situations afin d'extraire des motifs tels que : “Plus l'entrainement augmente, plus le stress diminue 1 mois plus tard”. Nous étendons également nos motifs graduels pour inclure des contraintes temporelles floues telles que “Plus l'entrainement augmente, plus le stress diminue environ 1 mois plus tard”. Nous proposons trois algorithmes qui ont été implémentés et testés sur des données réelles.
Les bases de données dites hétérogènes contiennent des données décrites par des attributs à la fois symboliques et numériques. Cet article propose une méthode, appelée OSACA, pour identifier, parmi les attributs symboliques, les attributs ordinaux, en exploitant les informations fournies par les attributs numériques. Pour ce faire, OSACA procède en trois étapes : des motifs graduels sont d'abord extraits des attributs numériques. Des filtres morphologiques sont ensuite appliqués aux attributs symboliques pour déterminer des ordres sur les valeurs catégorielles à partir de l'ordre induit par les motifs graduels. Enfin, une mesure d'entropie d'ordre permet d'évaluer la pertinence des ordres candidats.
Les modèles OLAP flous étendent les modèles proposés à partir des années 2000 pour gérer les données et/ou requêtes imprécises dans le contexte des bases de données décisionnelles. Ces modèles fournissent des outils de navigation à travers différents niveaux de granularité afin de permettre aux décideurs d'analyser les données notamment à différents niveaux de granularité. Des modèles multidimensionnels spécifiques, organisant les données sous la forme agrégée d'indicateurs analysés le long d'un ensemble de dimensions ont été proposés. Si des moteurs de bases de données purement OLAP ont été construits, la plupart des implantations actuelles de ces modèles exploitent les systèmes de bases de données relationnelles. Dans cet article, nous proposons d'exploiter les modèles NoSQL orientés graphes proposés plus récemment et permettant de traiter des volumes de données complexes plus importants. Ce travail est un premier pas vers la définition d'un langage dédié (Domain Specific Language) pour l'OLAP flou.
Les systèmes génétiques flous permettent de traiter l'imperfection des données du monde réel et de concevoir des systèmes de contrˆole, de diagnostic médical, d'aide à la décision, de fouille de données, etc. Un système génétique flou est un système capable d'apprendre à l'aide d'un algorithme évolutionnaire (stratégies évolutives, programmation évolutive, algorithmes génétiques, programmation génétique, évolution différentielle, etc.). Dans cet article nous proposons une méthode d'apprentissage de règles linguistiques floues fondée sur la programmation génétique. Notre approche permet d'extraire des règles de Mamdani, à partir de grandes bases de données d'entrée - sortie de systèmes. La méthode a été testée dans deux contextes, le premier dans le domaine de la psychologie, le deuxième dans le domaine chimique et le traitement des eaux usées. Genetic Fuzzy Systems have proven to be practical tools for handling uncertainty in the real world and the design of control systems, medical diagnosis, decision making, data mining, etc.. A genetic fuzzy system is a fuzzy system with layers of learning with an evolutionary algorithm (evolutionary strategies, evolutionary programming, genetic algorithms, genetic programming, differential evolution, etc.). In this paper we propose a learning method of fuzzy linguistic rules supported by genetic programming. Our approach is to identify the Mamdani type fuzzy rules from large databases of input - output of the subsystems tarjet, this independently of the implementation of such systems. The method was tested in two experiments, the first in the field of psychology, the second in chemical and wastewater treatment.
Les tendances graduelles de la forme plus X est A, plus Y est B expriment linguistiquement des informations sur les corrélations et co-variations des attributs. Dans cet article, nous présentons une étude comparative des formalisations qui ont été proposées, examinant leurs sémantiques et propriétés respectives. Nous proposons ensuite un algorithme qui combine les principes de plusieurs approches existantes pour extraire efficacement les motifs graduels fréquents et nous illustrons son utilisation sur une base de données réelle. Gradual tendencies of the form the more X is A, the more Y is B linguistically express information about correlation between attributes and their covariations. In this paper, we present a comparative study of the various formalisations that have been proposed, studying their respective semantics and properties. We then propose an algorithm that combines the principles of existing approaches to efficiently extract frequent gradual itemsets, illustrating its use on a real data set.
Dans cet article, nous proposons un cadre pour traiter deux grands problèmes lors de l'extraction de motifs graduels basée sur les ordres flous et sur le coefficient de corrélation de rang gamma flou. Les problématiques abordées sont i) la consommation mémoire et ii) la précision, la représentation, et le stockage efficace des degrés de concordance floue de chaque paire d'indices (i, j) par rapport à la perte ou le gain de puissance de calcul. Dans ce contexte, notre approche implique l'utilisation d'une technique dédiée au traitement des matrices creuses (afin d'éviter le stockage des valeurs zéro) et une vaste gamme de représentations de précision variable (de 1 à 64 bits). In this paper we introduce a framework to address two major problems in gradual itemset mining based on fuzzy orderings and fuzzy gamma rank correlation. The issues addressed are : 1) the high memory consumption, 2) the precision, representation and efficient storage of the fuzzy concordance degrees of each index pair (i,j) versus the loss or gain of computing power. In this context, our approach involves the use of a dedicated technique for handling sparse matrices (in order to avoid the storage of zero values) and a wide range of representations of precision from 2 to 64 bits.
La fouille de données connaît un essor très important. La définition même de ce terme n'est pas aisée, tant elle a connu ces dernières années, et aujourd'hui encore, des acceptions diverses au sein des communautés. Embrassant maintenant un ensemble très large de méthodes et d'approches, le terme est pourtant issu d'une communauté assez resserrée, jeune et atypique dans le monde de l'analyse des données au sens large. Apparu dans les années 1990 dans la communauté des bases de données, le terme Data Mining (Fouille de données en franais) a rapidement alimenté de nombreuses publications. Initialement lié à des applications commerciales et des éditeurs de logiciels de bases de données, le terme a d'abord été opposé au machine learning et aux méthodes d'apprentissage statistique et d'intelligence artificielle. Visant à extraire des motifs dans des données très volumineuses, les méthodes mises en oeuvre ont évolué avec le souci d'optimiser leur performance en temps de calcul et en mémoire. Les algorithmes étaient alors conçus pour parcourir efficacement de grands espaces de recherche et découvrir de manière exhaustive les motifs émergeant des bases de données. Assez rapidement, l'imperfection des données a été un frein pour les applications réelles : imprécisions, incertitudes et autres données manquantes ont empêché les méthodes d'obtenir des résultats pertinents. Pour autant, la communauté a longtemps refusé les apports des chercheurs en logique floue qui ont même parfois dû déguiser les mots clés de leurs travaux pour publier dans les principales conférences de bases de données leurs méthodes issues de la communauté floue. Plus récemment, le rapprochement des communautés d'intelligence artificielle et de bases de données a contribué largement à l'essor des recherches en fouille de données floue. Dans cet exposé, nous nous focalisons sur l'extraction de motifs flous, non pour en détailler tous les travaux associés, mais plutôt pour dresser un panorama des liens entre communautés et des nombreuses fertilisations croisées. Nous verrons en particulier comment les motifs graduels bénéficient aujourd'hui de cet enrichissement mutuel. Data mining is a popular research topic whose definition is not easy as many fields contribute to it. Initially born from the specific area of commercial decisional applications and databases in the nineties, the field has first been opposed to the machine learning and artificial intelligence fields. Aiming at extracting patterns from huge volumes of data, methods and algorithms have been developed with the goal of optimising time- and memory-consumption by proposing several methods for navigating through the large and combinatory search space to retrieve all the frequent patterns. These methods have rapidly suffered from being non relevant and efficient when facing imperfect real data. However, fuzzy logic has not been accepted as a solution for a very long time among the data mining community. More recently, researchers have become closer and fuzzy pattern mining has benefited from the very various approaches of these many fields. In this presentation, we are focusing on fuzzy pattern mining and are showing how cross fertilisation over the research communities allow relevant and promising contributions. In particular, we focus on fuzzy gradual patterns to show this mutual enrichment.
L'extraction de motifs émergents a pour objectif de souligner les caractéristiques distinctives d'une base de données par opposition à une base de référence, afin de mettre en évidence leurs différences. Cet article considère le cas particulier des motifs graduels émergents et vise, donc, à extraire des co-variations d'attributs discriminantes. Il discute les spécificités des motifs graduels nécessitant le développement d'une nouvelle méthode et propose la transposition adaptée d'un algorithme efficace basé sur la notion de bordure, en justifiant son applicabilité au cas des motifs graduels. Il illustre les résultats obtenus sur des données de l'UCI.