Le paradigme de subspace clustering flou standard peut conduire à des discontinuités dans les solutions calculées : des points voisins peuvent être affectés à des clusters différents, ce qui peut conduire à une mauvaise estimation des sous-espaces. Pour contrer ce phénomène, cet article propose d'ajouter à la fonction de coût un terme de régularisation, inspiré du clustering spectral, pour combiner une similarité globale à la similarité locale à chaque cluster. Un nouvel algorithme basé sur l'optimisation alternée, appelé Weighted Laplacian Fuzzy Clustering, WLFC, en est dérivé et étudié expérimentalement.
Les bases de données dites hétérogènes contiennent des données décrites par des attributs à la fois symboliques et numériques. Cet article propose une méthode, appelée OSACA, pour identifier, parmi les attributs symboliques, les attributs ordinaux, en exploitant les informations fournies par les attributs numériques. Pour ce faire, OSACA procède en trois étapes : des motifs graduels sont d'abord extraits des attributs numériques. Des filtres morphologiques sont ensuite appliqués aux attributs symboliques pour déterminer des ordres sur les valeurs catégorielles à partir de l'ordre induit par les motifs graduels. Enfin, une mesure d'entropie d'ordre permet d'évaluer la pertinence des ordres candidats.
Résumer des données est un problème qui a donné lieu à de nombreux travaux dans la communauté du soft computing. Il s'agit de générer des propositions décrivant linguistiquement les propriétés observées dans un jeu de données. Cet article s'intéresse à l'extraction efficace de tels résumés dans le cas où les données sont stockées dans une base de données relationnelle. Il propose une approche qui exploite les statistiques maintenues par le SGBD, et montre que des résumés fiables peuvent être estimés sans aucun accès aux données.
Cet article propose une comparaison expérimentale de l'arithmétique floue avec le calcul approximatif humain : une étude empirique a été menée afin de collecter des intervalles résultant d'additions et de produits avec des opérandes imprécis. Des intervalles flous sont élicités à partir de ces données et combinés par les règles d'arithmétique floue. Les résultats montrent que les additions et produits flous diffèrent de la fac¸on dont les êtres humains effectuent ces opérations. De plus, à un niveau cognitif, ils montrent que les participants ne tiennent pas compte des imprécisions dans les calculs, mais qu'ils effectuent les opérations exactes avant de calculer une approximation du résultat.
Les Expressions Numériques Approximatives, ou ENA, sont des expressions linguistiques de la forme “environ x”, où x est un nombre. Cet article propose un modèle d'interprétation des ENA basé sur un compromis entre saillance cognitive des nombres et plage de valeurs dénotées. Contrairement aux modèles de la littérature qui représentent les ENA par des intervalles, nous proposons de les représenter par des nombres flous et d'en caractériser le support, le noyau et la 0,5-coupe. Une étude expérimentale, basée sur des données réelles collectées met en évidence les performances du modèle.
Cet article présente un algorithme de subspace clustering, dont la fonction de coût similaire aux c-moyennes floues fait apparaître une distance euclidienne pondérée et un terme de pénalité non-différentiable. Cet algorithme s'appuie sur le cadre théorique de l'optimisation par descente proximale qui permet d'établir l'expression d'un terme de mise à jour pour cette fonction de coût. Un nouvel algorithme, nommé PFSCM, est présenté, qui combine descente proximale et optimisation alternée. Les expériences réalisées sur des données artificielles montrent la pertinence de l'approche considérée.
La négation est une opération centrale dans la construction de systèmes logiques et elle joue un rôle essentiel dans les outils de raisonnement et de manipulation d'information. Cet article considère le problème de la négation pour la manipulation de croyances graduelles, dans le cadre d'une logique doxastique pondérée : il étudie trois interprétations de la négation pour ces informations de haut niveau, qui transfèrent respectivement la négation aux trois composantes des croyances graduelles : la formule `a propos de laquelle une croyance est exprimée, la modalité de croyance et le degré de croyance. Il discute le choix de cadres formels appropriés dans chaque cas, en considérant les logiques modales, floue et multi-valuée.
Les tendances graduelles de la forme plus X est A, plus Y est B expriment linguistiquement des informations sur les corrélations et co-variations des attributs. Dans cet article, nous présentons une étude comparative des formalisations qui ont été proposées, examinant leurs sémantiques et propriétés respectives. Nous proposons ensuite un algorithme qui combine les principes de plusieurs approches existantes pour extraire efficacement les motifs graduels fréquents et nous illustrons son utilisation sur une base de données réelle. Gradual tendencies of the form the more X is A, the more Y is B linguistically express information about correlation between attributes and their covariations. In this paper, we present a comparative study of the various formalisations that have been proposed, studying their respective semantics and properties. We then propose an algorithm that combines the principles of existing approaches to efficiently extract frequent gradual itemsets, illustrating its use on a real data set.
Les motifs graduels, de la forme « plus/moins A, plus/moins B » extraient des connaissances sous la forme de corrélations entre attributs. Les méthodes d'extraction de tels motifs peuvent générer des motifs contradictoires, produisant par exemple simultanément les motifs « plus A, plus B » et « plus A, moins B ». Pour gérer ces contradictions, cet article propose une définition contrainte du support d'un motif graduel, qui, en particulier, ne dépend pas uniquement du motif considéré, mais aussi de ses contradicteurs potentiels. La pertinence de l'approche est illustrée sur des bases de données de l'UCI. Gradual patterns of the form « the more/less A, the more/less B » extract knowledge in the form of correlations between attributes. The methods for extracting such patterns can generate contradictory patterns, for example simultaneously producing the patterns « the more A, the more B » and « the more A, the less B ». To handle these contradictions, this paper proposes a constrained definition of a gradual support, which, in particular, does not only depend on the considered pattern, but also on its potential contradictors. The relevance of the approach is illustrated on UCI databases.
Les motifs graduels de la forme _ plus/moins A, plus/moins B _ résument et caractérisent des données par leurs tendances internes exprimées comme des corrélations entre les valeurs des attributs. Cet article propose dénrichir ces motifs graduels en prenant en compte un effet d'accélération, conduisant à un nouveau type de motifs graduels de la forme _ plus/moins A augmente, plus B augmente rapidement _. Il propose une interprétation comme contrainte de convexité imposée à la relation entre A et B et une formalisation de ces motifs graduels accélérés, ainsi que des critères d'évaluation. Il illustre la pertinence de l'approche proposée sur des données réelles. Gradual itemsets of the form _ the more/less A, the more/less B _ summarize data through the description of their internal tendencies, identified as correlation between attribute values. This paper proposes to enrich such gradual itemsets by taking into account an acceleration effect, leading to a new type of gradual itemset of the form _ the more/less A increases, the more quickly B increases _. It proposes an interpretation as a convexity constraint imposed on the relation between A and B and a formalization of these accelerated gradual itemsets, as well as evaluation criteria. It illustrates the relevance of the proposed approach on real data.
L'utilisation de variables linguistiques facilite l'interpr étation des données et améliore l'interaction avec les systèmes d'interrogation de données, et donc leur qualité. Cette amélioration est conditionnée par l'adéquation entre l'indistinguabilité induite par les modalités considérées et la structure sous-jacente des données. Cet article propose une méthode pour identifier et décomposer les modalités trop générales, afin de construire un vocabulaire de description adéquat par rapport à la structure des données. Using linguistic fuzzy variables improves the interpretability of data querying systems and thus their quality, under the condition that the considered modalities induce an indistinguishability relation in adequacy with the underlying data structure. This paper proposes a method to identify and split too general modalities so as to finally obtain a more appropriate vocabulary wrt. the data structure.
Nous proposons une analyse en trois temps des causes de la complexité à identifier les phrases contradictoires dans les résumés linguistiques flous. Le premier concerne la définition des oppositions, basée sur les carrés aristot élicien et moderne. Le second traite de l'utilisation des quantificateurs généralisés, plus riches et plus complexes que Tous et Certains . Le troisième enfin détaille les propriétés liées à l'utilisation de la logique floue pour représenter l'opposition. En fin d'analyse, nous proposons un ensemble de pistes pour la définition de nouvelles propriétés liées à l'opposition dans les résumés linguistiques. We propose a three-part study of the causes of the complexity to identify contradictory sentences in fuzzy linguistic summaries. The first part deals with the definition of opposition, based on the modern and Aristotelian squares. The second one covers the generalized quantifiers, richer and more complex than All and Some . Finally, the third one details the properties of the fuzzy logic tools used to model opposition. At the end of our analysis, we propose some ideas to define new properties ensuring non contradiction in the summaries.
L'extraction de motifs émergents a pour objectif de souligner les caractéristiques distinctives d'une base de données par opposition à une base de référence, afin de mettre en évidence leurs différences. Cet article considère le cas particulier des motifs graduels émergents et vise, donc, à extraire des co-variations d'attributs discriminantes. Il discute les spécificités des motifs graduels nécessitant le développement d'une nouvelle méthode et propose la transposition adaptée d'un algorithme efficace basé sur la notion de bordure, en justifiant son applicabilité au cas des motifs graduels. Il illustre les résultats obtenus sur des données de l'UCI.