L'utilisation de concepts imprécis, subjectifs et contextuels, comme par ex. celui d'étudiant prometteur, permet d'enrichir l'accès aux données, mais la définition de ces concepts est fastidieuse pour un utilisateur. Cet article propose une stratégie, appelée CHOCOLATE, qui requiert uniquement quelques exemples représentatifs du concept, fournis par l'utilisateur, et qui en infère une fonction d'appartenance. CHOCOLATE met en œuvre une intégrale de Choquet pour agréger la pertinence de valeurs observées dans les exemples représentatifs ainsi que la représentativité d'ensembles de ces valeurs. L'approche proposée est en mesure de capturer à la fois les propriétés partagées par la plupart des exemples représentatifs fournis par l'utilisateur et les propriétés spécifiques présentes dans des exemples représentatifs isolés.
Afin d'aider un utilisateur à appréhender aisément le contenu d'un ensemble de données, cet article propose de fournir une riche description linguistique, qui explique à la fois les caractéristiques majoritaires et les irrégularités présentes dans les données. La méthode proposée repose sur (i) une nouvelle mesure de similarité contextuelle, inférée d'une forêt d'isolation construite automatiquement à partir des données, (ii) l'identification de la structure des données, `a la fois en termes de régularités et d'anomalies, qui exploite cette mesure de similarité et (iii) la génération d'une explication linguistique interprétable de la structure identifiée, incluant des descriptions des relations entre irrégularités et régularités.
Dans le cas où les données sont stockées dans des bases de données relationnelles, il a été proposé d'estimer des résumés linguistiques de façon à la fois efficace et fiable, en exploitant les statistiques maintenues par le SGBDR, en s'affranchissant ainsi d'accès coûteux aux données. Cet article propose d'améliorer la précision de ces estimations, tout en préservant l'efficacité de leur calcul : il enrichit l'approche en identifiant les cas o`u des calculs exacts sont nécessaires et en proposant des stratégies locales efficaces pour effectuer ces corrections. Les expériences réalisées sur des données réelles montrent que l'approche proposée, FRELS, reste incomparablement plus efficace que les approches basées sur des parcours des données et offre une meilleure précision que les approches basées uniquement sur les statistiques des données.
Les approches de soft computing utilisent souvent un vocabulaire utilisateur pour réécrire linguistiquement des données numériques et catégorielles. Les techniques classiques d'extraction de connaissance (par exemple, de découverte de règles d'association ou de clustering), quant à elles, permettent d'aider l'utilisateur à comprendre la structure interne des données. Pour appliquer ces techniques à des données réécrites linguistiquement, il faut d'abord définir une mesure de distance adaptée, car la plupart des méthodes en question reposent sur l'usage d'une métrique, dont les propriétés ont un impact important sur la pertinence des connaissances extraites. Dans cet article, nous proposons une mesure qui calcule la dissimilarité entre deux objets réécrits selon un vocabulaire utilisateur.
Résumer des données est un problème qui a donné lieu à de nombreux travaux dans la communauté du soft computing. Il s'agit de générer des propositions décrivant linguistiquement les propriétés observées dans un jeu de données. Cet article s'intéresse à l'extraction efficace de tels résumés dans le cas où les données sont stockées dans une base de données relationnelle. Il propose une approche qui exploite les statistiques maintenues par le SGBD, et montre que des résumés fiables peuvent être estimés sans aucun accès aux données.
Les approches dominantes pour modéliser l'incertitude dans les bases de données sont de nature probabiliste. Néanmoins, certains chercheurs persistent à proposer des représentations fondées sur la théorie des possibilités, motivés par la capacité de ce cadre à modéliser une incertitude de type épistémique, ainsi que par sa nature qualitative. Plusieurs modèles possibilistes ont été proposés au fil des années, pour répondre à différents besoins applicatifs allant de l'interrogation au design, en passant par le nettoyage de données. Ainsi, on peut distinguer quatre cadres différents, ordonnés ici selon leur expressivité : on trouve des bases de données avec i) des relations stratifiées ; ii) des valeurs d'attribut plus ou moins certaines ; iii) des valeurs d'attribut restreintes par des distributions de possibilité générales ; iv) des c-tables possibilistes. Dans chaque cas, nous discutons le rôle de la dualité possibilité-nécessité, les limitations et les points forts des modèles, ainsi que leur pertinence vis-à-vis des différentes tâches considérées.
De nombreuses applications du soft computing reposent sur la réécriture linguistique de données selon un vocabulaire utilisateur. Dans ce papier, nous proposons un algorithme distribué de réécriture de grandes masses de données ainsi que des stratégies de stockage et d'indexation des vecteurs de réécritures produits. Nous montrons la capacité de l'algorithme à gérer de grandes quantités de données et comparons les différentes stratégies de stockage et d'indexation en vue de fournir des fonctionnalités d'exploration de données à partir du résumé.
Cet article décrit une approche visant à rendre plus intelligibles les réponses à une requête. Ces réponses sont tout d'abord regroupées en clusters et décrites à l'aide d'un vocabulaire flou. L'objectif principal est de trouver ce que les éléments de chaque cluster ont en commun qui les différencie de ceux des autres clusters, en exploitant les attributs qui n'apparaissent pas explicitement dans la requête.
Cet article traite de requêtes quantifiées floues adressées `a une base de données graphe. Nous étudions une forme particulière de requête floue structurelle et montrons comment elle peut être exprimée dans le langage Fudge défini précédemment. Une stratégie d'évaluation fondée sur un mécanisme de compilation qui dérive des requêtes classiques pour accéder aux données est également décrite.
Cet article se place dans le contexte des systèmes de médiation suivant une approche LAV (Local As View) et étudie le problème de la réécriture de requêtes en utilisant des vues en présence de contraintes de valeurs floues sur les attributs. Ces contraintes permettent de lister les valeurs possibles des attributs tout en pondérant ces valeurs d'un degré compris entre 0 et 1. Elles permettent par exemple de décrire la forme des tomates comme 1/ronde ou 0.8/ovale ou 0.5/allongée. Utilisées dans les requêtes, elles permettent aux utilisateurs d'exprimer des préférences sur ce qu'ils recherchent tandis que dans les vues, elle permettent une description condensée, souple mais informative des valeurs des attributs. Le problème est formalisé dans le cadre de la logique de description FL0 étendue aux contraintes de valeurs floues. Nous proposons un algorithme de subsomption structurelle pour cette logique qui sert de base à notre problème de réécriture. Puis, nous caractérisons la forme des réécritures. This paper studies the problem of answering queries using views when the queries and the views may involve fuzzy value constraints in the context of a Local-As-View mediation system. These constraints allow for specifying the possible values of the attributes by associating them with a degree between 0 and 1. For example, they allow for characterizing the shapes of tomatoes as 1/round or 0.8/oval or 0.5/elongated. Such constraints represent user preferences in the queries, whereas in the views, they give a concise, flexible but informative description of data. The problem is formalized in the setting of the description logic FL0 extended to fuzzy value constraints. We propose an algorithm of structural subsumption for this logic, that will be very useful to define the algorithm of query rewriting. Finally, we characterize the query rewriting forms.
Ce papier s'intéresse à l'opérateur de négation dans le contexte d'une algèbre relationnelle étendue permettant de manipuler des requêtes et des relations bipolaires floues. Plusieurs définitions possibles de la négation sont étudiées et évaluéees en fonction de propriétés souhaitables. Un opérateur de négation possédant toutes les propriétés attendues est proposé et sert de base à la définition de la différence ensembliste dans le cadre de l'algèbre relationnelle étendue considérée. This paper deals with the negation operator in the context of a bipolar fuzzy relational algebra which makes it possible to handle bipolar fuzzy queries (involving flexible constraints and wishes) and relations. Several possible definitions of the negation are studied and assessed with respect to some desirable properties. A negation operator which complies with all those desirable properties is proposed, and serves as a basis for the definition of the set difference operation in the extended relational algebraic framework considered.
Cet article traite de requêtes floues conjonctives produisant des ensembles vides ou faiblement satisfaisants de réponses. Nous proposons une approche coopérative qui identifie efficacement les conflits à l'intérieur d'une telle requête et permet donc d'expliquer l'échec initial à l'utilisateur. La détection de ces conflits repose sur une étape préalable de calcul de cardinalités floues. L'avantage majeur de cette stratégie est de ne nécessiter qu'un seul parcours de la base de données. De plus, la compacit é des informations précalculées rend aisé leur stockage en mémoire. This paper deals with conjunctive fuzzy queries that yield an empty or unsatisfactory answer set. We propose a cooperative answering approach which efficiently retrieves the minimal failing subqueries of the initial query, which can then be used to explain the failure. The detection of the minimal failing subqueries relies on a prior step of fuzzy cardinalities computation. The main advantage of this strategy is to imply a single scan of the database. Moreover, the fuzzy cardinalities used by the approach easily fit in memory.
L'utilisation de variables linguistiques facilite l'interpr étation des données et améliore l'interaction avec les systèmes d'interrogation de données, et donc leur qualité. Cette amélioration est conditionnée par l'adéquation entre l'indistinguabilité induite par les modalités considérées et la structure sous-jacente des données. Cet article propose une méthode pour identifier et décomposer les modalités trop générales, afin de construire un vocabulaire de description adéquat par rapport à la structure des données. Using linguistic fuzzy variables improves the interpretability of data querying systems and thus their quality, under the condition that the considered modalities induce an indistinguishability relation in adequacy with the underlying data structure. This paper proposes a method to identify and split too general modalities so as to finally obtain a more appropriate vocabulary wrt. the data structure.
Dans ce papier nous introduisons de nouveaux
opérateurs pour l'interrogation flexible d'une base de
données permettant de comparer un scalaire s avec un
ensemble flou F. Ces comparateurs permettent d'exprimer
des conditions telles que s f F, s f F, s >f F
ou encore s
Cet article propose une approche visant à étendre le champ d'une requête de bases de données de façon à retrouver des objets similaires à ceux de sa réponse stricte. L'idée est d'exploiter les associations entre les entités de la base de données correspondant par exemple à la présence de clés étrangères dans le schéma. Des concepts flous tels que la typicité, la similarité et les quantificateurs linguistiques sont au coeur de l'approche et permettent de calculer une liste ordonnée de "réponses connexes". This paper deals with the issue of extending the scope of a user query in order to retrieve objects which are similar to its strict answers. The approach proposed exploits associations between database items, corresponding, e.g., to the presence of foreign keys in the database schema. Fuzzy concepts such as typicality, similarity and linguistic quantifiers are at the heart of the approach and make it possible to obtain a ranked list of related answers.
Les systèmes coopératifs visent notamment à éviter de retourner à l'utilisateur “il n'y a pas de réponse” lorsqu'une requête échoue, en cherchant plutôt à fournir les raisons de l'échec, sous la forme par exemple de sous-requêtes minimales à résultat vide (Minimal Failing Subqueries, MFS en abrégé), et à construire des requêtes alternatives à résultat non vide (maXimal Succeeding Subqueries, XSS en abrégé), aussi proches que possibles de la requête initiale. Dans le contexte de l'interrogation floue de bases de données, nous proposons une méthode efficace pour déterminer les MFS et les XSS graduelles d'une requête, méthode qui s'appuie sur un résumé, calculé dynamiquement, d'une partie de la base.
D'un côté, les méthodes d'apprentissage non supervisé permettent d'identifier automatiquement la structure d'un jeu de données, et d'un autre côté, les partitions floues fournissent un formalisme pour la représentation d'un vocabulaire personnalisé. Pour simplifier le processus d'extraction de connaissances, nous proposons d'expliquer la structure par groupes construite automatiquement à partir des données en utilisant des termes linguistiques personnalisés.