L'utilisation de concepts imprécis, subjectifs et contextuels, comme par ex. celui d'étudiant prometteur, permet d'enrichir l'accès aux données, mais la définition de ces concepts est fastidieuse pour un utilisateur. Cet article propose une stratégie, appelée CHOCOLATE, qui requiert uniquement quelques exemples représentatifs du concept, fournis par l'utilisateur, et qui en infère une fonction d'appartenance. CHOCOLATE met en œuvre une intégrale de Choquet pour agréger la pertinence de valeurs observées dans les exemples représentatifs ainsi que la représentativité d'ensembles de ces valeurs. L'approche proposée est en mesure de capturer à la fois les propriétés partagées par la plupart des exemples représentatifs fournis par l'utilisateur et les propriétés spécifiques présentes dans des exemples représentatifs isolés.
Afin d'aider un utilisateur à appréhender aisément le contenu d'un ensemble de données, cet article propose de fournir une riche description linguistique, qui explique à la fois les caractéristiques majoritaires et les irrégularités présentes dans les données. La méthode proposée repose sur (i) une nouvelle mesure de similarité contextuelle, inférée d'une forêt d'isolation construite automatiquement à partir des données, (ii) l'identification de la structure des données, `a la fois en termes de régularités et d'anomalies, qui exploite cette mesure de similarité et (iii) la génération d'une explication linguistique interprétable de la structure identifiée, incluant des descriptions des relations entre irrégularités et régularités.
Dans le cas où les données sont stockées dans des bases de données relationnelles, il a été proposé d'estimer des résumés linguistiques de façon à la fois efficace et fiable, en exploitant les statistiques maintenues par le SGBDR, en s'affranchissant ainsi d'accès coûteux aux données. Cet article propose d'améliorer la précision de ces estimations, tout en préservant l'efficacité de leur calcul : il enrichit l'approche en identifiant les cas o`u des calculs exacts sont nécessaires et en proposant des stratégies locales efficaces pour effectuer ces corrections. Les expériences réalisées sur des données réelles montrent que l'approche proposée, FRELS, reste incomparablement plus efficace que les approches basées sur des parcours des données et offre une meilleure précision que les approches basées uniquement sur les statistiques des données.
Les approches de soft computing utilisent souvent un vocabulaire utilisateur pour réécrire linguistiquement des données numériques et catégorielles. Les techniques classiques d'extraction de connaissance (par exemple, de découverte de règles d'association ou de clustering), quant à elles, permettent d'aider l'utilisateur à comprendre la structure interne des données. Pour appliquer ces techniques à des données réécrites linguistiquement, il faut d'abord définir une mesure de distance adaptée, car la plupart des méthodes en question reposent sur l'usage d'une métrique, dont les propriétés ont un impact important sur la pertinence des connaissances extraites. Dans cet article, nous proposons une mesure qui calcule la dissimilarité entre deux objets réécrits selon un vocabulaire utilisateur.
Résumer des données est un problème qui a donné lieu à de nombreux travaux dans la communauté du soft computing. Il s'agit de générer des propositions décrivant linguistiquement les propriétés observées dans un jeu de données. Cet article s'intéresse à l'extraction efficace de tels résumés dans le cas où les données sont stockées dans une base de données relationnelle. Il propose une approche qui exploite les statistiques maintenues par le SGBD, et montre que des résumés fiables peuvent être estimés sans aucun accès aux données.
De nombreuses applications du soft computing reposent sur la réécriture linguistique de données selon un vocabulaire utilisateur. Dans ce papier, nous proposons un algorithme distribué de réécriture de grandes masses de données ainsi que des stratégies de stockage et d'indexation des vecteurs de réécritures produits. Nous montrons la capacité de l'algorithme à gérer de grandes quantités de données et comparons les différentes stratégies de stockage et d'indexation en vue de fournir des fonctionnalités d'exploration de données à partir du résumé.
Cet article décrit une approche visant à rendre plus intelligibles les réponses à une requête. Ces réponses sont tout d'abord regroupées en clusters et décrites à l'aide d'un vocabulaire flou. L'objectif principal est de trouver ce que les éléments de chaque cluster ont en commun qui les différencie de ceux des autres clusters, en exploitant les attributs qui n'apparaissent pas explicitement dans la requête.
Cet article traite de requêtes floues conjonctives produisant des ensembles vides ou faiblement satisfaisants de réponses. Nous proposons une approche coopérative qui identifie efficacement les conflits à l'intérieur d'une telle requête et permet donc d'expliquer l'échec initial à l'utilisateur. La détection de ces conflits repose sur une étape préalable de calcul de cardinalités floues. L'avantage majeur de cette stratégie est de ne nécessiter qu'un seul parcours de la base de données. De plus, la compacit é des informations précalculées rend aisé leur stockage en mémoire. This paper deals with conjunctive fuzzy queries that yield an empty or unsatisfactory answer set. We propose a cooperative answering approach which efficiently retrieves the minimal failing subqueries of the initial query, which can then be used to explain the failure. The detection of the minimal failing subqueries relies on a prior step of fuzzy cardinalities computation. The main advantage of this strategy is to imply a single scan of the database. Moreover, the fuzzy cardinalities used by the approach easily fit in memory.
L'utilisation de variables linguistiques facilite l'interpr étation des données et améliore l'interaction avec les systèmes d'interrogation de données, et donc leur qualité. Cette amélioration est conditionnée par l'adéquation entre l'indistinguabilité induite par les modalités considérées et la structure sous-jacente des données. Cet article propose une méthode pour identifier et décomposer les modalités trop générales, afin de construire un vocabulaire de description adéquat par rapport à la structure des données. Using linguistic fuzzy variables improves the interpretability of data querying systems and thus their quality, under the condition that the considered modalities induce an indistinguishability relation in adequacy with the underlying data structure. This paper proposes a method to identify and split too general modalities so as to finally obtain a more appropriate vocabulary wrt. the data structure.
Dans ce papier nous introduisons de nouveaux
opérateurs pour l'interrogation flexible d'une base de
données permettant de comparer un scalaire s avec un
ensemble flou F. Ces comparateurs permettent d'exprimer
des conditions telles que s f F, s f F, s >f F
ou encore s
Cet article propose une approche visant à étendre le champ d'une requête de bases de données de façon à retrouver des objets similaires à ceux de sa réponse stricte. L'idée est d'exploiter les associations entre les entités de la base de données correspondant par exemple à la présence de clés étrangères dans le schéma. Des concepts flous tels que la typicité, la similarité et les quantificateurs linguistiques sont au coeur de l'approche et permettent de calculer une liste ordonnée de "réponses connexes". This paper deals with the issue of extending the scope of a user query in order to retrieve objects which are similar to its strict answers. The approach proposed exploits associations between database items, corresponding, e.g., to the presence of foreign keys in the database schema. Fuzzy concepts such as typicality, similarity and linguistic quantifiers are at the heart of the approach and make it possible to obtain a ranked list of related answers.
Les systèmes coopératifs visent notamment à éviter de retourner à l'utilisateur “il n'y a pas de réponse” lorsqu'une requête échoue, en cherchant plutôt à fournir les raisons de l'échec, sous la forme par exemple de sous-requêtes minimales à résultat vide (Minimal Failing Subqueries, MFS en abrégé), et à construire des requêtes alternatives à résultat non vide (maXimal Succeeding Subqueries, XSS en abrégé), aussi proches que possibles de la requête initiale. Dans le contexte de l'interrogation floue de bases de données, nous proposons une méthode efficace pour déterminer les MFS et les XSS graduelles d'une requête, méthode qui s'appuie sur un résumé, calculé dynamiquement, d'une partie de la base.
D'un côté, les méthodes d'apprentissage non supervisé permettent d'identifier automatiquement la structure d'un jeu de données, et d'un autre côté, les partitions floues fournissent un formalisme pour la représentation d'un vocabulaire personnalisé. Pour simplifier le processus d'extraction de connaissances, nous proposons d'expliquer la structure par groupes construite automatiquement à partir des données en utilisant des termes linguistiques personnalisés.