Laboratoire d’Informatique de Franche Comté (LIFC), IUT Belfort-Montbéliard, Belfort
Ce travail a pour objectif de proposer une nouvelle méthodologie afin de construire un système de recommandation. Notre approche repose sur l'ASI et ne nécessite pas d'avoir un profil d'utilisateur afin d'effectuer des recommandations. Afin de valider notre démarche, nous avons appliqué notre système sur les critiques de la presse du site d'« allociné » qui rassemble les critiques des films récents.
Dans ce chapitre, nous illustrons les avantages de la combinaison des méthodes du cadre théorique d'Analyse Statistique Implicative (ASI) avec la Théorie de Réponses aux Items (IRT) à travers un exemple d'analyse des résultats aux examens des étudiants en Informatique de l'université A/Mira de Bejaia. L'ASI est utilisée pour découvrir et analyser les implications les plus pertinentes entre les différents modules de formation étudiés. L'IRT, quant à elle, permet l'analyse de la qualité des items et leur calibrage (difficulté) en permettant la construction d'échelles quasiment indépendantes des données d'évaluation (étudiants et modules). Une analyse des résultats est proposée ainsi qu'une comparaison avec les résultats que nous avons obtenus dans le papier Khaled et al. (2014) dans lequel nous avons appliqué l'ASI aux notes des étudiants.
L'analyse statistique implicative porte sur les mesures statistiques de qualité des règles d'associations, plus particulièrement sur celles issues de la modélisation de la loi du nombre de contre-exemples. Cette dernière basée sur le calcul de l'intensité d'implication permet d'extraire les règles les plus étonnantes sans prendre en considération le nombre de contribution des individus à chaque règle. La probabilité conditionnelle représente la fonction la plus classique servant à la confirmation inductive d'une règle. Dans ce papier nous souhaitons ajouter cette mesure probabiliste au graphe d'implication mis en oeuvre dans RCHIC, et définir un seuil laissé au choix de l'utilisateur pour sélectionner toutes les règles qui lui semble intéressantes. À travers l'étude du suivi d'une population de malades, nous montrons l'intérêt de la combinaison des deux mesures, intensité d'implication et confiance.
Nous nous plaçons ici dans le cadre de la méthode d'analyse de données, l'analyse statistique implicative (A.S.I.). A l'instar de ce que nous avons fait pour passer des variables binaires aux variables numériques ou aux variables-intervalles, nous étendons le champ des traitements aux variables à valeurs vectorielles. Nous établissons un indice permettant de mesurer la qualité d'une règle entre variables vectorielles. Nous traitons des exemples portant, l'un sur l'examen des critères de convergence des économies de l'Union Européenne, l'autre, plus développé, appliqué au domaine de la description personnologique en passation répétée.
Un graphe pondéré, sans cycle, constitue une des représentations d'un ensemble de règles d'association implicative extraites d'un tableau numérique croisant variables et sujets. Le problème de son homogénéité, de sa cohérence et donc de la pertinence des interprétations de l'expert se pose dès lors qu'en Analyse Statistique Implicative il est possible de faire varier le seuil de représentation des règles partielles. Nous présentons ici le concept de variance implicative à l'instar du concept classique de variance afin de qualifier l'homogénéité de la représentation. Elle s'appuie sur une métaphore de répulsion vs consistance implicatives mutuelles entre deux variables binaires à partir de leur différence symétrique.
En relation avec des approches différentes mais classiques de l'incertain de Zadeh, la méthode d'analyse statistique implicative apparaît comme une nouvelle approche particulièrement par rapport à l'opérateur d'implication. L'article montre que la notion de variables à valeurs intervalles et celle de variables-intervalles sont efficaces dans la détermination de la distribution des variables et dans la recherche de règles incertaines. De plus, elles apportent de riches informations sur la qualité de ces règles, tout en permettant d'étudier le rôle des variables supplémentaires dans l'existence de ces règles. Cette nouvelle perspective épistémologique dans le cadre de l'incertain ouvre d'intéressantes perspectives d'application.
CHIC permet d'utiliser la plupart des méthodes définies dans le cadre de l'ASI (Analyse Statistique Implicative). Il a pour objectif de découvrir les implications les plus pertinentes entre les variables d'un ensemble de données. Pour cela, il propose d'organiser les implications sous forme d'une hiérarchie cohésitive (orientée) ou un graphe implicatif. De plus, il permet d'obtenir une hiérarchie des similarités (non orientée) basée sur les ressemblances des variables. Ce papier décrit l'historique de CHIC.
La plupart des indices d'association entre variables binaires utilisent la fréquence conditionnelle qu'ils appellent confiance ou expressions algébriques d'instanciations pour décider d'une liaison entre deux variables et en apprécier la qualité. En Analyse Statistique Implicative, une autre mesure, l'intensité d'implication, vise le même objectif en se limitant à l'implication tout en s'appuyant plutôt sur la probabilité d'apparition des contre-exemples à ce type de liaison. Dans cet article nous comparons ces deux mesures en montrant qu'elles sont étrangères mais possèdent des relations analytiques intéressantes. De ce fait, nous concevons et expérimentons une nouvelle mesure de qualité d'implication en deux approches qui associe confiance et intensité. Nous montrons l'intérêt présenté par cette combinaison pour intégrer la contraposée de l'implication, condition nécessaire pour faire jouer à ce nouvel indice une fonction d'analyse causale.
De nombreuses mesures de qualité d'une règle d'association implicative existent mais peu d'entre elles se fondent sur des bases statistiques et en faisant état de la sémantique qui a guidé leurs choix épistémologiques. Nous présentons ici quelques propriétés susceptibles de donner un sens aux indices servant à quantifier la qualité de l'association non symétrique entre variables. A cette occasion, nous explicitons, en les justifiant, les différents choix que nous avons faits en A.S.I. pour mesurer la qualité des implications entre variables binaires ou non binaires et les comparons à d'autres choix. Nous les confrontons aux propriétés énoncées préalablement . Quelques simulations permettent d'illustrer graphiquement la différence de comportement entre certains indices classiques au regard de ces propriétés. Nous exposons également comment l'analyse numérique et graphique de l'ensemble foisonnant des règles obtenues à partir d'un corpus de données conduit à une ou des structures émergentes que notre méthode systémique, l'A.S.I., conceptualise.
La méthode d'analyse de données, l'Analyse Statistique Implicative (A.S.I.), a pour objectif, à partir du croisement d'une population et de variables, l'extraction et l'étude de certaines relations d'association, appelées règles, de type implicatif donc non symétrique. Un indice statistique, l'intensité d'implication, permet d'attribuer un indicateur numérique de qualité à une quasirègle de type a=>b (si a alors en général b) où a et b sont des variables de natures diverses. A travers différentes applications, est apparue la nécessité d'adapter le concept d'intensité à des situations où les populations en jeu deviennent très importantes. Nous fournissons ici une réponse à cette demande par une autre intensité d'implication formalisée sur des bases utilisant le concept d'entropie de Shannon et sensible aux variations de cardinaux.