Régis Gras est Professeur Émérite à l'Ecole Polytechnique de l'Université de Nantes, et membre de l'équipe Data User Knowl Edge (DUKE) du Laboratoire Informatique de Nantes Atlantique (LINA-UMR CNRS 6241) depuis 1998. Docteur 3ème cycle puis Docteur ès-sciences mathématiques en 1979, Habilité à diriger des Recherches en 1985 à l’Université de Rennes 1. Il a été président de la Commission Française pour l’Enseignement des Mathématiques (1995-1998), puis membre du comité sur l’enseignement de la société européenne de mathématiques (1997-2003). Il a effectué de nombreuses missions de formation en Afrique, Amérique du Sud et Moyen Orient. Il est le fondateur de l'ensemble des méthodes et des outils de l'Analyse Statistique Implicative, et continue d'en développer, avec son équipe, les extensions dans le cadre de la fouille de données. Il a présidé le comité de programme des 4 conférences ASI (France 2001, Sao Paulo Brésil 2003, Palerme Italie 2005 et Castellon Espagne 2007) et Président d’honneur des dernières conférences ASI (Palerme 2010, Caen 2012, Sao Paulo 2014, Radès 2015). Il est membre fondateur de l’association « Extraction et Gestion des Connaissances ». Il est auteur et/ou directeur de 8 ouvrages, 6 films pédagogiques et co-éditeur de 6 livres de chapitres.
35,00€
Disponible
60,00€
Disponible
Après un rappel sur la méthodologie de classification Darwinienne des êtres vivants, nous centrons notre étude sur celle des primates. Nous montrons que la hiérarchie cohésitive orientée en est une lumineuse métaphore.
Les psychologues utilisent fréquemment des approches corrélationnelles pour mener à bien l'analyse de leurs tableaux de données (corrélations, régressions, analyse en composantes principales,...). De leur côté, les didacticiens pratiquent l'analyse statistique implicative (A.S.I.). Dans ce chapitre, les auteurs présentent quelques arguments, illustrés d'exemples, en faveur d'une utilisation conjointe des deux approches méthodologiques. Si l'étude de la corrélation linéaire permet d'identifier la polarité (le signe) et l'amplitude (la valeur absolue) des liens entre deux ou plusieurs variables, son aspect symétrique ne permet pas d'ordonner les variables. L'A.S.I. complète l'approche corrélationnelle dans la mesure où la forme asymétrique de l'indice d'intensité de l'implication débouche sur une mise en ordre quasi-implicative des variables corrélées : a ⇒ b « si la variable a est observée dans la population alors on note une propension à observer la variable b ». Reste à interpréter cet ordre implicatif, ce qui renvoie à une autre problématique.
Nous présentons dans ce chapitre une méthode alternative et complémentaire au graphe implicatif pour représenter les relations implicatives nouées au sein de variables qualifiant ou quantifiant des sujets ou des objets. Mais ici les règles extraites des données sont de degré supérieur et apparaissent comme métarègles ou règles de règles. Nous axiomatisons ces règles généralisées et les représentons selon une hiérarchie ascendante orientée. En nous appuyant sur des exemples de données issues des champs de la psychologie du développement et des didactiques disciplinaire et professionnelle, la complexité cognitive nous semble apparaître comme métaphore ou avatar privilégié de ce type de hiérarchie. Nous présentons deux exemples illustratifs en montrant l'intérêt prédictif de cette représentation.
Dans la littérature, de nombreux travaux traitent de méthodes d'alignement d'ontologies. Ils utilisent, pour la plupart, des relations basées sur des mesures de similarité qui ont la particularité d'être symétriques. Cependant, peu de travaux évaluent l'intérêt d'utiliser des mesures d'appariement asymétriques dans le but d'enrichir l'alignement produit. Ainsi, nous proposons dans ce papier une méthode d'alignement extensionnelle et asymétrique basée sur la découverte des implications significatives entre deux ontologies. Notre approche, basée sur le modèle probabiliste d'écart à l'indépendance appelé intensité d'implication, est divisée en deux parties consécutives : (1) l'extraction, à partir du corpus textuel associé à l'ontologie, et l'association des termes aux concepts; (2) la découverte et sélection des implications génératrices les plus significatives entre les concepts. La méthode proposée est évaluée sur deux jeux de données réels portant respectivement sur des profils d'entreprises et sur des catalogues de cours d'universités. Les résultats obtenus montrent que l'on peut trouver des relations pertinentes qui sont ignorées par un alignement basé seulement sur des mesures de similarité.
En didactique des Mathématiques, mais plus généralement en sciences humaines, de nombreuses recherches utilisent des analyses qualitatives pour falsifier expérimentalement des hypothèses formulées a priori, c'est-à-dire en amont de la recherche. Une telle approche méthodologique, appliquée à une enquête, s'avère le plus souvent insuffisante pour analyser toutes les variables en jeu dans des phénomènes contingents d'enseignement/ apprentissage, même si dans certains cas (analyse ponctuelle de protocoles, de vidéos, etc.), elle permet de déceler quelques relations intéressantes. Mais si le nombre de sujets devient trop volumineux, l'analyse qualitative ne réussit plus à extraire toutes les relations existant entre les variables en jeu. Une analyse quantitative sur une base statistique s'imposera et sera complétée par une analyse qualitative, indispensable à une interprétation contextuelle. Cette communication vise à présenter une mesure permettant de confronter statistiquement, l'analyse a priori et la contingence.
L'Analyse Statistique Implicative vise à quantifier, à travers les concepts de typicalité et de contribution, la qualité de la relation de chaque sujet à l'élection de chemins du graphe implicatif ou à celle de classes des hiérarchies de similarité et de cohésion implicative. En retour, ces expressions quantitatives induisent sur l'ensemble des sujets une structure métrique qui permet de comparer les positions respectives des sujets par rapport aux concepts extraits de la base de données initiale. En particulier, il est possible de faire apparaître les sujets « borderlines », c'est-à-dire extrêmes, à l'égard de ces concepts. Une application portant sur des élèves de classes élémentaires examine les façons qu'ils ont d'identifier les différentes disciplines qui leur sont enseignées.
Dans le cadre de l'Analyse Statistique Implicative, il est procédé à l'extraction de règles implicatives pondérées par une mesure appelée intensité d'implication. Un graphe dit implicatif permet de représenter l'ensemble des relations non symétriques qui associent les variables. Au sein du graphe, on observe quelquefois, à partir d'une variable centrale, des relations amont et aval telles qu'il soit possible d'isoler ces deux types de part et d'autre de ce noeud, ce confluent, sous la métaphore de cône implicatif à deux grappes. Donner une signification à ce cône, sous la condition d'une certaine homogénéité et de la connexité de l'ensemble, permet de l'isoler conceptuellement du tout en des termes de causalité-conséquences. Dans cette communication, nous définissons selon deux approches un critère d'homogénéité d'un cône et des conditions d'existence de relations causales. Nous illustrons le propos théorique par l'examen de plusieurs exemples significatifs.
Nous nous plaçons ici dans le cadre de la méthode d'analyse de données, l'analyse statistique implicative (A.S.I.). A l'instar de ce que nous avons fait pour passer des variables binaires aux variables numériques ou aux variables-intervalles, nous étendons le champ des traitements aux variables à valeurs vectorielles. Nous établissons un indice permettant de mesurer la qualité d'une règle entre variables vectorielles. Nous traitons des exemples portant, l'un sur l'examen des critères de convergence des économies de l'Union Européenne, l'autre, plus développé, appliqué au domaine de la description personnologique en passation répétée.
La plupart des études de recherche appliquée nécessitent des traitements sur des tableaux de données qui présentent fréquemment des données manquantes. Or la majorité des algorithmes statistiques ne travaillent que sur des tableaux de données complets. En conséquence, chaque individu (file) se présentant avec une ou plusieurs lacunes qui doit être ignoré. L'imputation est une procédure qui consiste à mettre des valeurs dans les cases vides du tableau pour tirer parti des individus incomplets. Gras (2009) propose une méthode originale d'imputation basée sur l'Analyse Statistique Implicative (A.S.I.). Dans cette contribution, on analyse l'applicabilité de cette méthode et on propose l'utilisation de l'imputation multiple pour obtenir des estimations d'intensités d'implication d'un tableau de données obtenues d'une enquête sociologique.
Un graphe pondéré, sans cycle, constitue une des représentations d'un ensemble de règles d'association implicative extraites d'un tableau numérique croisant variables et sujets. Le problème de son homogénéité, de sa cohérence et donc de la pertinence des interprétations de l'expert se pose dès lors qu'en Analyse Statistique Implicative il est possible de faire varier le seuil de représentation des règles partielles. Nous présentons ici le concept de variance implicative à l'instar du concept classique de variance afin de qualifier l'homogénéité de la représentation. Elle s'appuie sur une métaphore de répulsion vs consistance implicatives mutuelles entre deux variables binaires à partir de leur différence symétrique.
En relation avec des approches différentes mais classiques de l'incertain de Zadeh, la méthode d'analyse statistique implicative apparaît comme une nouvelle approche particulièrement par rapport à l'opérateur d'implication. L'article montre que la notion de variables à valeurs intervalles et celle de variables-intervalles sont efficaces dans la détermination de la distribution des variables et dans la recherche de règles incertaines. De plus, elles apportent de riches informations sur la qualité de ces règles, tout en permettant d'étudier le rôle des variables supplémentaires dans l'existence de ces règles. Cette nouvelle perspective épistémologique dans le cadre de l'incertain ouvre d'intéressantes perspectives d'application.
Nous discutons de l'apport de la méthode d'analyse statistique implicative au sens de R. Gras, à l'étude de la concordance/discordance des rangs accordés par des juges à des objets. Cette dernière est à comprendre au sens de Friedman ou de Kendall. Ici nous comparons une analyse de préférences exprimées par les rangs, avec l'analyse de la propension entre variables modales de J. B. Lagrange. Nous nous affranchissons de l'hypothèse d'absence de lien a priori entre les variables. Nous affectons d'une mesure de qualité des énoncés de la forme : « si l'objet a est rangé par les juges alors, généralement, l'objet b est rangé à un rang meilleur par les mêmes juges », et représentons par un graphe les relations de préférences de l'ensemble des objets rangés. Nous nous limitons aux deux cas des rangements complets et incomplets mais sans ex æquo de q objets par k juges. Le texte présenté ici reprend en partie (Régnier et Gras, 2005).
La plupart des indices d'association entre variables binaires utilisent la fréquence conditionnelle qu'ils appellent confiance ou expressions algébriques d'instanciations pour décider d'une liaison entre deux variables et en apprécier la qualité. En Analyse Statistique Implicative, une autre mesure, l'intensité d'implication, vise le même objectif en se limitant à l'implication tout en s'appuyant plutôt sur la probabilité d'apparition des contre-exemples à ce type de liaison. Dans cet article nous comparons ces deux mesures en montrant qu'elles sont étrangères mais possèdent des relations analytiques intéressantes. De ce fait, nous concevons et expérimentons une nouvelle mesure de qualité d'implication en deux approches qui associe confiance et intensité. Nous montrons l'intérêt présenté par cette combinaison pour intégrer la contraposée de l'implication, condition nécessaire pour faire jouer à ce nouvel indice une fonction d'analyse causale.
Dans le but de rendre l'interprétation plus aisée, deux problèmes sont devenus cruciaux : filtrer les règles les plus intéressantes et les structurer pour mettre en lumière leurs relations. Dans ce chapitre, nous nous plaçons dans le cadre de l'ASI et nous proposons une nouvelle technique pour réduire l'ensemble de règles en détectant les règles redondantes. Nous définissons deux nouvelles mesures basées sur l'entropie de Shannon et sur l'indice de Gini.
En fouille de règles, certaines situations exceptionnelles défient le bon sens. C'est le cas de la règle R : a (flèche) c et b (flèche) c et (a et b) (flèche) non c. Une telle règle, que nous étudions dans l'article, est appelée règle d'exception. A la suite des travaux précurseurs de E. Suzuki et Y. Kodratoff (1999), qui ont étudié un autre type de règle d'exception, nous cherchons ici à caractériser les conditions d'apparition de la règle R dans le cadre de l'Analyse Statistique Implicative. Nous étendons cette notion aux R-règles.
Dans le cadre de la théorie de l'Analyse Statistique Implicative, la problématique de la stabilité de l'indice qui permet de définir et évaluer la qualité de l'indice d'implication est posée par l'utilisateur qui renouvelle ses expériences dans un domaine particulier. Dans cet article, nous étudions ce problème en invoquant les concepts différentiels de l'analyse mathématique. Nous examinons un à un les paramètres intervenant dans la formule donnant l'indice d'implication. Nous comparons les variations de ces paramètres avec ceux d'autres indices classiques utilisés en fouille de données. Nous étendons cette étude par celle de la structure de l'espace vectoriel qu'ils engendrent et en centrant cette étude sur la notion de gradient implicatif. De là, nous illustrons par une représentation géométrique la problématique de l'équilibre de l'indice via une discrétisation des surfaces équipotentielles.
Après avoir généralisé l'Analyse Statistique Implicative au cas où l'espace des sujets est continu, nous étendons son champ d'application au cas où cette fois les espaces des variables sont continus sur [0; 1]. Ainsi, les variables seront observées sur des intervalles munis d'une loi de répartition continue. Nous procédons, tout d'abord, à l'extension à partir du traitement connu en A.S.I. des variables-intervalles. Puis, nous envisageons un cas particulier où les distributions sur les espaces des variables suivent une même loi uniforme. Enfin, nous traitons le cas général de l'extension aux espaces de variables munis de lois différentes et quelconques.
L'Analyse Statistique Implicative (A.S.I.) classique permet d'extraire des règles et des méta-règles entre des variables de nature variée à partir de données d'une population discrète et finie. Nous envisageons ici l'extension de cette méthode à une population continue sur laquelle est définie une distribution de probabilité donnée. Nous obtenons des indices de qualité des règles extraites de variables booléennes sur une telle population Nous illustrons cette nouvelle extension de l'A.S.I. par des exemples. Nous montrons que la restriction au cas classique de cette extension au cas continu est valide.
De nombreuses mesures de qualité d'une règle d'association implicative existent mais peu d'entre elles se fondent sur des bases statistiques et en faisant état de la sémantique qui a guidé leurs choix épistémologiques. Nous présentons ici quelques propriétés susceptibles de donner un sens aux indices servant à quantifier la qualité de l'association non symétrique entre variables. A cette occasion, nous explicitons, en les justifiant, les différents choix que nous avons faits en A.S.I. pour mesurer la qualité des implications entre variables binaires ou non binaires et les comparons à d'autres choix. Nous les confrontons aux propriétés énoncées préalablement . Quelques simulations permettent d'illustrer graphiquement la différence de comportement entre certains indices classiques au regard de ces propriétés. Nous exposons également comment l'analyse numérique et graphique de l'ensemble foisonnant des règles obtenues à partir d'un corpus de données conduit à une ou des structures émergentes que notre méthode systémique, l'A.S.I., conceptualise.
L'interprétation d'un large ensemble de données à l'aide de techniques de data mining est souvent une tâche difficile. Cependant, cette tâche peut être simplifiée par une réduction du nombre de variables qui pourraient être considérées comme équivalentes. Le but de ce chapitre est de décrire une nouvelle méthode pour réduire le nombre de variables d'un grand ensemble de données. L'ASI qui construit des règles d'association à l'aide d'une mesure, plus puissante que la probabilité conditionnelle, est utilisée pour détecter des variables quasiéquivalentes. La technique a plus d'avantages que l'analyse traditionnelle des similarités.
L'analyse statistique implicative traite des tableaux sujets x variables afin d'extraire règles et métarègles statistiques entre les variables. L'article interroge les structures obtenues représentées par graphe et hiérarchie orientés afin de dégager la responsabilité des sujets ou des groupes de sujets (variables supplémentaires) dans la constitution des chemins du graphe ou des classes de la hiérarchie. On distingue les concepts de typicalité pour signifier la proximité des sujets avec le comportement moyen de la population envers les règles statistiques extraites, puis de contribution pour quantifier le rôle qu'auraient les sujets par rapport aux règles strictes associées. Un exemple de données réelles, traité à l'aide du logiciel CHIC, illustre et montre l'intérêt de ces deux concepts.
Dans ce chapitre, nous étendons la notion classique de quasi-implication à des règles de règles ou R-règles. Les prémisses et les conclusions peuvent devenir des règles. Une nouvelle mesure statistique, basée sur l'intensité d'implication, est définie pour évaluer la significativité des R-règles sur un ensemble de données. Nous montrons comment organiser ces règles en une nouvelle structure combinatoire, la hiérarchie orientée, qui est inspirée de la classification hiérarchique classique. Un algorithme incrémental est développé pour trouver la classe de R-règles la plus significative. Une illustration est donnée à partir d'un exemple réel.
Nous présentons ci-dessous une extension de l'analyse statistique implicative à des variables numériques et certaines variables symboliques, d'une part prenant leurs valeurs sur des intervalles, d'autre part à valeurs intervalles. Ainsi, nous déterminons un ensemble de sous-intervalles optimaux permettant de calculer la qualité la meilleure possible de l'implication de réunions de ces sous-intervalles relatifs à une variable vers une autre.
Dans ce chapitre, on présente un premier mode de représentation graphique d'un ensemble de règles obtenu par un graphe non transitif orienté. Il est illustré par quelques exemples. Cette représentation facilite l'interprétation par l'expert des structures arborescentes obtenues.
La méthode d'analyse de données, l'Analyse Statistique Implicative (A.S.I.), a pour objectif, à partir du croisement d'une population et de variables, l'extraction et l'étude de certaines relations d'association, appelées règles, de type implicatif donc non symétrique. Un indice statistique, l'intensité d'implication, permet d'attribuer un indicateur numérique de qualité à une quasirègle de type a=>b (si a alors en général b) où a et b sont des variables de natures diverses. A travers différentes applications, est apparue la nécessité d'adapter le concept d'intensité à des situations où les populations en jeu deviennent très importantes. Nous fournissons ici une réponse à cette demande par une autre intensité d'implication formalisée sur des bases utilisant le concept d'entropie de Shannon et sensible aux variations de cardinaux.
Ce chapitre présente une vue d'ensemble de la théorie de l'Analyse Statistique Implicative qui fournit une méthode d'analyse de données conçue pour extraire et struturer des quasi-implications. A l'origine développée par Gras (Gras R., 1979) pour s'appliquer à la didactique des mathématiques elle a été élargie dans le cadre du data mining. Nous en présentons ici la charpente et en donnons les développements récents