Une méthode semi-supervisée pour la détection d'outliers basée sur les Tables de Décision Ambiguës


Dans le domaine de la détection des valeurs aberrantes (outliers), la majorité des méthodes agissent directement sur les données observées, pour pouvoir décider le caractère aberrant d'une instance (individu). Dans ce travail, nous proposons une méthode qui effectue des fouilles dans les méta-données sous-jacentes aux données observées, qui dans notre cas, correspondent aux indices d'ambiguïtés associés à une table de décision. Ces indices “Indices d'ambiguïtés Originaux (IAO)”, décrivent l'incertitude d'une expertise humaine vis à vis d'un ensemble d'instances. On calcule à partir de ces indices une estimation des indices d'ambiguïtés pour les données de test, Indices d'Ambiguïtés Estimés (IAE). Les IAO seront utilisés dans un algorithme de clustering, après projection des IAE sur les clusters obtenus. Une coupe sur chaque cluster permettra de repérer des frontières de décision afin de déterminer si une instance est un outlier ou pas. Une expérimentation a montré de bons taux de détection, avec une sélection de paramètres pour contrôler les performances en terme de rappel et de fausse alarme.