Explication linguistique des propriétés structurelles de données r´egulières et irrègulières


Afin d'aider un utilisateur à appréhender aisément le contenu d'un ensemble de données, cet article propose de fournir une riche description linguistique, qui explique à la fois les caractéristiques majoritaires et les irrégularités présentes dans les données. La méthode proposée repose sur (i) une nouvelle mesure de similarité contextuelle, inférée d'une forêt d'isolation construite automatiquement à partir des données, (ii) l'identification de la structure des données, `a la fois en termes de régularités et d'anomalies, qui exploite cette mesure de similarité et (iii) la génération d'une explication linguistique interprétable de la structure identifiée, incluant des descriptions des relations entre irrégularités et régularités.