Sélection Robuste de Mesures de Similarité Sémantique à partie de Données Incertaines
L'exploitation d'ontologies pour la recherche
d'information, la découverte de connaissances ou le
raisonnement approché nécessite l'utilisation de mesures
sémantiques qui permettent d'estimer le degré de
similarité entre des entités lexicales ou conceptuelles.
Récemment un cadre théorique abstrait a été proposé afin
d'unifier la grande diversité de ces mesures, au travers de
fonctions paramétriques générales. Cet article propose
une utilisation de ce cadre unificateur pour choisir une
mesure. A partir du (i) cadre unificateur exprimant les
mesures basées sur un ensemble limité de primitives, (ii)
logiciel implémentant ce cadre et (iii) benchmark d'un
domaine spécifique, nous utilisons une technique
d'apprentissage semi-supervisé afin de fournir la
meilleure mesure sémantique pour une application
donnée. Ensuite, sachant que les données fournies par les
experts sont entachées d'incertitude, nous étendons notre
approche pour choisir la plus robuste parmi les meilleures
mesures, i.e. la moins perturbée par les erreurs
d'évaluation experte. Nous illustrons notre approche par
une application dans le domaine biomédical.
Knowledge-based semantic measures are cornerstone to
exploit ontologies not only for exact inferences or
retrieval processes, but also for data analyses and inexact
searches. Abstract theoretical frameworks have recently
been proposed in order to study the large diversity of
measures available; they demonstrate that groups of
measures are particular instantiations of general
parameterized functions. In this paper, we study how such
frameworks can be used to support the selection/design of
measures. Based on (i) a theoretical framework unifying
the measures, (ii) a software solution implementing this
framework and (iii) a domain-specific benchmark, we
define a semi-supervised learning technique to distinguish
best measures for a concrete application. Next,
considering uncertainty in both experts' judgments and
measures' selection process, we extend this proposal for
robust selection of semantic measures that best resists to
these uncertainties. We illustrate our approach through a
real use case in the biomedical domain.