Correction bayésienne de prédictions issues d'arbres de décision et évaluation crédibiliste


Comme pour de nombreux classifieurs, les prédictions issues d'arbres de décision sont naturellement probabilistes. A chaque feuille de l'arbre est associée une distribution de probabilité sur les labels estimée de fac¸on fréquentiste. Ces probabilités présentent ainsi l'inconvénient majeur d'être potentiellement non-fiables dans le cas où elles sont estimées à partir d'un faible nombre d'exemples. Les approches bayésiennes empiriques permettent la mise-à-jour de distributions de probabilité en fonction des effectifs observés. Cet article présente une approche de correction des probabilités prédictives binaires issues d'arbres de décision au travers l'utilisation d'une méthode bayésienne empirique. L'ajustement des probabilités prédictives des arbres est ainsi concentré sur les feuilles de petites tailles, ce qui entraîne une nette amélioration des performances prédictives. L'amplitude de ces corrections est utilisée pour générer des fonctions de croyance prédictives qui sont finalement évaluées par l'extension incertaine de trois indices d'évaluation de probabilités prédictives.