Overblog Suivre ce blog
Editer l'article Administration Créer mon blog

Présentation

  • : Sipina - Arbres de décision
  • Sipina - Arbres de décision
  • : Sipina : fonctionnalités et références
  • Contact

Recherche

28 mars 2008 5 28 /03 /mars /2008 09:40
Description. C'est une généralisation de C4.5 où, plutôt que d'utiliser l'entropie de Shannon pour le calcul du gain ratio, nous introduisons les entropies généralisées de type beta.

L'algorithme de base reste donc C4.5, intégrant notamment le post élagage avec l'erreur pessimiste. Seul la phase d'expansion est modifiée, le choix de la variable de segmentation repose sur l'entropie généralisée.

En modulant le paramètre « beta », nous retrouvons les mesures usuelles (indice de gini, entropie de shannon, distance de Mantaras, etc.).

Paramètres.

CL (confidence level) for pessimistic pruning
: Niveau de confiance pour le calcul de l'erreur pessimiste, qui est simplement la borne haute de l'intervalle de confiance de l'erreur.
Beta
: Paramètre associé à l'entropie généralisée. Beta = 1, entropie de Shannon ; Beta = 2, indice de Gini, etc.
Improved Gain Ratio
: Lorsque cette option est cochée, le gain d'information est normalisée avec l'entropie marginale des feuilles, exactement à la manière du Gain ratio de Quinlan (1993).

Références.

R. Rakotomalala, S. Lallich, "Handl.ing noise with generalized entropy of type beta in induction graphs algorithm", Proc. Int. Conf. on Computer Science and Informatics, pp. 25-27, 1998.
R. Rakotomalala, S. Lallich, S. Di Palma, « Studying the behavior of generalized entropy in induction trees using a m-of-n concept », Proc. of 3rd European Conf. on KDD, pp. 510-517, 1999.
I. Taneja, « Generalized Information Measures and their Applications » ; voir en particulier le chapitre 3 « Entropy-type Measures - Entropy of Degree s and Degress (r,s) », Departemento de Matematica, UFSC, Brazil, 2001.

 

Partager cet article

Repost 0

commentaires