Overblog Suivre ce blog
Editer l'article Administration Créer mon blog

Présentation

  • : Sipina - Arbres de décision
  • Sipina - Arbres de décision
  • : Sipina : fonctionnalités et références
  • Contact

Recherche

28 mars 2008 5 28 /03 /mars /2008 15:38
Description. Dans une analyse, les coûts de mauvais classement sont rarement unitaires et symétriques. Dans un problème à 2 classes (malade vs. non-malade par exemple), diagnostiquer l'absence de la maladie chez une personne souffrante n'a pas les mêmes implications que la situation inverse. Il faudrait en tenir compte durant la construction du modèle de prédiction.

Cette méthode est une variante de C4.5 intégrant explicitement la matrice de coûts de mauvais classement lors de l'exploration de l'espace de solutions. Elle a été mise en œuvre dans le cadre d'une étude réelle en partenariat avec une entreprise. Les résultats ont été publiés.

Schématiquement, par rapport à l'algorithme de base C4.5, nous pouvons tenir compte des coûts de 2 manières : (1) durant la phase d'expansion de l'arbre, lors du calcul du critère de segmentation, les expérimentations montrent que cette phase n'est pas très déterminante (Drumond et Holte, 2000) ; (2) durant la phase de post élagage, nous ne calculons plus une erreur pessimiste pour décider de la suppression des feuilles, mais plutôt un coût pessimiste, qui tient compte du poids des sommets.

Il existe un grand nombre de techniques permettant d'introduire les coûts de mauvais classement lors de l'induction. Notre méthode s'est beaucoup inspirée des travaux de Bradford et al. (1998), citée en référence. Elle a le mérite de produire le classifieur en un seul passage sur les données, à la différence des approches basées sur la (re)pondération des observations.

L'intérêt de cette méthode est mis en avant dans un didacticiel traitant de la détection automatique de spams dans les courriels. Nous y apprenons également comment procéder pour introduire les informations sur les coûts dans Sipina.

Paramètres.

CL (confidence level) for pessimistic pruning et Size of Leaves sont les mêmes paramètres que pour C4.5.
Handling costs Growing : Tenir compte des coûts durant la phase d'expansion de l'arbre.
Handling costs Pruning : Tenir compte des coûts durant la phase de post élagage de l'arbre.

Références.

J.H. Chauchat, R. Rakotomalala, M. Carloz, C. Pelletier, « Targeting customer groups using gain and cost matrix : a marketing application », Proc. of Data Mining for Marketing Applications Workshop, PKDD'2001, pp. 1-13, 2001.
J. Bradford, C. Kunz, R. Kohavi, C. Brunk, C. Brodley, « Pruning decision trees with misclassification costs », Proc of 10th ECML, pp. 131-136, 1998.
C. Drummond, R. Holte, « Exploiting the cost of (in)sensitivity of decision tree splitting criteria », Proc. of ICML, pp.239-246, 2000.

Partager cet article

Repost 0

commentaires