Overblog Suivre ce blog
Editer l'article Administration Créer mon blog

Présentation

  • : Sipina - Arbres de décision
  • Sipina - Arbres de décision
  • : Sipina : fonctionnalités et références
  • Contact

Recherche

11 mars 2008 2 11 /03 /mars /2008 20:56
Ce didacticiel montre comment exploiter un fichier scindé en deux parties : la première est dédiée à l'apprentissage de l'arbre de décision (échantillon d'apprentissage), la seconde est dédiée à son évaluation (échantillon test). 

Dans cet exemple, une variable indicatrice supplémentaire est intégrée au données, elle désigne le rôle que joue chaque individu dans la modélisation (apprentissage ou test). SIPINA s'appuie sur cette variable pour subdiviser le fichier. De manière plus générale, il est possible d'effectuer directement un partitionnement aléatoire des individus dans le logiciel lui même, la procédure est beaucoup plus simple. 

La subdivision préalable, telle qu'elle est mise en oeuvre dans ce didacticiel, se justifie surtout lorsque nous voulons comparer les résultats produits par différents logiciels (ex. arbres de décision sous SIPINA vs. la procédure rpart du package du même nom de R, etc.). Ainsi, nous maîtrisons totalement le mode de subdivision des données, avec des résultats directement comparables d'un outil à l'autre : ils ont travaillé sur les mêmes individus en apprentissage et calculer les performances sur les mêmes individus en test.

Ce didacticiel présente un second thème : il montre comment mettre en oeuvre les coûts de mauvais classement dans une variante de C4.5. L'arbre de décision est ainsi optimisé pour non plus minimiser le taux d'erreur, mais un indicateur tenant compte de la nature non-symétrique des coûts  telle que la F-Measure.

L'exemple traité concerne la détection automatique de spams à partir de caractéristiques extraites de courriers eléctroniques.

Mots-clés : arbres de décision, évaluation des classifieurs, C4.5, coûts de mauvais classement non-symétriques, F-Measure, détection de spams

Lien : http://eric.univ-lyon2.fr/~ricco/doc/fr_sipina_cost_sensitive.pdf

Données : http://eric.univ-lyon2.fr/~ricco/dataset/spam.xls

Références : http://eric.univ-lyon2.fr/~ricco/cours/slides/resampling_evaluation.pdf

Partager cet article

Repost 0

commentaires