Overblog Suivre ce blog
Administration Créer mon blog

Présentation

  • : Sipina - Arbres de décision
  • Sipina - Arbres de décision
  • : Sipina : fonctionnalités et références
  • Contact

Recherche

11 mars 2008 2 11 /03 /mars /2008 19:41

Dans l’ouvrage de Tufféry, les arbres de décision interviennent à deux endroits. La section 4.6.4 présente la méthode de manière simplifiée, les trois grandes méthodes C4.5 (ou C5.0 pour la version commerciale), CART et CHAID sont positionnées les unes par rapport aux autres.

Plus intéressant peut être pour les praticiens, l’auteur, dans la section 10.8.2 (pages 237 à 248), décrit la mise en œuvre des arbres de décision, , à l’aide du logiciel SAS-Enterprise Miner, dans un problème de scoring. Les illustrations et le discours permettent de mesurer les avantages, et les inconvénients, des arbres dans le traitement de problèmes réels.

Pour les personnes qui ne sont pas familiarisées avec SAS-EM, les copies d’écran donnent une idée des sorties du logiciel et de la lecture qu’on peut en avoir.

Référence : S. Tufféry, « Data Mining et Socring : Bases de données et gestion de la relation client », Dunod, 2002.

Repost 0
Published by Sipina - dans Bibliographie
commenter cet article
11 mars 2008 2 11 /03 /mars /2008 18:09

Lebart et al. (2000) consacre une section à la discrimination par arbres dans leur ouvrage. La description assez succincte est basée sur la méthode CART, à l’instar de la très grande majorité des ouvrages en français. Il s’agit quand même d’un survol assez rapide, avec une présentation classique du gain d’impureté comme critère de segmentation, et du post- élagage.

Plus intéressant est la sous section 3.5.5 où les auteurs positionnent les arbres par rapport aux autres méthodes de discrimination. Les réflexions émises sont très pertinentes. Elles permettent de bien situer ce que représentent les arbres parmi les autres méthodes prédictives : qu’est-ce qu’on peut en attendre, qu’est-ce que les arbres ne pourront jamais faire.

Référence : L. Lebart, A. Morineau, M. Piron, « Statistique exploratoire multidimensionnelle », Dunod, 2000 ; section 3.5, chapitre 3.

Repost 0
Published by Sipina - dans Bibliographie
commenter cet article
11 mars 2008 2 11 /03 /mars /2008 16:39
Chapitre 4 de l'ouvrage de Bardos, le texte décrit la méthode CART, plus ou moins succinctement. On y retrouve en tous les cas les points importants : choix des variables de segmentation basé sur la réduction d'un critère d'impureté ; post élagage avec le mécanisme de coût complexité.

La section XII intéressera les praticiens. Il présente les résultats que peut produire un arbre de décision en analyse financière. Dans l'exemple traité, l'objectif est de mettre à jour les déterminants de la défaillance des entreprises dans le secteur du bâtiment.

Référence : M. Bardos, " Analyse discriminante  - Application au risque et scoring financier ", Dunod, 2001 ; chapitre 4.

Repost 0
Published by Sipina - dans Bibliographie
commenter cet article
11 mars 2008 2 11 /03 /mars /2008 16:26
Chapitre 7 rédigée par A. Guéguen dans un ouvrage collectif, il décrit principalement la méthode CART de Breiman et al. (1984), abordant tous les points important de l'approche, notamment le post élagage.

Elément intéressant, la section 7.8 détaille les calculs sur une étude de cas. Le lecteur peut ainsi suivre dans le détail la séquence des calculs et la détermination de l'arbre " optimal ".

Référence : A. Guéguen, " Arbres de discrimination binaire ", in Analyse discriminante sur variables qualitatives, G. Celeux et J.P. Nakache éditeurs, Polytechnica, 1994.

Repost 0
Published by Sipina - dans Bibliographie
commenter cet article
11 mars 2008 2 11 /03 /mars /2008 16:04
Ecrit avec D.A. Zighed, cet ouvrage reprend en grande partie ma thèse de doctorat.

Il se démarque néanmoins par la " Partie 2 ", très didactique, où les méthodes les plus populaires (CHAID, CART et C4.5) sont présentées  de manière détaillée. En effet, si la CART est largement décrite dans les ouvrages en langue française, C4.5 et CHAID sont souvent passés sous silence. Pourtant il s'agit de méthodes très largement répandues dans la communauté scientifique, et programmées dans une foultitude de logiciels commerciaux. Les chapitres qui s'y rapportent positionnent les avantages et inconvénients de ces techniques.

Autre aspect intéressant, le chapitre 8, toujours dans la partie 2, consacrée à la segmentation binaire généralisée permet de ramener dans un cadre commun les variantes consacrées au traitement des variables d'intérêt nominales, ordinales et continues. Le formalisme adopté donne des éléments de compréhension sur l'essence de l'induction par arbres, il permet aussi de mieux comprendre les différentes généralisations que l'on pourrait apporter lorsque l'on décide de traiter d'autres types de problèmes (les arbres de classification par ex., où on traite en bloc un groupe de variables d'intérêt).

Références :
D.A. Zighed, R. Rakotomalala, " Graphes d'Induction - Apprentissage et Data Mining ", Hermès, 2000.
R. Rakotomalala, " Méthode d'induction d'arbres - CHAID, CART, C4.5 et les autres ".

Repost 0
Published by Sipina - dans Bibliographie
commenter cet article
11 mars 2008 2 11 /03 /mars /2008 14:43
Cette partie (la 3-ème) de l'ouvrage de Nakache et Confais est dédiée à la segmentation par arbres. Deux aspects retiennent principalement l'attention : une description approfondie de la méthode CART (Breiman et al., 1984) ; l'instanciation de la segmentation dans les domaines connexes telles que l'analyse des données de survie.

Dans le chapitre 8, la description de CART est fidèle à l'ouvrage original. Tous les aspects importants sont passés en revue : le critère de division d'un segment avec l'indice de Gini ; la prise en compte des données incomplètes avec les division suppléantes ; etc. La procédure de détermination de l'arbre " optimal " à l'aide du post-élagage, très élaboré dans CART, est particulièrement détaillée.

Ce chapitre est largement illustré par une étude de cas sous le logiciel SPAD.

Le chapitre 9 décrit l'induction des arbres de régression. C'est suffisamment rare pour être signalé. Bien que tenant une place non négligeable dans l'ouvrage originel de Breiman et al. (1984), la méthode est à peine effleurée dans les ouvrages ou les publications scientifiques. Avec un peu moins de détail certes que dans le chapitre précédent, les auteurs présentent l'essentiel de l'approche. C'est un des rares descriptifs dont on dispose dans les références en langue française.

Le chapitre 10 est une vraie originalité. Les auteurs montrent une généralisation des arbres dans le traitement des données de survie. Non pas que la méthode soit réellement originale, c'est plutôt son intégration dans un ouvrage à large diffusion qui l'est. Les références donneront aux lecteurs tous les pointeurs s'ils veulent approfondir la méthode.

Références :
J.P. Nakache, J. Confais, " Statistique Explicative Appliquée : analyse discriminante, modèle logistique, segmentation par arbre ", Technip, 2003.
L. Breiman, J. Friedman, R. Olsen, C. Stone, " Classification and Regression Trees ", Wadsworth, 1984.

Repost 0
Published by Sipina - dans Bibliographie
commenter cet article