Overblog
Suivre ce blog Administration + Créer mon blog

Présentation

  • : Sipina - Arbres de décision
  • : Sipina : fonctionnalités et références
  • Contact

Recherche

11 mars 2008 2 11 /03 /mars /2008 16:26
Chapitre 7 rédigée par A. Guéguen dans un ouvrage collectif, il décrit principalement la méthode CART de Breiman et al. (1984), abordant tous les points important de l'approche, notamment le post élagage.

Elément intéressant, la section 7.8 détaille les calculs sur une étude de cas. Le lecteur peut ainsi suivre dans le détail la séquence des calculs et la détermination de l'arbre " optimal ".

Référence : A. Guéguen, " Arbres de discrimination binaire ", in Analyse discriminante sur variables qualitatives, G. Celeux et J.P. Nakache éditeurs, Polytechnica, 1994.

Partager cet article
Repost0
11 mars 2008 2 11 /03 /mars /2008 16:04
Ecrit avec D.A. Zighed, cet ouvrage reprend en grande partie ma thèse de doctorat.

Il se démarque néanmoins par la " Partie 2 ", très didactique, où les méthodes les plus populaires (CHAID, CART et C4.5) sont présentées  de manière détaillée. En effet, si la CART est largement décrite dans les ouvrages en langue française, C4.5 et CHAID sont souvent passés sous silence. Pourtant il s'agit de méthodes très largement répandues dans la communauté scientifique, et programmées dans une foultitude de logiciels commerciaux. Les chapitres qui s'y rapportent positionnent les avantages et inconvénients de ces techniques.

Autre aspect intéressant, le chapitre 8, toujours dans la partie 2, consacrée à la segmentation binaire généralisée permet de ramener dans un cadre commun les variantes consacrées au traitement des variables d'intérêt nominales, ordinales et continues. Le formalisme adopté donne des éléments de compréhension sur l'essence de l'induction par arbres, il permet aussi de mieux comprendre les différentes généralisations que l'on pourrait apporter lorsque l'on décide de traiter d'autres types de problèmes (les arbres de classification par ex., où on traite en bloc un groupe de variables d'intérêt).

Références :
D.A. Zighed, R. Rakotomalala, " Graphes d'Induction - Apprentissage et Data Mining ", Hermès, 2000.
R. Rakotomalala, " Méthode d'induction d'arbres - CHAID, CART, C4.5 et les autres ".

Partager cet article
Repost0
11 mars 2008 2 11 /03 /mars /2008 15:00
Une documentation réalisée par des étudiants de Master 2.

Elle liste les principaux menus du logiciel. Une étude comparative de quelques algorithmes d'induction d'arbres sur un même jeu de données est réalisée. Les étudiants ont surtout eu le mérite de manipuler un logiciel qui n'était absolument pas documenté à l'époque, un véritable tour de force.

Documentation : Etude du logiciel SIPINA (Version expérimentale)

Partager cet article
Repost0
11 mars 2008 2 11 /03 /mars /2008 14:43
Cette partie (la 3-ème) de l'ouvrage de Nakache et Confais est dédiée à la segmentation par arbres. Deux aspects retiennent principalement l'attention : une description approfondie de la méthode CART (Breiman et al., 1984) ; l'instanciation de la segmentation dans les domaines connexes telles que l'analyse des données de survie.

Dans le chapitre 8, la description de CART est fidèle à l'ouvrage original. Tous les aspects importants sont passés en revue : le critère de division d'un segment avec l'indice de Gini ; la prise en compte des données incomplètes avec les division suppléantes ; etc. La procédure de détermination de l'arbre " optimal " à l'aide du post-élagage, très élaboré dans CART, est particulièrement détaillée.

Ce chapitre est largement illustré par une étude de cas sous le logiciel SPAD.

Le chapitre 9 décrit l'induction des arbres de régression. C'est suffisamment rare pour être signalé. Bien que tenant une place non négligeable dans l'ouvrage originel de Breiman et al. (1984), la méthode est à peine effleurée dans les ouvrages ou les publications scientifiques. Avec un peu moins de détail certes que dans le chapitre précédent, les auteurs présentent l'essentiel de l'approche. C'est un des rares descriptifs dont on dispose dans les références en langue française.

Le chapitre 10 est une vraie originalité. Les auteurs montrent une généralisation des arbres dans le traitement des données de survie. Non pas que la méthode soit réellement originale, c'est plutôt son intégration dans un ouvrage à large diffusion qui l'est. Les références donneront aux lecteurs tous les pointeurs s'ils veulent approfondir la méthode.

Références :
J.P. Nakache, J. Confais, " Statistique Explicative Appliquée : analyse discriminante, modèle logistique, segmentation par arbre ", Technip, 2003.
L. Breiman, J. Friedman, R. Olsen, C. Stone, " Classification and Regression Trees ", Wadsworth, 1984.

Partager cet article
Repost0
11 mars 2008 2 11 /03 /mars /2008 14:14
Ma thèse de doctorat. Pour être tout à fait lucide, ma principale contribution dans cette histoire aura été de compiler, de classer, les innombrables variantes qui existaient à l'époque concernant la construction d'un arbre de décision. C'étaient le temps où la méthode monopolisait les conférences en apprentissage automatique. Le besoin de faire le point sur tout cela se faisait sentir.

Plusieurs aspects sont étudiés en détail : les mesures utilisées pour le choix de la variable de segmentation sur un sommet ; la détermination de la bonne taille de l'arbre ; les différentes manières d'extraire les règles dans un arbre ; les justifications théoriques des graphes d'induction, généralisation des arbres de décision ; la discrétisation des attributs continus.

Autre élément très positif avec le recul, le logiciel SIPINA qui implémente une très grande majorité des approches décrites dans le rapport. Combien de thèses consacrent un chapitre sur des implémentations, qui ne sont disponibles nulle part, utilisées dans des expérimentations que personne ne pourra jamais reproduire ? Le fait d'avoir mis en accès libre SIPINA (Version 2.5 en l'occurrence) permet à tout un chacun de vérifier l'efficacité de ces variantes sur leurs propres données. Et le logiciel est toujours diffusé à ce jour.

Référence : R. Rakotomalala, " Graphes d'Induction ", Thèse de Doctorat, Université Claude Bernard Lyon 1, 1997.

Partager cet article
Repost0
11 mars 2008 2 11 /03 /mars /2008 13:42
Cet article présente de manière didactique l'induction d'un arbre de décision à partir de données. A l'aide d'un exemple tiré de l'ouvrage de Quinlan (1993), les principales étapes de l'apprentissage d'un arbre de décision sont mises en avant. L'accent est mis sur les points principaux : choix de la variable de segmentation, découpage des descripteurs continus, détermination de la profondeur optimale de l'arbre, règle de décision sur les feuilles.

Dans un deuxième temps, un tutoriel montre l'instanciation d'un arbre de décision dans un logiciel gratuit, en l'occurrence SIPINA. L'exemple porte sur le fameux fichier IRIS de Fisher (1936). Nous en profitons pour introduire les aspects géométriques de l'apprentissage supervisé.

Enfin, dans un troisième temps, un bilan des forces et faiblesses de la méthode permet de la situer parmi les autres techniques de Data Mining. Un tour d'horizon très rapide sur les variantes méthodologiques conclut l'article.

Cet article peut être lu de différentes manières : pour comprendre le processus d'induction, pour voir un peu ce qui se fait dans le domaine ces dernières années, pour situer la technique parmi les autres méthodes de fouille de données,…

Référence : R. Rakotomalala, " Arbres de décision ", in Revue Modulad, n°33, 2005.

Partager cet article
Repost0
11 mars 2008 2 11 /03 /mars /2008 10:33
Les capacités de SIPINA sont de 16384 variables et, approximativement, de 500.000.000 observations. Ces indications sont purement théoriques. En effet, comme le logiciel charge toutes les données en mémoire centrale, sous une forme encodée certes, la véritable limitation est la mémoire vive disponible sur votre ordinateur.

Autre aspect important, SIPINA est capable de gérer les variables discrètes comportant 16384 modalités. Il ne distingue pas les variables nominales des variables ordinales.

Enfin, lors de l'importation des données, il est possible d'indiquer au logiciel que la première colonne contient les libellés des observations. Leur longueur maximale est de 25 caractères. Cette colonne ne peut évidemment pas être introduite dans une analyse. Elle permet en revanche de distinguer les individus dans les tableaux de données intermédiaires, par exemple lorsqu'on cherche à connaître la liste des observations associées à un des nœuds d'un arbre de décision.

Partager cet article
Repost0