Overblog
Suivre ce blog Administration + Créer mon blog

Présentation

  • : Sipina - Arbres de décision
  • : Sipina : fonctionnalités et références
  • Contact

Recherche

11 mars 2008 2 11 /03 /mars /2008 18:18

Une présentation rédigée des arbres de décision, accessible en ligne. C’est assez rare pour être souligné. Les deux principales méthodes CART et C4.5 sont décrites, assez succinctement. Néanmoins, les principaux repères sont mis en avant, avec parfois le détail des calculs sur des situations simples.

Autre aspect très intéressant du site, des liens vers des exercices permettent d’approfondir les notions qui peuvent apparaître un peu mystérieuses au premier abord.

Référence :
F. Denis, R. Gilleron, "Apprentissage automatique : les arbres de décision", in Apprentissage à partir d'exemples, notes de cours.

Partager cet article
Repost0
11 mars 2008 2 11 /03 /mars /2008 16:58

Une présentation convenue mais finalement très didactique des arbres de décision. Après un exemple introductif où l’on construit un arbre sur les données de Quinlan (1993), les points importants dans la construction de l’arbre sont mis en avant : choix des variables de segmentation, discrétisation des variables continues, etc.
 
La partie sur la définition de la bonne taille de l’arbre est très instructive. Elle montre la difficulté à trouver le bon équilibre entre exploiter au mieux l’information qu’apporte les données, et apprendre les particularités du fichier de données, singularités qui ne sont pas transposables dans la population. Plusieurs mots clés importants sont mis en avant : arbitrage performance/complexité, principe de parcimonie, compromis biais variance, minimisation du risque structurel vs. minimisation du risque empirique,… 

Quelques liens vers des logiciels, commerciaux essentiellement, sont disponibles.

Référence : Wikipédia

Partager cet article
Repost0
11 mars 2008 2 11 /03 /mars /2008 14:14
Ma thèse de doctorat. Pour être tout à fait lucide, ma principale contribution dans cette histoire aura été de compiler, de classer, les innombrables variantes qui existaient à l'époque concernant la construction d'un arbre de décision. C'étaient le temps où la méthode monopolisait les conférences en apprentissage automatique. Le besoin de faire le point sur tout cela se faisait sentir.

Plusieurs aspects sont étudiés en détail : les mesures utilisées pour le choix de la variable de segmentation sur un sommet ; la détermination de la bonne taille de l'arbre ; les différentes manières d'extraire les règles dans un arbre ; les justifications théoriques des graphes d'induction, généralisation des arbres de décision ; la discrétisation des attributs continus.

Autre élément très positif avec le recul, le logiciel SIPINA qui implémente une très grande majorité des approches décrites dans le rapport. Combien de thèses consacrent un chapitre sur des implémentations, qui ne sont disponibles nulle part, utilisées dans des expérimentations que personne ne pourra jamais reproduire ? Le fait d'avoir mis en accès libre SIPINA (Version 2.5 en l'occurrence) permet à tout un chacun de vérifier l'efficacité de ces variantes sur leurs propres données. Et le logiciel est toujours diffusé à ce jour.

Référence : R. Rakotomalala, " Graphes d'Induction ", Thèse de Doctorat, Université Claude Bernard Lyon 1, 1997.

Partager cet article
Repost0
11 mars 2008 2 11 /03 /mars /2008 13:42
Cet article présente de manière didactique l'induction d'un arbre de décision à partir de données. A l'aide d'un exemple tiré de l'ouvrage de Quinlan (1993), les principales étapes de l'apprentissage d'un arbre de décision sont mises en avant. L'accent est mis sur les points principaux : choix de la variable de segmentation, découpage des descripteurs continus, détermination de la profondeur optimale de l'arbre, règle de décision sur les feuilles.

Dans un deuxième temps, un tutoriel montre l'instanciation d'un arbre de décision dans un logiciel gratuit, en l'occurrence SIPINA. L'exemple porte sur le fameux fichier IRIS de Fisher (1936). Nous en profitons pour introduire les aspects géométriques de l'apprentissage supervisé.

Enfin, dans un troisième temps, un bilan des forces et faiblesses de la méthode permet de la situer parmi les autres techniques de Data Mining. Un tour d'horizon très rapide sur les variantes méthodologiques conclut l'article.

Cet article peut être lu de différentes manières : pour comprendre le processus d'induction, pour voir un peu ce qui se fait dans le domaine ces dernières années, pour situer la technique parmi les autres méthodes de fouille de données,…

Référence : R. Rakotomalala, " Arbres de décision ", in Revue Modulad, n°33, 2005.

Partager cet article
Repost0