Overblog Suivre ce blog
Editer l'article Administration Créer mon blog

Présentation

  • : Sipina - Arbres de décision
  • Sipina - Arbres de décision
  • : Sipina : fonctionnalités et références
  • Contact

Recherche

27 mars 2008 4 27 /03 /mars /2008 14:19
Description. Catlett (1991) est certainement un des premiers data miner de l’histoire. Son seul tort est d’avoir eu raison trop tôt. En effet, plusieurs années avant la grande vague du data mining et l’article fondateur de Fayyad (1996), il a présenté une thèse de doctorat essentiellement tournée vers l’optimisation des algorithmes de machine learning, en l’occurrence les arbres de décision, dans le traitement des très grandes bases de données.

Le titre de sa thèse, « Megainduction : Machine learning on very large databases », est assez édifiant. Il a ainsi proposé des solutions ad hoc, qui se justifient essentiellement lorsque l’on doit appréhender de gros volumes.

La méthode « A limited search induction tree algorithm » fait partie justement des solutions préconisées dans sa thèse de doctorat. L’idée est simple, on fixe a priori le nombre de segmentations à réaliser lors de la construction de l’arbre. En dehors du contexte megainduction, la solution peut paraître un tantinet arbitraire. Mais elle vaut autant qu’une autre. En effet, il est très difficile de définir une règle d’arrêt simple et crédible lors de l’expansion de l’arbre. Le post élagage, même s’il est plus efficace pour déterminer la bonne taille de l’arbre, impose la construction dans un premier temps de l’arbre maximum, rédhibitoire sur de très grandes bases.

Paramètres.
Number of max splits : nombre maximum de segmentations que l’on peut introduire lors de la construction de l’arbre

Référence. J. Catlett, « Megainduction : Machine learning on very large databases », PhD Thesis, School of Computer Science, University of Technology, Sydney, Australia, 1991.

Partager cet article

Repost 0

commentaires